Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型的设计支持在不需要额外的自动语音识别(ASR)或文本到语音(TTS)系统的情况下,直接进行语音到语音的对话。Mini-Omni 采用了一种文本指导的语音生成方法,通过批量并行策略在推理过程中提高性能,同时保持了原始模型的语言能力。

Mini-baidu09Omni – 开源的端到端实时语音对话大模型  第1张
(图片来源网络,侵删)
Mini-baidu09Omni – 开源的端到端实时语音对话大模型  第2张
(图片来源网络,侵删)