MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。MinMo拥有约80亿参数,基于多阶段训练,在140万小时多样化语音数据和广泛语音任务上进行学习。MinMo支持根据用户指令控制生成音频的情感、方言和说话风格,及模仿特定音色,生成效率超过90%。MinMo支持全双工语音交互,语音到文本延迟约为100毫秒,全双工延迟理论上约为600毫秒,实际约为800毫秒,可实现用户与系统之间的同时双向通信,使多轮对话更加流畅。

MinMo – 阿里通义实验室推出的多模态语音交互大模型  第1张
(图片来源网络,侵删)
MinMo – 阿里通义实验室推出的多模态语音交互大模型  第2张
(图片来源网络,侵删)