MinMo – 阿里通义实验室推出的多模态语音交互大模型

baidu09_com 2025-08-30 8 0

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型，专注于实现无缝语音交互。MinMo拥有约80亿参数，基于多阶段训练，在140万小时多样化语音数据和广泛语音任务上进行学习。MinMo支持根据用户指令控制生成音频的情感、方言和说话风格，及模仿特定音色，生成效率超过90%。MinMo支持全双工语音交互，语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际约为800毫秒，可实现用户与系统之间的同时双向通信，使多轮对话更加流畅。