MiDashengLM – 小米开源的高效声音理解大模型

baidu09_com 2025-08-30 7 0

MiDashengLM是小米开源的高效声音理解大模型，具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建，用通用音频描述对齐策略，实现对语音、环境声音和音乐的统一理解。模型性能卓越，推理效率高，首 Token 延迟仅为业界先进模型的 1/4，支持大规模并行处理。模型训练数据完全开源，支持学术和商业用途，适用于智能座舱、智能家居等场景，推动多模态交互体验升级。