MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,用通用音频描述对齐策略,实现对语音、环境声音和音乐的统一理解。模型性能卓越,推理效率高,首 Token 延迟仅为业界先进模型的 1/4,支持大规模并行处理。模型训练数据完全开源,支持学术和商业用途,适用于智能座舱、智能家居等场景,推动多模态交互体验升级。


MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,用通用音频描述对齐策略,实现对语音、环境声音和音乐的统一理解。模型性能卓越,推理效率高,首 Token 延迟仅为业界先进模型的 1/4,支持大规模并行处理。模型训练数据完全开源,支持学术和商业用途,适用于智能座舱、智能家居等场景,推动多模态交互体验升级。
全部评论
留言在赶来的路上...
发表评论