Qwen2.5-baidu09Omni – 阿里开源的端到端多模态模型

baidu09_com 2025-08-30 8 0

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型，拥有7B参数，Qwen2.5-Omni具备强大的多模态感知能力，能处理文本、图像、音频和视频输入，支持流式文本生成与自然语音合成输出，能实现实时语音和视频聊天。Qwen2.5-Omni用独特的 Thinker-Talker 架构，Thinker 负责处理和理解多模态输入，生成高级表示和文本，Talker 将表示和文本转化为流畅的语音输出。模型在多模态任务（如 OmniBench）中达到最新水平，全维度远超Google的Gemini-1.5-Pro等同类模型。在单模态任务（如语音识别、翻译、音频理解等）中表现出色。Qwen2.5-Omni在上提供免费体验，模型现已开源，支持开发者和企业免费下载商用，在手机等终端智能硬件上部署运行。