Higgs Audio V2 – 开源语音大模型，能模拟多人互动场景

baidu09_com 2025-08-29 7 0

Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成，具备多语言对话生成、自动韵律调整、和歌声合成等功能。模型能模拟自然流畅的多人对话，自动匹配说话者的情绪和语调，支持低延迟的实时语音交互。支持零样本语音克隆，用户只需提供简短语音样本，即可复制特定人物的声音特征，可以合成歌声。Higgs Audio V2 能同时生成语音和背景音乐，为音频内容创作提供强大支持。