Chatterbox – Resemble AI开源的文本转语音模型

baidu09_com 2025-08-28 4 0

Chatterbox是推出的开源（TTS）模型。模型基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练，性能直逼甚至超越部分闭源系统。Chatterbox支持零样本语音克隆，仅需5秒参考音频生成高度逼真的个性化语音。Chatterbox独特的情感夸张控制功能，能调节情绪、语速和语调，为内容创作提供灵活性。Chatterbox具备超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用交互式应用。