Chatterbox是推出的开源(TTS)模型。模型基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练,性能直逼甚至超越部分闭源系统。Chatterbox支持零样本语音克隆,仅需5秒参考音频生成高度逼真的个性化语音。Chatterbox独特的情感夸张控制功能,能调节情绪、语速和语调,为内容创作提供灵活性。Chatterbox具备超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用交互式应用。

Chatterbox – Resemble AI开源的文本转语音模型  第1张
(图片来源网络,侵删)
Chatterbox – Resemble AI开源的文本转语音模型  第2张
(图片来源网络,侵删)