Chatterbox是推出的开源(TTS)模型。模型基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练,性能直逼甚至超越部分闭源系统。Chatterbox支持零样本语音克隆,仅需5秒参考音频生成高度逼真的个性化语音。Chatterbox独特的情感夸张控制功能,能调节情绪、语速和语调,为内容创作提供灵活性。Chatterbox具备超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用交互式应用。


Chatterbox是推出的开源(TTS)模型。模型基于0.5B规模的LLaMA架构,用超过50万小时精选音频训练,性能直逼甚至超越部分闭源系统。Chatterbox支持零样本语音克隆,仅需5秒参考音频生成高度逼真的个性化语音。Chatterbox独特的情感夸张控制功能,能调节情绪、语速和语调,为内容创作提供灵活性。Chatterbox具备超低延迟的实时语音合成能力,延迟低至200毫秒以下,适用交互式应用。
全部评论
留言在赶来的路上...
发表评论