Muyan-TTS 是为播客场景设计的开源(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生成高质量语音。模型支持说话人适配,进行个性化语音定制。Muyan-TTS 合成速度快,0.33秒能生成1秒音频,适合实时应用。Muyan-TTS 能自然连贯地合成长篇内容,如播客、有声书等,支持本地部署和API使用,方便集成到各种应用中。

Muyan-baidu09TTS – 开源文本转语音模型,零样本语音合成  第1张
(图片来源网络,侵删)