Kokoro-TTS 是 hexgrad 开发的轻量级(TTS)模型,具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构,采用纯解码器设计,不使用扩散模型,降低了计算复杂度,具备出色的语音合成效果和实时处理能力。Kokoro-TTS 支持多种语音风格,包括耳语等特殊风格,能生成自然的语调和韵律,跨平台兼容,资源占用少。训练数据全部为许可/非版权音频数据和 IPA 音素标签,包括公共领域音频、Apache、MIT 等许可证下的音频,以及大型提供商的闭源 TTS 模型生成的合成音频。Kokoro-TTS 目前支持美国英语和英国英语,提供了 10 种不同的语音包,涵盖不同性别和语音特征。

Kokoro-baidu09TTS – 轻量级文本转语音模型,支持多语言多语音风格生成  第1张
(图片来源网络,侵删)
Kokoro-baidu09TTS – 轻量级文本转语音模型,支持多语言多语音风格生成  第2张
(图片来源网络,侵删)