Kokoro-baidu09TTS – 轻量级文本转语音模型，支持多语言多语音风格生成

baidu09_com 2025-08-29 8 0

Kokoro-TTS 是 hexgrad 开发的轻量级（TTS）模型，具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构，采用纯解码器设计，不使用扩散模型，降低了计算复杂度，具备出色的语音合成效果和实时处理能力。Kokoro-TTS 支持多种语音风格，包括耳语等特殊风格，能生成自然的语调和韵律，跨平台兼容，资源占用少。训练数据全部为许可/非版权音频数据和 IPA 音素标签，包括公共领域音频、Apache、MIT 等许可证下的音频，以及大型提供商的闭源 TTS 模型生成的合成音频。Kokoro-TTS 目前支持美国英语和英国英语，提供了 10 种不同的语音包，涵盖不同性别和语音特征。