Fish Speech是一款由开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成效果,目前已更新到1.2版本。该工具特点包括低显存需求(仅需4GB)、快速推理速度、高自定义性和灵活性,用户可快速进行而无需复杂训练。Fish Speech还支持多种语音生成模型,如VITS2、Bert-VITS2等,适用于智能助手、自动客服、语言学习等场景。

Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法(附带模型编译功能,即 torch.compile):

Fish Speech – 开源的高效文本到语音合成TTS工具  第1张
(图片来源网络,侵删)
Fish Speech – 开源的高效文本到语音合成TTS工具  第2张
(图片来源网络,侵删)