Fish Speech – 开源的高效文本到语音合成TTS工具

baidu09_com 2025-08-29 7 0

Fish Speech是一款由开源的文本到语音（TTS）工具，支持中文、英文和日文。通过约15万小时的多语种数据训练，实现了接近人类水平的语音合成效果，目前已更新到1.2版本。该工具特点包括低显存需求（仅需4GB）、快速推理速度、高自定义性和灵活性，用户可快速进行而无需复杂训练。Fish Speech还支持多种语音生成模型，如VITS2、Bert-VITS2等，适用于智能助手、自动客服、语言学习等场景。

Windows 专业用户可以考虑 WSL2 或 docker 来运行代码库。

Windows 非专业用户可考虑以下为免 Linux 环境的基础运行方法（附带模型编译功能，即 torch.compile）：