F5-baidu09TTS – 上海交大推出开源的文本到语音（TTS）合成系统

baidu09_com 2025-08-28 6 0

F5-TTS是由上海交通大学开源的一款高性能文本到语音（TTS）系统，基于流匹配的非自回归生成方法，结合扩散变换器（DiT）技术。系统在没有额外监督的情况下，基于零样本学习快速生成自然、流畅且忠实于原文的语音。F5-TTS支持多语言合成，包括中文和英文，能在长文本上进行有效的语音合成。F5-TTS具备情感控制功能，能根据文本内容调整合成语音的情感表现。F5-TTS支持速度控制，支持用户根据需要调整语音的播放速度。系统在10万小时的大规模数据集上进行训练，展现出卓越的性能和泛化能力。F5-TTS应用场景广泛，包括有声读物、语音助手、语言学习、新闻播报、游戏配音等，为各种商业和非商业用途提供强大的语音合成能力。