OpenAudio S1 – Fish Audio推出的新一代语音生成模型

baidu09_com 2025-08-30 8 0

OpenAudio S1是推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈（RLHF）技术，生成的声音高度自然、流畅，几乎与人类配音无异。模型支持超过50种情感和语调标记，用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆，仅需10到30秒的音频样本可生成高保真的克隆声音。