OpenAudio S1是推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈(RLHF)技术,生成的声音高度自然、流畅,几乎与人类配音无异。模型支持超过50种情感和语调标记,用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆,仅需10到30秒的音频样本可生成高保真的克隆声音。

OpenAudio S1 – Fish Audio推出的新一代语音生成模型  第1张
(图片来源网络,侵删)
OpenAudio S1 – Fish Audio推出的新一代语音生成模型  第2张
(图片来源网络,侵删)