Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,实现语音到语音(S2ST)和(S2TT)的翻译功能。Hibiki用弱监督学习方法,基于文本翻译系统的困惑度识别单词级的最佳延迟,创建对齐的合成数据进行训练。Hibiki模型在法语到英语的翻译任务中表现出色,具有高翻译质量、说话者保真度和自然度,支持批量翻译和实时设备端部署,展现了强大的实用潜力。

Hibiki – Kyutai Labs 推出的实时语音翻译模型  第1张
(图片来源网络,侵删)
Hibiki – Kyutai Labs 推出的实时语音翻译模型  第2张
(图片来源网络,侵删)