DragonV2.1(DragonV2.1Neural) 是微软推出的最新零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语音提示即可生成自然、富有表现力的语音。模型在发音准确性、语音自然度和可控性方面进行显著改进, 与DragonV1 相比,模型单词错误率(WER)平均降低 12.8%,支持 SSML 音素标签和自定义词典,能精确控制发音和口音。模型集成水印技术,确保语音合成的合规性和安全性。

DragonV2.1 – 微软推出的零样本文本到语音模型  第1张
(图片来源网络,侵删)
DragonV2.1 – 微软推出的零样本文本到语音模型  第2张
(图片来源网络,侵删)