DragonV2.1 – 微软推出的零样本文本到语音模型

baidu09_com 2025-08-28 6 0

DragonV2.1（DragonV2.1Neural）是微软推出的最新零样本文本到语音（TTS）模型。模型基于 Transformer 架构，支持多语言和零样本语音克隆，仅需 5-90 秒的语音提示即可生成自然、富有表现力的语音。模型在发音准确性、语音自然度和可控性方面进行显著改进，与DragonV1 相比，模型单词错误率（WER）平均降低 12.8%，支持 SSML 音素标签和自定义词典，能精确控制发音和口音。模型集成水印技术，确保语音合成的合规性和安全性。