VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到更广泛的人类指令到语音任务。VoxInstruct 引入语音语义标记和多种无分类器指导策略,提高语音合成的自然度和表现力。支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多种场景。

VoxInstruct – 清华推出的开源语音合成技术,支持多语言和跨语言合成  第1张
(图片来源网络,侵删)
VoxInstruct – 清华推出的开源语音合成技术,支持多语言和跨语言合成  第2张
(图片来源网络,侵删)