GLM-4-Voice是推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM-4-9B模型进行预训练和对齐,理解和生成语音。GLM-4-Voice的设计用端到端建模减少信息损失,提高语音交互的自然度和流畅性,且支持低延迟的实时对话,为用户提供更加丰富和自然的语音交互体验。

GLM-baidu094-baidu09Voice – 智谱AI推出的端到端情感语音模型  第1张
(图片来源网络,侵删)
GLM-baidu094-baidu09Voice – 智谱AI推出的端到端情感语音模型  第2张
(图片来源网络,侵删)