GLM-baidu094-baidu09Voice – 智谱AI推出的端到端情感语音模型

baidu09_com 2025-08-29 5 0

GLM-4-Voice是推出的端到端情感语音模型，能直接理解和生成中英文语音，支持实时语音对话，能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成：GLM-4-Voice-Tokenizer负责将连续语音转换为离散token，GLM-4-Voice-Decoder将token转换回连续语音输出，GLM-4-Voice-9B基于GLM-4-9B模型进行预训练和对齐，理解和生成语音。GLM-4-Voice的设计用端到端建模减少信息损失，提高语音交互的自然度和流畅性，且支持低延迟的实时对话，为用户提供更加丰富和自然的语音交互体验。