CSM(Conversational Speech Model)是Sesame团队推出的新型语音对话模型,提升语音助手的自然度和情感交互能力。CSM基于多模态学习框架,结合文本和语音数据,用Transformer架构直接生成自然、连贯的语音。CSM的核心优势在于根据对话历史和上下文动态调整语音的语调、节奏和情感表达,实现更接近人类真实对话的交互体验。CSM基于计算摊销技术优化训练效率,在大规模数据集上进行训练,提升模型的性能和表现力。

CSM – Sesame团队推出的语音对话模型  第1张
(图片来源网络,侵删)
CSM – Sesame团队推出的语音对话模型  第2张
(图片来源网络,侵删)