EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态,实现能看、能听、会说的全模态交互。EMOVA基于语义声学分离技术和轻量级情感控制模块,支持情感丰富的语音对话,让得人机交互更加自然和人性化。EMOVA在视觉语言和语音任务中均展现出优越性能,为AI领域提供新的实现思路,推动情感交互的发展。

EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型  第1张
(图片来源网络,侵删)
EMOVA – 华为诺亚方舟联合多所高校共同推出的多模态全能处理模型  第2张
(图片来源网络,侵删)