EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像技术,全称为“末端效应器引导的音频驱动头像视频生成”。通过音频输入和一张静态人像照片,生成富有表现力的动态视频。核心创新在于将音频信号与手部动作和面部表情相结合,通过扩散模型合成视频帧,生成自然流畅的动画。 包括高质量的视觉效果、高精度的音频同步以及丰富的动作多样性。

EMO2 – 阿里研究院推出的音频驱动头像视频生成技术  第1张
(图片来源网络,侵删)
EMO2 – 阿里研究院推出的音频驱动头像视频生成技术  第2张
(图片来源网络,侵删)