EchoMimic是阿里蚂蚁集团推出的开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频,还能将两者结合,实现更自然、流畅的对口型效果。EchoMimic支持多语言,包括中文和英语,适用于唱歌等多种场景,为数字人技术带来革命性的进步,广泛应用于娱乐、教育和虚拟现实等领域。

EchoMimic的诞生,不仅仅是阿里在数字人领域的一次尝试,更是对现有技术的一次革新。传统的肖像动画技术,要么依赖音频驱动,要么依赖面部关键点驱动,各有利弊。而EchoMimic则巧妙地结合了这两种驱动方式,通过音频和面部关键点的双重训练,实现了更加逼真、自然的动态肖像生成。

EchoMimic – 阿里推出的开源数字人项目,赋予静态图像以生动语音和表情  第1张
(图片来源网络,侵删)
EchoMimic – 阿里推出的开源数字人项目,赋予静态图像以生动语音和表情  第2张
(图片来源网络,侵删)