EchoMimic – 阿里推出的开源数字人项目，赋予静态图像以生动语音和表情

baidu09_com 2025-08-28 8 0

EchoMimic是阿里蚂蚁集团推出的开源项目，赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点，创造出高度逼真的动态肖像视频。不仅支持单独使用音频或面部特征生成视频，还能将两者结合，实现更自然、流畅的对口型效果。EchoMimic支持多语言，包括中文和英语，适用于唱歌等多种场景，为数字人技术带来革命性的进步，广泛应用于娱乐、教育和虚拟现实等领域。

EchoMimic的诞生，不仅仅是阿里在数字人领域的一次尝试，更是对现有技术的一次革新。传统的肖像动画技术，要么依赖音频驱动，要么依赖面部关键点驱动，各有利弊。而EchoMimic则巧妙地结合了这两种驱动方式，通过音频和面部关键点的双重训练，实现了更加逼真、自然的动态肖像生成。