FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架  第1张
(图片来源网络,侵删)
FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架  第2张
(图片来源网络,侵删)