FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

baidu09_com 2025-08-28 7 0

FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架，用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型，采用双阶段视听对齐策略，第一阶段通过片段级训练方案建立连贯的全局运动，第二阶段通过唇部追踪掩码在帧级别细化唇部运动，确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性，通过运动强度调制模块实现对表情和身体运动强度的控制。