MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行高质量动画生成。框架基于4D运动标记化(4DMoT)直接对3D运动数据进行建模,避免传统方法中依赖2D渲染姿态图像的局限性。框架引入运动感知视频扩散Transformer(MV-DiT),用独特的4D运动注意力和位置编码,有效用4D运动标记作为动画生成的上下文。MTVCrafter在TikTok基准测试中取得6.98的FID-VID成绩,比第二名的方法高出65%,展现出强大的泛化能力和鲁棒性。

MTVCrafter – 中科院联合中国电信等机构推出的人像动画生成框架  第1张
(图片来源网络,侵删)
MTVCrafter – 中科院联合中国电信等机构推出的人像动画生成框架  第2张
(图片来源网络,侵删)