MTVCrafter – 中科院联合中国电信等机构推出的人像动画生成框架

baidu09_com 2025-08-29 8 0

MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架，基于原始3D运动序列进行高质量动画生成。框架基于4D运动标记化（4DMoT）直接对3D运动数据进行建模，避免传统方法中依赖2D渲染姿态图像的局限性。框架引入运动感知视频扩散Transformer（MV-DiT），用独特的4D运动注意力和位置编码，有效用4D运动标记作为动画生成的上下文。MTVCrafter在TikTok基准测试中取得6.98的FID-VID成绩，比第二名的方法高出65%，展现出强大的泛化能力和鲁棒性。