MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行高质量动画生成。框架基于4D运动标记化(4DMoT)直接对3D运动数据进行建模,避免传统方法中依赖2D渲染姿态图像的局限性。框架引入运动感知视频扩散Transformer(MV-DiT),用独特的4D运动注意力和位置编码,有效用4D运动标记作为动画生成的上下文。MTVCrafter在TikTok基准测试中取得6.98的FID-VID成绩,比第二名的方法高出65%,展现出强大的泛化能力和鲁棒性。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论