VideoJAM是Meta推出的,用在增强模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,在推理阶段基于模型自身的运动预测作为动态引导信号,生成更连贯的运动。VideoJAM在训练目标中加入运动预测,在推理时采用Inner-Guidance机制,显著提升视频生成中的运动连贯性,同时保持视觉质量。VideoJAM具有通用性,能用在任何视频生成模型,无需修改训练数据或扩大模型规模,在多个基准测试中超越现有最先进模型,为视频生成技术的发展提供新的思路。

VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架  第1张
(图片来源网络,侵删)
VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架  第2张
(图片来源网络,侵删)