VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架

baidu09_com 2025-08-31 7 0

VideoJAM是Meta推出的，用在增强模型运动连贯性的框架。基于引入联合外观-运动表示，让模型在训练阶段同时学习预测视频的像素和运动信息，在推理阶段基于模型自身的运动预测作为动态引导信号，生成更连贯的运动。VideoJAM在训练目标中加入运动预测，在推理时采用Inner-Guidance机制，显著提升视频生成中的运动连贯性，同时保持视觉质量。VideoJAM具有通用性，能用在任何视频生成模型，无需修改训练数据或扩大模型规模，在多个基准测试中超越现有最先进模型，为视频生成技术的发展提供新的思路。