VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架

baidu09_com 2025-08-31 11 0

VideoAnydoor是香港大学、阿里巴巴集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架，能将特定对象以高保真度和精确运动控制的方式插入到视频中。VideoAnydoor基于文本到视频的扩散模型，用ID提取器注入全局身份信息，用框序列指导整体运动。框架的核心是像素变形器模块，VideoAnydoor接受带有关键点的参考图像和轨迹作为输入，根据轨迹变形像素细节，并与扩散U-Net融合以保留细节，支持精细的运动控制。VideoAnydoor结合视频和静态图像的训练策略，引入重权重建损失提升插入质量。