InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

baidu09_com 2025-08-29 7 0

InstructMove是东京大学和Adobe公司联合推出的基于指令的图像编辑模型，通过观察视频中的帧对变化学习如何根据指令进行图像操作。模型基于多模态大型语言模型（MLLMs）生成描述帧对之间变化的编辑指令，训练出能在保持内容一致性的同时，执行复杂非刚性编辑任务的能力，如调整主体姿势、改变表情和视角等。InstructMove用真实视频帧作为数据源，确保编辑过程中内容的自然性和真实性，克服合成数据集在复杂编辑任务上的局限性。InstructMove支持基于掩码等控制机制进行精确的局部编辑，进一步增强在实际应用中的灵活性和实用性。