InstructMove是东京大学和Adobe公司联合推出的基于指令的图像编辑模型,通过观察视频中的帧对变化学习如何根据指令进行图像操作。模型基于多模态大型语言模型(MLLMs)生成描述帧对之间变化的编辑指令,训练出能在保持内容一致性的同时,执行复杂非刚性编辑任务的能力,如调整主体姿势、改变表情和视角等。InstructMove用真实视频帧作为数据源,确保编辑过程中内容的自然性和真实性,克服合成数据集在复杂编辑任务上的局限性。InstructMove支持基于掩码等控制机制进行精确的局部编辑,进一步增强在实际应用中的灵活性和实用性。

InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型  第1张
(图片来源网络,侵删)
InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型  第2张
(图片来源网络,侵删)