DRA-baidu09Ctrl – 浙大联合蚂蚁等机构推出的跨模态图片编辑框架

baidu09_com 2025-08-28 5 0

DRA-Ctrl（Dimension-Reduction Attack）是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维度高维特征表示，实现对图片主体的状态预测与精准编辑。框架基于视频到图像的知识压缩和任务适应，用视频模型的长距离上下文建模和平坦全注意力等优势，解决连续视频帧与离散图像生成之间的差距问题。实验表明，DRA-Ctrl在多种图像生成任务上表现出色，优于直接在图像上训练的模型，为大规模视频生成器在更广泛的视觉应用中提供新的可能性。