DRA-Ctrl(Dimension-Reduction Attack)是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维度高维特征表示,实现对图片主体的状态预测与精准编辑。框架基于视频到图像的知识压缩和任务适应,用视频模型的长距离上下文建模和平坦全注意力等优势,解决连续视频帧与离散图像生成之间的差距问题。实验表明,DRA-Ctrl在多种图像生成任务上表现出色,优于直接在图像上训练的模型,为大规模视频生成器在更广泛的视觉应用中提供新的可能性。


全部评论
留言在赶来的路上...
发表评论