VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区域的控制能力,保持区域间的特征分离,解决现有扩散模型中语义错位和特征耦合的问题。VideoGrain 不依赖于额外的参数调整,能在真实世界场景中实现高质量的视频编辑,保持时间一致性。VideoGrain在多粒度编辑任务中表现出色,显著优于现有的 T2I 和 T2V 方法,为视频内容创作提供更灵活和精准的工具。

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架  第1张
(图片来源网络,侵删)