VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

baidu09_com 2025-08-31 8 0

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度框架，能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意力机制，增强文本提示对目标区域的控制能力，保持区域间的特征分离，解决现有扩散模型中语义错位和特征耦合的问题。VideoGrain 不依赖于额外的参数调整，能在真实世界场景中实现高质量的视频编辑，保持时间一致性。VideoGrain在多粒度编辑任务中表现出色，显著优于现有的 T2I 和 T2V 方法，为视频内容创作提供更灵活和精准的工具。