MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频框架。框架替换传统的U-Net架构为更具表现力的扩散Transformer(DiT),结合全自注意力机制,实现视频的时空一致性建模。框架用粗到细的服装保持策略,基于在嵌入阶段整合服装标记以及在去噪阶段引入语义、纹理和轮廓线等多条件,有效保留服装细节。MagicTryOn在图像和视频试穿数据集上均展现出超越现有最先进方法的性能,在评估指标、视觉质量和在野外场景的泛化能力上都表现出色。


全部评论
留言在赶来的路上...
发表评论