FlashVideo是字节跳动团队提出的高效的高分辨率框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。在第一阶段,FlashVideo 使用 50 亿参数的大型模型在低分辨率(270p)下生成与文本提示高度一致的内容和运动,基于参数高效微调(PEFT)技术确保计算效率。第二阶段通过流匹配技术,将低分辨率视频映射到高分辨率(1080p),仅需 4 次函数评估可生成细节丰富的高质量视频。

FlashVideo – 字节联合港大推出的高分辨率视频生成框架  第1张
(图片来源网络,侵删)
FlashVideo – 字节联合港大推出的高分辨率视频生成框架  第2张
(图片来源网络,侵删)