Loong – 港大和字节联合推出的长视频生成模型

baidu09_com 2025-08-29 8 0

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型，能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型（LLM），将文本和视频信息整合为统一序列，用渐进式短到长训练方案与损失重新加权策略，克服长视频训练中的挑战。Loong的设计支持模型在训练时学习从文本提示生成视频，扩展到生成超出训练长度的视频。Loong研究包括视频标记重新编码和采样策略在内的推理策略，减少推理过程中的错误累积。