Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Consistency”现象,即在较小模型上的设计决策能有效扩展至大型模型。Apollo项目引入ApolloBench,一个高效的视频理解评估基准,及一系列先进的Apollo模型,这些模型在不同规模上均展现出卓越性能,特别是在处理长视频方面,能高效理解长达数小时的视频。Apollo-3B和Apollo-7B模型在多个基准测试中超越参数数量更多的模型,标志着视频LMMs研究的新进展。

Apollo – Meta 联合斯坦福大学推出的大型多模态模型  第1张
(图片来源网络,侵删)
Apollo – Meta 联合斯坦福大学推出的大型多模态模型  第2张
(图片来源网络,侵删)