VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的预训练模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能够在不同的视频理解任务中实现高性能和准确率,例如视频分类、定位、检索、描述生成和问答等。

VideoPrism的核心设计理念在于预训练数据和建模策略方面提出了创新,在大规模的异构视频-文本数据集上进行预训练,并采用两阶段训练方法(视频-文本对比学习和掩码视频建模)。

Arxiv研究论文:

VideoPrism – 谷歌研究团队推出的通用视频编码器  第1张
(图片来源网络,侵删)

官方项目介绍:

VideoPrism – 谷歌研究团队推出的通用视频编码器  第2张
(图片来源网络,侵删)