VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的预训练模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能够在不同的视频理解任务中实现高性能和准确率,例如视频分类、定位、检索、描述生成和问答等。
VideoPrism的核心设计理念在于预训练数据和建模策略方面提出了创新,在大规模的异构视频-文本数据集上进行预训练,并采用两阶段训练方法(视频-文本对比学习和掩码视频建模)。
Arxiv研究论文:

(图片来源网络,侵删)
官方项目介绍:

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论