InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长和细粒度时空感知方面表现出色。模型能处理长达万帧的视频,视频处理长度较前代提升了6倍,可在长视频中精准定位目标帧,实现“大海捞针”式的检索。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。

InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型  第1张
(图片来源网络,侵删)
InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型  第2张
(图片来源网络,侵删)