MMBench-baidu09Video – 上海AI Lab联合多所高校推出的长视频理解基准测试

baidu09_com 2025-08-29 8 0

MMBench-Video是新颖的长视频多题问答基准测试，是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉语言模型（LVLMs）在视频理解方面的能力，用包含丰富视频内容和细粒度能力评估的长视频，弥补现有基准测试在时序理解和复杂任务处理方面的不足。MMBench-Video包含约600个YouTube视频片段，覆盖16个类别，每个视频时长从30秒到6分钟不等，配有由志愿者编写的高质量问答对。基准测试用GPT-4进行自动化评估，提高准确性，与人类判断保持一致。MMBench-Video的推出为研究人员提供了强大的工具，评估和改进视频语言模型的能力。