OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包含11,163道来自国际奥林匹克竞赛的双语题目,涵盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。OlympicArena全面评估AI模型的高级认知推理能力,特别是逻辑推理和视觉推理能力。基于答案级和过程级的细粒度评估,OlympicArena揭示AI模型在解决复杂问题时的局限性,推动AI技术向超级智能发展。

OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架  第1张
(图片来源网络,侵删)
OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架  第2张
(图片来源网络,侵删)