SuperGPQA 是字节跳动大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖不全、题目质量存疑和评测维度单一的问题,基于专家与大语言模型协同构建,确保题目的高质量和高难度。SuperGPQA 包含 STEM 和非 STEM 学科,42.33% 的题目需要数学计算或严谨推理,能有效衡量大语言模型的泛化能力和真实推理水平。

SuperGPQA – 豆包大模型联合 M-baidu09A-baidu09P 开源的知识推理基准测试集  第1张
(图片来源网络,侵删)
SuperGPQA – 豆包大模型联合 M-baidu09A-baidu09P 开源的知识推理基准测试集  第2张
(图片来源网络,侵删)