Math24o – SuperCLUE 开源的高中奥林匹克数学竞赛推理测评基准

baidu09_com 2025-08-30 7 0

Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全国高中数学竞赛的部分预赛试题，包含21道高难度解答题，答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案是否一致，以客观评估模型的正确率。测评基准能有效衡量语言模型在解决复杂数学问题时的表现，为相关研究和开发提供了有力的工具。

从测试结果可以看出，o3-mini(high) 表现最为出色，得分最高，达到了85.71分，其他模型如QwQ-32B和DeepSeek-R1等得分相对较低，分别为66.67分和57.14分，表明当前大模型在高中奥数领域的性能仍有提升空间。