Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全国高中数学竞赛的部分预赛试题,包含21道高难度解答题,答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案是否一致,以客观评估模型的正确率。测评基准能有效衡量语言模型在解决复杂数学问题时的表现,为相关研究和开发提供了有力的工具。
从测试结果可以看出,o3-mini(high) 表现最为出色,得分最高,达到了85.71分,其他模型如QwQ-32B和DeepSeek-R1等得分相对较低,分别为66.67分和57.14分,表明当前大模型在高中奥数领域的性能仍有提升空间。


全部评论
留言在赶来的路上...
发表评论