o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

美国本科生最难数学竞赛,o1 pro竟然只用半小时就全部做出来了?要知道,参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现,错误率似乎高达100%,12道题没有一道完全正确?


一年一次的北美最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)落幕。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第1张


这场普特南数学竞赛(Putnam Exam),每年汇聚了来自北美数百所高校的3500多名学生前来参赛。


既有个体,也有团体,他们需要在总时长为6小时的时间内完成作答。


在这场比赛还未开始之前,来自IBM研究员曾暗示,在公开题目发布后,会有人对大模型(AlphaProof、o1、Gemini)进行题目测试。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第2张


恰好,OpenAI最近发布了满血版o1,以及最强o1 pro,不知它们在这场考试表现如何?


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第3张

相较于o1-preview,o1数学性能提升27%,o1 pro提升36%


o1 Pro半小时做出全部赛题


令人吃惊的是,有网友把此次普特南考试的考题给了OpenAI o1 pro。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第4张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第5张


6个小时的赛题,它居然半小时就做出来了!


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第6张

用时最长的一道题花了6分52秒,最短的只用了1分12秒


详细看了答案的网友们表示松了一口气:o1 pro还远未达到普特南考试的水平。


比如对于A1这道题,虽然它只用了1分钟58秒就做了出来,总体思路也是正确的,但仍有很多错误。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第7张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第8张


A2也没有完全解决。


如果在普特南答卷上写「……等等强烈表明我是对的」,显然你不会得分。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第9张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第10张


A3的答案,是错误的。


网友直接给出了正确的解题思路:可以利用鸽巢原理(抽屉原理)来证明在给定约束条件下,只存在唯一一个有效双射函数,并由此可以推导出不存在满足题目要求的a、b、c、d值。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第11张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第12张


对于B1,答案在n和k的形式上是正确的,但整个证明方法完全站不住脚。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第13张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第14张


总之,o1 pro似乎没有一道题是正确的。


这个结果属实有点惊人,因为其中一些问题难度没有那么高,比一些AIME竞赛题容易。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第15张


当然,如果从做出题目的数量来说,o1 pro的表现还是可圈可点。


目前来说,o1 pro做出的题目都是错误且不完整的。如果我们不以数学家的角度评判,可以认为它们很聪明。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第16张


更多评测


CodeSignal创始人Tigran Sloyan开启了两轮大测试,让o1 pro分别去解决普特南数学竞赛A1题,以及IMO试题。


显然,在普特南数学竞赛测试中,o1 pro成功做对了第一题。


得分+10,就已经超越了30%的参赛者。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第17张


如下,是o1 pro的全部解题过程。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第18张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第19张


而在IMO测试中,o1 pro完美解决了2006年测试集中最难的Q3题,仅仅用了6分48秒。


相较之下,在2006年全球大约500名19岁以下顶尖数学天才中,只有28人能在4个半小时内完全解出这道题。而美国对的6名成员,却无一人做到。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第20张


这是o1 pro的分析过程,虽然很简洁,好像省略了很多证明步骤。


Sloyan特别要求让其展示第4、5步的具体证明过程,o1 pro随后扩展出的思维过程同样令人印象深刻。


而且,他还测试其他模型(包括o1),尝试做这道题目,却都失败了。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第21张


没想到,这个结果惊动了xAI科学家Hieu Pham。


他表示,o1 pro的答案完全是胡说八道。如果在IMO竞赛中提交这样的解答,最多也只能给1分(满分7分)。如果遇到宽松的评判员,最多给2分,不会再多了。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第22张


他接着称,训练数据问题是一部分,这个答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的题目和解答就像是数学CoT的黄金训练数据集,所以这些模型一会被反复训练无数遍。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第23张


另一位研究员Jason Li测试后惊叹道,o1似乎已经解决掉了一半的问题(60分/满分120),这在普特南竞赛的历史排名中大约能冲进前2%的参赛者之列。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第24张


o1挑战23年赛题


今年9月,o1发布不久后,AI评估平台HoneyHive曾让新模型去挑战了23年普特南数学竞赛的题目。


当时,OpenAI公开的测试结果显示,o1的数学性能大幅超越了GPT-4o,飙升43.3%实现了质的飞升。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第25张


在这场比赛中,o1-preview拿下了79分(满分120)位列第9,o1-mini取得了73,排名第19。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第26张


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第27张


2023年普特南数学竞赛问题集,如下所示:


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第28张


HoneyHive的评估方法是,每个模型重复运行2次,并让GPT-4o作为标准的判断者,以评估模型的答案,最终再由人类专家进行验证。


下面是让GPT-4o承担「评估者」角色的提示示例。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第29张


研究人员发现,第二次运行时,o1-preview得分从51提高到79,o1-mini从54提高到73,GPT-4o也从43提高到57。


在第二轮中,所有的模型都在努力给出证明,具体来说:


o1-preview完全解决了问题A1、A3、B4,部分解决了问题B2,但证明不足。


o1-mini的结果,与o1-preview类似。GPT-4o仅是完全解决了A1问题。


有趣的是,这些模型的结果虽然是正确的,但解决方案缺乏详细的分步解释,特别是对于证明类的问题。


比如,o1-preview和o1-mini在问题B2上都因证据不足、不够严谨失掉了一些分数,尽管最终结果是正确的。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第30张


他们认为,这可能是因为AI模型在表达或访问其内部「思维链」时,存在一定的局限性。


不过,IBM研究员表示,能够拿下一定的高分,当然也存在了数据泄露的可能性。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第31张


比赛介绍


普特南数学竞赛(全称William Lowell Putnam Mathematical Competition)专为美国和加拿大的本科生设立,每年于12月举办一届,今年是第85届年赛。


每年竞赛一共分为两场考试,分别是上午A试,下午B试,各三小时。


这场比赛可以追溯到1938年,最初只是各个高校数学系之间的友好较量。如今,它已经发展成为世界上最具权威的大学数学竞赛。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第32张


每年12月,数百所大学数学尖子生在为期6小时数学中展现自己的数学才华。


尽管考生需要独立完成试卷,但比赛同时设立了团队的环节。


普特南数学竞赛不仅仅是一场知识的较量,更是一个荣誉的殿堂。排名最高的团队的数学系可以获得现金奖励,学生成员还将被授予「普特南研究员」的称号。


与此同时,比赛还设立了「The Elizabeth Lowell Putnam Prize」奖项,专为表现卓越的女性数学家颁奖。


去年第84届比赛中,个体获奖者5名全部来自MIT,团体获奖者前五名也分别来自世界高校:MIT、哈佛、杜克、斯坦福、多伦多大学。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第33张


参考资料:

https://x.com/DanHendrycks/status/1865858756040704335


文章来自于“新智元”,作者“编辑部 HYZ”。


o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!  第34张