来源:互联网 更新时间:2026-06-12 14:32
陶哲轩又发成绩单了。
由他主导的

和第一次一样,这次的核心规则没变:选取10道从未在网络上或期刊中公布过解法的前沿研究级数学新题,交给AI系统作答。
但第二次评测的标准,比第一次又往上提了一大截。
最大的变化是引入了一套专业且严格的评判机制——

其中最亮眼的,当属Problem 5——一道关于随机偏微分方程的题目。AI给出的解法与人类完全不同,推导过程甚至得出了比人类解法更强的中间结论。
先说说题目来源。这次涉及的10道题,全部来自数学家真实研究中的新问题,覆盖范围之广令人印象深刻:可计算理论、离散几何(与经典的莫比乌斯带猜想相关)、离散概率、度量几何(本次测试中AI全军覆没的难题)、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯·诺依曼代数——整整十大方向。

和第一次一样,每道题的证明都从未在网络上或期刊中公开过。出题人中甚至包括Larry Guth这样的顶尖数学家。

第二轮最大的升级,就是这个
所有证明都按人类数学论文的标准审核,分为四档:
参与本次评测的共有4套AI系统:
本轮测试采用“一题单次作答、无额外交互”的规则,所有系统在统一标准下完成答题。

综合39份有效AI解答的评审结果,全部10道难题中,有7道题目出现了达到发表标准的解答——即拿到了“近乎完美”或“小幅修改即可发表”的评级。
苏黎世联邦理工的System A表现尤为突出。在P5随机偏微分方程这道难题中,它跳出了人类的常规思路,用全新方法完成证明,推导出更强的结论。

此外,在第三题(离散概率)和第九题(代数组合)中,部分AI也给出了与人类解法截然不同的原创论证。而面对有成熟文献参考的题目,AI的优势更为明显。比如与经典莫比乌斯带猜想相关的P2离散几何题,三套AI都沿用了已有的研究思路顺利作答。在组合拓扑、格论等题型中,多套AI也交出了逻辑完整的答卷,仅在行文、格式等方面存在小问题。
当然,这次评测还重点统计了四套AI的调用成本与耗时。云服务器总成本不到35美元,几乎可以忽略不计,但模型调用费用的差距相当悬殊。

OpenAI原生ChatGPT 5.5 Pro的性价比最高,10道题总花费117美元,平均单题成本最低仅8美元,最贵的也不过16美元。该模型运行了5.8小时,是耗时最短的,但原创能力偏弱。
相比之下,普林斯顿团队的系统花费1014美元,运行7.8小时,投入产出比较低。解题能力最强的苏黎世联邦理工团队系统总费用达3186美元,单题最高花费951美元,运行时长达22.9小时。而陶哲轩所在的UCLA团队系统成本最高,共计4799美元,运行23.1小时,虽然稳定性尚可,但并未实现能力上的突破。
陶哲轩自己也认为,本轮整体表现未达预期,现存问题将作为后续优化方向。

至于后续安排,也已经明确:8至10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。
只能说,First Proof,确实是AI数学最严厉的母亲。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
帅气继父网名女生可爱英文(精选100个)
蒙古上单是什么梗
网络热词聊污是什么意思
作家助手如何上传自制封面 作家助手如何设置小说的封面
韦一敏是什么梗
帅到极致的网名女生霸气(精选100个)
抖音最火沙雕男生网名(精选100个)
韩漫小少爷网名大全女生(精选100个)
有寓意的易经网名男生(精选100个)
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
免费看电影的软件推荐
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
如何在夸克浏览器中开启网页视频的倍速播放功能?
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc