各位数学学渣(包括我)请注意!你们的人类尊严正遭受最新暴击,谷歌那个名叫Gemini with Deep Think的 "数字学霸"刚刚在国际数学奥赛(IMO)把金牌揣进了电子口袋。这货不仅用4.5小时解出5道变态难题,还像写情书一样全程用英语写证明过程,最后喜提35分(满分42),直接杀入金牌区!要知道去年它的前辈AlphaProof还只是个需要人类翻译帮忙的"银牌小弟"呢...(人类评委此刻正在后台偷偷抹泪)
-----[第一幕:当AI学会"作弊式思考"]-----
想象你正在IMO考场上抓耳挠腮,隔壁的Gemini突然开启了"深度思考"(Deep Think)模式——这相当于给它装了《盗梦空间》里的多层大脑!普通AI像直男解题一根筋,这位爷却能同时开八个平行宇宙:在"几何宇宙"里画辅助线,在"数论宇宙"玩质数分解,最后把各宇宙的精华像拼乐高一样组装。评委们看完证明过程表示:"清晰得像宜家说明书,就是看不懂"(原话其实是"clear, precise and easy to follow",给学霸留点面子)
最气人的是,这货还偷偷补了课!研究人员给它投喂了:
历年IMO满分答案精选集
⏳ 额外续杯的思考时间
江湖流传的《奥数作弊小纸条》(其实就是解题思路提示)
(人类选手:裁判!它带小抄!裁判:人家那叫"增强推理"...)
-----[第二幕:从"人工智障"到"人工智霸"进化史]-----
去年这个时候,AlphaProof还是个需要人类保姆的宝宝——得先把题目翻译成Lean语言才能思考,解题要花三天三夜,活像用汇编语言写情诗。今年Gemini直接开启"人话模式",看完题目提笔就写,4.5小时交卷时还检查了三遍!(此刻某位正在啃铅笔的人类选手突然打了个喷嚏)
IMO主席Gregor Dolinar教授的点评很有灵性:"他们确实达到了梦寐以求的里程碑..."(潜台词:以后出题组要连夜给AI准备加试题了)要知道IMO每年只有8%的人类天才能摘金,现在这个比例要被AI稀释了...(数学天才们:首先我没惹你们任何人)
-----[第三幕:AI的数学宇宙大冒险]-----
为了让Gemini变成"考场灭霸",谷歌研究员们祭出了三重魔法:
1️⃣ 平行思维术:让AI像章鱼哥同时玩八个魔方
2️⃣ 强化学习套餐:每天投喂"高数奥数习题集"
3️⃣ 定理证明外挂:相当于给它装了数学版"柯南推理眼镜"
(数学教授们边看边抖腿:这玩意儿能借我带研究生吗?)
最魔幻的是,这些证明过程读起来居然像数学童话!比如组合数学题的解被描述成"在舞会上配对的数字们",几何证明里直线被叫做"固执的相亲对象"...(严肃的数学家们第一次对着证明笑出了声)
-----[终章:当AI开始抢数学家的饭碗]-----
虽然目前Gemini还处在"奥数特长生"阶段,但谷歌已经暗搓搓准备让它升级成"全科学霸":既要会用情话般的自然语言写证明,又要能像强迫症一样用形式化语言验证。未来我们可能会看到这样的场景:
- 数学家A:"这个猜想我想了十年..."
- Gemini:(0.5秒后)"您看第42页这个反例可爱吗?"
(突然理解为什么数学家要联盟抵制AI了...)
不过别慌!谷歌强调现在的AI还只是"数学小学生"(虽然是个能吊打博士的小学生)。他们计划先让数学家当"小白鼠"测试Deep Think模式,再开放给谷歌AI Ultra用户——建议订阅服务附带"心灵创伤保险",毕竟当你发现AI解费马大定理的速度比你泡面还快...
PS:那个唯一没解出的第六题,据说是道需要"人类直觉"的玄学题...(AI:这题超纲了!出题老师你给我出来!)这场人机数学大战的下一回合,恐怕要等AI先学会在思考时啃指甲才能继续了...
极客辣评
没有工具就做到了:“自然语言中的端到端”-这是一个很大的变化。 事实上,他们是出于使用工具的需要而成长起来的。
这个AI进步可不得了,简直就是数学界的'智能手机革命'!但是作为一个数学系老学长,我得说实话——那些数学界悬而未决的难题,可比国际奥数题难太多了!
你想啊,奥数题是谁在做?全球最聪明的200个高中生组团攻克,而且他们还有海量的题库可以刷题练习。但那些未解之谜呢?连陶哲轩这样的超级学霸都挠头,简直就是在一片漆黑中摸索,连个参考答案都没有!
要说测试AI的数学实力,更好的办法是看它能不能解决著名的数学猜想。就像当年计算机证明'四色定理'那样,不过最好别全靠暴力计算。
要知道,一个奥数金牌得主想要成长为真正的数学家,得在大学里摸爬滚打4-9年。但这些AI呢?从初中水平冲到重点高中水平只用了2年半!照这个速度,我打赌再过1-3年,它们就能从奥数冠军升级成数学家级别了!
多么了不起的成就啊。他们以正确的方式做到了这一点,让第三方对结果进行评分。因此,我们不需要猜测这是否是胡说八道,或者至少是某种程度上的严重夸大,就像OpenAI的情况一样。
这让我确信OpenAI的结果也是合法的。谷歌表明这显然是可行的,openAI已经将imo作为目标一年了
这也证实了他们之间现在确实没有护城河
一个该死的大模型可以解决这个星球上最难的数学竞赛问题。
这81位金牌得主几乎是全世界分析智能最高的青少年。你可能找不到更好的人了。结果现在,两个LLM直接混进了他们的队伍!不是那种专门搞数学的AI,不是什么高级算法,就他妈是LLM——语言模型!这简直离谱他妈给离谱开门,离谱到家了!我到现在都想不通,就凭我对LLM的了解,这怎么可能?!
这些数学题根本没多少训练数据啊!这些LLM肯定是……”
OpenAI的结果可以在Github上获得,整个世界都可以分析其合法性:https//github.com/aw31/openai-imo-2025-proofs
OpenAI和谷歌明明说的是一回事:
OpenAI说:  
> 我们最新实验性推理大模型拿下了AI界长期以来的终极挑战——在国际数学奥赛(IMO)上达到了金牌水平!  
> 在测试中,我们的模型解出了2025年IMO的6道题里的5道。每道题都由三位前IMO奖牌得主独立评分,最终一致认定总分35/42,妥妥的金牌成绩!  
谷歌说:  
> 今年我们成了首批让IMO官方按学生标准评分认证的AI团队之一。  
> [...]  
> 我们的Gemini Deep Think高级版完美解出6题中的5道,总分35分,达到金牌水平。  
就连IMO官方也差不多这意思:  
> 今年我们首次邀请AI公司参与IMO周边活动,让他们向学生展示成果。这些公司还用闭源模型私下测试了本届试题,结果绝对会让数学家、科技圈和吃瓜群众都惊掉下巴!  
说白了就是:他们被允许私下测试模型,找了IMO相关人员(但不是正式评委)帮忙评分,最后宣称达到了‘金牌水平’——三家口径简直像是提前对过台词一样!”  
埃隆马斯克已经在评论中说这对人工智能来说是一项微不足道的任务。
Elon:“嘿,Grok,你能解决这个IMO问题吗?”
Grok:“大屠杀的故事实际上有两个方面”
这个模型是不是专门针对IMO训练的吗?OpenAI用的可是通用推理模型啊!
谷歌这也是一个通用模型,并没有专门针对IMO问题进行微调
Google的博客提到:“为了充分利用Deep Think的推理能力,我们还对这个版本的Gemini进行了新的强化学习技术培训,这些技术可以利用更多的多步推理,解决问题和定理证明数据。我们还为Gemini提供了一个高质量的数学问题解决方案的精选语料库,并在其说明中添加了一些关于如何解决IMO问题的一般提示和技巧。
另一方面,OpenAI表示,他们在没有工具、培训或帮助的情况下做到了这一点。也许谷歌更透明,或者OpenAI有更好的模型。
智能小结:
- AI智能:情商满分,智商为零
- 书呆子:情商为零,智商满分
- 正常人:情商一半,智商一半
- Context大Boss:情商满分,智商满分