谷歌曝光Gemini2.5夺IMO奥数金牌的提示论文


谷歌分享了获得Gemini 2.5 Pro IMO 2025金牌的系统提示,该论文目前在alphaXiv上排名第一

国际数学奥林匹克竞赛(IMO)是世界上最烧脑的数学考试,题目难到连爱因斯坦看了都想转行卖烤红薯。现在的AI模型虽然做小学奥数题像喝水一样简单,但一碰到IMO这种“神仙打架”级别的题,就容易卡壳、瞎编、胡言乱语。 

我们拿谷歌最新款的AI学霸——Gemini 2.5 Pro,去挑战刚出炉的2025年IMO真题(注意:这些题刚发布,AI不可能提前“背过”),结果你猜怎么着? 

6道题,它一口气干掉了5道!
就差一道没完全搞定,但也快了,估计再喝杯咖啡就能解出来。 

这说明啥?说明现在的AI已经不是“做题家”,而是快成“数学天才”了!当然啦,你要是直接问它:“嘿,解一下这道题!”它可能还是会翻车。但我们搞了个“AI自检流水线”——让它自己写完答案后,再当自己的“监考老师”反复检查,就像学霸考完试还不放心,自己对着答案改三遍。 

最后结果:5题全对,接近金牌水平! 

方法如下
我们给Gemini设计了一套“AI学霸养成流水线”,一共6步,堪比高考冲刺班:

第一步:先写一遍答案
告诉AI:“别急着交卷!你要像写高考作文一样,每一步都写清楚,不能跳步,不能瞎猜,要严谨!”
——AI点点头,开始奋笔疾书。

第二步:自我反思
写完后问它:“你自己看看,有没有哪里写得像‘我以为是对的’但实际上可能是错的?”
——AI挠头:“嗯……好像第3步有点悬。”

第三步:当自己的监考老师
让它切换身份:“现在你是阅卷老师,专门挑毛病,越狠越好!”
——AI秒变毒舌教授:“你这步没证明就下结论,扣7分!”

第四步:看“批改报告”反思人生
把刚才自己挑出的错列成“罪状清单”,一条条看。

第五步:改错重交
根据批改意见,重新修改答案,然后回到第3步,继续自虐式检查。

第六步:终于敢交卷了
连续5次自检都没发现问题?OK,这答案可以发布了!
这套流程下来,AI从“差点及格”直接进化成“全省状元”。

为什么这事儿很牛
你可能觉得:“AI做数学题有啥稀奇?”但你要知道,像IMO这种比赛,题目可不是“解个方程”那么简单,而是:

  • 每道题要写好几页证明;
  • 逻辑必须严丝合缝,错一步全扣光;
  • 需要“灵光一闪”的创造力,比如突然想到一个没人用过的技巧。
这就像是让AI不仅会算数,还得会写《红楼梦》级别的推理小说,还得每一章都合乎逻辑、不能穿帮。
而现在的AI,已经快能做到这一点了!

举个例子:Problem 5(Alice和Bazza的游戏)
这题讲的是两个娃在玩一个叫“不等式大战 ”的游戏,规则贼复杂:

  • Alice和Bazza轮流写数字。
  • Alice写的时候,数字总和不能超过某个值;
  • Bazza写的时候,数字的平方和不能超过另一个值。
  • 谁写不出来谁就输。
  • 如果永远能写下去,那就是平局。

问:λ 是个关键参数,当 λ > √2/2 时,Alice 能不能稳赢?

AI是怎么想的?

“我作为Alice,有个绝招:前期躺平,后期爆发! ”
前面几轮我都写0,装作我很菜。
等到第2m−1轮,我突然猛砸一个超大数,让Bazza根本接不住,直接Game Over! 

但Bazza也不是吃素的,他会一直用最强防御策略反击。

最后AI通过一堆不等式推导+极限分析,得出结论:

  • 如果 λ > √2/2 → Alice可以赢!
  • 如果 λ < √2/2 → Bazza稳赢!
  • 如果 λ = √2/2 → 双方打平,谁也干不掉谁!
这波操作,堪比电竞决赛最后一波团战,AI直接上演“极限反杀”。

数据污染警告(别以为AI作弊了):
有人可能会说:“你不会是让AI提前‘背’了答案吧?”

我们斩钉截铁地说:不可能!

因为这些题是前几天才发布的 ,连很多人类选手都还没做完,AI训练数据里根本不可能有。
这就好比你参加高考,拿到的是刚刚印出来的试卷,AI也没法“开天眼”提前学。

结论(中二热血版):
AI已经不是“计算器”了,它正在成为“数学家”!虽然它还没拿真IMO金牌,但已经站在领奖台边缘,手里拿着奖牌在阳光下反光了! 

未来可能不再是“人类出题,AI做题”,而是:

“人类出题,AI不仅会做,还能发明新解法,甚至反过来教人类!” 

最后彩蛋:
论文里还调侃了一句:

“我们告诉AI:‘咱们用数学归纳法试试吧。’” 

结果AI秒懂,立刻进入“归纳模式”。
这就像你对孩子说:“今天作业不会?试试先做第一问。”
一句话点醒梦中人。

所以有时候,不是AI不行,是你没给它正确的“启动密码”!



极客辣评
加州大学洛杉矶分校的教授:奥数+人工智能:我们在新的IMO 2025问题上运行了谷歌的Gemini 2.5 Pro。通过仔细的提示和流水线设计,它解决了6个中的5个-对于需要深刻洞察力和创造力的任务来说非常出色。
https://github.com/lyang36/IMO25/blob/main/IMO25.pdf


周一:微软挖走24名谷歌人工智能研究人员
周二:Meta挖走3名谷歌顶级研究人员,他们构造了IMO金牌获奖模型