Google DeepMind的Gemini仅使用自然语言赢得数学奥林匹克金牌,谷歌DeepMind在国际数学奥林匹克(IMO)上获得了第一枚金牌,其Gemini模型的“高级版本”在Deep Think模式下运行。
- Google DeepMind的扩展Gemini模型在“Deep Think”模式下解决了六个任务中的五个,在国际数学奥林匹克竞赛中达到了金牌水平,这是以前没有实现的里程碑。
- 该系统仅使用自然语言解决了这些问题,而不依赖于符号工具,这标志着与早期预期的重大转变。
- Deep Think的表现得益于专门的强化学习、额外的“思考时间”以及对一系列先前IMO解决方案的了解。标准的Gemini 2.5 Pro版本只能解决31.5%的任务。
该系统解决了代数,组合数学,几何和数论中的六个问题中的五个,获得了42分中的35分-足以获得金牌,根据IMO的数据,只有大约8%的人类参与者获得金牌。
DeepMind表示,这些解决方案(PDF下载)经过了国际海事组织官方评委的审查,并被描述为“清晰、准确,而且大多数都易于理解。
它是自己动脑、自己写证明、自己在规定时间内交卷, 最后拿了35分(满分42),稳稳拿下金牌!
要知道,每年IMO,全球几千个数学天才打架,只有8%的人能拿金牌。 现在一个AI,直接杀进前8%,还被裁判认证:“这答案写得清清楚楚,一看就懂!” ——好家伙,这不就是那种考试时连草稿纸都不用,直接写标准答案的“人形自走解题机”吗?
这次AI开挂的方式,简直离谱!
去年,DeepMind也来挑战过IMO,但那时候它靠的是“外挂”: 用一种叫Lean的“机器人语言”编程,并花了几天时间使用AlphaProof和AlphaGeometry进行计算,才勉强搞出几个题,像极了熬夜赶作业的你。
但这一次,Gemini Deep Think完全使用自然语言。
该模型直接从IMO的正式问题中产生了完整的证明,所有这些都在每次会议的四个半小时的时间限制内,并且没有外部工具或符号辅助。
DeepMind指出,这次与人类一起考试,Gemini 面临着与人类竞争对手相同的问题和时间限制。
IMO模型运行在Gemini 2.5 Pro的新“深度思考”模式上,该模式是谷歌在5月份为复杂的推理任务推出的。这种模式允许模型在生成答案之前并行遵循多个假设,目前正在与选定的用户进行测试。相比之下,标准的Gemini 2.5 Pro只能解决31.5%的奥林匹亚德问题。
Gemini Deep Think使用专门的强化学习方法进行训练,以鼓励多步推理,解决问题和定理证明。IMO版本也有更多的“思考时间”,可以从以前的IMO任务中获得一套精心策划的高质量解决方案,以及解决这类问题的一般指导。
DeepMind表示,这些方法帮助模型遵循并并行结合联合收割机多个解决方案路径,然后确定最终答案。
它做了啥题?有多难?
IMO的题,那是出了名的“反人类”。
比如:
- 一堆数字玩排列组合,问你“有没有一种方式能让它们全不打架?”
- 几何题画得像抽象画,让你证明两个点“其实是同一个灵魂转世”
- 数论题问你“某个神秘数字是不是永远都不会被3整除”,你连题都读不懂……
但这个Gemini Deep Think,六道题做了五道对!
35分到手,金牌稳了!
裁判组看完它的答案后表示:
> “嗯,这孩子思路清楚,步骤完整,没抄,没蒙,建议给分。”
——这评价,比你妈夸你“这次考得不错”还难得!
它为啥这么强?秘密武器曝光!
谷歌说,这版Gemini用了“特训大法”:
1. 多线程脑内小剧场:
它不像普通AI那样“一条路走到黑”,
而是像学霸考试时那样:
“这题我先试试代数法……不行,换几何辅助线……再试试反证法……”
三套思路同时跑,最后挑最靠谱的那个写上去。
2. 专门练过“怎么解奥数题”:
它啃了一堆往年的IMO真题和标准答案,
还被老师(其实是算法)反复教导:“解题要有逻辑,不能跳步!”
3. 给了它更多“思考时间”:
就像考试时老师说“你可以多花点时间想”,
这个Deep Think模式允许AI“多想一会儿”,
而不是像普通AI那样“秒回但全是错的”。
结果呢?
普通版Gemini只能做出31.5%的题,
而Deep Think模式直接干到接近金牌水平——
这不是进步,这是进化!
OpenAI也不服气:我们也能拿金牌!
就在谷歌宣布胜利后没几天,
OpenAI(就是搞ChatGPT那家公司)跳出来喊:
> “切,这有啥?我们也能!”
他们说,自家某个神秘模型(没说名字,估计怕泄密),
也在同样条件下—— 没联网、没写代码、没用工具、纯纯靠语言吹, 纯靠“自然语言思考”,
四个半小时内也做了五道题, 还找了三位前IMO金牌人类大佬来批改, 结果:也够金牌线!
最离谱的是,
OpenAI说他们的模型根本没专门练过IMO题, 就是一个“通才型学霸”, 平时写写文章、编编代码、聊聊天, 突然被拉去考IMO,结果还拿了金牌……
——这不就是班里那个“从来不刷题,考试永远第一”的学神吗?!
OpenAI上周末宣布了自己的IMO金牌:根据OpenAI的说法,其内部语言模型之一还在竞争条件下解决了六个奥林匹克问题中的五个,并由三位前IMO金牌得主进行了验证。
OpenAI表示,它的模型通过两个四个半小时的会话工作,没有互联网接入,代码或外部工具-完全依赖于自然语言。与DeepMind一样,OpenAI指出,它的模型是一个通才推理系统,而不是专门为IMO训练的系统。
所以……现在AI比人类还懂数学了?
以前大家都觉得:
> “AI能算题,但搞不了创造性推理,尤其是数学证明这种‘灵光一闪’的事。”
但这次两个巨头同时突破,
说明AI现在已经能连续几个小时深度思考、逻辑推理、构造证明,
而且是用人类的语言,不是机器人代码。
连数学界大神陶哲轩(Terence Tao)几个月前还说:
> “AI想在真实考试时间里解IMO题?不可能!”
结果现在……
> “啪!啪!两耳光!”
AI:你说不可能?我直接拿金牌给你看!
推理AI的新阶段-带开放式问题
这两个结果都表明,具有强大推理和强化学习的先进人工智能模型现在可以连续数小时解决复杂的数学问题,而无需依赖符号工具。
然而,这些公告留下了一些没有答案的问题。例如,OpenAI没有分享任何关于模型架构、训练数据或使用的资源的细节。同样,DeepMind也没有说明其深度思考方法的可扩展性或可转移性,也没有说明该方法是否可以处理其他任务或科学领域。目前还不清楚这些系统在更长的证明或其他数学分支中的一致性如何。
尽管如此,结果表明,这种方法在实践中是有效的,就目前而言,细节可能不如结果重要。
长期以来,持续、准确的推理一直被视为语言模型的主要障碍。有了这些结果,具有推理能力的人工智能的竞争正在进入一个新的阶段,至少在数学方面,机器正在向人类水平的表现靠拢。
但问题来了:它们真的“懂”数学吗?
虽然AI能写出正确答案,
但我们还不知道:
- 它是真“理解”了数学之美,还是只是“背套路+暴力试错”?
- 这些方法能不能用在物理、化学、生物上?
- 如果题目更难、证明更长,它会不会崩溃?
- 它能不能自己提出新定理,而不仅仅是解题?
而且两家公司都挺“小气”:
谷歌不说这技术能不能推广,
OpenAI连模型名字都不肯说,
训练用了多少电脑、花了多少钱,统统保密。
——搞得像极了考试后死活不肯借你抄答案的学霸。
总结一下:这是历史性的一天!
这不只是AI拿了一块金牌,
而是标志着:
> AI开始真正“会思考”了!
以前它像是个“记忆超群的复读机”,
现在它更像是一个能独立思考、逻辑推理、甚至写论文的学霸。
未来可能:
- 你的数学作业AI帮你写(但要小心查重)
- 科学家用AI一起证明新定理
- 甚至AI自己发现新的数学规律……
最后送大家一句暴论:
> “以前是人考IMO,现在是AI考IMO;
> 以后,可能是IMO考人类,看谁还能拿金牌。”
所以,中学生们,别慌!
你现在要做的不是和AI比谁算得快,
而是学会怎么用AI当你的“外挂大脑”,
然后——
一起去挑战更难的题,探索更远的宇宙!
毕竟,真正的赢家,
从来不是最聪明的那个,
而是最会用工具的那个
(完)
建议收藏,下次数学考砸了,就说:“我在等AI帮我重写人类文明!”