AI大语言模型、AGI

谷歌DeepMind的AI自己解出了9道数学难题，每道只花了几百美元

#大语言模型LLM #符号推理与形式逻辑

2026-05-25 6K banq

谷歌DeepMind开发的人工智能系统，在无人帮助的情况下，自己证明了9道几十年没人能解的数学难题。每道题的解题成本只有几百美元，展示了AI在数学推理领域的强大能力。

数学难题现在成了白菜价

谷歌家DeepMind的那帮聪明人，搞出来一个AI。这个AI不是用来画图或者聊天的，它是用来搞数学的。它干了件什么事儿呢？它把一个叫“埃尔德什”的超级难题清单给翻了出来。

这个清单上总共有353个数学问题。这些问题有多难呢？这么说吧，全世界的数学家们，几十年来翻来覆去地研究，头发都薅秃了，也没把这353个问题全部搞定。人类只解决了其中一部分，还剩下好多硬骨头。

结果这个AI上去就是一顿操作。它不吃不喝，也不用挠头，就自己在那儿想啊、算啊、证明啊。最后你猜怎么着？它一口气解决了其中9个。要知道，这9个问题，每一个都够一个数学家研究一辈子的。

更气人的是它的成本。研究人员算了笔账，解决一个这样的难题，大概只需要花几百美元。几百美元是什么概念？在北京、上海好一点的馆子吃顿饭，可能都不止这个数。也就是说，你请客吃顿饭的钱，够这个AI解一个困扰人类几十年的数学难题。

这个故事的核心不是AI有多牛，虽然它确实很牛。这个故事的核心是：当把一个顶级数学难题的解决成本从“一个数学家的一生”降低到“一顿饭钱”的时候，我们的世界会发生什么？这才是真正让人后背发凉，又兴奋得睡不着觉的事儿。

先让AI学会解题的“普通话”

要想让AI干活，首先得让它听懂数学界的官方语言。人类数学家开会用英语、法语或者手写公式，但这对于AI来说太随便了，容易产生歧义。所以，研究人员给AI配了一个超级严格的翻译官。

这个翻译官叫“Lean”。它是一个定理证明器。你可以把它想象成数学界的编译器。咱们写代码，写错了编译器会报错；你用Lean写数学证明，证明过程有漏洞，它也会毫不留情地给你指出来。

AI每想出一个解题步骤，都得用Lean这种精确到变态的语言写出来。这一步就像是把脑子里天马行空的想法，翻译成一句一句、严丝合缝的机器指令。语言统一了，AI和计算机之间才能进行真正有效的对话，而不是鸡同鸭讲。

光有翻译官还不够，AI自己得有个主心骨。研究人员就给这个AI起名叫“智能体”。这个智能体的工作模式非常简单粗暴，有点像咱们小时候做数学题，一边算一边对答案。它先自己琢磨着写证明，写完之后立刻交给Lean这个铁面无私的裁判去验证。

对了，就鼓掌；错了，就报错。然后AI就根据这个报错，回去修改自己的证明。这个过程不需要人类插手，AI自己跟自己就能玩得挺嗨。就这么循环往复，像一个特别有耐心、永远不知疲倦的学霸，在那儿一遍遍地刷题、订正、再刷题。

然后AI开始像码农一样写证明

那这个AI具体是怎么工作的呢？它的工作流程其实非常像我们写代码。你想想，你写一个程序，是不是先写个大概框架，然后运行一下，看看有没有语法错误？有bug就改，改完再跑，直到程序能正常运行。

这个AI的工作流程简直一毛一样。它先自己“突发奇想”，生成一段数学证明的草稿。这段草稿可能漏洞百出，逻辑跳跃，就像新手程序员写的满是拼写错误的代码。但这不重要，重要的是它敢于先写出来。

写完之后，它就把这段草稿扔给刚才说的Lean翻译官。Lean会非常认真地检查每一步推导是否符合逻辑规则。这就像是代码编译器在检查你的代码有没有语法错误。如果有错误，Lean会吐出一堆错误信息，告诉AI：你这一步走不通，这儿推理有问题。

AI收到错误反馈后，就像程序员看到编译器报错一样，皱皱眉头（当然它没有眉头），然后根据错误信息去修改自己的证明。它可能会换一种思路，或者在中间补上缺失的逻辑步骤。改完之后，再提交给Lean检查。如此反复，直到Lean完全认可，没有任何报错为止。

这个过程看起来有点笨拙，甚至有点枯燥。但它极其有效。它把一个虚无缥缈的“创造力”问题，转换成了一个实实在在的“调试”问题。AI不需要一开始就写出完美的证明，它只需要学会从错误中不断迭代就行了。这不就是一个超级理性、永不动怒的程序员的日常工作吗？

几十年的老难题被AI当了练习册

准备工作都做完了，该真刀真枪地上了。研究人员给这个AI布置的作业，就是那个让无数数学家头疼的埃尔德什问题清单。这个清单就像是数学界的“武林高手排行榜”，能解决上面任何一个问题，都足以在数学史上留名。

埃尔德什本人是个超级古怪又伟大的数学家。他一生四处游历，跟人合著论文，遇到哪个数学家就问人家一个数学问题，答上来就请人家吃饭。他的问题以“难”和“有趣”著称。几十年过去了，353个问题里，数学家们靠着人脑的智慧，一个脚印一个坑地解决了不少，但剩下那些就像顽固的堡垒。

我们的AI选手上场了。它可没有什么敬畏之心。在它眼里，这些不是闪耀着智慧光芒的人类瑰宝，而是一个个等待被“编译通过”的代码模块。它二话不说，开始一个一个地啃。

结果让人大跌眼镜。这个AI完全自主地，不需要任何人教它新方法，不需要任何人帮它开个头，就那么自己跟自己较劲，把其中9个堡垒给攻下来了。注意，是完全自主。不是人类数学家想了个思路让AI去验证，而是AI自己从零到一，找到了钥匙，打开了锁，还把整个开锁过程的图纸（严格的形式化证明）给画了出来。每个问题的成本，只有几百美元。这感觉就像你用家里的零花钱，买了一支军队，帮你打赢了一场仗。

不只一个战场，AI又顺手抄了序列数据库

你以为这就完了？那你也太小看这个AI了。埃尔德什问题只是它的主攻方向之一。它就像个精力过剩的学霸，做完了一张卷子还不过瘾，顺手又拿起了另一本习题集。

这本习题集叫OEIS，全称是“整数序列在线百科全书”。听着名字挺唬人，其实你可以把它想象成一个超大型的数列字典。比如，1, 1, 2, 3, 5, 8… 这个斐波那契数列就在里面。OEIS从1964年就开始建立了，几代数学家往里添加了各种各样的数列，同时也记录下了关于这些数列的许多猜想。

这些猜想是什么意思呢？就好比有人观察到了一个规律：你看这个数列的前几项，好像是那样发展的。我猜测第100项应该是某个数。但这个猜想没有被证明，只是一个聪明的猜测。

我们的AI来了之后，对着OEIS里的492个尚未被证明的猜想，又是一顿操作猛如虎。结果，它成功证明了其中44个猜想是真的。44个！这效率，简直就像用收割机收麦子。过去数学家可能要花几个月甚至几年去证明一个猜想，现在AI在几天内就搞定了44个。

这些被证明的猜想，立刻就能变成可靠的数学定理，被应用到组合数学、图论、代数几何，甚至量子光学的研究中。这不再是AI在象牙塔里玩儿的智力游戏，而是实打实地为其他领域的科学家提供了趁手的工具。

便宜才是硬道理，数学研究的游戏规则变了

好了，现在我们来回答最开始那个灵魂拷问：当解决一个数学难题的成本，从“一个数学家的一生”降到“一顿饭钱”，到底会发生什么？

首先，数学研究的门槛被彻底砸烂了。以前，一个数学问题之所以是“未解决的”，往往是因为它太难了，全世界只有少数几个顶尖大脑有能力去思考它。现在不一样了。只要你能付得起几百美元的电费和算力费，你就能“雇佣”这个AI去帮你攻克那些曾经的学术高峰。这感觉就像，过去你要想开一家工厂，你得自己会造机床；现在呢，你去市场上买一台现成的、好用的机床就行了。

其次，数学知识的生产速度会进入一个爆发期。过去几百年，人类积累的数学定理是呈线性增长的。一个天才一生能发现一两个重要定理就名垂青史了。但AI可以24小时不间断地工作，它可以同时开启成百上千个“证明任务”。以前需要几代人接力才能解决的问题，现在可能只需要一个周末。数学不再是一门“慢艺术”，而变成了一种“快制造”。

最后，也是最关键的，数学家的角色会发生根本性的转变。他们可能不再需要亲自下场去解决那些具体的技术难题了。他们的工作会变成什么呢？可能会变成“问题提出者”和“思想架构师”。他们需要去想象新的数学结构，提出更有深度、更原创的问题，然后交给AI去处理那些繁琐的证明细节。数学家从一个苦哈哈的“矿工”，变成了一个指点江山的“勘探队长”。

一个简单版本照样能打，这技术没什么秘密

为了证明这不是什么黑魔法，也不是只有DeepMind这种顶级团队才能玩得起的阳春白雪，研究人员还做了一个非常“损”的测试。他们搞了一个精简版的人工智能代理程序。

这个精简版没了各种花里胡哨的功能，算法也简单得多。它核心就干两件事：生成证明、然后用Lean验证。就这么来回倒腾，像个最简单的钟摆一样。你可以把它想象成普通人家用的计算器，而之前那个完整版是超级计算机。

按理说，这种“丐版”智能体，应该被那些复杂的埃尔德什问题虐得找不着北吧？但结果再一次让人惊掉了下巴。这个精简版，竟然也成功地复现了之前的成功。它也解决了几个同样量级的难题。

这个实验结果透露了一个让人震惊的事实：这套方法的核心逻辑非常健壮，它的有效并不依赖于太多复杂的技巧。就像学游泳，你不需要先学会蝶泳、仰泳，只需要掌握了最基础的换气和蹬腿，你就能在水里浮起来。这个精简版智能体，就是掌握了“换气和蹬腿”的数学AI。

换句话说，这种数学突破的能力，未来很可能会变得非常普遍。它不是某个公司的独门秘籍，而是一个可以被开源、被复制的算法思路。这意味着，用几百美元解决数学难题的那一天，可能会比我们所有人想象的来得都要快。到时候，数学这个曾经的智慧神殿，可能真的要变成一个人来人往的热闹工厂了。各位数学家们，准备好迎接你们的AI工友了吗？它不会跟你抢咖啡，但它会悄悄把你积攒了几十年的难题，当成周末小菜给解决了。

为什么只解出了9道而不是全部

353道题只解出9道，听起来不多对吧。但你得这么想，这些题都是全世界的数学家搞了几十年都没搞定的。AI能在这么短时间内拿下9道，已经非常恐怖了。

这就像让你参加奥运会，你从来没训练过，结果上去就拿了个铜牌。关键是这AI还是个通用系统，不是专门为这几道题定制的。给它换个领域，它照样能干活。所以接下来它解出更多题，只是个时间问题。

这种能力会用到什么地方

AI能解数学题，就能做很多事情。数学是所有科学的基础。AI能证明数学定理，就能帮物理学家推导公式，帮生物学家分析基因序列，帮工程师优化设计。

比如说，你搞芯片设计，里面很多布局问题本质上就是数学优化问题。AI连几百年没人解的纯数学难题都能搞定，你那些芯片布线对它来说就是小菜一碟。这就好比让博尔特去跑小区的运动会，完全降维打击。

开源版本什么时候能出来

现在这技术还在谷歌手里，不开源。但按照技术发展的规律，开源版本不会太远。就像大语言模型，一开始也是谷歌OpenAI有，现在谁都能跑个开源模型。

到时候你可以在自己的电脑上跑这套数学证明系统。你扔给它一道题，它帮你证明。甚至你写论文的时候，它可以帮你检查证明过程有没有漏洞。这就像Word给你的文档做拼写检查，不过是给数学证明做逻辑检查。

数学变成福特工厂是什么梗？

数学研究从手工作坊式的个人手艺活，变成了流水线式的批量生产。

大概一百年前，福特汽车的老板亨利·福特搞了个大发明，叫“流水线生产”。以前造一辆车，得几个老师傅围着车慢慢敲，几个月才能出一辆，就跟手工作坊一样。福特把造车拆成84个小步骤，车自己在那条线上走，每个工人只做一个动作，结果造一辆车的时间从12个半小时直接砍到一个半小时。这就叫工业化、标准化、规模化。

Reddit网友说“数学变成福特工厂”：以前解数学难题，得靠一个天才数学家趴在桌上想好几年，就像敲钟一样慢。现在DeepMind这个AI，把“解数学题”这个事也给流水线化了——给AI一个数学问题，它自己在那算，几天就给你一个答案。你说这不是福特工厂是什么？

而且这个比喻还有个隐藏的梗，就是那个“画一条线一万美元”的故事。说的是福特公司的电机坏了，请了个专家斯坦门茨来修。专家听了三天，在电机上画了一条线，说把这里的线圈减少几圈。电机果然好了。专家开价一万美元，别人嫌贵，他说：画那条线只值1美元，但知道在哪里画线值9999美元。

这个故事的潜台词是：知识和技术本身是有巨大价值的。放在数学圈也是一样，AI能解这些题，靠的不是蛮力，而是它脑子里装的那些数学知识和推理能力。这个“知识就是财富”的道理，一百年前画条线值一万美金，一百年后AI解道题值几百美元，本质是一个意思。