谷歌DeepMind开发的人工智能系统,在无人帮助的情况下,自己证明了9道几十年没人能解的数学难题。每道题的解题成本只有几百美元,展示了AI在数学推理领域的强大能力。
数学难题现在成了白菜价
谷歌家DeepMind的那帮聪明人,搞出来一个AI。这个AI不是用来画图或者聊天的,它是用来搞数学的。它干了件什么事儿呢?它把一个叫“埃尔德什”的超级难题清单给翻了出来。
这个清单上总共有353个数学问题。这些问题有多难呢?这么说吧,全世界的数学家们,几十年来翻来覆去地研究,头发都薅秃了,也没把这353个问题全部搞定。人类只解决了其中一部分,还剩下好多硬骨头。
结果这个AI上去就是一顿操作。它不吃不喝,也不用挠头,就自己在那儿想啊、算啊、证明啊。最后你猜怎么着?它一口气解决了其中9个。要知道,这9个问题,每一个都够一个数学家研究一辈子的。
更气人的是它的成本。研究人员算了笔账,解决一个这样的难题,大概只需要花几百美元。几百美元是什么概念?在北京、上海好一点的馆子吃顿饭,可能都不止这个数。也就是说,你请客吃顿饭的钱,够这个AI解一个困扰人类几十年的数学难题。
这个故事的核心不是AI有多牛,虽然它确实很牛。这个故事的核心是:当把一个顶级数学难题的解决成本从“一个数学家的一生”降低到“一顿饭钱”的时候,我们的世界会发生什么?这才是真正让人后背发凉,又兴奋得睡不着觉的事儿。
先让AI学会解题的“普通话”
要想让AI干活,首先得让它听懂数学界的官方语言。人类数学家开会用英语、法语或者手写公式,但这对于AI来说太随便了,容易产生歧义。所以,研究人员给AI配了一个超级严格的翻译官。
这个翻译官叫“Lean”。它是一个定理证明器。你可以把它想象成数学界的编译器。咱们写代码,写错了编译器会报错;你用Lean写数学证明,证明过程有漏洞,它也会毫不留情地给你指出来。
AI每想出一个解题步骤,都得用Lean这种精确到变态的语言写出来。这一步就像是把脑子里天马行空的想法,翻译成一句一句、严丝合缝的机器指令。语言统一了,AI和计算机之间才能进行真正有效的对话,而不是鸡同鸭讲。
光有翻译官还不够,AI自己得有个主心骨。研究人员就给这个AI起名叫“智能体”。这个智能体的工作模式非常简单粗暴,有点像咱们小时候做数学题,一边算一边对答案。它先自己琢磨着写证明,写完之后立刻交给Lean这个铁面无私的裁判去验证。
对了,就鼓掌;错了,就报错。然后AI就根据这个报错,回去修改自己的证明。这个过程不需要人类插手,AI自己跟自己就能玩得挺嗨。就这么循环往复,像一个特别有耐心、永远不知疲倦的学霸,在那儿一遍遍地刷题、订正、再刷题。
然后AI开始像码农一样写证明
那这个AI具体是怎么工作的呢?它的工作流程其实非常像我们写代码。你想想,你写一个程序,是不是先写个大概框架,然后运行一下,看看有没有语法错误?有bug就改,改完再跑,直到程序能正常运行。
这个AI的工作流程简直一毛一样。它先自己“突发奇想”,生成一段数学证明的草稿。这段草稿可能漏洞百出,逻辑跳跃,就像新手程序员写的满是拼写错误的代码。但这不重要,重要的是它敢于先写出来。
写完之后,它就把这段草稿扔给刚才说的Lean翻译官。Lean会非常认真地检查每一步推导是否符合逻辑规则。这就像是代码编译器在检查你的代码有没有语法错误。如果有错误,Lean会吐出一堆错误信息,告诉AI:你这一步走不通,这儿推理有问题。
AI收到错误反馈后,就像程序员看到编译器报错一样,皱皱眉头(当然它没有眉头),然后根据错误信息去修改自己的证明。它可能会换一种思路,或者在中间补上缺失的逻辑步骤。改完之后,再提交给Lean检查。如此反复,直到Lean完全认可,没有任何报错为止。
这个过程看起来有点笨拙,甚至有点枯燥。但它极其有效。它把一个虚无缥缈的“创造力”问题,转换成了一个实实在在的“调试”问题。AI不需要一开始就写出完美的证明,它只需要学会从错误中不断迭代就行了。这不就是一个超级理性、永不动怒的程序员的日常工作吗?
几十年的老难题被AI当了练习册
准备工作都做完了,该真刀真枪地上了。研究人员给这个AI布置的作业,就是那个让无数数学家头疼的埃尔德什问题清单。这个清单就像是数学界的“武林高手排行榜”,能解决上面任何一个问题,都足以在数学史上留名。
埃尔德什本人是个超级古怪又伟大的数学家。他一生四处游历,跟人合著论文,遇到哪个数学家就问人家一个数学问题,答上来就请人家吃饭。他的问题以“难”和“有趣”著称。几十年过去了,353个问题里,数学家们靠着人脑的智慧,一个脚印一个坑地解决了不少,但剩下那些就像顽固的堡垒。
我们的AI选手上场了。它可没有什么敬畏之心。在它眼里,这些不是闪耀着智慧光芒的人类瑰宝,而是一个个等待被“编译通过”的代码模块。它二话不说,开始一个一个地啃。
结果让人大跌眼镜。这个AI完全自主地,不需要任何人教它新方法,不需要任何人帮它开个头,就那么自己跟自己较劲,把其中9个堡垒给攻下来了。注意,是完全自主。不是人类数学家想了个思路让AI去验证,而是AI自己从零到一,找到了钥匙,打开了锁,还把整个开锁过程的图纸(严格的形式化证明)给画了出来。每个问题的成本,只有几百美元。这感觉就像你用家里的零花钱,买了一支军队,帮你打赢了一场仗。
不只一个战场,AI又顺手抄了序列数据库
你以为这就完了?那你也太小看这个AI了。埃尔德什问题只是它的主攻方向之一。它就像个精力过剩的学霸,做完了一张卷子还不过瘾,顺手又拿起了另一本习题集。
这本习题集叫OEIS,全称是“整数序列在线百科全书”。听着名字挺唬人,其实你可以把它想象成一个超大型的数列字典。比如,1, 1, 2, 3, 5, 8… 这个斐波那契数列就在里面。OEIS从1964年就开始建立了,几代数学家往里添加了各种各样的数列,同时也记录下了关于这些数列的许多猜想。
这些猜想是什么意思呢?就好比有人观察到了一个规律:你看这个数列的前几项,好像是那样发展的。我猜测第100项应该是某个数。但这个猜想没有被证明,只是一个聪明的猜测。
我们的AI来了之后,对着OEIS里的492个尚未被证明的猜想,又是一顿操作猛如虎。结果,它成功证明了其中44个猜想是真的。44个!这效率,简直就像用收割机收麦子。过去数学家可能要花几个月甚至几年去证明一个猜想,现在AI在几天内就搞定了44个。
这些被证明的猜想,立刻就能变成可靠的数学定理,被应用到组合数学、图论、代数几何,甚至量子光学的研究中。这不再是AI在象牙塔里玩儿的智力游戏,而是实打实地为其他领域的科学家提供了趁手的工具。
便宜才是硬道理,数学研究的游戏规则变了
好了,现在我们来回答最开始那个灵魂拷问:当解决一个数学难题的成本,从“一个数学家的一生”降到“一顿饭钱”,到底会发生什么?
首先,数学研究的门槛被彻底砸烂了。以前,一个数学问题之所以是“未解决的”,往往是因为它太难了,全世界只有少数几个顶尖大脑有能力去思考它。现在不一样了。只要你能付得起几百美元的电费和算力费,你就能“雇佣”这个AI去帮你攻克那些曾经的学术高峰。这感觉就像,过去你要想开一家工厂,你得自己会造机床;现在呢,你去市场上买一台现成的、好用的机床就行了。
其次,数学知识的生产速度会进入一个爆发期。过去几百年,人类积累的数学定理是呈线性增长的。一个天才一生能发现一两个重要定理就名垂青史了。但AI可以24小时不间断地工作,它可以同时开启成百上千个“证明任务”。以前需要几代人接力才能解决的问题,现在可能只需要一个周末。数学不再是一门“慢艺术”,而变成了一种“快制造”。
最后,也是最关键的,数学家的角色会发生根本性的转变。他们可能不再需要亲自下场去解决那些具体的技术难题了。他们的工作会变成什么呢?可能会变成“问题提出者”和“思想架构师”。他们需要去想象新的数学结构,提出更有深度、更原创的问题,然后交给AI去处理那些繁琐的证明细节。数学家从一个苦哈哈的“矿工”,变成了一个指点江山的“勘探队长”。
一个简单版本照样能打,这技术没什么秘密
为了证明这不是什么黑魔法,也不是只有DeepMind这种顶级团队才能玩得起的阳春白雪,研究人员还做了一个非常“损”的测试。他们搞了一个精简版的人工智能代理程序。
这个精简版没了各种花里胡哨的功能,算法也简单得多。它核心就干两件事:生成证明、然后用Lean验证。就这么来回倒腾,像个最简单的钟摆一样。你可以把它想象成普通人家用的计算器,而之前那个完整版是超级计算机。
按理说,这种“丐版”智能体,应该被那些复杂的埃尔德什问题虐得找不着北吧?但结果再一次让人惊掉了下巴。这个精简版,竟然也成功地复现了之前的成功。它也解决了几个同样量级的难题。
这个实验结果透露了一个让人震惊的事实:这套方法的核心逻辑非常健壮,它的有效并不依赖于太多复杂的技巧。就像学游泳,你不需要先学会蝶泳、仰泳,只需要掌握了最基础的换气和蹬腿,你就能在水里浮起来。这个精简版智能体,就是掌握了“换气和蹬腿”的数学AI。
换句话说,这种数学突破的能力,未来很可能会变得非常普遍。它不是某个公司的独门秘籍,而是一个可以被开源、被复制的算法思路。这意味着,用几百美元解决数学难题的那一天,可能会比我们所有人想象的来得都要快。到时候,数学这个曾经的智慧神殿,可能真的要变成一个人来人往的热闹工厂了。各位数学家们,准备好迎接你们的AI工友了吗?它不会跟你抢咖啡,但它会悄悄把你积攒了几十年的难题,当成周末小菜给解决了。
为什么只解出了9道而不是全部
353道题只解出9道,听起来不多对吧。但你得这么想,这些题都是全世界的数学家搞了几十年都没搞定的。AI能在这么短时间内拿下9道,已经非常恐怖了。
这就像让你参加奥运会,你从来没训练过,结果上去就拿了个铜牌。关键是这AI还是个通用系统,不是专门为这几道题定制的。给它换个领域,它照样能干活。所以接下来它解出更多题,只是个时间问题。
这种能力会用到什么地方
AI能解数学题,就能做很多事情。数学是所有科学的基础。AI能证明数学定理,就能帮物理学家推导公式,帮生物学家分析基因序列,帮工程师优化设计。
比如说,你搞芯片设计,里面很多布局问题本质上就是数学优化问题。AI连几百年没人解的纯数学难题都能搞定,你那些芯片布线对它来说就是小菜一碟。这就好比让博尔特去跑小区的运动会,完全降维打击。
开源版本什么时候能出来
现在这技术还在谷歌手里,不开源。但按照技术发展的规律,开源版本不会太远。就像大语言模型,一开始也是谷歌OpenAI有,现在谁都能跑个开源模型。
到时候你可以在自己的电脑上跑这套数学证明系统。你扔给它一道题,它帮你证明。甚至你写论文的时候,它可以帮你检查证明过程有没有漏洞。这就像Word给你的文档做拼写检查,不过是给数学证明做逻辑检查。
数学变成福特工厂是什么梗?
数学研究从手工作坊式的个人手艺活,变成了流水线式的批量生产。
大概一百年前,福特汽车的老板亨利·福特搞了个大发明,叫“流水线生产”。以前造一辆车,得几个老师傅围着车慢慢敲,几个月才能出一辆,就跟手工作坊一样。福特把造车拆成84个小步骤,车自己在那条线上走,每个工人只做一个动作,结果造一辆车的时间从12个半小时直接砍到一个半小时。这就叫工业化、标准化、规模化。
Reddit网友说“数学变成福特工厂”:以前解数学难题,得靠一个天才数学家趴在桌上想好几年,就像敲钟一样慢。现在DeepMind这个AI,把“解数学题”这个事也给流水线化了——给AI一个数学问题,它自己在那算,几天就给你一个答案。你说这不是福特工厂是什么?
而且这个比喻还有个隐藏的梗,就是那个“画一条线一万美元”的故事。说的是福特公司的电机坏了,请了个专家斯坦门茨来修。专家听了三天,在电机上画了一条线,说把这里的线圈减少几圈。电机果然好了。专家开价一万美元,别人嫌贵,他说:画那条线只值1美元,但知道在哪里画线值9999美元。
这个故事的潜台词是:知识和技术本身是有巨大价值的。放在数学圈也是一样,AI能解这些题,靠的不是蛮力,而是它脑子里装的那些数学知识和推理能力。这个“知识就是财富”的道理,一百年前画条线值一万美金,一百年后AI解道题值几百美元,本质是一个意思。