AI强大解题能力迫使数学家讲实话:数学核心是一种认知过程而非解题结果
数学被AI“干掉”了?别慌,数学家们自己先“疯”了
数学要被AI“团灭”了?别急着下结论。大卫·贝西斯(David Bessis),一位前数学家兼AI公司创始人,用亲身经历告诉你:数学的核心从来不是证明定理,而是理解和创造概念。当AI像下棋一样狂飙定理时,数学家们正面临一场“定理经济”的崩盘——但这场危机也可能逼着他们终于说出那个藏了几千年的秘密:我们其实都是“心理学部门”的。
我亲手“扔掉”了一个顶级定理,却一点都不心疼
这事儿得从我自己的“作死”经历说起。有一次在瑞士洛桑,我正为最后一次学术会议演讲做准备,突然灵感爆棚,想到了一个超棒的定理。那感觉就像突然看穿了魔术师的把戏,整个证明过程清晰得不像话。
我脑子一热,直接在最后一页幻灯片的最底下,用一行小字当“彩蛋”给标注了。我心想,反正我也要离开学术界去搞AI创业了,没空写正规论文。就把这个定理当成漂流瓶扔进大海,祈祷哪天有个聪明的年轻数学家能捡到它,把它发展成一套更牛的理论。到时候,说不定还能混个“贝西斯胞腔分解定理”的冠名权。
现在想想,这想法太天真了。我都把结果“占坑”了,谁还有动力去给我写证明啊?这就好比你在谜题书上用铅笔写了个“我知道答案”,然后把书合上放回书架,指望别人替你写出解题过程。
那我的“第二好”的定理呢?它躺在我一篇老早的预印本里,叫“定理0.5”。这定理证明起来出奇地简单,只要把前人一些经典论文里的公理换汤不换药地改一改,几页纸就能搞定。但我愣是没把它投出去,因为要把前面几百页的准备工作写清楚,太麻烦了。
你可能会觉得,数学家的硬骨头不就是证明定理吗?我这两个例子恰恰说明,有时候最难的不是证明,而是“猜到”应该有这么一个定理,并且创造一个能把这个定理轻松讲明白的语言框架。一旦概念和定义搞对了,证明就像穿上滑雪板从山顶往下冲,一路顺风。
就连大数学家让-皮埃尔·塞尔(Jean-Pierre Serre)都说过,他写那篇革命性的层论论文时,压根没费脑子思考,一切都自然而然地到位,打字机自己就“吐”出了一百页。可惜我不是塞尔,他也没法把打字机借给我。
所以我最闪光的数学点子就这么“难产”了。后悔吗?也还好。我的预印本挂在arXiv上,被引用了好几十次,我定义的那个新语言框架,后来也成了一本七百页厚书的基石。说句大实话,我能解决领域里一个著名猜想、拿到终身教职,靠的其实是我那些“不值钱”的定义和概念,而不是最后那个漂亮的定理证明。
数学圈的“潜规则”:只许做题,不许谈感觉
过去几个月,看着AI在数学领域狂飙突进,我心里那叫一个五味杂陈。按理说,我这种既搞过数学又搞过AI的,应该乐见其成。但现实是,我困惑、担心,还有点伤感。
我总觉得,大众对数学的理解有严重偏差。我把这个偏差叫做“官方数学”和“秘密数学”的冲突。
“官方数学”就是你在课本上看到的那套:从公理出发,机械地推导定理。这是个极客天堂,非对即错,容不下半点废话。而“秘密数学”才是那个活生生的人的故事:我们为啥要发明这套符号游戏?我们的大脑是怎么跟它互动的?数学家们又是靠哪些奇葩的脑力技巧,不断开疆拓土的?
“秘密数学”从来没进过课程大纲,因为它太软、太主观了,跟“官方数学”那种冷、硬、逻辑严密、号称“宇宙语言”的形象完全不符。在外人看来,讲“秘密数学”就像在给数学搞廉价的心理辅导,上不了台面。
这就导致了数学家们普遍的精神分裂。数学圈有个“直觉俱乐部”,第一守则就是:你不能谈论直觉俱乐部。第二守则:如果你非要说,也得说得好像这事儿无关紧要,因为咱们不是心理系。第三守则:定义不值钱,解释工作倒扣分,最好的职位永远给那些证明了最难定理的人。
你觉得我夸张?看看大数学家哈代(G. H. Hardy)在自传里说的:“没有什么鄙视,比创造者对那些解释者的鄙视更深刻,也更有道理了。解释、批评、欣赏,那是二流头脑才干的活儿。”这话说得够绝吧?关起门来,数学家们没少抱怨哈代这话太狠,都知道教学很重要,都知道真正的功夫往往花在理解已有成果上。但一到了公众面前,他们就得遵守圈内“潜规则”:证明定理,闭嘴干活!
唯一的例外是,你拿了菲尔兹奖,就可以随便说了。1982年的菲尔兹奖得主比尔·瑟斯顿(Bill Thurston)就是个刺头。他曾在一个论坛上回复一个焦虑的本科生说:“数学的产物是清晰和理解,而不是定理本身。”他强调,数学存在于一个活生生的数学家社群中,真正的满足感来自于向他人学习和分享。这观点太超前了,以至于很多人都觉得这只是“感觉良好”的鸡汤。
当AI成为“做题家”,数学家们慌了
好了,背景铺完了。现在AI来了,它正在系统性地利用数学圈这套“潜规则”的漏洞。
一切的导火索是图灵奖得主辛顿(Geoff Hinton)的一个演讲。他说:“我同意哈萨比斯的看法,AI在数学上会特别容易突破,因为数学是一个封闭系统,就像围棋和国际象棋一样。”
听到这话,我整个人都不好了。我习惯大众对数学有误解,但我没想到一位图灵奖得主会拿数学和棋类游戏相提并论。
问题是,顶尖AI实验室真的在这么干。当AI下赢围棋后,他们下一个目标就是“搞定数学”。这投资故事太性感了:“我们既然能搞定围棋,就能搞定数学!”于是,巨额资金涌向了“AI for math”的初创公司。
今年2月,一个由11位顶尖数学家(包括菲尔兹奖得主)组成的团队,发起了“第一证明”(First Proof)项目,发布了10道“研究级数学题”作为AI的测试基准。他们想客观地看看,AI到底能不能独立解决研究级问题。
结果呢?像谷歌、OpenAI这样的巨头闻风而动,据说10道题里AI搞定了6到8道。但他们也发现了严重问题:AI生成了海量的垃圾内容,包括一些声称被“Lean”验证过的错误证明。更离谱的是,OpenAI自己都不确定他们的解答哪些是对的。最后还得靠这些义务劳动的数学家们去检查。
你可能会说,人写的证明也有错啊。但区别在于,人写的证明通常是“可理解的”,即使有bug,也容易修。而AI生成的证明,像个黑箱,你不知道它为啥这么做,思路是什么。丹尼尔·利特(Daniel Litt)教授的评价很到位:AI的解答缺乏“追求真理”的特质,写得一塌糊涂,核心思想完全看不清,而且不会像人类那样,在写作过程中发展出新的有用的概念和术语。
三盆冷水:为什么AI离“搞定数学”还差着十万八千里
别急着喊“数学已死”,至少有三个深层原因,让AI离“搞定数学”还远着呢。
第一盆冷水:题目难度有水分。
所谓“研究级问题”,其实更接近“技术性引理”,就是在证明大定理过程中遇到的、几段话或几页纸就能搞定的中间步骤。从技术引理到正式论文,隔着一个太平洋;从论文到突破,又一个太平洋;从突破到菲尔兹奖级别,还有好几个大洋。第一证明项目的负责人也承认,他们的第一波题目就是为了测测水温。如果当初谷歌或OpenAI拿了满分,媒体标题肯定会是:“人类数学界全军覆没,AI核平十大难题”。这误解就大了去了。
第二盆冷水:不可理解即“无意义”。
这是最深刻也最难解释的一点。不可理解的证明,问题远不止“正确性”。就算它完全正确,它对数学知识库来说也是“非累积性”的(not accretive)。
举个例子,一家叫Math Inc的AI公司,用Lean形式化了2022年菲尔兹奖得主维亚佐夫斯卡(Maryna Viazovska)关于球体堆积问题的开创性工作。这听起来很厉害吧?结果遭到了“形式数学”社区——也就是那些致力于把人类数学代码化的人——的强烈反对。
为什么?因为Math Inc扔出的是一坨20万行的、未经审核的、靠“氛围编程”(vibe-coded)生成的代码。这玩意儿就像一辆自动驾驶汽车虽然开到了目的地,但全程你都不知道它为啥拐弯。这能合并进人类知识的“主分支”吗?
真正的数学工作,除了证明,还得有“经典化”(canonization)的过程——把一次性的证明提炼成通用的、可复用的、与现有体系兼容的抽象概念和接口。不可理解的数学,它没法在你大脑这台“硬件”上“编译”通过。它没有意义。这就好比你虽然知道答案,但完全不懂解题过程,这能叫学会了数学吗?
第三盆冷水:数学的“知识盈余”悬顶之剑。
我的一个亲身经历最能说明问题。有一次我绞尽脑汁想出了一个新概念,感觉像是天才的原创。结果在整理的时候突然发现,这个概念本质上等价于代数K理论里一个极其冷门的概念。我所谓的天才灵感,其实是“似曾相识”。
这种现象在数学里太普遍了。现代的数学体系复杂到令人发指,大量深刻的联系静静地躺在那里,等待被发现。我把这些尚未收割的“潜在红利”叫做“知识盈余”(Overhang)。
AI的优势在于,它能读遍所有数学文献。凭借超强的记忆和模式匹配能力,它极有可能率先“收割”这些盈余——通过发现不同领域间的联系,轻松解决一些遗留问题。这就好比,人类数学家一辈子读几百篇论文,而AI读了几百万篇,它总能在里面找到些你没发现的“彩蛋”。
但同时,这也带来一个“谜”。正如利特教授问的:一个人类如果有AI这样的能力,肯定已经天天在证明惊人定理了。为啥AI还没做到?答案很可能是,AI和人类处理数学的方式完全不同。AI在某些方面超强,但在另一些方面(比如构建概念、理解意义)可能还是个“渣渣”。这就让整个“基准测试”变得很可笑。AI可能先于人类获得“解题霸权”,但离“概念构建”的及格线还远得很。
数学家们该醒醒了:别只盯着“解题”这杆秤
现在最微妙的地方来了。当你试图解释“数学不只是解题”时,在AI信徒看来,你就是在找借口、不肯承认失败。但事实上,从古到今,顶尖的数学家一直在强调这件事。
笛卡尔在1628年就曾怒批古希腊数学家,说他们用“一种邪恶的狡猾”,把“真正的数学”(他认为是一种内在认知方法论)给“压制”了,只发表了“幼稚无用的东西”,用“巧妙的论证”证明一些“贫瘠的真理”。
陶哲轩也说过类似的话:“在数学中,过程往往比问题本身更重要。问题只是衡量进展的一个代理。”他预测十年内,AI能做数学家现在大部分工作,但我们会发现那并非我们工作的核心。
所以,当OpenAI的总裁在忙着给“第一证明”项目点赞,当他们的CEO在感叹自己被AI写代码淘汰时,你该明白,这一切都只是前戏。
最可怕的“核爆”场景是:某个AI实验室砸几十亿美金,丢出一个200万行Lean代码证明的黎曼猜想。然后呢?数学家们能说“这证明我们看不懂”吗?这话说出来,在99.9999%的人听来,就是酸葡萄。
辛顿都不明白这其中的区别,你能指望普通大众明白吗?
解法?或许是一场“产品召回”
那数学家们能做点啥?我觉得,没什么灵丹妙药。但第一步,必须勇敢地站出来,彻底纠正那个流传了几千年的关于数学的错误叙事。
这可能是史上最大规模的“产品召回”。我们向几十亿人卖了一个假数学概念,现在该还债了。数学不是一个可以“被解决”的奖杯,它不是个封闭系统。它的核心是“可理解性”,是提升我们世界观的过程,是大脑的“神经可塑性锻炼”。
也就是说:
数学最大的笑话是:几千年来我们教的是“答案”,但真正值钱的其实是“搞懂答案的过程”。AI把答案批发得比菜市场还便宜,人类终于被逼着承认——我们教的可能一直都是个假数学。
总结: AI能狂飙定理,但它难以复制数学中的“理解”与“概念构建”。这场危机迫使数学家们公开承认,数学的核心是认知过程而非解题结果,这场“产品召回”或许能重塑我们对数学的根本认知。
极客辣评
人类被自己发明的“数学”概念给坑了。我们教了几十亿人“数学就是解题”,结果AI真把题全解了,我们又改口说“不不不,数学其实是理解”。这事儿像极了考试前老师说“这题不考”,考完又说“但这题很重要”——问题是你早干嘛去了?
作者单位背景: 大卫·贝西斯(David Bessis),前数学家,数学著作《Mathematica: a Secret World of Intuition and Curiosity》作者,机器学习初创公司创始人。