数学就是解题？错！数学其实是认知过程

2026-07-02 6K banq

AI强大解题能力迫使数学家讲实话：数学核心是一种认知过程而非解题结果

数学被AI“干掉”了？别慌，数学家们自己先“疯”了

数学要被AI“团灭”了？别急着下结论。大卫·贝西斯（David Bessis），一位前数学家兼AI公司创始人，用亲身经历告诉你：数学的核心从来不是证明定理，而是理解和创造概念。当AI像下棋一样狂飙定理时，数学家们正面临一场“定理经济”的崩盘——但这场危机也可能逼着他们终于说出那个藏了几千年的秘密：我们其实都是“心理学部门”的。

我亲手“扔掉”了一个顶级定理，却一点都不心疼

这事儿得从我自己的“作死”经历说起。有一次在瑞士洛桑，我正为最后一次学术会议演讲做准备，突然灵感爆棚，想到了一个超棒的定理。那感觉就像突然看穿了魔术师的把戏，整个证明过程清晰得不像话。

我脑子一热，直接在最后一页幻灯片的最底下，用一行小字当“彩蛋”给标注了。我心想，反正我也要离开学术界去搞AI创业了，没空写正规论文。就把这个定理当成漂流瓶扔进大海，祈祷哪天有个聪明的年轻数学家能捡到它，把它发展成一套更牛的理论。到时候，说不定还能混个“贝西斯胞腔分解定理”的冠名权。

现在想想，这想法太天真了。我都把结果“占坑”了，谁还有动力去给我写证明啊？这就好比你在谜题书上用铅笔写了个“我知道答案”，然后把书合上放回书架，指望别人替你写出解题过程。

那我的“第二好”的定理呢？它躺在我一篇老早的预印本里，叫“定理0.5”。这定理证明起来出奇地简单，只要把前人一些经典论文里的公理换汤不换药地改一改，几页纸就能搞定。但我愣是没把它投出去，因为要把前面几百页的准备工作写清楚，太麻烦了。

你可能会觉得，数学家的硬骨头不就是证明定理吗？我这两个例子恰恰说明，有时候最难的不是证明，而是“猜到”应该有这么一个定理，并且创造一个能把这个定理轻松讲明白的语言框架。一旦概念和定义搞对了，证明就像穿上滑雪板从山顶往下冲，一路顺风。

就连大数学家让-皮埃尔·塞尔（Jean-Pierre Serre）都说过，他写那篇革命性的层论论文时，压根没费脑子思考，一切都自然而然地到位，打字机自己就“吐”出了一百页。可惜我不是塞尔，他也没法把打字机借给我。

所以我最闪光的数学点子就这么“难产”了。后悔吗？也还好。我的预印本挂在arXiv上，被引用了好几十次，我定义的那个新语言框架，后来也成了一本七百页厚书的基石。说句大实话，我能解决领域里一个著名猜想、拿到终身教职，靠的其实是我那些“不值钱”的定义和概念，而不是最后那个漂亮的定理证明。

数学圈的“潜规则”：只许做题，不许谈感觉

过去几个月，看着AI在数学领域狂飙突进，我心里那叫一个五味杂陈。按理说，我这种既搞过数学又搞过AI的，应该乐见其成。但现实是，我困惑、担心，还有点伤感。

我总觉得，大众对数学的理解有严重偏差。我把这个偏差叫做“官方数学”和“秘密数学”的冲突。

“官方数学”就是你在课本上看到的那套：从公理出发，机械地推导定理。这是个极客天堂，非对即错，容不下半点废话。而“秘密数学”才是那个活生生的人的故事：我们为啥要发明这套符号游戏？我们的大脑是怎么跟它互动的？数学家们又是靠哪些奇葩的脑力技巧，不断开疆拓土的？

“秘密数学”从来没进过课程大纲，因为它太软、太主观了，跟“官方数学”那种冷、硬、逻辑严密、号称“宇宙语言”的形象完全不符。在外人看来，讲“秘密数学”就像在给数学搞廉价的心理辅导，上不了台面。

这就导致了数学家们普遍的精神分裂。数学圈有个“直觉俱乐部”，第一守则就是：你不能谈论直觉俱乐部。第二守则：如果你非要说，也得说得好像这事儿无关紧要，因为咱们不是心理系。第三守则：定义不值钱，解释工作倒扣分，最好的职位永远给那些证明了最难定理的人。

你觉得我夸张？看看大数学家哈代（G. H. Hardy）在自传里说的：“没有什么鄙视，比创造者对那些解释者的鄙视更深刻，也更有道理了。解释、批评、欣赏，那是二流头脑才干的活儿。”这话说得够绝吧？关起门来，数学家们没少抱怨哈代这话太狠，都知道教学很重要，都知道真正的功夫往往花在理解已有成果上。但一到了公众面前，他们就得遵守圈内“潜规则”：证明定理，闭嘴干活！

唯一的例外是，你拿了菲尔兹奖，就可以随便说了。1982年的菲尔兹奖得主比尔·瑟斯顿（Bill Thurston）就是个刺头。他曾在一个论坛上回复一个焦虑的本科生说：“数学的产物是清晰和理解，而不是定理本身。”他强调，数学存在于一个活生生的数学家社群中，真正的满足感来自于向他人学习和分享。这观点太超前了，以至于很多人都觉得这只是“感觉良好”的鸡汤。

当AI成为“做题家”，数学家们慌了

好了，背景铺完了。现在AI来了，它正在系统性地利用数学圈这套“潜规则”的漏洞。

一切的导火索是图灵奖得主辛顿（Geoff Hinton）的一个演讲。他说：“我同意哈萨比斯的看法，AI在数学上会特别容易突破，因为数学是一个封闭系统，就像围棋和国际象棋一样。”

听到这话，我整个人都不好了。我习惯大众对数学有误解，但我没想到一位图灵奖得主会拿数学和棋类游戏相提并论。

问题是，顶尖AI实验室真的在这么干。当AI下赢围棋后，他们下一个目标就是“搞定数学”。这投资故事太性感了：“我们既然能搞定围棋，就能搞定数学！”于是，巨额资金涌向了“AI for math”的初创公司。

今年2月，一个由11位顶尖数学家（包括菲尔兹奖得主）组成的团队，发起了“第一证明”（First Proof）项目，发布了10道“研究级数学题”作为AI的测试基准。他们想客观地看看，AI到底能不能独立解决研究级问题。

结果呢？像谷歌、OpenAI这样的巨头闻风而动，据说10道题里AI搞定了6到8道。但他们也发现了严重问题：AI生成了海量的垃圾内容，包括一些声称被“Lean”验证过的错误证明。更离谱的是，OpenAI自己都不确定他们的解答哪些是对的。最后还得靠这些义务劳动的数学家们去检查。

你可能会说，人写的证明也有错啊。但区别在于，人写的证明通常是“可理解的”，即使有bug，也容易修。而AI生成的证明，像个黑箱，你不知道它为啥这么做，思路是什么。丹尼尔·利特（Daniel Litt）教授的评价很到位：AI的解答缺乏“追求真理”的特质，写得一塌糊涂，核心思想完全看不清，而且不会像人类那样，在写作过程中发展出新的有用的概念和术语。

三盆冷水：为什么AI离“搞定数学”还差着十万八千里

别急着喊“数学已死”，至少有三个深层原因，让AI离“搞定数学”还远着呢。

第一盆冷水：题目难度有水分。

所谓“研究级问题”，其实更接近“技术性引理”，就是在证明大定理过程中遇到的、几段话或几页纸就能搞定的中间步骤。从技术引理到正式论文，隔着一个太平洋；从论文到突破，又一个太平洋；从突破到菲尔兹奖级别，还有好几个大洋。第一证明项目的负责人也承认，他们的第一波题目就是为了测测水温。如果当初谷歌或OpenAI拿了满分，媒体标题肯定会是：“人类数学界全军覆没，AI核平十大难题”。这误解就大了去了。

第二盆冷水：不可理解即“无意义”。

这是最深刻也最难解释的一点。不可理解的证明，问题远不止“正确性”。就算它完全正确，它对数学知识库来说也是“非累积性”的（not accretive）。

举个例子，一家叫Math Inc的AI公司，用Lean形式化了2022年菲尔兹奖得主维亚佐夫斯卡（Maryna Viazovska）关于球体堆积问题的开创性工作。这听起来很厉害吧？结果遭到了“形式数学”社区——也就是那些致力于把人类数学代码化的人——的强烈反对。

为什么？因为Math Inc扔出的是一坨20万行的、未经审核的、靠“氛围编程”（vibe-coded）生成的代码。这玩意儿就像一辆自动驾驶汽车虽然开到了目的地，但全程你都不知道它为啥拐弯。这能合并进人类知识的“主分支”吗？

真正的数学工作，除了证明，还得有“经典化”（canonization）的过程——把一次性的证明提炼成通用的、可复用的、与现有体系兼容的抽象概念和接口。不可理解的数学，它没法在你大脑这台“硬件”上“编译”通过。它没有意义。这就好比你虽然知道答案，但完全不懂解题过程，这能叫学会了数学吗？

第三盆冷水：数学的“知识盈余”悬顶之剑。

我的一个亲身经历最能说明问题。有一次我绞尽脑汁想出了一个新概念，感觉像是天才的原创。结果在整理的时候突然发现，这个概念本质上等价于代数K理论里一个极其冷门的概念。我所谓的天才灵感，其实是“似曾相识”。

这种现象在数学里太普遍了。现代的数学体系复杂到令人发指，大量深刻的联系静静地躺在那里，等待被发现。我把这些尚未收割的“潜在红利”叫做“知识盈余”（Overhang）。

AI的优势在于，它能读遍所有数学文献。凭借超强的记忆和模式匹配能力，它极有可能率先“收割”这些盈余——通过发现不同领域间的联系，轻松解决一些遗留问题。这就好比，人类数学家一辈子读几百篇论文，而AI读了几百万篇，它总能在里面找到些你没发现的“彩蛋”。

但同时，这也带来一个“谜”。正如利特教授问的：一个人类如果有AI这样的能力，肯定已经天天在证明惊人定理了。为啥AI还没做到？答案很可能是，AI和人类处理数学的方式完全不同。AI在某些方面超强，但在另一些方面（比如构建概念、理解意义）可能还是个“渣渣”。这就让整个“基准测试”变得很可笑。AI可能先于人类获得“解题霸权”，但离“概念构建”的及格线还远得很。

数学家们该醒醒了：别只盯着“解题”这杆秤

现在最微妙的地方来了。当你试图解释“数学不只是解题”时，在AI信徒看来，你就是在找借口、不肯承认失败。但事实上，从古到今，顶尖的数学家一直在强调这件事。

笛卡尔在1628年就曾怒批古希腊数学家，说他们用“一种邪恶的狡猾”，把“真正的数学”（他认为是一种内在认知方法论）给“压制”了，只发表了“幼稚无用的东西”，用“巧妙的论证”证明一些“贫瘠的真理”。

陶哲轩也说过类似的话：“在数学中，过程往往比问题本身更重要。问题只是衡量进展的一个代理。”他预测十年内，AI能做数学家现在大部分工作，但我们会发现那并非我们工作的核心。

所以，当OpenAI的总裁在忙着给“第一证明”项目点赞，当他们的CEO在感叹自己被AI写代码淘汰时，你该明白，这一切都只是前戏。

最可怕的“核爆”场景是：某个AI实验室砸几十亿美金，丢出一个200万行Lean代码证明的黎曼猜想。然后呢？数学家们能说“这证明我们看不懂”吗？这话说出来，在99.9999%的人听来，就是酸葡萄。

辛顿都不明白这其中的区别，你能指望普通大众明白吗？

解法？或许是一场“产品召回”

那数学家们能做点啥？我觉得，没什么灵丹妙药。但第一步，必须勇敢地站出来，彻底纠正那个流传了几千年的关于数学的错误叙事。

这可能是史上最大规模的“产品召回”。我们向几十亿人卖了一个假数学概念，现在该还债了。数学不是一个可以“被解决”的奖杯，它不是个封闭系统。它的核心是“可理解性”，是提升我们世界观的过程，是大脑的“神经可塑性锻炼”。

也就是说：

数学最大的笑话是：几千年来我们教的是“答案”，但真正值钱的其实是“搞懂答案的过程”。AI把答案批发得比菜市场还便宜，人类终于被逼着承认——我们教的可能一直都是个假数学。

总结： AI能狂飙定理，但它难以复制数学中的“理解”与“概念构建”。这场危机迫使数学家们公开承认，数学的核心是认知过程而非解题结果，这场“产品召回”或许能重塑我们对数学的根本认知。

极客辣评

人类被自己发明的“数学”概念给坑了。我们教了几十亿人“数学就是解题”，结果AI真把题全解了，我们又改口说“不不不，数学其实是理解”。这事儿像极了考试前老师说“这题不考”，考完又说“但这题很重要”——问题是你早干嘛去了？

作者单位背景： 大卫·贝西斯（David Bessis），前数学家，数学著作《Mathematica: a Secret World of Intuition and Curiosity》作者，机器学习初创公司创始人。