OpenAI内部模型推翻了离散几何核心猜想引发争论

#大语言模型LLM #AGI通用人工智能 #ChatGPT等OpenAI技术 #符号推理与形式逻辑

2026-05-21 2 8K banq

一个通用AI模型推翻了离散几何领域存在四十年的核心猜想，证明单位距离图可以打破线性增长的限制。这项突破来自纯对话式AI，无需专业工具，其思路链长达125页，展示了AI跨界连接代数数论与组合几何的独特能力。

模型推翻了四十年没人能推翻的数学猜想

这个事情的核心特别简单。以前数学家们都觉得，在平面上随便画一堆点，这些点之间距离为1的连线数量最多只能跟点的数量成正比，不会多到哪里去。这个想法在数学界存活了快四十年，一直没人能打破它。结果OpenAI的一个普通对话模型，没有加什么数学专用外挂，就是纯聊天那种，直接把它推翻了。

这就好比你一直以为你家猫最多能跳一米高，结果有一天它直接跳上了冰箱顶。不是你眼花，是你之前的认知有问题。

人类猜想来源于对正方形网格的观察

要理解这个猜想为啥会被推翻，得先明白数学家们当初为啥会觉得它是对的。

想象一下你在纸上画一个巨大的正方形格子，就像围棋棋盘那样。在每个格子的交叉点上放一个点。然后你数一数那些正好相距一厘米的点对有多少。在大部分情况下，一个点只能跟它上下左右四个邻居保持这个精确距离。如果你把格子稍微压扁或者拉长，这个数量也不会暴涨。

所以数学家埃尔德什和莫泽在几十年前就猜，不管你怎么安排这些点的位置，单位距离的数量最多就是点数量的某个常数倍。就是线性关系，不会出现平方级别的暴涨。

这个猜想在数学界被当成一个靠谱的假设，因为它符合直觉，也符合所有已知例子的规律。就像一个老医生看病，看了一辈子都是一种模式，他自然觉得这个模式就是对的。

推翻猜想需要找到反例或者逻辑爆破

那么问题来了，想推翻这个猜想有两条路。

第一条很直接，就是找一个具体的点阵，把它的单位距离数量算出来，发现它远超线性增长。第二条路更狡猾，不具体构造出来，而是用数学证明这种点阵一定存在，虽然我画不出来，但是我知道它在那儿。

这次模型选择的是第二条路。它用了代数数论里的一些高级工具，像搭积木一样把论证搭起来，最后证明了一个结论：对于某些特殊的点集，单位距离的数量可以比点数量的线性倍还要多出一个次方级别的增长。简单说就是，不是乘以一个常数，而是点多到一定程度后，距离的数量会蹭蹭往上涨。

这就像你证明某个地方一定有金子，但你没挖出来。虽然看不见，但逻辑上它跑不掉。

模型连接了两个看似无关的数学领域

这事儿最让人拍大腿的地方是，模型把两个平时不怎么来往的数学分支给撮合到一块儿了。一个是组合几何，专门研究点、线、距离这些直观的东西。另一个是代数数论，研究的是整数方程的解，看起来跟平面上的距离八竿子打不着。

结果模型发现，某些代数数论里构造出来的环和理想，天然就能生成一些特殊的点阵，这些点阵的单位距离数量比你想象的多。这就好比你想做一道川菜，结果模型从法式甜点的厨房里找到了最关键的调料。

人类数学家不是说完全想不到这层关系，但要把这两个领域深度结合，需要一个人同时精通两边，还得有足够的想象力把它们串起来。这种人太少了。模型的好处是它看过所有领域的文献，没有学科偏见，不会觉得“这个东西不属于我的地盘”。

模型的思考过程足足有一百二十五页

这篇博客里贴出了模型的思考链，也就是它一步一步推理的过程，整理之后足足一百二十五页。这是什么概念呢，差不多是一本中篇小说。你让一个正常人从头读到尾都得花上大半天。

这个思考链不是模型一开始就完美输出的，而是通过反复提问、回溯、修正，慢慢长出来的。模型会在某个方向走到黑，发现走不通，然后退回来换一条路。这种试错的方式跟人类数学家做研究其实很像。区别在于模型不会累，不会烦，也不会因为某个方向看起来太离谱就放弃。

有人可能会说这不就是暴力搜索嘛。但问题是，如果只是随机乱试，你试到宇宙热寂也试不出这个结果。模型必须有某种程度上的“理解”，知道哪些方向值得试，哪些工具可能有用。

数学模型和人类团队验证了最终结论

模型产出结果之后，不是说直接就发了。OpenAI找了一帮数学家来审这个东西，其中不乏领域内的大牛。这些数学家花了时间，一条一条检查论证，最后确认这个证明是成立的。

这个环节特别重要。因为模型虽然能推理，但它自己也分不清什么是真的漏洞，什么是可以忽略的小问题。人类数学家的作用就像质检员，把成品的每个焊点都敲一遍，确保它不会散架。

而且有意思的是，这些数学家在看证明的过程中，自己也有了新的收获。他们说模型用的某些技巧虽然在代数数论里不算新鲜，但放到几何问题里就变成了神来之笔。这种跨界用法，之前根本没人想到。

这个突破对数学界的震动很大

有几个数学家在接受采访时说，他们看到这个结果的时候第一反应不是高兴，而是有点懵。因为在他们的认知里，这个猜想至少还能再活几十年，甚至可能永远都对。结果就这么被一个聊天机器人给收拾了。

更让他们不安的是，模型用的那些工具，他们其实都认识，只是从来没想过可以这么组合。这就像你家里摆着一堆乐高积木，放了十年，结果邻居家小孩过来五分钟拼出了一个你没见过的造型。不是因为你笨，是因为你的思维被经验锁死了。

当然也有人会说，这只是一个中等难度的猜想，又不是黎曼猜想那种级别。但问题不在于这个猜想本身有多重要，而在于模型展示出来的能力。它能跨界，能组合，能试错，还能输出一个人类能看懂的逻辑链条。这才是真正吓人的地方。

以后数学家的工作方式可能要变

以前数学家做研究，基本靠自己的脑子加上跟同行聊。现在多了一个选项，就是把模型当成一个超级能翻书、超级能打草稿的助手。你跟它说一个方向，它帮你穷举可能性。你给它一个思路，它帮你验证能不能走通。

这不代表数学家要失业。恰恰相反，数学家以后可能要干更高级的活儿，比如判断哪些问题是值得让模型去跑的，以及模型跑出来的结果怎么解释、怎么推广。就像当年计算器出现之后，数学家并没有消失，只是不再把时间花在手算开平方上。

这个模型现在能推翻一个猜想，下一步可能就是帮人类证明那些卡了几十年的难题。不是为了取代谁，而是让那些有才华的人能把精力放在更有创造性的部分，而不是在枯燥的试错里把自己耗干。

这个反例目前还看不到具体模样

有一点需要说清楚，模型证明了这种超线性增长的单元距离图一定存在，但没有把它具体画出来。这在数学里叫非构造性证明。我知道它在那儿，但我不知道怎么把它摆在桌面上。

这有点像你证明了你家某个柜子里一定有某本书，但柜子门锁着，你还打不开。书肯定在，就是拿不出来。对于理论数学来说，这已经算完成任务了。但对于那些想实际看看这个点阵长什么样的强迫症患者来说，可能会觉得有点隔靴搔痒。

不过换个角度想，如果模型真的把那个点阵画出来了，那反而可能更吓人。因为那个点阵的结构可能极其复杂，根本不是人类直觉能想象的。现在它只是告诉你存在，留给你一点想象空间，也算是温柔了。

这次使用的模型是通用模型不是数学专用工具

OpenAI在公告里特别强调了一点，用来推翻这个猜想的模型是他们的通用对话模型，不是专门为数学问题训练的特供版。也就是说，这个模型平时还能帮你写邮件、编故事、解释相对论，顺手干翻了一个四十年的数学猜想。

这就好比你家楼下那个平时帮你修水管的师傅，突然有一天拿了个菲尔兹奖。不是因为他转行了，是因为他本来就有那个能力，只是你之前没问。

通用模型能做到这件事，说明模型的推理能力已经泛化到了一个新的高度。它不是在背诵见过的题目，而是在用它的内部表征去处理全新的、没有标准答案的问题。这个信号比推翻一个猜想本身要重要得多。

社区讨论里有人拿哲学来解读

Hacker News的评论区照例出现了哲学讨论。有人搬出了维特根斯坦和艾耶尔那套理论，说数学真理本来就不是被“创造”出来的，而是从公理和定义里“推导”出来的。模型做的无非就是重新组合现有材料，这跟人类数学家做的事没有本质区别。

这话听着有点绕，但翻译过来就是：别大惊小怪的，数学本来就是这样玩的。你管它用脑子玩还是用硅片玩，反正结果对了就行。

也有反对的声音说，不管哲学上怎么掰扯，模型没有意识，没有审美，没有那种拍大腿喊“啊哈”的瞬间。所以它不算真正的发现。但支持者马上就怼回去了：你怎么知道它没有？你又不是它。

AI真能发现新知识吗：从数学本质到机器创新的哲学争吵

辩论起点：机器只会抄作业吗

有个网友叫m-hodges，他搬出哲学家A.J.艾耶尔和早期维特根斯坦的观点。这俩人说过啥呢？他们说数学本质上都是同义反复。你从几条公理和规则出发，推导出定理，其实并没有创造“新”事实，只是把规则里本来藏着的东西翻出来而已。

举例说，你定义“2+2=4”，然后推导出“4-2=2”。这算新知识吗？不算，因为你早就把答案写在定义里了。数学家每天做的事，就是在已知规则下不断翻转组合，发现那些“早就在那里但还没被看到”的结论。

如果人类数学家靠这种操作就被认为是“发现者”，那AI同样在做类似的事，为什么不能算发现？

反驳：牛顿那种跳跃不是抄能抄出来的

反对的人很快跳出来，领头是pseudocomposer。他们的观点很简单：你搞混了两种创新。

第一种叫“重组式创新”。这就好比你有乐高积木，拼出城堡、飞船、恐龙。每个零件都在盒子里，你只是找到新组合方式。绝大多数数学证明、代码实现、文章写作都属于这种。

第二种叫“范式突破式创新”。牛顿发明微积分之前，没人有微积分这块积木。他凭空造出了新零件。你没法通过排列组合旧积木得到微积分，因为旧积木里根本没有这个概念。

这些反对者说，AI干的都是第一种。你让AI学会所有古希腊数学，它再聪明也推导不出微积分，因为微积分需要“极限”这个全新概念。训练数据里没有这个词，它怎么跳得过去？

那人类凭什么能跳？这个问题就问到点子上了。

数学是被发现还是被发明

你要搞清楚AI能不能“发现”，得先弄清楚数学到底是个啥。这问题吵了两千年没停。

一派观点叫柏拉图主义。简单说就是数学真理本来就存在，在天上有个“数学空间”，所有定理都在那儿飘着。人类像考古学家，用手电筒照到一个发现一个。数字、三角形、微积分，一直都在那儿，只是我们之前没看到。

如果真是这样，那AI和人类没本质区别。大家都是在这个空间里搜索。人类用直觉和纸笔，AI用统计学和算力。谁找到新定理，谁就是发现者。

pulkitsh1234就支持这种看法。他说根本没有“全新”这回事。牛顿的微积分也得依赖之前代数、几何的全部积累。每样东西都建立在别的之上。人类和AI都只是在重新组合现实而已。

另一派反驳说你这是扯淡。midtake和bwfan123搬出哥德尔不完备定理来打脸。

哥德尔说了啥呢？他说任何稍微复杂的数学系统，里面一定有些命题你既不能证明也不能证伪。更狠的是，你无法用系统内部的方法证明这个系统不矛盾。

这意味着什么？意味着数学不是个封闭的“早已完成”的空间。历史上人类遇到无法回答的问题，比如3减去5等于多少，负数概念就蹦出来了。再比如√2这个数不能写成分数，无理数概念就诞生了。

每一步都是人类伸出脚踩到现有系统的边界，然后发明新概念来突破它。这可不是在现有积木里翻找，而是造出新积木。

那问题来了：AI能不能造出新积木？

历史打脸：人类一直在移动球门柱

有个特别好玩的现象。每次机器在某件事上超过人类，人类立刻改口说“那不算真智能”。

经典故事：1989年，国际象棋冠军卡斯帕罗夫放话说，机器永远不可能打败我。1997年深蓝赢了。然后大家说什么？他们说“那只是暴力穷举，不是真智慧”。

类似的话你也听过。下围棋赢了李世石？“只是蒙特卡洛树搜索加神经网络”。写诗写代码？“只是模式匹配”。画图画得不错？“只是抄训练集”。

你看出来没？这球门柱一直在动。一开始标准是“赢棋”，赢完标准变成“要像人那样思考”。给不出思考定义，标准又变成“要有意识”。意识怎么测？不知道，反正AI没有。

既然AI一次又一次跨过大家觉得“不可能”的门槛，那现在该轮到怀疑论者拿出硬理论，证明AI到底为什么绝对搞不定高级推理。光说“感觉不一样”不管用。

时间胶囊实验：真正公平的考场

整个讨论里最刺激的想法，是这个“时间截止AI”。

假设这样：你训练一个顶级大模型，但所有训练材料都来自1700年之前的科学和数学著作。不给他任何微积分、牛顿力学、现代物理学的知识。连微积分这个词都不让他看到。

然后你问他问题。问运动问题：一个球从斜坡滚下，速度怎么变化？一个行星绕太阳转，轨道怎么算？

如果这个AI能自己推导出微积分的基本定理，或者告诉你把白光通过三棱镜会分出七色，那就真是铁证。因为1700年前人类确实不知道这些。AI不是从训练数据里抄的，是从更早期的知识里自己蹦过去的。

这就能证明AI具备范式突破能力。

当然目前没人真做这个实验。主要因为要完全切掉所有1700年后知识很难。现代文本里到处藏着“微积分”“导数”这类词，怎么都洗不干净。但理论上，这个实验一锤定音。

回到原点：我们其实不懂自己

争到最后，大家发现一个尴尬的事。我们花那么多力气讨论AI能不能“真发现”，却一直没搞清楚人类自己是怎么“真发现”的。

你看科学家说“灵感来了”。那灵感啥玩意？是从潜意识里冒出来的旧信息重组，还是某种神秘的天启？神经网络学不也是从旧数据里重组？你能说清区别吗？

有人说“人类有意识”。意识又是什么？你怎么测一个证明过程是不是有意识的？

有人说“人类能理解因果”。那你让一个人解释苹果为什么会落地，他说重力。重力是啥？他说物体会相互吸引。吸引力哪来的？他说质量弯曲时空。弯曲是怎么产生的？他说……问到第五层，一样说不清。

我们以为人类和AI之间有道清晰的墙。墙这边是真智能，那边是假模仿。但每次想描述墙的具体位置，手就戳到空气里。

这就像你照镜子。你想搞清楚镜子里的人是不是真的。你让他动左手，他动左手。你让他眨眼，他眨眼。你拿刀子指他，他也拿刀指你。测试到最后，你发现最搞不清楚的反而是你自己到底是不是真的。

AI辩论也是这样。我们试图定义AI“实际上”在做什么，结果被迫面对一个事实：我们对人类自己创造力的运行机制，了解得少得可怜。

如果有一天，那个1700年版AI真推导出了微积分。有人会说“这只是高级统计插值”。有人会说“这算真正发现”。但也许到那天，这个区分本身已经不重要了。

就像你上网买东西。没人关心运输包裹的卡车是烧柴油的还是烧电的。你只关心包裹到没到。同样，如果AI能产出人类认可的新知识，那它是不是“真”发现，可能只是个语言游戏。

当然哲学家不会同意。但哲学家们已经吵了两千年，估计还能再吵两千年。