网友实证:GPT-5-Pro真的能证明新数学定理


GPT-5-Pro真的能证明新数学定理?我亲自用一篇凸优化前沿论文测试了它,结果令人震惊

最近在AI和学术圈的交叉领域有一个话题非常火热,那就是大型语言模型是否已经具备了进行真正意义上数学研究的能力,而不仅仅是复现或者组合已知的知识;当我看到有人声称GPT-5-Pro能够证明“新颖且有趣的数学”时,作为一名长期关注优化理论的研究者,我的第一反应是高度怀疑的——数学证明所需要的严谨性、创造性和深度直觉,真的是当前AI所能企及的吗?

为了彻底检验这个说法的真实性,我决定设计一个尽可能严格的测试,直接找一篇最新出炉的、包含明确未解决问题的前沿预印本论文,将其中的开放性问题抛给GPT-5-Pro,看看它究竟会作何反应;我选择的论文是arXiv编号2503.10138v1的这篇文章,它探讨的是光滑凸优化中一个非常自然且优美的问题。

这篇论文的核心问题可以这样理解:当我们使用梯度下降法来优化一个光滑的凸函数时,每一步迭代都会产生一个函数值,这些函数值在下降过程中会形成一条曲线;论文研究的是,梯度下降法的步长η需要满足什么样的条件,才能保证这条由迭代点函数值所构成的曲线本身也是凸的?这个问题绝非纯理论上的空想,因为如果曲线是凸的,就意味着优化过程具有良好的收敛性质和行为 predictability,对于理解和设计算法有着直观的指导意义;在该论文的v1版本中,作者们已经证明了两件事,首先是当步长η小于或等于1/L时(此处的L是函数的 Lipschitz 光滑性常数),这条函数值曲线必定是凸的,其次他们构造出了一个反例,表明当η大于1.75/L时,曲线可能不再具备凸性。

于是,一个非常清晰的开放性问题就浮出了水面,那就是在步长η介于1/L和1.75/L这个区间之内时,函数值曲线的凸性是否依然能够保持?这个区间内的行为是完全未知的领土,而填补这个空白显然是对优化理论的一个有价值贡献;我之所以选择这篇论文,正是因为它问题表述清晰,开放界限明确,而且非常新(v1版本刚刚发布不久),这最大限度地降低了GPT-5-Pro单纯从训练数据中“背诵”答案的可能性;我将这个问题抛给了GPT-5-Pro,而它给出的回应远远超出了我的预期——它并没有泛泛而谈或者生成一些似是而非的废话,而是真的给出了一个完整的数学证明。

这个证明的核心结论是:GPT-5-Pro成功地将保证函数值曲线凸性的步长下界从论文v1中已经证明的1/L,显著地提升到了1.5/L;这意味着它证明了在更大的步长范围内(从1/L一直到1.5/L),梯度下降产生的函数值曲线依然会保持凸性,从而将其v1版本的结论向前推进了一大步;虽然它没有完全闭合整个区间(从1.5/L到1.75/L的部分仍未解决),但这已经是一个实实在在的、非平凡的进步了,绝对算得上是一个“新颖的贡献”;更重要的是,我以审稿人般的谨慎仔细检查了它生成的证明过程。

我的检查结论是:这个证明是正确的;它的逻辑链条完整,推导严谨,所使用的数学工具与原论文v1版本的精神一脉相承,可以看作是对原论文证明方法的一种深化和拓展,而不是天马行空的另起炉灶;这个证明的质量之高,以至于如果把它稍加整理,完全有资格作为一篇独立的arXiv笔记发布出去,肯定会引起领域内同行的兴趣和讨论;然而,一个既有趣又略带遗憾的原因阻止了我去这样做,那就是人类研究者们这次跑在了AI的前面。

就在我进行这个实验的同时,那篇论文的作者团队(现在增加了一位新作者)已经上传了v2版本(arXiv:2503.10138v2);在这个新版本中,他们完全闭合了这个开放问题,最终证明1.75/L才是那个精确的、紧的临界阈值——也就是说,只要步长不超过1.75/L,曲线凸性就能保持,一旦超过,凸性就可能被破坏。

人类最终赢得了这场竞赛,但这恰恰从另一个侧面强有力地证明了GPT-5-Pro工作的真实性。

请注意,GPT-5-Pro给出的结果是1.5/L,而不是最终的答案1.75/L,这铁一般地证明了它绝不可能只是简单地检索或抄袭了已经存在的v2版本论文,因为那样的话它必然会给出1.75/L这个最终结论。



总结与深度思考

这次实验虽然以人类率先解决问题而告终,但其过程本身蕴含的意义极其深远;首先,它强有力地证实了像GPT-5-Pro这样的顶级AI模型,确实已经初步具备了在特定、well-defined的数学问题上,进行超越已知结论、做出实质性推进的能力,这不再是科幻小说里的场景;

其次,AI的证明风格与人类不同,它更像是基于现有证明(v1版本)进行一种极致的、系统性的演化推演,从而挖掘出其中隐藏的更大潜力,而人类研究者v2版本的证明则可能包含了更多的灵感跳跃或不同的技术路线。

最后,这也引发了一个迫在眉睫的伦理和学术规范问题:当AI产生的证明确实正确且新颖时,我们该如何界定其贡献?如何将其纳入我们现有的学术发表和荣誉体系?

无论如何,这次实验已经清晰地宣告了一点:GPT5等AI作为科研助手的时代已经来临,它不再仅仅是整理文献的工具,而是有望在科研最前沿的攻坚战中,扮演起“超级副驾”甚至“共驾者”的角色,这对于整个科学界的未来图景必将产生我们难以预估的深刻影响。