加里马库斯:扩展定律scaling-law神话已崩塌


GPT-5本应是人工智能的“游戏规则改变者”。这是OpenAI投入数十亿美元、花费近三年研发的成果。公司首席执行官 萨姆·奥特曼(Sam Altman) 暗示,它可能接近人工通用智能(AGI)——一种能够像人类专家一样聪明和灵活的 AI。

然而,现实远不如预期。正如我(加里·马库斯)写过的那样,这个模型并没有达到宣传中的高度。发布仅仅几个小时后,人们就发现它存在各种令人困惑的错误:在一些简单数学题上出错,数数不稳,甚至在经典谜语上给出荒唐的答案。像它的前辈一样,它仍然会“幻觉”(尽管频率有所下降),可靠性依旧令人担忧。虽然有些人对 GPT-5 印象不错,但几乎没人认为这是一次质的飞跃,更没人相信它就是 AGI。许多用户甚至要求恢复旧版本。

GPT-5 的确比前一代有所进步,但远未达到外界所期待的那种革命性突破。这对那些重金押注 AI 的企业和投资人来说是个坏消息,也意味着政府在制定政策和投资方向时,必须正视那些被严重夸大的期待。

继续依赖“让 AI 越来越大”的单一路线,在科学、经济和政治上都存在根本缺陷。我们需要重新思考,从监管到研究战略,都要有所调整。而其中关键的一条,可能是让 AI 的训练和发展更多借鉴认知科学。

“扩展定律Scaling-law”神话的崩塌
像 萨姆·奥特曼、安斯罗普公司(Anthropic) 的首席执行官 达里奥·阿莫代伊(Dario Amodei),以及无数科技领袖和投资人,都把信仰寄托在一个未经验证的假说上:扩展(Scaling)。

他们相信,只要不断增加数据量和硬件规模,就能最终抵达 AGI,甚至实现超越人类的超级智能。

然而,早在 2022 年,我(加里·马库斯)就在文章《深度学习撞墙了》中警告过,所谓的“扩展定律”并不是像重力一样的物理定律,而只是基于过去经验的趋势。大型语言模型,本质上只是经过放大的统计复读机,它们永远会在真实性、幻觉和推理上跌跟头。靠“扩展”并不能带来通往 AGI 的圣杯。

当时,很多业内人士对我的观点嗤之以鼻。萨姆·奥特曼 曾讽刺我不过是个“平庸的深度学习怀疑者”,还声称“根本不存在撞墙”。埃隆·马斯克(Elon Musk) 甚至转发了一张嘲笑我文章的表情包。

但事实证明,我是对的。

语言模型的训练方式,是依靠庞大的人类文本数据库来学习生成文字。增加数据确实能带来一定提升,但提升是有限的。即便模型规模大到惊人,它们仍然无法真正理解概念,这就是为什么它们会在答题时出错,或者画出令人啼笑皆非的图像。

扩展在早期确实奏效,GPT 的几代版本之间有明显进步。但过去一年开始,幸运逐渐耗尽:
埃隆·马斯克 的 格罗克 4(Grok 4),比 格罗克 2(Grok 2) 的训练量大了一百倍,却只稍微好一点;
Meta公司的超大 羊驼 4(Llama 4),也几乎被视为失败。
如今 GPT-5 的表现,更是铁证:扩展已经失去了动力。



政策必须跟上现实

AGI 在 2027 年到来的可能性如今看来几乎微乎其微。与此同时,政府过去对 AI 企业几乎“零监管”,让它们享受了特权般的发展环境。现在是时候出台法律,应对那些不公平地转嫁给公众的社会成本了:从虚假信息、深度伪造,到垃圾内容、网络犯罪、版权侵权、心理健康影响以及巨大的能源消耗。

同样,政府和投资者也必须把资金投向扩展之外的方向。认知科学(包括心理学、儿童发展学、心智哲学和语言学)提醒我们,智能绝不仅仅是统计的模仿,而是更丰富的认知体系。



三条来自认知科学的启示

第一,人类依靠 世界模型 来理解环境:
我们会在脑中建立一个数据库,记录周围的人与物、关系和规则。例如读小说时,我们会知道角色是谁、他们的动机、彼此关系,以及在奇幻作品中甚至包含新的物理法则。

而生成式 AI 的很多缺陷,正是因为它们无法从数据中抽取出真正的世界模型。这也是为什么 GPT 系列无法真正掌握国际象棋,总会走出违规棋。

未来 AI 研究的核心之一,应该是构建以世界模型为中心的新一代系统。深度思维公司(Google DeepMind) 和 李飞飞(Fei-Fei Li) 的 世界实验室(World Labs) 已经在尝试。

第二,现有的机器学习范式喜欢让 AI 从零开始,通过网络数据“白手起家”,但人类思维并不是一张白纸。
史蒂芬·平克(Steven Pinker)、伊丽莎白·斯佩尔克(Elizabeth Spelke) 等认知科学家早就指出,人类天生具备一些核心知识,比如对时间、空间、因果的理解。若能在 AI 系统中预置这些基础概念,它们可能会更高效地整理信息,进而获得更深层次的认知。比如 Verses AI 公司 就在尝试用电子游戏中的物理与感知机制来实现这一方向。

第三,人类思维不是单一机制。
心理学家 丹尼尔·卡尼曼(Daniel Kahneman) 曾提出,人类拥有两套思维系统:
一套是快速、直觉、依赖经验统计的“快思考”,但容易犯错;
另一套是缓慢、深思熟虑、基于推理的“慢思考”。

而当下的大语言模型,本质上更接近“快思考”,试图用单一的统计方法解决所有问题,结果难以可靠。

未来的道路,或许是 神经符号混合 AI(Neurosymbolic AI),即结合统计驱动的神经网络与符号派 AI 的逻辑推理。

亚马逊公司(Amazon)、深度思维公司(DeepMind),甚至 开放人工智能公司(OpenAI),都已在探索这种混合路线。
到本世纪末,神经符号 AI 很可能超越单纯的扩展模式。



结语

大型语言模型在写作、编程、头脑风暴等方面的确发挥了作用,但无论体量多大,它们始终没有值得我们完全信任的时刻。要想真正构建可被信赖的 AI,乃至实现 AGI,我们必须走出扩展的迷思。回到认知科学,或许才是下一阶段的必然选择。

加里·马库斯是纽约大学的荣誉教授,曾创办并担任 几何智能公司(Geometric Intelligence) 的首席执行官。他的最新著作为《驯服硅谷》。



极客辣评
当OpenAI昨天发布GPT-5时,普遍的反应是……有点让人失望,至少对于这个自从两年前GPT-4惊艳众人以来大家就一直在等待的模型来说是这样。

这个新产品——OpenAI将其描述为一个能根据需求智能地将请求路由到不同模型的系统——获得了早期测试者的好评。

但观察者们很快注意到,尽管期待了多年,GPT-5并不比市场上已有的其他产品好多少。

在一系列编码基准测试中,它的表现与 o3 和 ChatGPT Agent 差不多,在另一项测试中勉强超过 Claude Opus 4.1,并且在 ARC-AGI-2(专注于对人类容易但对AI困难的任务)上显著落后于 Grok 4。

GPT-5最令人印象深刻的基准测试结果是在成功执行通常需要人类两小时十七分钟的软件任务方面,在50%的尝试中成功完成,创下了语言模型的新纪录。但即便如此,这也低于一些人的预期。

一些人立即抓住AI行业这个标杆产品令人失望的表现,作为AI进展正在放缓的证据。

“我们正在看到平台期:单纯的规模扩大即将结束,”Meta的François Fleuret说。
“我们已经到了收益递减的节点,”Gary Marcus指出。
“我再也不想读任何关于指数级进展的东西了,”一位AI网红说。

连我也明确表示不感冒,称其为“一个令人惊讶的渐进式发布”。

但我认为我和其他人都太草率了。是的,GPT-5不是一次大飞跃。但这并不能告诉我们AI进展正在放缓。先前AI的飞跃来自于计算能力的大规模提升——而这次根本没有发生。

正如Miles Brundage指出的,“很多关于GPT-5的看法都隐含了一个错误的信念,即它基于一个庞大得多的基础模型。”

曾在OpenAI从事GPT-5工作的Rohan Pandey证实了这一点。“GPT-2 -> GPT-3 -> GPT-4 在预训练计算量上都实现了约100倍的规模增长,”他说。“GPT-5没有。”

山姆奥特曼推文暗示,一个基于计算能力巨大增长的模型正在开发中,只是不是这次产品的重点。
“我们主要推动的是现实世界的实用性和大规模的可访问性/可负担性,”奥特曼说。(公司在这方面的确成功了——新模型便宜得惊人。)

然而,即使以效率为目标,GPT-5仍然是一个好模型——而且它的改进,尽管可以说是渐进的,仍然使AI能力处于指数级发展的轨道上。

所以,如果你认为GPT-5令人失望的发布是放松对AI发展速度警惕的理由……那就再想想吧。