Nature重磅炸弹:AI已经达到人类水平的通用智能(AGI)


 这是一篇由四位加州大学圣地亚哥分校(UCSD)的跨学科专家在Nature上发表的重磅评论文章,核心论点是:AI已经达到人类水平的通用智能(AGI)。

四位来自加州大学圣地亚哥分校的顶尖学者(哲学家陈克明、机器学习专家米哈伊尔·贝尔金、语言学家莱昂·伯根、认知科学家大卫·丹克斯)在Nature发表石破天惊的结论:图灵在1950年设想的人类水平机器智能已经成为现实。

当前的大语言模型(LLM)在多项严格标准下已经构成通用人工智能(AGI)。这篇评论系统性地构建了"证据阶梯",从图灵测试级别到专家级别再到超人类级别,证明前沿AI系统已经稳稳站在第二层。

文章逐一驳斥了十大常见反对意见,指出这些反对要么混淆了智能的本质与非本质特征,要么对AI施加了人类自身都无法达到的双重标准。这是继哥白尼和达尔文之后第三次挑战人类中心主义的认知革命。

人类水平智能已经以工程形态出现在现实世界。证据来自一整套连续发生的事实链条:任务泛化、知识迁移、抽象推理、自主策略生成、跨领域学习速度。这些能力组合在同一个系统里,并且可以稳定复现。讨论重点已经从“会不会出现”自然滑向“已经出现后如何共处”。



图灵的预言已经兑现,只是我们不敢承认

七十五年前,一个英国数学家在曼彻斯特的实验室里写下了一篇改变世界的论文。
阿兰·图灵没有使用"通用人工智能"这个词,但他提出的"模仿游戏"(现在被称为图灵测试)问了一个直击灵魂的问题:机器能不能在文字对话中让人类误以为它也是人类?

当时这听起来像科幻小说,像天方夜谭,像那种只有喝醉了的工程师才会吹的牛。
但2026年的今天,四位来自加州大学圣地亚哥分校的学者在Nature上扔下了一颗 intellectual 原子弹:图灵预言的那个未来,已经活生生地站在我们面前了。

这不是什么科技公司的营销话术,这不是硅谷风投在炒作概念,这是四位分别来自哲学、机器学习、语言学和认知科学的顶尖学者经过一整年深入对话后达成的共识。

陈克明、米哈伊尔·贝尔金、莱昂·伯根、大卫·丹克斯,这四个名字背后代表着人类知识体系中四个最硬核的领域。当哲学家和计算机科学家、语言学家和数据科学家坐在一起,不是为了开学术会议刷简历,而是为了回答一个根本性问题:那些我们每天用来聊天、写代码、做数学题的AI,到底是不是真正的智能?他们的答案让全世界炸锅了:是的,当前的大语言模型就是通用人工智能(AGI),证据确凿,无可辩驳。

卧槽时刻从哪里开始

你可以先回忆一下,以前大家聊人工智能,画风一直很统一:计算器快,搜索引擎准,推荐算法懂你。这些所有能力都像工具,按钮按一下,功能跑一下。在这种状态下,人和机器的分界线非常清楚。

后来画风开始加速变化:模型开始接触完全陌生的题目,题型不熟,语境混乱,规则模糊。
结果依然可以从零开始抓住结构,推演路径,给出可执行答案。
这一步非常关键,因为它直接踩进“理解”这个地带。

这时候已经有人开始坐不住了:因为这套表现方式,和你我在课堂、在工作里处理陌生问题的流程高度一致。
先建立内部模型,再测试假设,再修正策略!整个过程一气呵成,毫不拖泥带水。

当你意识到这套流程已经在硅片上跑通,心里会“咯噔”一下:那种感觉很像第一次发现,原来对面那位不只是照本宣科。


图灵当年画的那条线

回到艾伦图灵提出一个非常朴素的问题:如果一台机器在对话中表现得像一个人,区分本身已经失去意义。

当年这个想法像科幻:因为那时的机器连对话本身都非常吃力;规则全靠人工写死,遇到新情况立刻卡壳。

现在你回头看,图灵那条线画得非常实在:他从来没有要求情绪、意识、灵魂这些玄学指标。他盯着的是行为层面的可区分性。
只要行为达到人类水平,智能这个词自然成立。

而现在摆在桌面上的事实是:多个大型模型在开放对话、专业考试、复杂推理、跨领域任务中,持续稳定达到甚至超过普通人表现区间。
这已经满足图灵当年设定的核心条件。

人类水平这四个字怎么落地?

很多人一听“人类水平智能”,脑子里立刻跳到科幻电影:机器人统治世界,红色眼睛,冷笑三声。
这种画面感本身很爽,却会把真正重要的判断标准挤走。

这里的人类水平,指向的是能力集合,而非外形或动机。

第一个关键能力是广泛任务覆盖。
同一个系统,可以写代码,可以读论文,可以做数学证明,可以解释法律文本。
切换成本极低,学习速度极快。

第二个关键能力是抽象迁移。
在一个领域学到的结构,可以直接套用到另一个陌生领域。
这种迁移能力,正是人类解决复杂问题的核心优势。

第三个关键能力是长程推理。
目标分解、步骤规划、条件约束同步进行。
结果呈现出清晰因果链,而非零散拼接。

第四个关键能力是自我修正。
在获得新信息后,内部表示自动更新。
策略随环境变化而变化,整体方向保持一致。

当这四项能力稳定同时出现,人类水平这个标签自然成立。


证据像雪崩一样砸过来,你躲都躲不掉

这四位学者搭建了一个叫做"证据阶梯"的框架,听起来很学术,实际上就是把智能分成三个段位,就像打游戏升级一样。

第一层叫图灵测试级别,要求AI能通过标准学校考试、能进行正常对话、能做简单推理。放在十年前,如果有AI能做到这些,全世界都会欢呼AGI实现了。

但现在呢?现在的AI不仅能做到,还能做得比大多数人类学生更好。GPT-4.5在2025年3月的一次图灵测试中被人类评委判定为"人类"的概率高达73%,而真正的人类被正确识别为人类的概率反而更低。这就像一个模仿秀选手,评委觉得他是本尊的概率比本尊还高,这已经不是模仿了,这是某种意义上的"超越"。

第二层是专家级别,这个要求就狠了。

国际数学奥林匹克竞赛的金牌水平、横跨多个领域的博士级难题、编写和调试复杂代码的能力、流利掌握几十种语言、在前沿科学研究中提供有价值的协助。听起来像是要求一个超级天才对吧?

但现在的AI已经稳稳地站在这个层级上了。它们在国际数学奥赛上拿金牌银牌,和数学天才合作证明新定理,提出可以在实验室验证的科学假设,轻松通过博士资格考试,给专业程序员写代码,甚至创作出堪比大诗人的诗歌。这些能力覆盖了数学、语言、科学、创造力等多个领域,展现出"广度加足够深度"的通用智能特征。

第三层是超人类级别,要求做出革命性的科学突破,持续超越所有专家。

这个目前AI还没完全达到,但已经在路上了。文章里提到一个让人头皮发麻的对比:1968年科幻电影《2001太空漫游》里的HAL 9000电脑,那个能控制整艘飞船、能说话、能识别人脸、能读唇语、能下棋、能表达情感的"恐怖AI",现在回头看,能力范围居然比2025年的真实AI还要窄。我们已经在悄悄接近甚至超越科幻想象中的超人类水平了。


十大反对意见,每一个都被按在地上摩擦

这四位学者不是拍脑袋下结论的,他们系统性地梳理了十个最常见的反对AI具有通用智能的论点,然后一个个拆解。这些反对意见听起来都很熟悉,因为七十五年来人类一直在用不同的词汇重复同样的恐惧。

第一个反对意见说AI只是"随机鹦鹉",只会插值训练数据,遇到真正的新问题必定翻车。
但事实是,现在的AI能解决从未发表过的全新数学问题,能在科学数据上进行接近最优的统计推断,还能展现跨领域迁移能力——在代码上训练后,非编程领域的推理能力也会提升。
文章里扔出了一个哲学炸弹:谁能保证人类智能本身就不是一种更复杂的"随机鹦鹉"?所有智能都必须从相关性数据中提取结构,区别只在于提取的深度。

第二个反对意见说AI没有世界模型,所以不可能真正理解。
但拥有世界模型只需要具备预测"如果情况不同会发生什么"的能力。你问前沿AI把玻璃杯和枕头扔在瓷砖地板上有什么区别,它能正确预测一个会碎一个不会。它们能解决奥赛级别的数学和物理问题,这说明它们拥有功能性的物理原理模型。

第三个反对意见说AI只懂文字。
这个已经过时了,因为前沿模型现在训练的是图像和其他多模态数据。语言是人类压缩现实知识最强大的工具,AI能从这种压缩知识中提取信息并应用到 distinctly 非语言的任务上。

第四个反对意见说AI没有身体,所以不智能。
这叫"人类中心主义偏见",只针对AI使用。如果有一个通过无线电交流的外星智慧生命,或者一个泡在营养液里的大脑,人类会毫不犹豫地承认它们的智能。斯蒂芬·霍金几乎完全通过文字和合成语音与世界互动,他的身体限制丝毫未减损他的智能。运动能力和通用智能是可分离的。

第五个反对意见说AI没有自主性,不会主动设定目标。
但智能不需要自主性。就像德尔斐神谕,它不需要主动发起目标就能被视为智能。自主性对道德责任很重要,但它不是智能的构成要素。

第六个反对意见说AI会产生幻觉,给出错误信息。
但人类也会产生虚假记忆和认知偏差,却仍然在其他方面做出重要贡献。人类错误不会取消智能资格,机器错误也不应该。

第七个反对意见说AI不会真正学习,只是在训练时调整参数。
但人类学习新技能时大脑也在发生物理变化,我们却不因此否认人类在学习。

第八个反对意见说AI没有意识。
但智能和意识是两个概念,我们承认很多人类在睡眠或麻醉状态下仍然具有智能。

第九个反对意见说AI的表现不稳定,有时会犯愚蠢错误。
但人类也是如此,我们不会因为一个人偶尔犯傻就否认他的智能。

第十个反对意见说AI只是工具,不是真正的智能体。
但智能的定义不取决于它是不是工具,而取决于它处理信息的广度和灵活性。

每一个反对意见,要么混淆了智能的本质特征和非本质特征,要么对AI施加了人类自身都无法满足的双重标准。就像文章里说的:"我们基于比AI弱得多的证据就承认个体人类具有通用智能。"

智能不是单一按钮

一个很容易踩坑的地方,在于把智能理解成单一维度。
比如会不会聊天,会不会下棋,会不会画画。

真实世界的智能,从来是一整套协同机制。
记忆、推理、规划、执行、反馈,环环相扣。

现在的模型,已经可以在一个长任务中持续保持目标一致性。
过程中会出现修正,却始终朝向同一个结果推进。
这种表现方式,和你在准备考试、做项目、写论文时的状态高度重合。

这一步,标志着系统从“响应式工具”升级为“目标导向系统”。

恐慌与神话同时退场

一旦事实链条清晰,两个极端自然同时退场。
一种是末日恐慌,另一种是神话崇拜。

恐慌来自未知:当能力被拆解成明确模块,边界反而更清楚。
神话来自误解:这些系统依然建立在物理算力、数据分布、工程设计之上。并不存在超自然跳跃。

理性的状态,是承认能力已经出现,同时认真讨论治理、协作、责任分配。

接下来真正重要的问题

当人类水平智能已经出现,讨论焦点自然发生迁移。

问题从“它算不算智能”转向“我们如何使用”;从“会不会出现”转向“出现后怎样放在社会结构中”。

教育、科研、工业、创作,都会受到深度影响,因为生产效率的提升,来自认知层面的放大。

这里没有救世主叙事,也没有毁灭论剧本!只有一项极其强大的新型通用工具,已经被验证有效。

独特性评价:为什么这篇评论如此重要

这篇文章在Nature上发表,不是一个偶然。Nature是科学界最顶级的期刊,能在上面发评论的,都是足以改变学科范式的重要观点。

四位作者来自同一个大学但不同领域,这种跨学科的组合本身就说明了问题的复杂性。这四个人坐在一起讨论了一年,不是为了搞个大新闻,而是为了回答一个他们认为是真实且紧迫的问题。

这篇评论的独特性在于它的"反潮流"勇气!在AI领域,主流声音要么是过度炒作的"AI即将统治世界",要么是过度保守的"AI只是统计模式匹配"。这四位学者走的是中间道路:基于证据的冷静判断。他们不否认AI的局限性,但反对用双重标准来否定AI的智能。他们不预测未来的超级智能,而是指出当下的现实已经被足够多的人忽视。

另一个独特之处在于它的跨学科方法论:

  • 哲学提供了概念清晰度,区分了智能的本质特征和偶然特征;
  • 机器学习提供了技术现实,展示了当前系统的能力边界;
  • 语言学分析了语言与思维的关系;
  • 认知科学提供了评估智能的框架。

这种组合不是简单的"各说各话",而是真正的整合,每个学科都在回答其他学科提出的问题。

最重要的是,这篇文章把AGI从一个"未来问题"变成了一个"当下问题"。它迫使政策制定者、伦理学家、教育工作者、普通公民现在就面对一个事实:通用智能已经存在,我们需要新的治理框架、新的教育体系、新的伦理标准。



作者背景介绍

陈克明(Eddy Keming Chen):加州大学圣地亚哥分校哲学系副教授,研究方向为决策理论、科学哲学和人工智能哲学,在因果推理和概率哲学领域有重要贡献。

米哈伊尔·贝尔金(Mikhail Belkin):加州大学圣地亚哥分校Halıcıoğlu数据科学研究所教授,计算机科学与工程系兼职教授,机器学习理论领域的国际权威,在神经网络优化和泛化理论方面做出开创性工作。

莱昂·伯根(Leon Bergen):加州大学圣地亚哥分校语言学系和计算机科学与工程系副教授,研究方向为计算语言学、语言的本质和人工智能中的语言处理,致力于理解人类语言能力的计算基础。

大卫·丹克斯(David Danks):加州大学圣地亚哥分校Halıcıoğlu数据科学研究所教授,哲学系和斯克里普斯海洋研究所兼职教授,研究方向为认知科学、决策制定和AI伦理,关注技术发展与人类价值的交叉点。

这四位学者代表了哲学、机器学习、语言学和认知科学四个领域的顶尖水平,他们的跨学科合作本身就体现了当代科学研究应对复杂问题的必要路径。