全球顶尖AI学者联合提出AGI量化框架,基于人类认知理论评估GPT-4得27%、GPT-5仅57%,揭示当前AI在长期记忆、真实推理等核心能力上仍严重缺失。
现在满天飞的“AGI通用人工智能”到底是个啥?是不是觉得GPT-5一出来,人类马上就要被取代了?
最新一篇由全球顶尖AI专家联合发表的论文,终于给“通用人工智能”下了个硬核定义,还直接给GPT-4和GPT-5打了个分——GPT-4只有27%,GPT-5也才57%!这意味着啥?意味着离真正能像人类一样思考、记忆、理解世界的AI,还有大半条街要走!
这篇论文后阵容堪称“AI界梦之队”:有深度学习三巨头之一的约书亚·本吉奥(Yoshua Bengio),有斯坦福大学的埃里克·布林约尔松(Erik Brynjolfsson),还有加州大学伯克利分校的宋晓冬、牛津大学的亚林·高(Yarin Gal)、麻省理工学院的马克斯·泰格马克(Max Tegmark),以及纽约大学的加里·马库斯(Gary Marcus)等等,总共30位来自全球顶级高校与研究机构的学者联名发布。
他们可不是来吹牛的,而是要用科学方法,把“AGI”这个模糊词,变成可测量、可比较、可追踪的硬指标。
那他们到底怎么定义AGI的?
简单说,就是:一个AI系统,如果能在认知广度和深度上,全面匹配甚至超越一位受过良好教育的成年人,那它才算得上通用人工智能。
注意,不是只会写代码、算数学、画图,而是要像人一样,能记事、能推理、能听懂音乐节奏、能看懂电影情节、能快速反应、还能长期记住你上周聊过的话题!
为了做到这一点,这群科学家直接搬出了心理学界最权威的人类智力模型——CHC理论(卡特尔-霍恩-卡罗尔认知能力理论)。这套理论经过上百年心理测量学验证,把人类智力拆解成10大核心认知模块,每个模块再细分成若干子能力。
他们就用这套框架,给AI做了一次“全面体检”。
第一个模块是通识知识,包括常识、科学、社科、历史和文化。GPT-5在这里表现不错,拿了9分(满分10),但文化常识还是弱项,比如问它最近谁当美国总统,它可能答对,但要是问它某部冷门电影的细节,就容易翻车。
第二个是读写能力,包括识字、阅读理解、写作和英文用法。GPT-5从GPT-4的6分提升到10分,说明它现在能读懂长文档、写结构清晰的文章,甚至能帮你改语法错误。但注意,这还是在“文本”层面,一旦涉及真实世界的情境理解,就另当别论了。
第三个是数学能力,从算术到微积分。GPT-5在这里直接拉满10分!是的,它现在解数学题的能力已经碾压大多数大学生。但别高兴太早,后面几个模块才是真正的“照妖镜”。
第四个是即兴推理,也就是面对全新问题时的灵活思考能力,比如演绎、归纳、理解别人心理(心理学叫“心智理论”)、做计划、适应规则变化。GPT-4在这里得分为0!GPT-5也只拿到7分,尤其在“适应新规则”上几乎还是空白——这意味着它其实不会真正“学习”,只是在模仿。
第五个是工作记忆,也就是短期记住并操作信息的能力。GPT-5从2分涨到4分,但主要靠超长上下文“硬扛”,本质上还是“临时抱佛脚”,而不是真正理解并记住。
第六个和第七个,才是致命短板:长期记忆存储和长期记忆提取。你没看错,GPT-4和GPT-5在这两项上都是0分!也就是说,你今天教它一个新知识,明天它就忘了;你让它记住你的偏好,它下次还得你重新说一遍。更可怕的是,它提取记忆时经常“幻觉”——编造根本不存在的事实,还说得头头是道。这就是为什么它会一本正经地告诉你“拿破仑打过南非战役”(其实根本没有)。
第八个是视觉处理,包括看图、识物、生成图像、理解视频。GPT-4完全不会,GPT-5拿了4分,能看懂简单图片、生成基本图像,但在空间推理、物理常识上还是小学生水平——比如让它判断一个视频里人跑步是否违反物理定律,它很可能看不出来。
第九个是听觉处理,包括听音辨字、识别语音、理解节奏、判断音乐。GPT-4为0,GPT-5拿到6分,主要靠语音识别技术进步,但在音乐节奏、情感语调上依然很弱。
最后一个模块是处理速度,比如快速找关键词、比大小、反应时间等。GPT-4和GPT-5都只拿了3分,因为它们在多模态任务上反应慢,而且很多“思考”其实是人为加的延迟,并非真正高效。
总结下来,今天的AI就像一个“偏科严重的天才”:知识面广、数学超强、写作流畅,但没有长期记忆、不会真正推理、看不懂复杂画面、听不懂音乐情感、反应也不够快。这种“锯齿状”的能力分布,恰恰说明它离“通用”还差得远。
更关键的是,现在很多AI的“聪明”其实是“障眼法”——比如用超长上下文假装有记忆,用联网搜索假装知识渊博。论文里管这叫“能力扭曲”(capability contortion),看起来厉害,实则脆弱。一旦脱离预设环境,立马露馅。
所以别被营销话术忽悠了!真正的AGI不是能帮你写PPT或画图的工具,而是能像人一样持续学习、理解世界、与你建立长期互动的“认知伙伴”。按这个标准,我们可能还要等很多年。
这篇论文的价值,就在于把AGI从玄学拉回科学——不再靠感觉,而是靠分数说话。它告诉我们:进步确实巨大,但差距依然真实。与其幻想AI取代人类,不如思考如何用好这个“半成品”,同时警惕它的幻觉与局限。