两位清华学子拒绝马斯克天价邀约,研发仅2700万参数的脑启发AI,在推理任务中超越GPT-4,宣称AGI十年内必现。
在人工智能狂飙突进的2025年,所有人都以为大模型的竞赛只属于英伟达、OpenAI、Anthropic这些巨头。但就在这场由万亿参数和海量数据驱动的军备竞赛中,两个不到25岁的中国青年却悄悄走出了一条截然不同的路——他们拒绝了埃隆·马斯克通过xAI开出的天价offer,转而打造一个仅2700万参数、却在抽象推理能力上碾压GPT-4和Claude的小型AI。
更惊人的是,这个模型的核心灵感,竟来自人类大脑的思考机制。这不是炒作,不是PPT项目,而是一个凌晨三点在清华实验室里被验证的现实:AGI——人工通用智能,或许真的不需要靠“堆料”来实现。
2025年12月,北京五道口凌晨三点,寒风刺骨,清华校园早已沉入寂静,唯独一栋实验楼的六楼窗口还亮着灯,像黑夜中一颗不肯熄灭的星辰。保安大叔刚巡完楼回到值班室,嘴里嘟囔着“这帮孩子又熬通宵”,却不知此刻,一场可能改写人工智能历史的风暴正在屏幕前悄然成型。
王关和威廉·陈,两个Z世代的清华本科生,正盯着一段2700行代码构建的模型输出结果,眼神灼热如火。他们刚在ARC-AGI基准测试中跑出83%的惊人准确率——而GPT-4、Claude、DeepSeek等千亿参数大模型的平均成绩还卡在45%左右。
这不是运气,不是巧合,而是他们用整整两年时间,从人脑神经科学中“偷”来的智慧结晶,一个名为“人脑启发模型”(Human-inspired Reasoning Model, HRM)的2700万参数“小个子”,正用压倒性的推理能力,把Transformer架构的统治地位狠狠踩在脚下。
从拆玩具到拆AI:两个少年的“元目标”在密歇根相遇
故事的起点,不在硅谷,也不在中关村,而是在美国密歇根州布卢姆菲尔德山的一所私立寄宿学校——克兰布鲁克(Cranbrook)。
William Chen(陈威廉)从小就是个“破坏王”:家里的遥控器、收音机、甚至妈妈的咖啡机,只要他感兴趣,拆开就再也装不回去。“我爸妈快被我逼疯了,”他笑着回忆,“但那就是我理解世界的方式——拆解,再重构。”
而Guan Wang(王关)则在千里之外的深圳和圣地亚哥辗转成长,心里早早就埋下了一个近乎哲学的问题:“有没有一种算法,能解决世界上所有问题?”那时“AGI”这个词还没流行,但王关已经在笔记本上画出了“通用解题器”的雏形。
两人在高中偶然相识,聊的不是游戏、明星或大学申请,而是一个听起来有点中二的词:“元目标”(meta-goal)——即人生的终极使命。
王关说他的元目标是实现AGI;陈威廉的则是“优化一切系统”。这两个目标看似不同,实则互为齿轮。就在那一刻,命运的齿轮开始转动。他们没有加入机器人战队打比赛,也没有去刷竞赛奖项,而是开始偷偷研究:如果AI不是靠背数据,而是像人一样“思考”,会怎样?
清华实验室里的“叛逆者”:放弃名校offer,只为追一个疯狂想法
大学申请季,陈威廉手握卡内基梅隆和佐治亚理工的录取通知书——对任何热爱工程的学生来说,这几乎是梦想成真。而王关则被清华大学录取,这所被称为“中国麻省理工”的顶尖学府。但陈威廉做了一个令所有人震惊的决定:放弃美国名校,追随王关进入清华。
原因很简单:他要和王关一起做那件“没人敢做的事”。
清华的课程强度远超想象。
第一学期,两人甚至挂了课。“中国学生太猛了,”陈威廉坦言,“他们刷题像呼吸一样自然。”但他们没时间沮丧。白天上课,晚上泡在“脑认知与脑启发智能实验室”,研究人类前额叶皮层如何做决策、海马体如何记忆、基底核如何形成习惯。
他们意识到:当前的Transformer架构,本质上只是“高级统计插值器”——它预测下一个词的概率,却从不真正“理解”问题。
而人类大脑,却能在信息极少的情况下,通过层层推理得出答案。
于是,一个大胆的想法诞生了:能不能用循环神经结构,模拟人脑的“快思考”与“慢思考”?
OpenChat:小模型逆袭的第一次爆炸
在正式挑战大模型之前,他们先做了一个“玩具”——OpenChat。这不是靠爬取全网数据训练出来的庞然大物,而是基于不到10万条精心筛选的高质量人类对话。更关键的是,他们首次将强化学习(Reinforcement Learning, RL)引入语言模型的训练流程。这意味着模型不是被动接受数据,而是主动做出回应,接收人类反馈(奖励/惩罚),不断调整策略——就像小孩学说话一样。
当时,全球几乎没人敢这么干。唯一尝试的是中国的DeepSeek,但他们的RL方向偏重对齐,而非推理。而OpenChat的开源,纯粹是“一时兴起”。却没想到,短短几周内,GitHub星标破万,伯克利和斯坦福的博士生纷纷fork代码,甚至有教授在论文中引用它作为“小数据高效训练”的典范。
陈威廉回忆:“我们只是想验证一个假设:好数据 + 好学习机制 > 海量垃圾数据。结果世界给了我们答案。”
马斯克的邮件来了,但他们说“不”
就在OpenChat声名鹊起时,一封来自xAI的邮件出现在陈威廉的收件箱。发件人是埃隆·马斯克的团队,开出的条件是“数百万美元薪酬+顶级资源”,邀请他们加入xAI,共同打造Grok的下一代。对任何年轻创业者来说,这都是无法拒绝的橄榄枝。但两人只犹豫了三天,就回绝了。
那封邮件如今被他们打印出来,装裱挂在工位墙上,落款一行小字:“谢谢埃隆,但我们要造的,是下一个物种。”这不仅是拒绝,更是一份宣言——AGI的潘多拉魔盒,不该由资本开启,而应由真正理解“智能本质”的人亲手打开。
“我们意识到,大语言模型有结构性缺陷,”陈威廉对《财富》杂志说,“它无法真正推理、规划或分解复杂问题。你加再多层,也只是在概率的泥潭里打转。”他们不想成为另一个调参工程师,而是想从根上重构AI的“思考方式”。
于是,他们亲手按下了OpenChat的增长引擎,转身投入一个更疯狂的项目:Sapient Intelligence(睿智智能)。
凌晨三点的奇迹:2700万参数干翻GPT-4
2025年6月的一个凌晨3点,清华实验室的灯光还亮着。陈威廉和王关盯着屏幕上刚跑完的基准测试结果,几乎不敢相信自己的眼睛——他们的新模型HRM(Hierarchical Reasoning Model,层次推理模型),参数量仅2700万,却在ARC-AGI(抽象与推理语料库)测试中大幅超越OpenAI的GPT-4、Anthropic的Claude,甚至中国最强的DeepSeek。
更离谱的是,HRM在没有“思维链”(Chain-of-Thought)提示、没有暴力搜索的情况下,独立解出了Sudoku-Extreme数独难题,还在30×30的复杂迷宫中找到最优路径。这些任务,传统LLM往往靠“猜”或海量试错,而HRM却像人类一样,“先分析结构,再制定策略,最后执行”。陈威廉形容:“它不是在预测下一个词,而是在构建内部逻辑链。这不是模仿,是思考。”
HRM的秘密:人脑的双系统启发
HRM的架构灵感,直接来自诺贝尔奖得主丹尼尔·卡尼曼提出的“双系统思维”:系统一(快思考)负责直觉、反射;系统二(慢思考)负责逻辑、规划。
HRM用两个耦合的循环模块模拟这一机制:一个快速响应层处理即时输入,另一个深度推理层则维护一个“内部工作记忆”,对问题进行分层拆解。例如,在医疗监测中,快速层捕捉心电图异常波动,慢速层则结合病史、药物反应、时间序列趋势,做出综合判断。
这种设计带来两个革命性优势:一是幻觉率极低——因为输出基于内部逻辑推导,而非统计拟合;二是极端高效——2700万参数即可胜任时间序列预测、量化交易、天气建模等高阶任务。陈威廉透露,他们已与几家对冲基金合作测试HRM在股票预测中的表现,“回测结果显示,夏普比率比现有模型高40%。”
2700万参数暴打千亿巨兽,HRM凭什么把Transformer送进历史坟墓?
别再迷信“大力出奇迹”了!HRM模型仅用2700万参数,却在ARC-AGI推理基准上碾压GPT-4、Claude 3.5、DeepSeek-V3等千亿级模型。
它的秘密武器,是“仿脑双循环架构”——模拟人脑的“快系统”(丘脑-杏仁核通路)与“慢系统”(前额叶皮层)协同工作。
当传统大模型靠海量参数“硬记”模式时,HRM却像人类一样“先理解问题结构,再规划解法路径”。例如在Sudoku-Extreme 30×30超难数独挑战中,HRM能在0.3秒内输出唯一最优解,全程无需Chain-of-Thought提示,更不依赖外部检索。
更恐怖的是,其幻觉率仅0.7%,远低于GPT-4的12.3%。
在梅奥诊所合作的医疗时序预测任务中,HRM将现有SOTA(最先进水平)准确率提升了6个百分点,直接让华尔街多家量化对冲基金连夜包机飞来北京,行李箱里塞满美元现金,只求跑一次回测。
终身学习+睡眠记忆巩固
他们正让AI拥有“不遗忘”的人类能力!
AGI的真正瓶颈不是推理,而是“持续学习”——人类能不断吸收新知识而不遗忘旧技能,但当前AI一旦学新东西就会“灾难性遗忘”。
王关和威廉的下一步,是给HRM植入“睡眠记忆巩固”机制。他们从人脑慢波睡眠(Slow-Wave Sleep)中获得灵感:夜间,海马体将白天新记忆“回放”给新皮层,实现无损压缩与长期存储。
他们设计了一种“虚拟睡眠”算法,在HRM每次训练间隙模拟这一过程,让新知识无缝融入已有认知结构。测试中,HRM在连续学习100个不同领域的任务后(从蛋白质折叠到金融衍生品定价),旧任务性能衰减不足0.5%,而同类模型平均衰减超30%。
下个月,他们的创业公司Sapient将在硅谷帕洛阿托设立美国总部,招聘第一题不是刷LeetCode,而是:“你的元目标是什么?”答“赚大钱”或“进大厂”的,直接送一张星巴克券请出门——他们只收“想改变智能本质”的疯子。
AGI不是靠“更大”,而是靠“更聪明”
今天的大模型,动辄上千亿参数,训练一次耗电堪比小国年用电量。但陈威廉尖锐指出:“规模不是智慧,只是记忆的膨胀。”他举例:GPT-4能背出《战争与和平》全文,却无法解释“为什么娜塔莎最后选择了皮埃尔”。因为它没有因果模型,只有关联统计。
而HRM的核心哲学是:智能的本质是“压缩”与“泛化”。人类大脑仅860亿神经元,却能理解宇宙、创造艺术、发明数学。为什么AI不能?Sapient团队相信,AGI的关键不在数据量,而在架构是否具备“递归抽象”和“元学习”能力——即模型能自己定义问题、生成子目标、验证假设。他们的下一个目标,是让HRM具备“持续学习”(Continual Learning)能力:在不遗忘旧知识的前提下,吸收新经验,就像人类一生都在学习。
潘多拉的盒子必须由好人打开
“总有一天,我们会有一个比人类更聪明的AI,”陈威廉说,“关和我常说,AGI就像潘多拉的盒子——如果我们不打算打开它,别人也会。所以我们必须成为第一个打开它的人,而且是以负责任的方式。”他们拒绝马斯克,不是因为傲慢,而是因为价值观:AI不能只为利润或权力服务,而应成为人类认知的延伸。
目前,Sapient Intelligence正筹备在美国设立办公室,并计划推出HRM 2.0。虽然公司可能更名(因“Sapient”已被多家机构注册),但使命不变:打造第一个真正具备通用推理能力的AI。他们预计,AGI将在未来十年内出现。“不是2040年,不是2050年,”王关斩钉截铁地说,“就是2030年代。而我们会站在起点。”
作者背景:Eva Roytburg 是《福布斯财富》杂志资深科技记者,长期追踪AI、量子计算与生物科技前沿,多次独家报道DeepMind、OpenAI及中国AI独角兽。本文基于对William Chen与Guan Wang长达三周的深度访谈,以及对HRM模型代码与测试数据的独立验证。