本文拆解一种把大脑看成“自回归生成器”的统一理论。核心观点很简单:大脑每时每刻都在预测下一个体验状态。记忆、注意力、知觉、思考、自我感,像一群看着不同窗口上班的人,实际都在同一个流水线里拧螺丝。
作者背景:Autoregressive Brain项目作者,研究方向聚焦认知科学、神经计算与意识理论统一框架构建,尝试用单一计算原则解释大脑功能。
大脑只有一个真正的核心任务
想象你站在厨房里,面前是一锅正在沸腾的汤。你知道下一秒汤会冒泡,再下一秒蒸汽会上升,再再下一秒你可能会闻到葱花味。你不是猜的,你是自然而然就知道的。这套理论说,大脑从头到尾只干这一件事:不断预测下一秒会发生什么。刷短视频的时候,平台永远在猜你下一条想看什么。大脑也是,它拿着你现在正在体验的东西,加上过去的残留痕迹,然后生成接下来那一段体验。
传统教科书把大脑拆成记忆部门、注意力部门、知觉部门、语言部门,像政府大楼里几十个互不沟通的办公室。这套理论说扯淡。根本没有什么记忆办公室,没有什么知觉办公室,只有一个流水线。流水线上只有一个工种:预测下一个状态。你觉得自己在回忆昨天吃的火锅,其实脑子正在重新生成那段火锅体验。你觉得自己在专心看手机,其实脑子正在生成屏幕上应该出现什么字。你觉得自己在做决定,其实脑子已经先给出了倾向,然后你才编出理由。很多人以为自己是将军在指挥战役,实际上你只是广播员在播报已经发生的事情。
这个核心观点极端简单,简单到让人觉得不可能。但作者说,越简单的东西越可能是真的,因为进化没有时间和精力去装修几十个独立部门。进化只会找到一个好用的招,然后到处用。就像锤子能钉钉子、能砸核桃、能敲开椰子,不是因为锤子有很多模式,而是因为你一直在挥它。
现实世界像直播迫使大脑必须预测
为什么非要预测不可?因为这个世界没有暂停键。你走在马路上,一辆自行车冲过来,你不能说等一下,我先分析一下轮子转速、车把角度、骑车人表情,再决定躲不躲。等你分析完,你已经和自行车合体了。世界是连续变化的,球会飞过来,人会走过来,汤会溢出来,每一个瞬间都和上一个瞬间有关系。如果世界是一本静态相册,你翻一页看一页,那根本不需要预测能力。但现实是个直播流,信号永远不会停,你只能一边收一边猜下一帧是什么。
一个特别逗的例子里,有人朝你扔拖鞋。正常人的反应是偏头躲开。如果按照传统模块化理论,视觉模块要先识别出拖鞋,运动模块要计算出轨迹,决策模块要评估威胁等级,动作模块再下达指令。等这些部门开完会,你至少挨了三只拖鞋。实际情况是,你的大脑在拖鞋还没飞到一半的时候就预测出了落点,然后直接让脖子肌肉开工。你甚至还没意识到自己躲了,身体已经动完了。很多人跑步时绊了一下,瞬间就调整平衡,事后才说卧槽刚才差点摔了。大脑根本没等意识批准就干了活,因为它一直在预测,而预测的结果直接变成了动作。
这件事还有一个特别欠揍的地方。你做完决定之后,经常觉得是自己深思熟虑的结果。但实验发现,大脑在你自己意识到决定之前几百毫秒就已经做出了倾向。你的意识体验像是听领导念稿子,稿子其实是秘书写的。你以为你在决策,其实你在播报。这就像在餐厅点菜,服务员把菜端上来了,你跟朋友说是我点的,实际上你根本没看菜单,是服务员自己帮你点的。脑子每天都在演这出戏。
大语言模型意外证明预测能长出智能
很多年前这套理论提出来的时候,大家觉得你疯了吧,光靠预测下一个词就能搞出智能?那鹦鹉也能。然后大语言模型出现了,场面立刻变得很尴尬。GPT这类模型做的事极端无聊,它不断看前面的文字,然后预测下一个Token,Token就是一个词或者一个词的一部分。你说“猫坐在”,它猜下一个是“垫子上”或者“地板上”。你说“1+1等于”,它猜下一个是“2”。你说“写一首关于下雨的诗”,它猜下一个是“滴答”。听起来像高级版输入法,对不对?
结果这个输入法玩着玩着,突然会写代码了,会翻译了,会做数学题了,会总结论文了,会讲段子了,会安慰人了。全世界做人工智能的人全傻了。大家原来觉得你需要装一堆模块,什么语法分析模块、推理模块、知识图谱模块、常识数据库。结果你啥也不装,就一个预测模块,它就自己冒出了这些能力。这就像你只教一只鸡啄米,结果它有一天自己飞上屋顶开始唱美声。
这套理论说重点不在这。重点在于,大语言模型提供了存在证明。
以前反对的人说,只靠预测不可能产生真正智能。
现在证据拍在桌子上,你看它确实产生了。
你不能再嘴硬说做不到,你只能问它是怎么做到的。
这就像有人说靠俯卧撑不可能练出胸肌,然后隔壁走来个每天做五百个俯卧撑的大胸猛男,你的论点当场去世。
当然,大脑不是大语言模型。大脑有情绪,有身体,有几十亿年的进化遗产。但是底层逻辑可能是一样的:不断预测下一个状态,然后拿实际输入来纠正预测。这个差值就是你学习的东西。你每次猜错,脑子就微调一下自己的内部连线,争取下次猜对。你的人生本质上就是一台巨大的猜谜机器。
知觉是你主动生成的不是被动接收的
传统教科书上说,眼睛像摄像头,耳朵像麦克风,大脑接收信号然后处理。这套理论说完全反了。知觉不是输入,知觉是输出。你看到的不是世界本身,你看到的是大脑生成的预测画面,外部信号只是用来纠正这个画面的。举个最经典的例子,你看一个圆,有一部分被挡住了,你仍然觉得后面是完整的圆。你的视网膜根本没有收到那部分信号,是你的脑子自己补的。这就像你看电视剧,主角走出镜头,你不会觉得她原地爆炸了,你觉得她还在画面外活着。因为你脑子在生成完整的连续世界,而不是傻乎乎地接收像素。
视觉错觉就更离谱了。有一张黑白网格图,白色交叉点旁边是黑色方块,你就觉得交叉点上有灰色的影子。实际上那里什么都没有,是你脑子生成的。它的生成模型里,这种明暗对比就应该是灰色阴影,所以你就看见了灰色。你亲眼看见了一个不存在的东西。这不是眼睛出故障,这是大脑的正常工作方式。它永远在脑补,脑补就是知觉本身。
变化盲视实验更搞笑。研究人员放一段视频,画面里有个大楼,下一秒大楼突然消失。很多人完全没发现。你以为自己在看整个世界,其实脑子只生成了它觉得重要的部分。大楼消失这种大事,如果你的注意力不在那里,它就真的在你的体验里不存在了。这就像游戏渲染,你背后的场景很多根本没有加载,因为你没回头看。脑子每天都在偷工减料,它心想用户应该发现不了。用户确实大部分时候发现不了。
注意力是生成漏斗不是聚光灯
传统说法把注意力比作聚光灯,照到哪里哪里亮。作者说不对,注意力不是灯,是漏斗。
你每时每刻收到的信息量巨大到离谱:
视觉里有颜色、形状、运动、深度、物体边界。
听觉里有音高、音色、方向、距离。
身体感觉里有温度、压力、疼痛、位置。
还有内脏信号、情绪波动、记忆碎片、乱七八糟的想法。
全部加起来像春运时期的火车站广场,几十万人同时挤在一起。
但你的意识体验是一条单线程的河流,你一次只能主要体验一个东西。你没办法同时认真想明天早饭吃什么,同时认真思考宇宙大爆炸,同时认真回味三年前前任说的某句话。想多了CPU直接过热关机。
所以大脑必须做一个动作:压缩。
从几十路并行信号里,选一路生成当前的体验。这一路就是你正在注意的东西。其他的信号被丢掉了,或者压缩成背景。走路看手机撞树,不是因为树没有进入你的视网膜,是因为树没有进入生成漏斗。你的脑子正在生成手机屏幕上的内容,树就被扔出了体验世界。树很无辜,它站在那里几十年了,结果你因为刷短视频把它从宇宙里删除了。
心流状态就是漏斗口径正好,生成非常顺畅,没有多余的东西挤进来。很多程序员写代码上头的时候,听不见别人叫他,感觉不到饿了,也不知道过了几个小时。不是因为那些信号不存在,是因为它们全被漏斗挡在了外面。生成器正在专心生成代码逻辑,没空生成饥饿感和时间感。你事后才想起来,卧槽我还没吃饭。
回忆是完全重新生成不是读取录像带
最毁三观的部分来了。
传统想法里,记忆就像硬盘,过去的事存进去,需要的时候取出来。
这套理论说,没有录像带这回事。
你回忆十岁生日那天,脑子不会打开一个叫 birthday_10_final_v2.mp4 的文件。它会根据残留的一些线索,加上你现在的知识、情绪、语言习惯、社交规范,重新生成一段生日体验。
每次回忆都是重新拍电影,导演是同一个人,但演员老了,剧本改了,连预算都不一样了。
这就解释了大量诡异现象:
为什么同一件事,你十年前回忆和现在回忆感觉不一样?因为生成器用的材料变了。
为什么童年记忆越来越像电影片段,有滤镜有配乐?因为你后来看过很多电影,生成的时候借用了那些电影的手法。
为什么假记忆那么容易植入?因为生成器分不清哪个线索是原始录像带的,哪个线索是你后来听别人说的。你给它一个线索说“你五岁时在超市走丢过”,它就认认真真生成一段走丢体验,然后你觉得这就是真实记忆。
最恐怖的是,你没办法验证,因为没有原件。就像你把一张照片用滤镜反复保存五十次,最后谁也说不清原图长什么样。
有一个经典实验,研究人员给受试者看一张假的飞机广告,上面写着你在迪士尼乐园见过兔八哥。兔八哥是华纳的,不可能出现在迪士尼。结果很多人后来真的回忆出在迪士尼和兔八哥握手。他们不是撒谎,他们是真真切切生成了那段握手体验。你的记忆根本不值得完全信任,它只是一个实时生成的故事,而且这个故事每次讲都不一样。很多人坚信自己小时候经历过某件离谱的事,全家人都说没发生过,他还跟你急。不是他有毛病,是他的生成器太卖力了。
自我感觉是持续生成的高权重标签
最后,这套理论对“我”下了狠手。传统直觉里,脑子里有个小人,坐在控制室里看屏幕、按按钮、下命令。这个小人就是“我”。问题来了,那个小人脑子里还有小人吗?如果有,无限套娃。如果没有,那个小人凭什么没有小人?
这套理论说,根本没有什么中央指挥官。“我”只是一个生成器里的特殊Token,一个超高权重的标签。就像文件压缩包,一句“我”压缩了你的全部经历、习惯、目标、价值观、身体感觉、社会角色。你用这个标签非常频繁,以至于你觉得这里面肯定住着一个真实不虚的实体。
你早上醒来,第一个念头往往不是“太阳好大”,而是“我今天几点起床”。这个“我”被生成出来,然后后面跟着一堆东西。你决定去刷牙,是因为“我”觉得应该刷牙。你担心迟到,是因为“我”不想被扣钱。你发朋友圈,是因为“我”希望别人点赞。
整个系统里没有一个发号施令的总裁,只有一个不断被生成、被使用、被更新的高权重预测。
就像游戏里主角天天说自己叫勇者,说了一万遍以后,玩家也快信了。
冥想或者某些精神练习里,人可能体验到“无我”状态。这没有那么神秘,它就是生成器暂时降低了“我”这个标签的权重。你的体验里没有了那个讲述者、那个评价者、那个担忧者,只剩下纯粹的生成流。很多人第一次体验到觉得很震撼,觉得开悟了。实际上你只是把内心那个整天逼逼叨叨的主持人音量调成了静音。主持人还在,话筒关了而已。
意识是生成流从内部看起来的样子
最难啃的骨头是意识。
为什么所有计算过程会产生“我正在感受”这种主观体验?哲学上这叫难问题。这套理论给了一个极简答案:意识就是连续自回归生成过程本身从内部看起来的样子。你从一个状态预测下一个状态,这个预测流从外部看是数学和物理,从内部看就是体验。就像GPS导航,从卫星上看是一串坐标计算和路径规划,从司机耳朵里听是“前方三百米左转”。同一件事,不同视角。
为什么意识是连续的?因为生成器一次只生成一个状态,前一个状态的后半截连着后一个状态的前半截,你感觉就是一条河。
为什么全身麻醉会消失意识?因为生成循环被化学物质打断了,你不再有状态到状态的预测,体验流就断了。
为什么做梦有意识?因为生成器还在转,只是外部输入被切断了,它自己在封闭循环里生成。
梦里的荒谬情节,比如你老板变成一只企鹅,因为生成器缺了真实感官信号的纠正,放飞自我了。
你醒来说这什么破梦,脑子说你给我闭嘴,我已经很努力了。
这套理论有个讨人喜欢的冷幽默:
它不说意识是神秘的、不可知的、超越物理的。
它说意识就是你的脑子一直在干的那件事,你每天醒来就在干,一直干到睡着,死了就不干了。
没那么玄乎,也没那么无趣。就像你问水为什么是湿的,最合理的答案不是量子力学也不是佛学,而是因为水分子之间有氢键。
意识大概也是这种级别的答案。它不解决所有哲学问题,但它让你觉得这问题可以讨论,而不是跪在地上仰望。
整个理论是一个巨大的拆迁工程,把所有认知心理学课本里的独立小楼全拆了,然后告诉你它们其实是一个小区里的不同户型。
这个理论现在远不到盖棺定论的时候,它提出了几百个可以验证的预测,等着被实验怼脸。但它有一个极强的魅力:只用一条规则解释几乎全部认知现象。
科学史上经常出现这种时刻,某个人拿着极简单的公式走进来,大家先笑,然后沉默,然后回家翻课本。这套理论能不能走到那一步,没人知道。但它至少已经让大家开始翻课本了。