大脑其实像LLM持续预测下一秒：你每秒都在重新生成自己

2026-05-20 1 6K banq

本文拆解一种把大脑看成“自回归生成器”的统一理论。核心观点很简单：大脑每时每刻都在预测下一个体验状态。记忆、注意力、知觉、思考、自我感，像一群看着不同窗口上班的人，实际都在同一个流水线里拧螺丝。

作者背景：Autoregressive Brain项目作者，研究方向聚焦认知科学、神经计算与意识理论统一框架构建，尝试用单一计算原则解释大脑功能。

大脑只有一个真正的核心任务

想象你站在厨房里，面前是一锅正在沸腾的汤。你知道下一秒汤会冒泡，再下一秒蒸汽会上升，再再下一秒你可能会闻到葱花味。你不是猜的，你是自然而然就知道的。这套理论说，大脑从头到尾只干这一件事：不断预测下一秒会发生什么。刷短视频的时候，平台永远在猜你下一条想看什么。大脑也是，它拿着你现在正在体验的东西，加上过去的残留痕迹，然后生成接下来那一段体验。

传统教科书把大脑拆成记忆部门、注意力部门、知觉部门、语言部门，像政府大楼里几十个互不沟通的办公室。这套理论说扯淡。根本没有什么记忆办公室，没有什么知觉办公室，只有一个流水线。流水线上只有一个工种：预测下一个状态。你觉得自己在回忆昨天吃的火锅，其实脑子正在重新生成那段火锅体验。你觉得自己在专心看手机，其实脑子正在生成屏幕上应该出现什么字。你觉得自己在做决定，其实脑子已经先给出了倾向，然后你才编出理由。很多人以为自己是将军在指挥战役，实际上你只是广播员在播报已经发生的事情。

这个核心观点极端简单，简单到让人觉得不可能。但作者说，越简单的东西越可能是真的，因为进化没有时间和精力去装修几十个独立部门。进化只会找到一个好用的招，然后到处用。就像锤子能钉钉子、能砸核桃、能敲开椰子，不是因为锤子有很多模式，而是因为你一直在挥它。

现实世界像直播迫使大脑必须预测

为什么非要预测不可？因为这个世界没有暂停键。你走在马路上，一辆自行车冲过来，你不能说等一下，我先分析一下轮子转速、车把角度、骑车人表情，再决定躲不躲。等你分析完，你已经和自行车合体了。世界是连续变化的，球会飞过来，人会走过来，汤会溢出来，每一个瞬间都和上一个瞬间有关系。如果世界是一本静态相册，你翻一页看一页，那根本不需要预测能力。但现实是个直播流，信号永远不会停，你只能一边收一边猜下一帧是什么。

一个特别逗的例子里，有人朝你扔拖鞋。正常人的反应是偏头躲开。如果按照传统模块化理论，视觉模块要先识别出拖鞋，运动模块要计算出轨迹，决策模块要评估威胁等级，动作模块再下达指令。等这些部门开完会，你至少挨了三只拖鞋。实际情况是，你的大脑在拖鞋还没飞到一半的时候就预测出了落点，然后直接让脖子肌肉开工。你甚至还没意识到自己躲了，身体已经动完了。很多人跑步时绊了一下，瞬间就调整平衡，事后才说卧槽刚才差点摔了。大脑根本没等意识批准就干了活，因为它一直在预测，而预测的结果直接变成了动作。

这件事还有一个特别欠揍的地方。你做完决定之后，经常觉得是自己深思熟虑的结果。但实验发现，大脑在你自己意识到决定之前几百毫秒就已经做出了倾向。你的意识体验像是听领导念稿子，稿子其实是秘书写的。你以为你在决策，其实你在播报。这就像在餐厅点菜，服务员把菜端上来了，你跟朋友说是我点的，实际上你根本没看菜单，是服务员自己帮你点的。脑子每天都在演这出戏。

大语言模型意外证明预测能长出智能

很多年前这套理论提出来的时候，大家觉得你疯了吧，光靠预测下一个词就能搞出智能？那鹦鹉也能。然后大语言模型出现了，场面立刻变得很尴尬。GPT这类模型做的事极端无聊，它不断看前面的文字，然后预测下一个Token，Token就是一个词或者一个词的一部分。你说“猫坐在”，它猜下一个是“垫子上”或者“地板上”。你说“1+1等于”，它猜下一个是“2”。你说“写一首关于下雨的诗”，它猜下一个是“滴答”。听起来像高级版输入法，对不对？

结果这个输入法玩着玩着，突然会写代码了，会翻译了，会做数学题了，会总结论文了，会讲段子了，会安慰人了。全世界做人工智能的人全傻了。大家原来觉得你需要装一堆模块，什么语法分析模块、推理模块、知识图谱模块、常识数据库。结果你啥也不装，就一个预测模块，它就自己冒出了这些能力。这就像你只教一只鸡啄米，结果它有一天自己飞上屋顶开始唱美声。

这套理论说重点不在这。重点在于，大语言模型提供了存在证明。
以前反对的人说，只靠预测不可能产生真正智能。
现在证据拍在桌子上，你看它确实产生了。
你不能再嘴硬说做不到，你只能问它是怎么做到的。

这就像有人说靠俯卧撑不可能练出胸肌，然后隔壁走来个每天做五百个俯卧撑的大胸猛男，你的论点当场去世。

当然，大脑不是大语言模型。大脑有情绪，有身体，有几十亿年的进化遗产。但是底层逻辑可能是一样的：不断预测下一个状态，然后拿实际输入来纠正预测。这个差值就是你学习的东西。你每次猜错，脑子就微调一下自己的内部连线，争取下次猜对。你的人生本质上就是一台巨大的猜谜机器。

知觉是你主动生成的不是被动接收的

传统教科书上说，眼睛像摄像头，耳朵像麦克风，大脑接收信号然后处理。这套理论说完全反了。知觉不是输入，知觉是输出。你看到的不是世界本身，你看到的是大脑生成的预测画面，外部信号只是用来纠正这个画面的。举个最经典的例子，你看一个圆，有一部分被挡住了，你仍然觉得后面是完整的圆。你的视网膜根本没有收到那部分信号，是你的脑子自己补的。这就像你看电视剧，主角走出镜头，你不会觉得她原地爆炸了，你觉得她还在画面外活着。因为你脑子在生成完整的连续世界，而不是傻乎乎地接收像素。

视觉错觉就更离谱了。有一张黑白网格图，白色交叉点旁边是黑色方块，你就觉得交叉点上有灰色的影子。实际上那里什么都没有，是你脑子生成的。它的生成模型里，这种明暗对比就应该是灰色阴影，所以你就看见了灰色。你亲眼看见了一个不存在的东西。这不是眼睛出故障，这是大脑的正常工作方式。它永远在脑补，脑补就是知觉本身。

变化盲视实验更搞笑。研究人员放一段视频，画面里有个大楼，下一秒大楼突然消失。很多人完全没发现。你以为自己在看整个世界，其实脑子只生成了它觉得重要的部分。大楼消失这种大事，如果你的注意力不在那里，它就真的在你的体验里不存在了。这就像游戏渲染，你背后的场景很多根本没有加载，因为你没回头看。脑子每天都在偷工减料，它心想用户应该发现不了。用户确实大部分时候发现不了。

注意力是生成漏斗不是聚光灯

传统说法把注意力比作聚光灯，照到哪里哪里亮。作者说不对，注意力不是灯，是漏斗。

你每时每刻收到的信息量巨大到离谱：
视觉里有颜色、形状、运动、深度、物体边界。
听觉里有音高、音色、方向、距离。
身体感觉里有温度、压力、疼痛、位置。
还有内脏信号、情绪波动、记忆碎片、乱七八糟的想法。

全部加起来像春运时期的火车站广场，几十万人同时挤在一起。

但你的意识体验是一条单线程的河流，你一次只能主要体验一个东西。你没办法同时认真想明天早饭吃什么，同时认真思考宇宙大爆炸，同时认真回味三年前前任说的某句话。想多了CPU直接过热关机。

所以大脑必须做一个动作：压缩。

从几十路并行信号里，选一路生成当前的体验。这一路就是你正在注意的东西。其他的信号被丢掉了，或者压缩成背景。走路看手机撞树，不是因为树没有进入你的视网膜，是因为树没有进入生成漏斗。你的脑子正在生成手机屏幕上的内容，树就被扔出了体验世界。树很无辜，它站在那里几十年了，结果你因为刷短视频把它从宇宙里删除了。

心流状态就是漏斗口径正好，生成非常顺畅，没有多余的东西挤进来。很多程序员写代码上头的时候，听不见别人叫他，感觉不到饿了，也不知道过了几个小时。不是因为那些信号不存在，是因为它们全被漏斗挡在了外面。生成器正在专心生成代码逻辑，没空生成饥饿感和时间感。你事后才想起来，卧槽我还没吃饭。

回忆是完全重新生成不是读取录像带

最毁三观的部分来了。

传统想法里，记忆就像硬盘，过去的事存进去，需要的时候取出来。
这套理论说，没有录像带这回事。

你回忆十岁生日那天，脑子不会打开一个叫 birthday_10_final_v2.mp4 的文件。它会根据残留的一些线索，加上你现在的知识、情绪、语言习惯、社交规范，重新生成一段生日体验。

每次回忆都是重新拍电影，导演是同一个人，但演员老了，剧本改了，连预算都不一样了。

这就解释了大量诡异现象：
为什么同一件事，你十年前回忆和现在回忆感觉不一样？因为生成器用的材料变了。
为什么童年记忆越来越像电影片段，有滤镜有配乐？因为你后来看过很多电影，生成的时候借用了那些电影的手法。
为什么假记忆那么容易植入？因为生成器分不清哪个线索是原始录像带的，哪个线索是你后来听别人说的。你给它一个线索说“你五岁时在超市走丢过”，它就认认真真生成一段走丢体验，然后你觉得这就是真实记忆。
最恐怖的是，你没办法验证，因为没有原件。就像你把一张照片用滤镜反复保存五十次，最后谁也说不清原图长什么样。

有一个经典实验，研究人员给受试者看一张假的飞机广告，上面写着你在迪士尼乐园见过兔八哥。兔八哥是华纳的，不可能出现在迪士尼。结果很多人后来真的回忆出在迪士尼和兔八哥握手。他们不是撒谎，他们是真真切切生成了那段握手体验。你的记忆根本不值得完全信任，它只是一个实时生成的故事，而且这个故事每次讲都不一样。很多人坚信自己小时候经历过某件离谱的事，全家人都说没发生过，他还跟你急。不是他有毛病，是他的生成器太卖力了。

自我感觉是持续生成的高权重标签

最后，这套理论对“我”下了狠手。传统直觉里，脑子里有个小人，坐在控制室里看屏幕、按按钮、下命令。这个小人就是“我”。问题来了，那个小人脑子里还有小人吗？如果有，无限套娃。如果没有，那个小人凭什么没有小人？

这套理论说，根本没有什么中央指挥官。“我”只是一个生成器里的特殊Token，一个超高权重的标签。就像文件压缩包，一句“我”压缩了你的全部经历、习惯、目标、价值观、身体感觉、社会角色。你用这个标签非常频繁，以至于你觉得这里面肯定住着一个真实不虚的实体。

你早上醒来，第一个念头往往不是“太阳好大”，而是“我今天几点起床”。这个“我”被生成出来，然后后面跟着一堆东西。你决定去刷牙，是因为“我”觉得应该刷牙。你担心迟到，是因为“我”不想被扣钱。你发朋友圈，是因为“我”希望别人点赞。

整个系统里没有一个发号施令的总裁，只有一个不断被生成、被使用、被更新的高权重预测。
就像游戏里主角天天说自己叫勇者，说了一万遍以后，玩家也快信了。

冥想或者某些精神练习里，人可能体验到“无我”状态。这没有那么神秘，它就是生成器暂时降低了“我”这个标签的权重。你的体验里没有了那个讲述者、那个评价者、那个担忧者，只剩下纯粹的生成流。很多人第一次体验到觉得很震撼，觉得开悟了。实际上你只是把内心那个整天逼逼叨叨的主持人音量调成了静音。主持人还在，话筒关了而已。

意识是生成流从内部看起来的样子

最难啃的骨头是意识。

为什么所有计算过程会产生“我正在感受”这种主观体验？哲学上这叫难问题。这套理论给了一个极简答案：意识就是连续自回归生成过程本身从内部看起来的样子。你从一个状态预测下一个状态，这个预测流从外部看是数学和物理，从内部看就是体验。就像GPS导航，从卫星上看是一串坐标计算和路径规划，从司机耳朵里听是“前方三百米左转”。同一件事，不同视角。

为什么意识是连续的？因为生成器一次只生成一个状态，前一个状态的后半截连着后一个状态的前半截，你感觉就是一条河。
为什么全身麻醉会消失意识？因为生成循环被化学物质打断了，你不再有状态到状态的预测，体验流就断了。
为什么做梦有意识？因为生成器还在转，只是外部输入被切断了，它自己在封闭循环里生成。
梦里的荒谬情节，比如你老板变成一只企鹅，因为生成器缺了真实感官信号的纠正，放飞自我了。

你醒来说这什么破梦，脑子说你给我闭嘴，我已经很努力了。

这套理论有个讨人喜欢的冷幽默：
它不说意识是神秘的、不可知的、超越物理的。
它说意识就是你的脑子一直在干的那件事，你每天醒来就在干，一直干到睡着，死了就不干了。

没那么玄乎，也没那么无趣。就像你问水为什么是湿的，最合理的答案不是量子力学也不是佛学，而是因为水分子之间有氢键。
意识大概也是这种级别的答案。它不解决所有哲学问题，但它让你觉得这问题可以讨论，而不是跪在地上仰望。

整个理论是一个巨大的拆迁工程，把所有认知心理学课本里的独立小楼全拆了，然后告诉你它们其实是一个小区里的不同户型。

这个理论现在远不到盖棺定论的时候，它提出了几百个可以验证的预测，等着被实验怼脸。但它有一个极强的魅力：只用一条规则解释几乎全部认知现象。

科学史上经常出现这种时刻，某个人拿着极简单的公式走进来，大家先笑，然后沉默，然后回家翻课本。这套理论能不能走到那一步，没人知道。但它至少已经让大家开始翻课本了。