大模型自回归机制:学习序列中的轨迹模式,并用强化学习筛选成功路径


大语言模型的自回归机制揭示了智能本质:学习序列中的轨迹模式,并用强化学习筛选成功路径。这或为人类认知提供统一计算框架。

为什么大语言模型能“思考”?因为它们在走“认知轨迹”!

为什么像ChatGPT这样的大语言模型(LLM)能写出逻辑严密、情感丰富的段落,而不是胡言乱语?它们并不是真的“理解”世界,而是通过一个极其优雅又强大的机制——“自回归”(autoregression)——学会了语言中隐藏的“路径”。

更惊人的是,这种机制可能不只是语言的专利,它很可能揭示了人类智能本身的底层逻辑。今天我们要拆解的,是一篇来自认知科学家Elan Barenholtz博士的深度文章《Auto-Autoregression》,他提出:我们的大脑或许也在以类似LLM的方式工作——不是靠一堆独立模块,而是靠一条条“认知路径”自回归地生成下一刻的思维、动作和感知。这不仅颠覆了传统认知科学,还为理解AI与人类智能的共通原理打开了新大门。

大模型的“魔法”其实很单纯:猜下一个词

别被那些花里胡哨的AI营销话术骗了!大语言模型的核心任务其实只有一个:给定一段文字,猜下一个最可能出现的词(token)。听起来是不是很无聊?但正是这个“无聊”的任务,通过海量数据训练,让模型学会了语言的深层结构。

比如,你输入:“Emma had been looking everywhere for her missing car keys. After checking the couch cushions and her purse, she finally looked in her jacket pocket and found...” 模型几乎肯定会输出“them”;

但如果上下文变成“Emma was just cleaning out her grandmother’s basement when she moved an old trunk and found...”,那下一个词大概率是“an”。

注意,这两个句子在“found...”之前完全一样,但模型却能根据更早的叙事线索选择不同的下一步。

这不是因为它“知道”剧情,而是因为它在高维语义空间里,已经学会了“找钥匙”和“翻老物件”是两条不同的“语言路径”——选“them”意味着走向“目标达成”,选“an”则打开“未知发现”的可能性。每一次选词,其实都是在选择一条未来序列的走向。

语言路径 = 认知路径?大脑也在“自回归”!

Elan Barenholtz博士进一步提出一个爆炸性观点:人类大脑可能也在干同样的事!只不过我们生成的不是“词”,而是“认知标记”(cognitive tokens)——它可以是视觉想象、内心独白、注意力转移、肌肉指令,甚至是一闪而过的记忆碎片。

我们的认知过程,本质上是一个自回归循环:当前的感知+动作+内部状态,共同决定下一个“认知标记”是什么。比如你伸手去拿水杯,这个动作其实是一串自回归生成的结果:“看到杯子→决定拿→调用手部肌肉→感知手的位置→调整力度→完成抓握”。

每一步都不是孤立决策,而是沿着一条由过去经验塑造的“行为路径”自动展开。

更妙的是,你的动作会改变环境(比如手移动了),环境又反馈新的感知(比如看到手靠近杯子),这些新感知立刻成为下一轮“生成”的输入。

于是,整个认知-行动-感知系统形成了一个闭环,持续自回归地演进。

传统认知理论太臃肿,自回归模型更“瘦”更高效

过去几十年,认知科学喜欢把大脑分成一堆“模块”:工作记忆、长期记忆、注意力、决策……听起来很专业,但其实缺乏统一机制。

而自回归框架把这一切都收编了:
长期记忆 = 模型权重(决定了整个“路径地图”的形状);
工作记忆 = 上下文窗口(保留最近几步的激活状态);
注意力 = 动态加权机制(决定哪些历史信息对下一步影响更大)。

是不是瞬间清爽了?

更重要的是,这个框架解决了“预测编码”(Predictive Coding)理论的一个致命缺陷——预测编码要求大脑不断预测“下一刻的感官输入”,然后拿真实输入来修正误差。

但问题来了:我们真的需要精确预测感官数据吗?不!我们需要的是采取有效行动。

自回归模型绕开了这个弯:它不预测感官,而是直接生成“有用的下一步”——不管是内部思维还是外部动作。这才是智能的正道!

没有老师教,大脑怎么学?靠“时间邻居”一起火!

LLM靠海量标注文本学习(监督学习),但婴儿可没人给ta标“下一步该动哪块肌肉”。

那大脑怎么学会复杂行为的?答案是:海布学习(Hebbian learning)——“一起激活的神经元会连在一起”。

更具体地说,是“时间上的共现”:当状态s_t后面跟着动作a_t,再导致新状态s_{t+1},那么(s_t, a_t, s_{t+1})这个三元组的神经通路就会被强化。反复经历类似序列,大脑就自动归纳出稳定的“状态-动作-结果”路径。

比如“看到玩具→伸手→碰到”这个路径被强化多次后,下次再看到玩具,整条路径就会自动激活。这种学习不需要外部老师,也不需要复杂的误差计算,只要时间上的先后关联就够了。这就是生物智能最“经济”的学习方式——用经验本身作为教材。

但光会“走路径”不够,还得知道哪条路能吃到糖!

海布学习只能告诉我们“什么经常发生”,但无法区分“什么是有用的”。比如“伸手→摔倒”和“伸手→拿到玩具”都是可能路径,但只有后者值得重复。

这时候,强化学习(RL)就登场了!

但Barenholtz博士提出一个关键升级:RL不应该只奖励单个动作(比如只奖励“伸手”),而应该奖励整条“轨迹”(trajectory)。当一个完整行为序列(如“注视→调整姿势→伸手→抓握→成功”)最终带来好结果(比如吃到糖),整个路径就该被强化。

这样,大脑就把“成功经验”打包存储,下次遇到类似开头(比如看到糖),整套高效动作序列就会被优先激活。这完美解决了“时间信用分配”难题——不用纠结“到底是哪一步功劳大”,而是整条路径一起奖!

大脑是“改地图”还是“选路径”?可能两者都干!

那RL怎么影响路径选择?有两种可能架构:

第一种是“改地图”——直接调整神经连接权重,让成功路径变得更“陡峭”,下次更容易走上去(类似AI里的RLHF,用人类反馈微调模型权重)。长期下来,熟练技能(比如骑车)就变成“自动驾驶”。

第二种是“动态选路”——底层路径地图不变,但执行时由“高管”(比如顶叶注意网络)根据当前目标实时加权,从多条备选路径中挑最合适的。比如同一个“伸手”路径,可以用于轻柔拿花,也可以用于快速挡球,全看上下文。

生物大脑很可能两者兼用:高频成功路径固化为“默认选项”,新奇或冲突场景则靠实时调控。这种混合架构,既高效又灵活!

一个闭环,搞定从感知到推理的所有智能!

现在,把所有碎片拼起来,就得到一个完整的“认知自回归循环”:
1)感官输入(很多是自己动作引发的);
2)加工成“认知标记”;
3)与近期历史一起嵌入多尺度上下文(细节近期+抽象远期);
4)注意力动态加权各历史元素;
5)在“可能路径”中,RL信号偏向“成功路径”;
6)生成下一认知标记(内部思维或外部动作);
7)动作改变环境,产生新感官输入;
8)回到第1步,循环往复。这个循环看似简单,却能解释从婴儿抓物到科学家推理的全部智能行为!

它的威力在于:用单一机制,统一处理感知、行动、记忆、注意、决策——这才是真正的“智能操作系统”。

作者是谁?认知神经科学界的“AI布道者”

Elan Barenholtz博士可不是普通博主。他是佛罗里达大西洋大学(Florida Atlantic University)的心理学与神经科学教授,长期研究人类视觉认知、空间导航与AI交叉领域。他不仅精通实验心理学,还深度参与计算建模,特别关注如何用AI架构(如Transformer)反哺对人脑的理解。他创办的Substack专栏以“用AI透镜看心智”著称,擅长把艰深理论转化为生动思想实验。这篇《Auto-Autoregression》正是他近年思考的集大成之作——试图用大模型的自回归机制,构建一个统一认知理论。