Transformer共同发明人怒吼别再调参了：无数次微调抵不上一次跃迁

Transformer的成功正在重演RNN时代的路径依赖，利昂·琼斯警告：无休止的算法微调，可能正在浪费整个AI界最宝贵的时间。

Transformer共同发明人重磅发声：我们正在重复RNN时代的错误！

今天AI圈最火的Transformer架构，可能正把整个行业拖进一个巨大的“局部最优陷阱”！就在所有人都疯狂堆参数、调位置编码、搞MoE混合专家的时候，Transformer七位原始作者之一——Llion Jones（利昂·琼斯）站出来大声疾呼：停！我们正在重蹈RNN时代的覆辙！当年RNN统治NLP时，研究者们也是这样日复一日地微调门控机制、改初始化方式、调整层数结构，结果呢？Transformer一出，所有努力瞬间归零。

如今历史正在惊人地重演——无数论文只敢在Transformer上做“安全但平庸”的小修小补，却不敢跳出框架去探索真正革命性的新架构。利昂坦言，他今年已决定大幅减少对Transformer的研究投入，因为这个领域已经“过度饱和”，创新空间被严重挤压。

更可怕的是，当前LLM展现出的“锯齿状智能”——前一秒能解博士级难题，后一秒却犯低级常识错误——恰恰暴露了Transformer架构底层的根本缺陷。这不是模型不够大、数据不够多的问题，而是整个范式可能走错了方向！

算法微调优化抵不上一次智能跃迁：Transformer共同发明人警告AI界正陷入创新停滞！

利昂·琼斯是谁？他是2017年那篇划时代论文《Attention Is All You Need》的八位作者之一，正是这篇论文首次提出了Transformer架构，彻底改变了自然语言处理乃至整个AI领域的技术路线。如今，他却站出来公开质疑：我们是不是正在重复RNN时代的错误？是不是整个AI界已经被Transformer的成功“绑架”，陷入了无休止的微调内卷，而错失了下一次真正智能跃迁的机会？

这不是危言耸听，而是一位亲历过架构革命、亲手推动过范式转移的顶级研究者，在冷静观察五年之后发出的警世之言。

一次历史性的回忆杀：当RNN被认为就是终点的时候

如果你现在回看2014到2016年的人工智能研究，会发现一个令人窒息的景象：整个学术圈几乎被循环神经网络（RNN）及其变体——LSTM、GRU——完全占据。那时候，谁要是敢说“RNN可能不是最终答案”，大概会被当成异端。因为RNN真的太成功了！它第一次让机器能够有效处理序列数据，无论是语音识别、机器翻译，还是文本生成，效果都出现了质的飞跃。

于是，研究风向迅速转向“如何把RNN榨干”。大家不再问“有没有更好的架构”，而是问“怎么让RNN跑得更快、更准、更省资源”。于是，各种精巧的改进层出不穷：门控机制能不能优化？初始化能不能用单位矩阵？非线性激活函数从tanh换成ReLU会不会更好？层与层之间除了横向连接，能不能加个纵向门控，让信息流更灵活？甚至有人提出“分层LSTM”——模型自己决定某一层要不要计算，听起来是不是很“智能”？

这些工作当然有技术含量，也确实带来了性能提升。但在一个最干净、最纯粹的基准任务上——字符级语言建模（character-level language modeling），所有这些努力最终都浓缩成一个冷冰冰的数字：bits per character（每个字符所需的比特数）。这个指标越低，说明模型对语言的压缩能力越强，理解也越深。

当时的顶尖成果是什么水平？大概是1.26 bits/char。然后，有人通过精心设计的初始化和门控结构，把它降到了1.25；另一组人用了更深的堆叠和残差连接，又压到了1.24。每降低0.01，都足以登上NeurIPS或ICML这样的顶会，成为“年度突破”。那是一个为小数点后两位欢呼的时代，也是一个集体陷入路径依赖而不自知的时代。

Transformer降临：一次不讲道理的数值断崖

真正的转折点，并不是这些微调累积到了某个临界点，而是2017年Transformer横空出世后，直接把游戏规则改写了。利昂·琼斯后来回忆，当他们团队把一个非常深的、仅含解码器（decoder-only）的Transformer模型，直接扔到同样的字符级语言建模任务上时，几乎没做任何花哨的技巧——没有复杂的初始化，没有门控机制，没有分层计算——结果直接跳到了1.1 bits/char。

这个数字意味着什么？意味着此前十几年在RNN体系内所有聪明、精巧、复杂的工程努力，在一个新的架构面前，瞬间变得像是一场围绕错误方向的集体劳动。差距大到什么程度？大到当他们在会议上展示结果时，同行会走过来，带着怀疑又礼貌的语气问：“你们是不是把单位搞错了？是不是用的是nats而不是bits？”

但事实就是事实。不是计算错误，不是数据泄露，而是架构本身的代际差异。Transformer凭借其并行化能力、全局注意力机制和可扩展性，从根本上解决了RNN的序列依赖瓶颈。那一刻，利昂·琼斯突然意识到一个残酷的真相：那些年所有对RNN的无限排列组合，从结果论角度看，几乎全部被一次架构跃迁清零了。不是研究者不够努力，而是方向错了。

历史正在重演：Transformer成为新的RNN

真正让利昂·琼斯感到焦虑的，并不是Transformer有多成功——它当然值得成功——而是它成功之后，整个行业的行为模式，和当年的RNN时代几乎一模一样。今天的AI论文在干什么？90%以上都在使用同一套Transformer架构，只是在局部做无休止的微调。

比如：LayerNorm到底该放在残差连接之前（Pre-LN）还是之后（Post-LN）？Attention机制能不能改成多查询（Multi-Query Attention）来节省显存？前馈网络（FFN）是该做得更宽（wider）还是更深（deeper）？训练时要不要加某种新型正则化？推理时能不能引入动态稀疏或者缓存复用？

这些改动当然能在某些基准上挤出0.1%到0.5%的提升，也确实能发论文、拿奖金、刷榜单。但问题在于，它们几乎全部发生在同一个“架构盆地”之内。用利昂·琼斯的话说，这叫“局部最优陷阱”——整个领域被Transformer的成功牢牢吸住，所有算力、人才、资金、论文评价体系都在强化这条路径，而真正跳出框架的探索，正在被系统性边缘化。

更可怕的是，即使有新架构出现，只要它不能带来“碾压级”的性能提升，就很难获得关注。比如Mamba、RWKV、State Space Models等替代方案，已经在某些任务上展现出优于Transformer的效率或泛化能力，但因为它们只是“好一点”，而不是“好得不讲道理”，所以难以撼动现有生态。

为什么行业会集体停在这里：成功本身成了枷锁

从技术角度看，Transformer的成功几乎是完美的陷阱。它足够通用——既能做语言，也能做图像、音频、代码；它足够强大——只要给足数据和算力，几乎什么都能学会；它还足够模块化——你可以轻松替换Attention头、调整层数、插入适配器。这种“万能近似器”的特性，让人很难下决心放弃它去赌一个未知的新架构。

但从组织和制度层面看，问题更严重。学术界有发表压力，博士生要毕业，教授要评职称，公司要KPI。做一个全新架构？风险极高，周期极长，很可能三年下来连baseline都跑不过，论文发不出，项目被砍掉。但在Transformer框架里换一个模块、改一个位置，只要能带来可测量的微小提升，就足以完成考核。

利昂·琼斯直言，这并不是研究者不够聪明，而是环境在系统性地惩罚真正的探索。大家都知道Transformer可能不是终点——毕竟它有明显的缺陷：计算复杂度高、长程依赖仍有瓶颈、推理成本巨大、缺乏真正的因果推理能力——但没有人有足够的激励去赌下一次架构革命。

从Transformer发明者到Transformer怀疑者

值得注意的是，说出这些话的人，并不是局外唱衰者，而是Transformer的共同发明人本人。利昂·琼斯明确表示，他已经有意识地减少了自己在Transformer方向上的研究投入，因为他认为这个空间已经过度饱和，边际效益急剧递减。

他选择转向的方向，是一种被称为“连续思维机”（Continuous Thought Machine）的全新架构尝试。这不是简单的Transformer变体，比如加几个MoE专家、换种Attention形式，而是试图从根本上重新思考计算、时间和表示的关系。他希望构建一种原生支持自适应计算的模型——模型可以根据输入的复杂度，动态决定内部需要“思考”多少步，而不是像现在的大模型那样，无论问题简单还是复杂，都必须走完固定的几十层前向传播。

在他看来，当前大模型表现出的“参差不齐的智能”——比如能写出诺贝尔奖级别的论文，却算不对3位数加法；能推理复杂的法律案例，却搞不清“昨天是星期几”——正是现有架构内在缺陷的外在表现。模型可以被强行训练到“什么都会一点”，但并不真正以更自然、更结构化、更符合人类认知的方式理解世界。

一句真正刺痛行业的话

利昂·琼斯最让人警醒的一句话，其实并不是关于Transformer本身，而是关于研究时间的浪费。他说：“当Transformer出现后，我回头看那些RNN时代的工作，突然意识到它们在结果意义上被全部淘汰了。而现在，我担心我们正站在同一个位置上。”

这句话的分量有多重？它意味着，如果下一次架构级跃迁出现得足够猛烈——比如一个能在相同算力下实现10倍效率、5倍泛化能力的新模型——那么今天无数围绕Transformer做的精巧微调、超参搜索、蒸馏剪枝、量化压缩，未来可能也会被一句话概括：那是一段被局部最优困住的时期。

不是这些工作没有技术价值，而是在历史的长河中，它们可能只是“正确的错误”——方向错了，再努力也是徒劳。

这不是否定，而是一记警钟

需要强调的是，利昂·琼斯的批评绝不是要否定Transformer的价值。正如RNN曾经真实地推动了一个时代，Transformer同样是划时代的成果。没有它，就没有今天的ChatGPT、Claude、Gemini，也没有AI写作、编程助手、多模态理解的爆炸式发展。

问题不在于使用Transformer，而在于是否敢于在它之外认真下注。真正的创新，从来不是在正确答案里多抠0.01，而是敢于质疑这个答案本身。历史已经给过一次清晰的教训：当所有人都在优化RNN时，没人想到Attention会All You Need。而今天，当所有人都在优化Transformer时，也许下一个“Attention”正在某个实验室里悄然诞生。

利昂·琼斯的警告，不是悲观，而是清醒。他希望AI界不要被短期的benchmark胜利蒙蔽双眼，不要把工程优化误认为科学突破。因为真正的智能跃迁，从来不是渐进的，而是断崖式的；从来不是微调出来的，而是重新想象出来的。

所以，别再沉迷于那0.1%的提升了。是时候抬头看看远方，问问自己：我们是不是又站在了RNN时代的尾巴上？而下一次Transformer，会在哪里诞生？

作者背景：利昂·琼斯是Google Brain团队的核心研究员，2017年作为第一作者之一发表了奠定现代大模型基础的《Attention Is All You Need》论文，是Transformer架构的共同发明人。近年来，他逐渐将研究重心转向超越Transformer的新一代神经网络架构，致力于探索更具认知合理性和计算效率的AI模型。

Transformer共同发明人怒吼别再调参了：无数次微调抵不上一次跃迁

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道