Transformer的成功正在重演RNN时代的路径依赖,利昂·琼斯警告:无休止的算法微调,可能正在浪费整个AI界最宝贵的时间。
Transformer共同发明人重磅发声:我们正在重复RNN时代的错误!
今天AI圈最火的Transformer架构,可能正把整个行业拖进一个巨大的“局部最优陷阱”!就在所有人都疯狂堆参数、调位置编码、搞MoE混合专家的时候,Transformer七位原始作者之一——Llion Jones(利昂·琼斯)站出来大声疾呼:停!我们正在重蹈RNN时代的覆辙!当年RNN统治NLP时,研究者们也是这样日复一日地微调门控机制、改初始化方式、调整层数结构,结果呢?Transformer一出,所有努力瞬间归零。
如今历史正在惊人地重演——无数论文只敢在Transformer上做“安全但平庸”的小修小补,却不敢跳出框架去探索真正革命性的新架构。利昂坦言,他今年已决定大幅减少对Transformer的研究投入,因为这个领域已经“过度饱和”,创新空间被严重挤压。
更可怕的是,当前LLM展现出的“锯齿状智能”——前一秒能解博士级难题,后一秒却犯低级常识错误——恰恰暴露了Transformer架构底层的根本缺陷。这不是模型不够大、数据不够多的问题,而是整个范式可能走错了方向!
算法微调优化抵不上一次智能跃迁:Transformer共同发明人警告AI界正陷入创新停滞!
利昂·琼斯是谁?他是2017年那篇划时代论文《Attention Is All You Need》的八位作者之一,正是这篇论文首次提出了Transformer架构,彻底改变了自然语言处理乃至整个AI领域的技术路线。如今,他却站出来公开质疑:我们是不是正在重复RNN时代的错误?是不是整个AI界已经被Transformer的成功“绑架”,陷入了无休止的微调内卷,而错失了下一次真正智能跃迁的机会?
这不是危言耸听,而是一位亲历过架构革命、亲手推动过范式转移的顶级研究者,在冷静观察五年之后发出的警世之言。
一次历史性的回忆杀:当RNN被认为就是终点的时候
如果你现在回看2014到2016年的人工智能研究,会发现一个令人窒息的景象:整个学术圈几乎被循环神经网络(RNN)及其变体——LSTM、GRU——完全占据。那时候,谁要是敢说“RNN可能不是最终答案”,大概会被当成异端。因为RNN真的太成功了!它第一次让机器能够有效处理序列数据,无论是语音识别、机器翻译,还是文本生成,效果都出现了质的飞跃。
于是,研究风向迅速转向“如何把RNN榨干”。大家不再问“有没有更好的架构”,而是问“怎么让RNN跑得更快、更准、更省资源”。于是,各种精巧的改进层出不穷:门控机制能不能优化?初始化能不能用单位矩阵?非线性激活函数从tanh换成ReLU会不会更好?层与层之间除了横向连接,能不能加个纵向门控,让信息流更灵活?甚至有人提出“分层LSTM”——模型自己决定某一层要不要计算,听起来是不是很“智能”?
这些工作当然有技术含量,也确实带来了性能提升。但在一个最干净、最纯粹的基准任务上——字符级语言建模(character-level language modeling),所有这些努力最终都浓缩成一个冷冰冰的数字:bits per character(每个字符所需的比特数)。这个指标越低,说明模型对语言的压缩能力越强,理解也越深。
当时的顶尖成果是什么水平?大概是1.26 bits/char。然后,有人通过精心设计的初始化和门控结构,把它降到了1.25;另一组人用了更深的堆叠和残差连接,又压到了1.24。每降低0.01,都足以登上NeurIPS或ICML这样的顶会,成为“年度突破”。那是一个为小数点后两位欢呼的时代,也是一个集体陷入路径依赖而不自知的时代。
Transformer降临:一次不讲道理的数值断崖
真正的转折点,并不是这些微调累积到了某个临界点,而是2017年Transformer横空出世后,直接把游戏规则改写了。利昂·琼斯后来回忆,当他们团队把一个非常深的、仅含解码器(decoder-only)的Transformer模型,直接扔到同样的字符级语言建模任务上时,几乎没做任何花哨的技巧——没有复杂的初始化,没有门控机制,没有分层计算——结果直接跳到了1.1 bits/char。
这个数字意味着什么?意味着此前十几年在RNN体系内所有聪明、精巧、复杂的工程努力,在一个新的架构面前,瞬间变得像是一场围绕错误方向的集体劳动。差距大到什么程度?大到当他们在会议上展示结果时,同行会走过来,带着怀疑又礼貌的语气问:“你们是不是把单位搞错了?是不是用的是nats而不是bits?”
但事实就是事实。不是计算错误,不是数据泄露,而是架构本身的代际差异。Transformer凭借其并行化能力、全局注意力机制和可扩展性,从根本上解决了RNN的序列依赖瓶颈。那一刻,利昂·琼斯突然意识到一个残酷的真相:那些年所有对RNN的无限排列组合,从结果论角度看,几乎全部被一次架构跃迁清零了。不是研究者不够努力,而是方向错了。
历史正在重演:Transformer成为新的RNN
真正让利昂·琼斯感到焦虑的,并不是Transformer有多成功——它当然值得成功——而是它成功之后,整个行业的行为模式,和当年的RNN时代几乎一模一样。今天的AI论文在干什么?90%以上都在使用同一套Transformer架构,只是在局部做无休止的微调。
比如:LayerNorm到底该放在残差连接之前(Pre-LN)还是之后(Post-LN)?Attention机制能不能改成多查询(Multi-Query Attention)来节省显存?前馈网络(FFN)是该做得更宽(wider)还是更深(deeper)?训练时要不要加某种新型正则化?推理时能不能引入动态稀疏或者缓存复用?
这些改动当然能在某些基准上挤出0.1%到0.5%的提升,也确实能发论文、拿奖金、刷榜单。但问题在于,它们几乎全部发生在同一个“架构盆地”之内。用利昂·琼斯的话说,这叫“局部最优陷阱”——整个领域被Transformer的成功牢牢吸住,所有算力、人才、资金、论文评价体系都在强化这条路径,而真正跳出框架的探索,正在被系统性边缘化。
更可怕的是,即使有新架构出现,只要它不能带来“碾压级”的性能提升,就很难获得关注。比如Mamba、RWKV、State Space Models等替代方案,已经在某些任务上展现出优于Transformer的效率或泛化能力,但因为它们只是“好一点”,而不是“好得不讲道理”,所以难以撼动现有生态。
为什么行业会集体停在这里:成功本身成了枷锁
从技术角度看,Transformer的成功几乎是完美的陷阱。它足够通用——既能做语言,也能做图像、音频、代码;它足够强大——只要给足数据和算力,几乎什么都能学会;它还足够模块化——你可以轻松替换Attention头、调整层数、插入适配器。这种“万能近似器”的特性,让人很难下决心放弃它去赌一个未知的新架构。
但从组织和制度层面看,问题更严重。学术界有发表压力,博士生要毕业,教授要评职称,公司要KPI。做一个全新架构?风险极高,周期极长,很可能三年下来连baseline都跑不过,论文发不出,项目被砍掉。但在Transformer框架里换一个模块、改一个位置,只要能带来可测量的微小提升,就足以完成考核。
利昂·琼斯直言,这并不是研究者不够聪明,而是环境在系统性地惩罚真正的探索。大家都知道Transformer可能不是终点——毕竟它有明显的缺陷:计算复杂度高、长程依赖仍有瓶颈、推理成本巨大、缺乏真正的因果推理能力——但没有人有足够的激励去赌下一次架构革命。
从Transformer发明者到Transformer怀疑者
值得注意的是,说出这些话的人,并不是局外唱衰者,而是Transformer的共同发明人本人。利昂·琼斯明确表示,他已经有意识地减少了自己在Transformer方向上的研究投入,因为他认为这个空间已经过度饱和,边际效益急剧递减。
他选择转向的方向,是一种被称为“连续思维机”(Continuous Thought Machine)的全新架构尝试。这不是简单的Transformer变体,比如加几个MoE专家、换种Attention形式,而是试图从根本上重新思考计算、时间和表示的关系。他希望构建一种原生支持自适应计算的模型——模型可以根据输入的复杂度,动态决定内部需要“思考”多少步,而不是像现在的大模型那样,无论问题简单还是复杂,都必须走完固定的几十层前向传播。
在他看来,当前大模型表现出的“参差不齐的智能”——比如能写出诺贝尔奖级别的论文,却算不对3位数加法;能推理复杂的法律案例,却搞不清“昨天是星期几”——正是现有架构内在缺陷的外在表现。模型可以被强行训练到“什么都会一点”,但并不真正以更自然、更结构化、更符合人类认知的方式理解世界。
一句真正刺痛行业的话
利昂·琼斯最让人警醒的一句话,其实并不是关于Transformer本身,而是关于研究时间的浪费。他说:“当Transformer出现后,我回头看那些RNN时代的工作,突然意识到它们在结果意义上被全部淘汰了。而现在,我担心我们正站在同一个位置上。”
这句话的分量有多重?它意味着,如果下一次架构级跃迁出现得足够猛烈——比如一个能在相同算力下实现10倍效率、5倍泛化能力的新模型——那么今天无数围绕Transformer做的精巧微调、超参搜索、蒸馏剪枝、量化压缩,未来可能也会被一句话概括:那是一段被局部最优困住的时期。
不是这些工作没有技术价值,而是在历史的长河中,它们可能只是“正确的错误”——方向错了,再努力也是徒劳。
这不是否定,而是一记警钟
需要强调的是,利昂·琼斯的批评绝不是要否定Transformer的价值。正如RNN曾经真实地推动了一个时代,Transformer同样是划时代的成果。没有它,就没有今天的ChatGPT、Claude、Gemini,也没有AI写作、编程助手、多模态理解的爆炸式发展。
问题不在于使用Transformer,而在于是否敢于在它之外认真下注。真正的创新,从来不是在正确答案里多抠0.01,而是敢于质疑这个答案本身。历史已经给过一次清晰的教训:当所有人都在优化RNN时,没人想到Attention会All You Need。而今天,当所有人都在优化Transformer时,也许下一个“Attention”正在某个实验室里悄然诞生。
利昂·琼斯的警告,不是悲观,而是清醒。他希望AI界不要被短期的benchmark胜利蒙蔽双眼,不要把工程优化误认为科学突破。因为真正的智能跃迁,从来不是渐进的,而是断崖式的;从来不是微调出来的,而是重新想象出来的。
所以,别再沉迷于那0.1%的提升了。是时候抬头看看远方,问问自己:我们是不是又站在了RNN时代的尾巴上?而下一次Transformer,会在哪里诞生?
作者背景:利昂·琼斯是Google Brain团队的核心研究员,2017年作为第一作者之一发表了奠定现代大模型基础的《Attention Is All You Need》论文,是Transformer架构的共同发明人。近年来,他逐渐将研究重心转向超越Transformer的新一代神经网络架构,致力于探索更具认知合理性和计算效率的AI模型。