Transformer压缩天赋解析：注意力机制暗藏超级计数器

#算法教程 #语言文字游戏 #大语言模型LLM #机器学习教程

2026-06-06 5K banq

Transformer最大的天赋，也许从来不是会计算，而是特别会压缩。 Transformer能把复杂世界塞进了更小的盒子！双指数级简洁性是怎样炼成的？

Transformer隐藏实力曝光：压缩能力远超RNN和有限状态机！ICLR 2026重磅论文：Transformer真正强大的原因找到了

这篇论文发现了一件挺反直觉的事情。很多人都觉得Transformer厉害是因为它能处理很复杂的任务，能记住很长的上下文。

但作者换了个角度，问了一个更刁钻的问题：同样描述一种语言规则，谁用的描述长度最短？结果Transformer赢了，而且赢得非常夸张。

有些语言用Transformer描述只需要很小一段，但换成LTL逻辑公式就要膨胀到指数级，换成有限自动机更是要膨胀到双指数级。这就好比有人能用一张便签纸写下《战争与和平》的完整情节，而别人得用一整面墙才能写完。而RNN输在了表达效率而不是表达能力！

但是，验证Transformer为什么比登月还难！

表达能力不是唯一标准

以前大家比模型，最喜欢比谁能做的事情更多。比如有人说Transformer能处理多长的序列，有人说RNN理论上能识别所有正则语言。这就像两个人在比谁的卡车能拉更重的货。

但作者觉得这个比较方式漏掉了一件重要的事。两辆卡车都能拉十吨货，但一辆卡车自己就能装下，另一辆得挂上十节拖车才能装下。这时候你肯定觉得前面那辆更厉害。

论文里把这种能力叫做“简洁性”。简单说，就是描述同样一种规则，谁用的描述长度更短。这跟表达能力是两回事。表达能力问的是“能不能做到”，简洁性问的是“做得多省事”。

Transformer在简洁性这张卷子上拿了高分。作者证明了存在一批特殊语言，用Transformer描述只需要多项式大小，但换成LTL公式就要指数大小，换成有限自动机就要双指数大小。

你可以想象一下。假设Transformer模型大小是100。那么对应的LTL公式可能需要100万。对应的有限自动机可能直接是个天文数字。

这就是论文标题“Transformers Are Inherently Succinct”的意思。Transformer天生就擅长压缩。

注意力机制偷偷造了个超级计数器

Transformer为什么能这么省空间？作者找到了一个关键原因。

Attention机制不仅能用来找重点，还能用来做计数。而且不是普通的一二三四那种计数，是那种大到离谱的计数。

论文里构造了一个例子。Transformer可以利用Attention模拟一个规模达到2^(2^N)级别的计数器。

这个数字有多大？N等于4的时候，2^(2^4)等于65536。N等于5的时候，2^(2^5)等于四十多亿。N等于6的时候，这个数字已经比地球上所有沙子的总数还多。

关键是Transformer并没有真的存储这么多状态。它用了Attention的特殊性质。每次需要知道当前数到多少的时候，它不是从记忆中读取，而是通过Attention去“看”之前的位置，然后根据那些位置的信息算出当前值。

这就像一个魔术师。你看着他手里只有几张牌，但他能变出整副扑克牌的效果。Attention就是这个魔术师的手。

作者把这个发现用在了语言识别上。他们构造了一些语言，这些语言的最短合法字符串长度是双指数级的。也就是说，如果你想判断一个字符串是不是符合规则，你得先数到一个极其巨大的数字。

有限自动机遇到这种语言就直接崩溃了。因为自动机的状态数量是固定的。你想让它数到双指数级，它就需要双指数级那么多个状态。这就像让一个只有十个格子的计数器去数到一百万，根本不可能。

但Transformer可以。它不需要把计数器里的每一位都显式存下来。它把计数过程编码进了Attention结构里。所以它可以用很小的模型处理极其巨大的计数范围。

RNN看起来更强但输在了体积上

这里有个特别有意思的反转。

以前很多理论研究已经证明了，在固定精度条件下，RNN能识别的语言比Transformer更多。RNN可以覆盖全部正则语言，而Transformer只能覆盖其中一部分。

如果只看表达能力，RNN好像赢了。

但作者指出，现实世界不是这么算账的。表达能力是一回事，表达效率是另一回事。

一个人能背下整本百科全书当然厉害。另一个人能把整本百科全书压缩成一个U盘。在很多实际场景里，后面这个人反而更有用。

论文证明了Transformer相对于RNN存在指数级的简洁性优势。也就是说，同样一个语言，Transformer可能只需要很小的模型就能识别，而RNN需要大得多的模型。

原因跟前面的计数器有关。RNN虽然原则上也能实现大范围计数，但它需要把计数器的状态存在隐藏状态里。固定精度条件下，隐藏状态的表示范围是有限的。你想计更大的数，就得扩大隐藏状态的维度。

Transformer不走这条路。它不把计数器的值存在某个固定位置，而是通过Attention动态地去“查阅”之前的信息。所以它用同样大小的模型，能处理的计数范围比RNN大得多。

这就好比两个人都在搬家。一个人每次只能搬一个箱子，但箱子很大。另一个人能同时看到所有箱子的位置，然后设计一条最短路线一次性搬完。虽然两个人的力气差不多，但后面那个人搬得快得多。

作者还顺便提了一句状态空间模型。因为状态空间模型本质上跟RNN是一类东西，所以Transformer对它们也有类似的简洁性优势。

压缩得越狠验证就越难

当一种表示方式特别紧凑的时候，往往会带来一个副作用。压缩包越小，解压越费劲。

论文里用了一个很直接的例子。Transformer能识别的那批超紧凑语言，你想验证它到底认不认识某个字符串，或者你想判断两个Transformer是不是完全一样，这些问题都极其难算。

作者研究了两个经典问题。

第一个是空语言问题。给你一个Transformer，你要判断它是不是不接受任何字符串。也就是说，它的语言是不是空的。

第二个是等价性问题。给你两个Transformer，你要判断它们识别的是不是同一种语言。

结果发现，这两个问题都达到了EXPSPACE完全级别。

EXPSPACE是什么概念？简单说就是难到爆炸。难到理论计算机科学家看到都会皱眉头。

对比一下就知道差距有多大了。同样的问题，如果换成有限自动机，甚至可以用多项式时间解决。也就是几分钟或者几小时的事情。

但换成Transformer，你需要的计算资源是天文数字。指数级空间已经够吓人了，EXPSPACE是指数级空间的指数级。这就像比谁更远。别人说我家到公司走十分钟。你说我家到公司得坐火箭飞一辈子。

作者不是随便说说，他们真的证明了这两个问题的下界。也就是说，不存在什么神奇的算法能绕过这个难度。除非你想出来的算法能解决理论计算机科学里几十年没解决的问题。

这也解释了为什么现在验证Transformer这么难。不是因为大家写的代码不够优化，而是问题本身就有这么难。

比前人结果翻了一倍

作者在论文里还做了一件挺狠的事。他们把自己的结果跟以前的研究做了对比。

之前已经有人证明过，Transformer比有限自动机更紧凑。但那个结果是指数级的。也就是说，有些语言用Transformer描述只需要多项式大小，用自动机需要指数大小。

作者把这个结果往前推了一大步。他们证明的是双指数级。

双指数和单指数的区别有多大？你可以这样想。指数是说，如果你原来有n，那么对方需要2^n。双指数是说，如果你原来有n，那么对方需要2^(2^n)。

当n等于4的时候，2^(2^4)等于65536。当n等于5的时候，2^(2^5)等于四十多亿。当n等于6的时候，这个数字比可观测宇宙里的原子总数还多。

作者还改进了另一个结果。之前有人做过从Transformer到LTL逻辑公式的转换，那个转换需要双指数级的代价。也就是说，转换出来的公式会变得巨大无比。

作者把这个转换压缩到了单指数级。虽然还是很巨大，但已经从“不可能”变成了“勉强能忍”。

这就像原来翻越两座珠穆朗玛峰才能到的地方，现在只需要翻越一座。虽然还是很累，但至少有人能做到了。

这两个改进加在一起，让整个结论变得非常有说服力。Transformer的简洁性不是一点点，而是压倒性的。

行李箱里装了整个世界

看到这里，你应该已经明白了作者想说什么。

Transformer的真正优势，可能不是它能处理多长的序列，也不是它能模拟多复杂的函数。而是它能用非常小的代价，描述出非常复杂的规则。

这就像收拾行李。普通人出门带一个箱子，能装下几件衣服和一双鞋。收纳大师出门也带一个箱子，但能装下整个衣柜外加洗漱包和笔记本电脑。

Transformer就是那个收纳大师。别人用一百个状态才能记住的东西，它用十个状态就能记住。别人用一万行公式才能描述的语言，它用一百行就能描述。

这种能力不是天上掉下来的。作者证明了，Attention机制在其中起了关键作用。Attention让模型可以在不同位置之间建立联系，而不需要把所有的信息都塞进同一个状态里。

这就像你不需要记住每一个朋友的电话号码。你只需要记住通讯录在哪里，然后需要的时候去查就行了。Transformer也是这么干的。它不需要记住计数器的每一位，它只需要知道去哪里查。

当然，这种简洁性也有代价。你想打开那个收纳大师的行李箱，想搞清楚里面到底装了什么，你会发现拉链打不开，密码你不知道，甚至你可能得花一辈子才能理清楚。

这就是验证Transformer为什么这么难的原因。箱子越小，锁越复杂。

论文最后提了一句，这个问题短期内可能没有完美的解决方案。但至少现在我们知道问题出在哪了。不是算法不够好，是问题本来就难。

这就像医生告诉你，你这个病很难治。但至少你知道难在哪，总比不知道强。

总结

Transformer虽然在“能表达什么语言”这件事上未必比RNN更强，但在“用多小的模型表达同样复杂的语言”这件事上非常夸张。论文证明，固定精度Transformer相对于LTL和RNN具有指数级简洁性优势，相对于有限自动机甚至具有双指数级简洁性优势，同时其验证问题达到EXPSPACE完全级别。

论文信息

- 作者: Pascal Bergsträßer, Ryan Cotterell, Anthony W. Lin
- 机构: RPTU Kaiserslautern-Landau, ETH Zürich, MPI-SWS
- 会议: ICLR 2026
- 核心贡献: 证明UHAT相对LTL和RNN指数级更简洁，相对有限自动机双指数级更简洁；非空问题EXPSPACE完全