Transformer压缩能力强到变态:省字省到维度打击


别人写一图书馆它只写一页:Transformer的真正外挂是“省字省到维度打击”!这篇论文证明了Transformer在表达复杂规律时,比传统模型省字数省到离谱,但代价是你要想验证它是不是在胡说八道,计算量大到电脑能算到天荒地老。

期刊/发表日期
arXiv / 2025-10-23

原文标题
Transformers Are Inherently Succinct

作者背景
Pascal Bergsträßer(德国RPTU大学)
Ryan Cotterell(瑞士ETH Zurich)
Anthony W. Lin(RPTU大学与德国马普所)



Transformer用更短代码写出更复杂规律,省字省到变态级别

这篇论文干的事是:比谁更能“省字”。

Transformer跟三个老前辈比赛——有限自动机、时序逻辑、循环神经网络。
结果Transformer赢了,而且赢得特别不讲理。同样一个复杂规律,别人需要写一本书,Transformer写一页纸。别人需要写一页纸,Transformer写一句话。这就像你还在用罗马数字写“MMMMDCCCLXXXVIII”,人家直接写“8888”。这差距不是一倍两倍,这叫维度打击,就像二维生物跟三维生物打架,你根本够不着它。

论文里给了一个让你下巴掉地上的结论:Transformer表达同一个东西,可以比时序逻辑省指数级字数,比有限自动机省双指数级字数。

指数级啥概念?就是把2乘自己n次。双指数级就是2的2的n次方。n等于10的时候,指数级是1024,双指数级是2的1024次方,这个数字比宇宙里的原子还多无数倍。
所以当论文说“省双指数级”,翻译成人话就是:别人写的东西能堆满一个图书馆,Transformer就写了一张便条。
这压缩能力简直像你把整个维基百科塞进一个表情包里。

那问题来了。它咋做到的?核心就是注意力机制。

注意力机制可以像侦探一样,在序列里往回翻旧账,找到过去某个位置的信息,然后用当前位置跟它做对比。这个操作看起来简单,但叠起来就能搞出超级复杂的花样。它不需要像循环神经网络那样一步一步慢慢记,它可以一步跨回去翻任意老的账本。这就好比别人记账要从第一条逐条翻到第一百条,Transformer直接翻到第九十九条,还顺便做了个对比。

这效率,老司机都服。

压缩得越狠验证就越难,你越想搞懂它它越跟你躲猫猫

上一章咱们得出结论:Transformer超级会省字。那按逻辑往下推,省字省得越狠,你想搞懂这字里头藏了啥就越费劲。

论文直接给你一个硬核结论:验证Transformer的性质是EXPSPACE-complete。
这串英文翻译成人话就是“双指数级地狱模式”。
啥意思?你要是想检查“这个模型到底在干啥,它的输出靠不靠谱”,需要花的计算量是双指数级的。就是刚才说的2的2的n次方那个级别。n稍微大一点,比如10,你就算把全地球的电脑连起来跑到宇宙毁灭也算不完。

咱们来打个比方。普通程序的调试就像检查一篇作文有没有错别字,你眼神好一点,几分钟搞定。循环神经网络的验证就像校对一本书,你得一行一行看,花点时间但能干完。Transformer的验证呢?就像你要在银河系里找出一粒被涂成灰色的沙子,而且这粒沙子还在不停移动,而且你不能用任何工具,只能肉眼找。这就不是费劲的问题了,这是直接告诉你“别想了,搞不定的”。论文里管这叫“本质困难”,意思不是程序员偷懒没写好验证工具,而是数学上就注定验证它需要天文数字的计算量。

那为啥会这样?因为Transformer的表达太浓缩了。浓缩到啥程度?你给它一句规则,它内部展开来能变成一个比宇宙还大的状态机。你想验证这句话对不对,等于要检查这个巨型状态机里的每一个螺丝钉。这就像你收到一个压缩包,号称解压后是整个互联网的内容。你想验证这个压缩包有没有病毒,你得先把整个互联网解压出来查一遍。那还不如直接投降。所以论文实际上在说:Transformer的威力建立在“你别问为什么,你只管用”这个前提上。它强到你可以拿它干大事,但你别想彻底看透它。

注意力机制能偷偷造一个超大计数器,数到天上去也不费劲

这一章是全篇最骚的操作。论文用注意力机制干了一件看起来不该能干成的事:造了一个计数器。而且这个计数器能数到2的2的n次方。普通计数器就是1,2,3,4,5。它能数到1,2,4,16,65536,然后下一个数大到普通电脑内存都存不下。这就好比别人拿算盘打百位数加减法,你拿算盘算火箭轨道。工具一样,脑子不一样。

怎么做到的?核心套路是用注意力在序列里“找过去的某个特定位置”。比如给你一串字符,你让Transformer去左边找最近的一个井号位置。找到以后,用当前位置的编号跟那个位置加一比较。如果对上了,就说明计数正确。这就像你在操场上跑步,每跑一圈你就看一眼上一圈留下的脚印,确认自己没多跑也没少跑。每一圈都这么干,你就能精确数出跑了多少圈,而且永远不会忘。

论文里给了一个公式化的写法,咱翻译成大白话。C+1(i)就是说:在位置i,往左找最近的一个特殊标记的位置j,检查i是不是恰好等于j加一。这个操作看起来蠢萌蠢萌的,但一层一层叠起来就疯了。你可以在第一层数1到10,第二层每10个数触发一次计数,第三层每100个数触发一次。叠几层之后,你需要记录的就不是数字了,而是数字的数字的数字。这就像你用Excel表格做加法,结果有人用Excel模拟了整个Windows操作系统。不是工具牛,是玩工具的人路子野。

这个超大计数器是整篇论文的发动机。没有它,后面那些变态结论都造不出来。它就像你玩游戏时发现了无限刷金币的Bug,从此往后就不是在玩游戏了,是在玩规则本身。论文的作者们发现了注意力机制的“无限金币漏洞”,然后把这个漏洞当武器去干翻传统模型。这就是典型的学术流氓行为,但咱喜欢。

超大计数器直接造出变态语言,最短的例子都长到硬盘装不下

上一章咱们已经搞出了能数到天上的计数器。这一章就顺理成章了:拿这个计数器去造一种语言。啥叫语言?在这个论文的语境里,语言就是一堆符合特定规则的字符串。比如“所有由A和B组成且A的个数是偶数的字符串”就是一种语言。论文里造的语言变态在哪呢?你要写出这个语言里最短的那个字符串,长度就已经是2的2的n次方了。

具体咋造的?它搞了一种结构。每一段前面是二进制编号,后面跟一个具体字符。比如0000后面跟a,然后井号分隔,然后是0001跟b,再井号,再0010跟c,这样一直排下去。然后加一堆规则:相邻的前后两段,它们的二进制编号必须恰好加一。前后的字符必须符合某种关系。还有更狠的,上下位置之间的字符也要符合规则。这些规则叠在一起,就逼着你必须把计数器从1一直跑到2的2的n次方才能写出一个完整的例子。

这就像一个神经病老师布置作业。题目是:“请写出一个数列,第一项是1,第二项是2,第三项是4,第四项是16……每一项必须是前一项的平方,请一直写到2的2的10次方那一项。”你要真去写,写到第三项还凑合,写到第四项16还行,第五项256,第六项65536,第七项你写出来就已经是42亿多,第八项这个数字的位数比地球上的沙子还多。你根本写不完,因为宇宙里没那么多的原子给你当纸用。所以论文其实在说:这种语言哪怕是最简单的那个例子,本身就已经大到现实世界根本装不下。但这不妨碍Transformer用几行代码就把规则描述清楚。这就好比有人能用一句话描述一种数列,但这个数列的第100项你需要用整个宇宙来写。Transformer就是那个能一句话写完的人。

传统模型全被打趴下,要么膨胀指数级要么膨胀双指数级明白什么叫碾压

现在最关键的地方来了。Transformer已经用一页纸描述了一个别人需要一图书馆才能描述的超级复杂语言。那其他模型接招吧。你们也来描述同一个东西试试?论文给出结论,特别残忍。时序逻辑如果要表达同一个语言,它需要的描述长度比Transformer是指数级膨胀。有限自动机更惨,它是双指数级膨胀。这就好比Transformer说“我要一只猫”,然后变出一只猫。时序逻辑听到以后说“我也要一只猫”,结果变出一只老虎,还是用乐高拼的,还少了条腿。有限自动机更逗,它说“我要一只猫”,然后变出一整个动物园,包括狮子老虎大象企鹅,还有一个售票处和自动贩卖机,但是猫呢?猫丢了。

我这比喻可能有点夸张,但论文里的数字就是这么夸张。指数级膨胀意味着你给Transformer一行代码,时序逻辑需要一栋楼的代码才能干同样的事。双指数级膨胀意味着你给Transformer一行代码,有限自动机需要的代码量比整个互联网的信息还多。这就是碾压,不是同一维度的比较。就像你跟人赛跑,你迈一步,别人需要迈到月球再迈回来才算一步。这比赛还没开始就已经结束了。

为啥传统模型这么惨?因为它们的结构是固定的,每次要表达更复杂的规律,就得老老实实加更多状态、更多规则。而Transformer靠注意力机制,可以在不同位置之间跳来跳去,实现一种“动态扩展”的效果。它不需要事前把所有的状态都写出来,它可以在运行的时候根据需要临时造出新的状态。这就像传统模型是用木头搭积木,你要搭更高的塔就得用更多木头。Transformer是用乐高,还是那种带电动马达和传感器的智能乐高,你要搭更高的塔它自己就能长出新的零件来。根本不是一个物种。

表达压缩能力解释了大模型为啥看起来像会思考,其实是会抄近路

聊到这你应该已经有感觉了。为啥ChatGPT这类东西看起来像是会推理、会思考、会举一反三?不是因为它们真的有意识,而是因为它们太会压缩规则了。你给它看一千个例子,它不是把一千个例子背下来,而是从这一千个例子里抽出一条极短的规律。然后下次遇到第一千零一个例子,它用这条规律去套,套上了就显得它“理解”了。这就像你学数学,不是靠背一万道题的答案,而是靠记住几个公式。给你一个没见过的方程,你用公式一套,解出来了,别人就觉得你“懂数学”。其实你只是记住了压缩版的规则。

论文在这一点上挖得很深。它指出Transformer的压缩能力不是偶然的副作用,而是它骨子里的特性。那篇论文的标题叫“Transformers Are Inherently Succinct”,inherently就是“天生如此”的意思。它不用后天训练就能压缩,它的架构本身就是一个压缩机器。这就好比压缩软件WinRAR不是后来学会了压缩,它从代码写好的第一行开始就是干这个的。Transformer从它的注意力机制设计好的那一刻,就注定了它会用极短的描述去覆盖极多的可能。

这也是为什么大模型经常出现“幻觉”——就是一本正经胡说八道。因为它们太擅长压缩了,有时候压缩过头了,把本该分开的两件事给揉到了一起,或者把本来没有的规律给“发现”了。就像你看到一个云彩长得像猫,你就说天上有只猫。不是你真的看花了眼,是你的视觉系统太擅长从随机形状里找出猫的样子。Transformer的压缩能力也一样,它太擅长找规律了,有时候没有规律它也能找出规律来。这是优点,也是它发疯的根源。

压缩能力让可解释性变成灾难,你想看清它它先把你电脑搞报废

最后咱们收个口。前面梳理的因果链条很清楚:表达更短导致结构更密,结构更密导致信息更集中,信息更集中导致你想拆开看里面啥样就超级难。

论文给了几个具体的判定问题,全部是EXPSPACE级别。啥是判定问题?就是“你问模型一个问题,它给出一个答案,你想知道这个答案是不是符合某种规则”。比如你问“这个模型说的这句话是不是真的”,这叫真值判定。你问“这两个模型是不是在做同样的事”,这叫等价性判定。你问“这个模型有没有可能说出某句坏话”,这叫空语言判定。

论文证明所有这些判定,只要涉及Transformer,就是EXPSPACE-complete。翻译成人话就是:你想检查它有没有撒谎,计算量大到你的电脑还没算完就可以当传家宝传给你孙子了。而且这不是工程问题,不是说你换个更快的CPU、加更多内存就能解决的。哪怕你用量子计算机,哪怕你用未来一百年后的超级计算机,只要数学上它是EXPSPACE,你就永远无法在合理时间内搞定它。

所以这篇论文最后给人一个很冷幽默的感觉:Transformer这种架构,天生就是当黑盒子的命。
它强,但强在你看不懂。
它能干大事,但你别问它怎么干的。
它的说明书就是一张字条,字条上写着“别问我,用就完了”。

这就像你找了一个特别厉害的程序员,他写的代码超级短,运行超级快,能解决超级难的问题,但是那代码全是晦涩的缩写。你要想加一行注释或者改一个变量名,你需要花三个月先搞懂他在干啥。

你问他能不能写清楚点,他说“写清楚就不快了”。这就是Transformer。它不是故意难为你,它就是天生这个样子。

论文的价值就是清清楚楚告诉你:别挣扎了,它就是这样,接受吧,然后想办法跟它共存。