AI直接瘦身6倍还更猛!Google这一刀砍穿整个行业成本!Google发布TurboQuant算法,将AI关键内存KV cache压缩6倍且几乎零损失,同时提升速度与吞吐能力,显著降低成本并扩大应用规模,引发算力结构与产业链重估。
Google搞了个叫TurboQuant的黑科技,把AI最烧钱、最占内存的“脑子缓存”直接压缩了6倍,但聪明程度一点没掉,还顺带变快了。
这就像把一个胖子压缩成六块腹肌,还跑得更快,还不用吃减肥药。
结果就是:AI更便宜、更快、更能装内容,普通人设备也能跑顶级模型,整个行业成本结构被重写,人类AI时代直接踩油门。
技术拆解:AI是怎么做到“瘦身不掉智商”的
好,咱们现在稍微收起一点笑脸,来点正经的,但我保证还是人话。AI在跟你聊天的时候,它得记着你之前说过什么,不然就会变成那种“你刚才说啥?”的健忘症患者。这些“记忆”就是KV cache,你可以把它想象成AI大脑里的便利贴,上面写满了对话的关键信息。问题是,这些便利贴特别多,特别占地方,贴满了整个房间,AI想拿张新便利贴都没地儿贴了,这速度自然就慢了。
TurboQuant的第一步,是给这些便利贴来了个“随机旋转”。这不是真的拿手转,而是个数学操作,叫Random Rotation。你可以理解为,把房间里原本整整齐齐贴在墙上的便利贴,全部撕下来,随机扔在空中,让它们飘得到处都是。听起来很乱,对吧?但这么做的目的,是为了让每个便利贴上的信息都变得“差不多”,没有哪个特别突出,也没有哪个被忽略。这样一来,后面压缩的时候,就不会因为某个信息特别重要而把它弄丢了。
第二步就更狠了,叫“标量量化”。这一步就是把便利贴上的内容,从高清照片压缩成那种几乎看不出区别的压缩图。比如,原本一张便利贴上写着满满一页字,现在用几个符号和数字来代表。这个过程会丢掉一些不重要的细节,但因为上一步“随机旋转”打乱了信息,这些细节损失会被平均化,肉眼根本看不出来。
最后,TurboQuant还加了个“找补”机制,叫QJL residual。就像你压缩图片之后,发现某个地方颜色有点不对劲,那咱们再单独记一下这个小偏差,最后还原的时候把它补回去。这么一套组合拳下来,原本需要用16个格子来存的信息,现在只用3个多格子就够了。这就像把一本厚厚的《新华字典》压缩成一张巴掌大的小抄,你带着它进考场,照样能考满分,因为它把最重要的东西都给你浓缩在里面了。
性能表现:不是变弱鸡,而是变猛男
你可能会想,压得这么狠,AI会不会变傻?答案是:不仅没傻,反而更猛了。咱们直接看数据:这个算法能把KV cache压缩4.6倍,这是实打实的,不是注水。运行速度呢?它比市面上一个非常成熟的优化版本还要快2%。最关键的是,它产生的答案质量,跟没压缩之前相比,误差只有区区1.3%。这相当于啥?相当于你每天只吃以前六分之一量的饭,结果力气还比以前大,考试成绩还几乎没掉。这已经不是优化了,这是“开挂”。
为什么能更快呢?因为AI运行的时候,最大的瓶颈不是算得快不快,而是数据从内存搬到计算单元的速度。现在数据体积变成原来的六分之一,传输时间自然就大幅缩短。你搬家的时候,本来要搬六大卡车的东西,累得半死;现在把所有家当塞进一个行李箱,坐上高铁,“嗖”一下就运到新家了。这就是TurboQuant的魔力,它让AI从“卡车运输”升级成了“高铁速递”。
优化过程:一晚上读论文,性能狂飙3.7倍
这个故事更带劲。说的是有个工程师,晚上吃饭的时候刷到这篇论文,当时就感觉“这玩意儿有点东西”。第二天他上班,直接撸起袖子开始干。
咱们来看看他这一天的成绩单:
刚开始的时候,他用最原始的方法(fp32 rotation),性能基准是739。
然后他尝试用16位浮点数做变换(fp16 WHT),性能提升到了1074。
接着,他搞了个更高级的向量化操作(half4 vectorized butterfly),性能一下子冲到1411。
还没完,他优化了算法在计算图上的执行方式(graph-side rotation),性能飙升到2095。
最后,他把前面几个技巧组合起来(block-32 + graph WHT),性能直接锁定在2747。
你算算,从739到2747,整整提升了3.72倍!别人家公司一年吭哧吭哧优化,能提个20%就谢天谢地了,他一个晚上干了别人几年的活。这已经不是“工程能力”了,这简直是“神仙附体”,感觉就像武侠小说里,主角掉进山洞捡到秘籍,一晚上练成绝世神功,然后出来把各大门派按在地上摩擦。
工程踩坑:程序员的“啊,我悟了”与“啊,我没了”
这世上没有一帆风顺的代码,程序员的世界里充满了坑,而且是那种表面光鲜、一踩就掉进去的深坑。这位大神在优化过程中,也踩了不少让人哭笑不得的坑。
第一个坑:论文里提到的那个叫QJL的补偿机制,其实在实现的时候发现,根本用不上。就像你兴冲冲地买了个“能提高效率100倍”的辅助工具,结果发现不用它,效率反而更高。这种感觉就是:“我裤子都脱了,你就给我看这个?”
第二个坑:他在用苹果电脑的Metal图形框架写代码时,不小心写错了一个着色器(shader),结果本该由GPU高速执行的计算,偷偷跑到了CPU上,速度直接掉到解放前。这就好比你明明买了一辆法拉利,结果因为忘了换挡,一直用一档在高速上龟速爬行,你还纳闷“这破车怎么这么慢”。
第三个坑:他说,判断优化有没有效果,不能光看一个叫“连贯文本”的指标,一定要看“困惑度”。用“困惑度”这个指标,能更真实地反映AI是不是在胡说八道。这就好比你不能光看一个学生上课坐得端不端正,得看他考试成绩好不好。
第四个坑:他提到,这个代码库(ggml)的数据排列方式是“列优先”,而我们平常编程用的C语言是“行优先”。这两个搞混了,数据全乱套。他在文档里特别警告了一句:“this will ruin your afternoon”,翻译过来就是“这玩意儿能毁了你一整个下午”。这就是程序员的日常:不是在写代码,就是在和“它为什么不按我说的做”这个问题打架,打赢了叫“重构”,打输了叫“加班”。
成本冲击:几百亿美金的蛋糕,被重新切了
前面说的都是技术,现在咱们聊聊钱。AI现在最大的成本是什么?不是电费,不是服务器,而是那个贵得要死的GPU内存。你想啊,那些大公司买一堆H100显卡,就是为了让AI模型能有足够大的“胃”来吃东西(处理数据)。现在,TurboQuant把这个“胃”的容量需求直接砍到了原来的六分之一。这意味着什么?
第一,同样多的硬件,现在可以同时跑六个模型,或者处理六倍的数据量,吞吐量直接爆炸式增长。
第二,如果需求不变,那企业的硬件采购成本直接降到原来的六分之一。你可以想象一下,像Google、Amazon、Microsoft这种巨头,每年在AI硬件上花的钱是以百亿美元为单位的。六分之一是什么概念?每年省下几十上百亿美金。这钱,够再建好几个数据中心,或者给全体员工发个超大红包了。所以,这些巨头看到这个技术,第一反应肯定不是开心,而是沉默。因为这意味着,他们靠砸钱堆出来的那个“算力护城河”,被这个算法一下子给填平了。
行业连锁反应:内存厂商的冷汗与机遇
问题来了,如果AI不需要那么多内存了,那靠卖内存吃饭的公司,比如美光、海力士、三星这些,是不是要哭晕在厕所?短期内,他们肯定会感到压力山大。就像一个饭店的招牌菜,本来每桌要点一份,现在食客突然发现点一份就够六个人吃,那饭店的生意肯定受影响。
但事情远没这么简单。经济学里有个经典现象叫“杰文斯悖论”。简单说就是:当一种资源的利用效率提高后,它的总消耗量反而会增加。因为成本降低了,更多人会用,用得更频繁,用得更狠。TurboQuant就是这种情况。它让内存需求下降了,但同时也让AI可以处理更多、更长、更复杂的内容。
想象一下,以前你只能让AI帮你写一篇200字的短文,现在它能帮你写一部几十万字的小说,还能同时记住每一个伏笔和人物关系。那你会不会更愿意用它?当然会!所以,最终的结果可能是:虽然处理一次对话需要的内存少了,但因为大家使用的次数和深度都暴增了,对内存的总需求反而比之前还要大。所以,内存厂商们,汗可以出,但不用太冷,因为更大的市场正在向他们招手。
真正的核心逻辑:不是省钱,是放大需求
这才是TurboQuant最核心的逻辑。
它不是在帮企业“省钱”,而是在帮整个行业“放大需求”。
这个算法最牛的地方,是它打破了AI发展的一个关键天花板——上下文长度。
以前,AI能一次处理的文本量是有限的,像给AI读书,它一次只能读几页,读到最后就把开头忘了。
现在,因为内存压缩,它一次能读一整个图书馆的书,还能条理清晰地跟你聊书里的内容。
这意味着什么?意味着AI可以做更复杂的分析,比如一口气看完你公司十年的财报,然后帮你总结出经营规律;或者一次处理完一整本小说的设定,然后帮你续写一个合理的结局。所以,TurboQuant不是让“一份数据”的处理变便宜了,而是让你可以“同时处理十倍、百倍的数据”。当你能处理的数据量不再是瓶颈时,AI的能力边界会被瞬间拓宽,新的应用场景会像雨后春笋一样冒出来。到时候,总使用量会像坐火箭一样飙升,这才是它带来的真正变革。
快速上手
首个开源的 Google TurboQuant 实现(ICLR 2026)——针对 LLM 推理的近乎最优的 KV 缓存压缩。压缩率提升 5 倍,质量损失几乎为零:
https://github.com/OnlyTerp/turboquant
# Install |
算法总结:为什么它这么强
把上面所有的技术细节揉碎了看,TurboQuant最核心的洞察其实非常简单粗暴:当你把数据做一个随机旋转之后,原来那些乱七八糟、互相纠缠的数据维度,会变得彼此独立、均匀分布。你可以把它想象成一杯鸡尾酒,本来各种颜色的酒液是分层的,一层压一层。随机旋转就是把它彻底搅匀,变成一杯颜色均匀的混合液体。
这么做的好处是巨大的。因为每个维度都变得独立且均匀了,所以你可以单独对每一个维度进行压缩,不用担心一个维度的压缩误差会影响到其他维度。
你甚至可以给每个维度用不同的压缩比例,这就像给不同颜色的小球分别装箱,比把一堆混在一起的东西强行塞进一个箱子里要高效得多。
相比之下,另一个叫PolarQuant的方案,采用的是递归极坐标变换,每一层都包含复杂的sin和cos计算,误差会像滚雪球一样越滚越大,越深的模型,误差就越爆炸。TurboQuant则是直接绕过了这个坑,不搞复杂的结构,就用最朴实无华的“随机打乱+独立压缩”策略,实现了惊人的压缩效果和极低的误差。
市场立即做出反应
周四,SK海力士和三星的股价在首尔分别下跌6%和近5%,日本闪存制造商铠侠的股价也下跌了近6%。在美国,闪迪和美光的股价周三也出现下跌,周四盘前交易中继续走低。
SemiAnalysis 的内存分析师 Ray Wang 警告称,谷歌的突破性进展可能不会转化为芯片订单的减少。他指出,键值缓存是一个瓶颈;解决这个问题可能会刺激内存使用量增加,因为随着芯片性能的提升,对更强大硬件的需求也会随之增长。
与DeepSeek再KV缓存压缩方面对比
(1)先看Google的TurboQuant:压缩“缓存内容”
Google的操作,本质上是在KV Cache已经被生成之后,对它进行压缩。
它干的事儿是:
- 把已经存好的KV向量做“随机旋转”
- 然后用标量量化(Scalar Lloyd-Max)把精度从16位压到3点多bit
- 再补一个补偿机制(QJL residual)来减少误差
效果好,4.6倍压缩,速度还快2%。
(2)再看DeepSeek的MLA:让KV Cache“压根儿就不用那么大”
DeepSeek在2025年2月发布的V2版本中,提出了一个叫多头潜在注意力(Multi-head Latent Attention,MLA)的机制。这个操作更狠——它不是在缓存生成后压缩,而是从源头上让KV Cache本来就很小。
MLA的核心思路是:
把高维的Key和Value投影到一个低维的“潜在空间”(latent space)里,然后只缓存这个低维的压缩表示。
具体来说:
- 传统MHA里,每个注意力头都有自己的Key和Value矩阵,K和V的维度是[seq_len, head_dim]
- MLA引入一个共享的低维投影(比如把128维压到64维),所有头共用这个压缩后的表示
- 缓存的不是K和V本身,而是那个低维的“潜在向量”
在1024长度下,KV缓存从5.2GB压到765MB,压缩率约6.8倍,比TurboQuant的4.6倍还猛。在4096长度下,压缩率更是达到了6.7倍
(3)那稀疏注意力(DSA)呢?那是另一条线
2025年9月,DeepSeek发布了V3.2-Exp实验版本,引入了DeepSeek Sparse Attention(DSA)稀疏注意力机制。这个和MLA是两码事:
- MLA:压缩KV Cache的“大小”(降低每个token的缓存占用)
- DSA:减少需要关注的“数量”(每个token只看最重要的那些历史token)
在保持前代模型90%以上性能的前提下,计算量减少约75%,内存占用降30%-40%,长文本推理速度比前代快2-3倍。
两者在“准确率”比较
(1)Google的逻辑:压缩“已存在的”,保精度是目标
Google的TurboQuant,它是在一个已经训练好的、精度已经固定的模型上做后处理压缩。它要面对的问题是:这个模型本来能考95分,我把它的缓存压缩了,它会不会变成80分?
所以Google花了大力气做三件事来保住精度:
- 先用“随机旋转”打散信息,避免某个维度的数据被压坏
- 再用“标量量化”压到低精度,但尽量让损失平均分布
- 最后加一个“QJL补偿机制”,专门把压缩过程中产生的误差往回找补
最终结果是什么?误差控制在1.3%以内,同时缓存压缩4.6倍,速度还变快了。
Google的逻辑是:我可以把缓存压得很小,但我的补偿机制足够强,所以精度基本不掉。这是一个“后端算法工程师”的解法——模型已经长好了,我用后处理的方式让它变小,同时拼命保住它的智商。
(2)DeepSeek的逻辑:源头上“不需要那么大”,精度本来就高
DeepSeek的MLA,它不是在压缩“已经存在的东西”,而是从模型训练阶段就改了架构——让这个模型生来就不需要那么大的缓存。
传统模型需要记很多高维度的细节,所以缓存很大。DeepSeek说,我把这些细节投影到一个低维的“潜在空间”里,只记那个浓缩版本。需要的时候再还原出来。
但问题是,这个“还原”过程会不会丢信息?会。就像你拍了一张高清照片,然后压缩成缩略图,再放大了看,肯定比原图模糊。
那DeepSeek怎么处理这个问题?它的解法是:
我不依赖压缩算法来保精度,我依赖模型自己学会“如何在低维空间里依然表达清楚”。
也就是说,MLA不是“训练好一个模型,然后压缩它的缓存”,而是在训练的时候,就告诉模型:“你只能在这个小缓存里干活,自己想办法把活干好”。
所以MLA的精度,是模型自己“硬扛”出来的。它不是靠后处理补偿,而是靠训练过程中的优化,让模型学会在受限的环境里依然输出高质量的结果。
(3)所以两者的区别到底是什么?
Google的TurboQuant,是一个已经考了95分的学生。现在要求他“把你的笔记压缩到原来的1/6大小,但考试还要考95分”。他靠的是压缩技巧和补偿机制,把笔记压小了,但该记的东西一个没丢。
DeepSeek的MLA,是一个从第一天上课就被要求“你的笔记本只有别人1/6大”的学生。他学会了一种记笔记的方法——用符号、缩写、画图,把所有重要信息都塞进这个小本子里。考试的时候,他翻着这本小本子,也能考到差不多的分数。
(4)那谁更强?
从“技术纯粹性”的角度说,Google的方案更通用——它可以加到任何现成模型上,不用重新训练。
DeepSeek的方案更彻底——它从根儿上重构了注意力机制,但代价是你得重新训练模型,或者至少做一次架构迁移(就像复旦那篇论文做的,把Llama2从MHA迁移到MLA)。
这就是Google的TurboQuant能把美股内存芯片股票吓跌,上次DeepSeek吓跌华尔街是因为其500万美元的低成本训练费!