大厂囤显卡白囤了?OpenAI跑路高管搞出显存黑科技

OpenAI前核心科学家新公司Core Automation被曝显存效率重大突破,大模型算力瓶颈或将被颠覆

OpenAI 核心科学家出走创业,新公司 Core Automation 号称在模型底层架构上搞出了重大突破。这事最搞笑的地方在于,这家公司专攻的问题,是 AI 圈所有大厂天天喊头疼但一直搞不定的“显存焦虑”。整个行业烧了几千亿买显卡,结果有人告诉你,靠算法优化能把显存效率翻着倍往上提。

从 OpenAI 跑路的人打算重新发明轮子

Jerry Tworek 这个名字你可能没听过,但 o1 模型推理能力的核心突破,他当年是主要操盘手之一。这老哥现在从 OpenAI 跑出来,自己弄了个叫 Core Automation 的公司,据说要把 Transformer 的底层计算逻辑整个翻新一遍。

圈内人其实早就开始猜了。Jerry 五月份在社交媒体上发过一段让人浮想联翩的话:低偏差高方差的方法虽然计算效率不咋地,但它的扩展性极好,高偏差低方差的方法看着效率高,可碰到天花板的速度也快得吓人。你看这话说得文绉绉的,翻译成人话就是:以前大家拼命压榨每一块芯片的算力,现在这条路线已经走到头了。

按照爆料博主 Andrew Curran 的说法,这次的技术突破主要砸在显存和内存效率上。如果真能捅破这层窗户纸,意味着同样一块 H100 显卡,以前只能跑一个 70B 参数模型,以后可能能跑三到四个。这对于那些显卡存货不多的中小公司来说,相当于天降福利。

注意力机制的数学把戏比想象中多

先别急着被那些花里胡哨的技术名词吓住。讲到底,大模型吃显存的主要原因,就是 Transformer 里的注意力机制(Attention Mechanism)实在太贪心了。

这个东西的计算量跟输入文本长度的平方成正比(也就是 O(n²))。给模型喂 1000 个字的提示词,它要算 100 万次关系;喂 10000 个字,计算量就飙升到 1 亿次。社区的讨论里提到,如果在算法层面能把 O(n²)压到 O(n log n),那几乎等于把同样一张显卡的算力拉高了一个世代[ citation:2]。

有人跳出来说,注意力复杂度其实是对数的,只是硬件把这优势给浪费了。今年 3 月有人发了个很有意思的博客,Karpathy 还专门点了赞。那篇文章说,纯从算法深度(depth)上讲,注意力机制的复杂度根本不是平方级的,而是对数级的(O(log n)),问题出在硬件必须要先算出一个巨大的 N×N 矩阵放回显存(HBM),这一步卡住了性能。

大厂搞不定的缓存居然被创业公司破解了

这次 Core Automation 如果真能成,肯定不是靠什么玄学,大概率是对 KV Cache(键值缓存)动了刀。

举个不太恰当但好理解的例子:你写作业的时候有个草稿本,以前你每做一道新题都要把前面所有解题步骤翻出来看一遍,这叫标准注意力。后来你学聪明了,把算过的步骤全记在草稿纸上,每次只看最新那一页,这就是 KV Cache。但草稿纸总有写满的时候,尤其是作文写到 1 万字的时候。大厂现在的做法无非就是加钱买更厚的草稿纸(更大显存),或者把字写小点(量化压缩)。

业内现有的解法其实也不少。

百度跟复旦搞了个 LU-KV 框架,用投资回报率的逻辑去分配缓存,80% 的压缩率下性能损失连 0.5% 都不到。
北大和华为弄了个 LouisKV,在长序列推理场景下能加速 4.7 倍。
更绝的是华为的 RazorAttention,他们发现大模型里有些叫检索头(Retrieval Heads)的注意力头对上下文特别敏感,只要把这几根头的缓存保护好了,剩下的全扔掉也不怎么影响智商,实现了 70% 的静态压缩。

这帮创业公司要从大厂嘴里抢肉吃,不能只靠修修补补的“软件优化”。
NVIDIA 搞了个 NVFP4 技术,通过把缓存精度从 16 位压缩到 4 位,硬是把显存占用砍了一半,而且精度损失控制在 1% 以内。这还只是硬件的底层优化,如果 Core Automation 真像 Reddit 上传的那样,掌握了改变注意力机制计算逻辑的魔法,那整个行业的硬件采购预算怕是要连夜重写了。

憋大招还是放哑炮还得看代码落地

现在全网最焦虑的可能不是 OpenAI,而是那些刚花了大几千万美金囤了上万张 H100 的大厂。如果 Core Automation 的算法真能让现存显卡效率翻倍,那意味着大厂手里的硬件护城河一夜之间贬值了。而且 Reddit 上有个很损的评论说的挺在理:既然这种内存架构能被做出来,中国的大模型团队最多三个月就能反向复刻出来,与其藏着掖着不如赶紧开源大家一起加速。

也不能光顾着嗨,泼冷水的人也有。

Andrew Curran 这次的措辞很微妙,用的是“预测”(prediction)而不是“泄露”(leak)。有人指出,Curran 以前真拿到一手猛料的时候,说话语气是非常笃定的,这次这么模糊,搞不好就是看大家太无聊了在制造焦虑骗流量。而且线性注意力、亚二次方复杂度的方案学术界提了好几年,关键从来不是能不能做到,而是做到的同时有没有致命的性能副作用。

但不管怎么说,现在的 AI 圈确实太需要这种故事了。如果连 OpenAI 跑出来的核心骨干都搞不出能改变游戏规则的东西,那所谓的 AI 下半场,也就只剩下比谁家囤的显卡多了。

唯一能确定的是,接下来两个月不管这家公司官宣什么,只要代码没放出来、论文没发表,所有讨论就都是扯淡。毕竟在这个行业里,发布会开得越响的,往往死得越快。