大厂囤显卡白囤了？OpenAI跑路高管搞出显存黑科技

#AI基础设施 #AI人工智能指南 #算法教程

2026-07-01 2K banq

OpenAI前核心科学家新公司Core Automation被曝显存效率重大突破，大模型算力瓶颈或将被颠覆

OpenAI 核心科学家出走创业，新公司 Core Automation 号称在模型底层架构上搞出了重大突破。这事最搞笑的地方在于，这家公司专攻的问题，是 AI 圈所有大厂天天喊头疼但一直搞不定的“显存焦虑”。整个行业烧了几千亿买显卡，结果有人告诉你，靠算法优化能把显存效率翻着倍往上提。

从 OpenAI 跑路的人打算重新发明轮子

Jerry Tworek 这个名字你可能没听过，但 o1 模型推理能力的核心突破，他当年是主要操盘手之一。这老哥现在从 OpenAI 跑出来，自己弄了个叫 Core Automation 的公司，据说要把 Transformer 的底层计算逻辑整个翻新一遍。

圈内人其实早就开始猜了。Jerry 五月份在社交媒体上发过一段让人浮想联翩的话：低偏差高方差的方法虽然计算效率不咋地，但它的扩展性极好，高偏差低方差的方法看着效率高，可碰到天花板的速度也快得吓人。你看这话说得文绉绉的，翻译成人话就是：以前大家拼命压榨每一块芯片的算力，现在这条路线已经走到头了。

按照爆料博主 Andrew Curran 的说法，这次的技术突破主要砸在显存和内存效率上。如果真能捅破这层窗户纸，意味着同样一块 H100 显卡，以前只能跑一个 70B 参数模型，以后可能能跑三到四个。这对于那些显卡存货不多的中小公司来说，相当于天降福利。

注意力机制的数学把戏比想象中多

先别急着被那些花里胡哨的技术名词吓住。讲到底，大模型吃显存的主要原因，就是 Transformer 里的注意力机制（Attention Mechanism）实在太贪心了。

这个东西的计算量跟输入文本长度的平方成正比（也就是 O（n²））。给模型喂 1000 个字的提示词，它要算 100 万次关系；喂 10000 个字，计算量就飙升到 1 亿次。社区的讨论里提到，如果在算法层面能把 O（n²）压到 O（n log n），那几乎等于把同样一张显卡的算力拉高了一个世代[ citation:2]。

有人跳出来说，注意力复杂度其实是对数的，只是硬件把这优势给浪费了。今年 3 月有人发了个很有意思的博客，Karpathy 还专门点了赞。那篇文章说，纯从算法深度（depth）上讲，注意力机制的复杂度根本不是平方级的，而是对数级的（O（log n）），问题出在硬件必须要先算出一个巨大的 N×N 矩阵放回显存（HBM），这一步卡住了性能。

大厂搞不定的缓存居然被创业公司破解了

这次 Core Automation 如果真能成，肯定不是靠什么玄学，大概率是对 KV Cache（键值缓存）动了刀。

举个不太恰当但好理解的例子：你写作业的时候有个草稿本，以前你每做一道新题都要把前面所有解题步骤翻出来看一遍，这叫标准注意力。后来你学聪明了，把算过的步骤全记在草稿纸上，每次只看最新那一页，这就是 KV Cache。但草稿纸总有写满的时候，尤其是作文写到 1 万字的时候。大厂现在的做法无非就是加钱买更厚的草稿纸（更大显存），或者把字写小点（量化压缩）。

业内现有的解法其实也不少。

百度跟复旦搞了个 LU-KV 框架，用投资回报率的逻辑去分配缓存，80% 的压缩率下性能损失连 0.5% 都不到。
北大和华为弄了个 LouisKV，在长序列推理场景下能加速 4.7 倍。
更绝的是华为的 RazorAttention，他们发现大模型里有些叫检索头（Retrieval Heads）的注意力头对上下文特别敏感，只要把这几根头的缓存保护好了，剩下的全扔掉也不怎么影响智商，实现了 70% 的静态压缩。

这帮创业公司要从大厂嘴里抢肉吃，不能只靠修修补补的“软件优化”。
NVIDIA 搞了个 NVFP4 技术，通过把缓存精度从 16 位压缩到 4 位，硬是把显存占用砍了一半，而且精度损失控制在 1% 以内。这还只是硬件的底层优化，如果 Core Automation 真像 Reddit 上传的那样，掌握了改变注意力机制计算逻辑的魔法，那整个行业的硬件采购预算怕是要连夜重写了。

憋大招还是放哑炮还得看代码落地

现在全网最焦虑的可能不是 OpenAI，而是那些刚花了大几千万美金囤了上万张 H100 的大厂。如果 Core Automation 的算法真能让现存显卡效率翻倍，那意味着大厂手里的硬件护城河一夜之间贬值了。而且 Reddit 上有个很损的评论说的挺在理：既然这种内存架构能被做出来，中国的大模型团队最多三个月就能反向复刻出来，与其藏着掖着不如赶紧开源大家一起加速。

也不能光顾着嗨，泼冷水的人也有。

Andrew Curran 这次的措辞很微妙，用的是“预测”（prediction）而不是“泄露”（leak）。有人指出，Curran 以前真拿到一手猛料的时候，说话语气是非常笃定的，这次这么模糊，搞不好就是看大家太无聊了在制造焦虑骗流量。而且线性注意力、亚二次方复杂度的方案学术界提了好几年，关键从来不是能不能做到，而是做到的同时有没有致命的性能副作用。

但不管怎么说，现在的 AI 圈确实太需要这种故事了。如果连 OpenAI 跑出来的核心骨干都搞不出能改变游戏规则的东西，那所谓的 AI 下半场，也就只剩下比谁家囤的显卡多了。

唯一能确定的是，接下来两个月不管这家公司官宣什么，只要代码没放出来、论文没发表，所有讨论就都是扯淡。毕竟在这个行业里，发布会开得越响的，往往死得越快。