英伟达发现一个超级简单但又极其聪明的办法:直接做一块专门装SRAM的小芯片,然后用混合键合(hybrid bonding)这种超高级的芯片堆叠技术,把这块SRAM小芯片贴到计算芯片上。结果就像给电脑突然插了一个超级大的高速内存条,而且软件完全不用改。
这一招为什么厉害?因为很多AI芯片设计公司都在拼命改编译器、改软件架构、改算法框架,忙得像程序员凌晨三点修bug。NVIDIA的做法就像一个游戏玩家突然发现隐藏秘籍:按一个键,血量直接翻倍。程序员一看,代码完全没动,性能却上去了,这种感觉就像考试前背了一整本书,结果老师突然宣布开卷考试。
从工程角度看,这种思路非常“工程师”。
成熟制程做SRAM,成本低、风险低、良率高;计算芯片继续用先进制程;两者通过hybrid bonding叠在一起。整个系统性能直接升级,软件生态完全保持稳定。
很多工程师看到这套操作都会发出同样一句感叹:这简直是半导体界的作弊码。
英伟达收购Groq背后的真相:
Compiler First才是灵魂,SRAM只是副产品,异构推理时代正式开启
当英伟达掏出200亿美元收购Groq时,整个硅谷都在问同一个问题:这家靠SRAM路线火起来的公司,真的值这个价吗?答案是肯定的,但原因和你想的不一样。
Groq真正的价值不在于那230MB的片上SRAM,而在于一套被称为"Compiler First"的确定性编译器哲学。这套哲学让AI推理延迟降到了微秒级,也让Groq在英伟达的GPU帝国里找到了不可替代的生态位。这不是一场关于内存技术的收购,而是一次关于计算范式转移的战略布局。随着Groq LPU加入英伟达产品线,AI推理正在从单一架构走向异构分工的新时代,Compiler First的技术路线将重新定义实时智能体应用的性能标准。
从第一性原理重新理解Groq的设计哲学
Groq的故事要从一个反直觉的判断开始:这家公司本质上是一个Compiler First走到极致的技术路线,SRAM Only只是这个选择的副产品,而非起点。这个认知是理解整个Groq架构的钥匙,也是看懂英伟达这200亿美元花在哪里的关键。当Groq的创始团队坐下来重新审视AI推理这个工作负载时,他们发现了一件很有意思的事:和通用CPU面对的杂乱无章的任务不同,AI推理具有极高的确定性(Deterministic)。这里没有复杂的数据依赖分支(Data-Dependent Branching),Tensor的形状是固定的,内存访问模式在编译时就能确定得一清二楚。
这种确定性的特征让Groq团队问出了一个灵魂问题:在硬件和软件的边界上,什么应该在编译时做,什么应该在运行时做?对于AI推理这个特定的工作负载,答案几乎颠覆了整个行业的常识——几乎所有事情都可以在编译时完成。
这就是Groq最疯狂也最独特的地方:完全确定性编译器(Fully Deterministic Compiler)。这个编译器精确到每个时钟周期,在代码编译阶段就确定了硬件在运行时的每一个状态。编译器扮演了一个全知全能的上帝角色,提前知道每个数据会在哪个周期出现在哪个位置,从而彻底避免了硬件资源的浪费。要实现这种程度的控制,Compiler必须对硬件的每一个细节都了如指掌:LPU里每一次计算、每一次存储访问、每一次芯片间通信的延迟,都必须精确到Clock Cycle级别。这对Compiler的复杂度要求极高,但带来的回报是极致的执行效率。
AI工作负载的高确定性,加上Groq的完全确定性编译器优先路线,巧妙地避开了VLIW(Very Long Instruction Word)架构在传统通用计算中的弱点。VLIW的问题在于内存行为和分支行为不可预测,导致编译器生成的指令流经常遇到流水线停顿。但在AI推理这个确定性极强的场景里,这些问题根本不存在,VLIW的优点却被放大了。既然编译器要控制每个功能单元在每个周期做什么,那指令格式自然就是一个宽指令里打包多个操作,这样能得到最高的执行效率。这就是VLIW编码格式的自然推论。
在Groq的芯片里,你看不到乱序执行(Out-of-Order Execution),看不到推测执行(Speculation),硬件被大幅简化,Instruction Dispatch单元仅占不到3%的芯片面积。所有的复杂度都被移到了静态Compiler上,这正是VLIW思想的精髓所在。为了让编译器能够实现确定性的Cycle-Accurate调度,硬件里所有不确定的因素都必须被消除。Arbiter、Crossbar、Replay这些带有自主算法、会在运行时做出决策的模块,全部被砍掉。内存延迟也必须是确定的,所以一切Cache和DRAM都要被移除。Cache被替换成Scratchpad SRAM,因为Cache Replacement策略是运行时决策的,具有不确定性,必须换成由软件完全控制的Scratchpad,地址映射完全由Compiler控制,这样才能保证确定性。
芯片之间的通信也必须精确到Cycle级别。发送和接收指令的软件协调好执行的时刻,没有传统的"我要发一个包给你,请分配好内存"这类异步操作,而是同步地根据一份时间表严格执行SRAM的分配和收发操作。这份时间表是Compiler在编译阶段就已经决定好的,硬件只需要无脑执行就行了。完全确定性Compiler带来的另一个巨大优势是芯片节点之间互联通信的极低延迟,这可能是Groq确定性架构最被忽视的优点。在传统互联架构里,Packet Routing、Arbiter Contention和Buffer Queuing是延迟波动的重灾区,但在Groq的体系里,这些问题在编译时就解决了。
所以准确地说,Groq并不是一个原生的SRAM First技术路线,也不完全是VLIW First的技术路线,而是Compiler First的技术路线。完全确定性Compiler才是整个Groq架构的核心。只是因为确定性Compiler的要求,在核心Decode阶段无法容忍HBM或DRAM带来的不确定性,SRAM Only才成为了必然的选择。这就是为什么Groq更像是Compiler First路线,SRAM只是这个哲学指导下的技术实现。
为什么确定性Compiler无法移植到英伟达的GPU体系
Groq被英伟达收购之后,很多人第一反应是:这套确定性Compiler技术能不能用在英伟达现在的GPU加HBM体系上?答案是残酷的——不能。原因有两个,而且每一个都是结构性的死结。
第一个死结是HBM和DRAM的物理特性。HBM的带宽优化决定了它天生带有不可预测的延迟,这和Deterministic Compiler是完全不兼容的。DRAM为什么充满了不确定性?首先,Refresh操作每隔一段时间tREFI就会刷新一次Cell上的电量,这个过程会阻断Bank访问,这是由DRAM Cell的物理特性决定的。而且这个Refresh频率会随着温度变化而变化,编译器根本无法在编译时预测什么时候会触发Refresh。其次,为了最大化利用DRAM带宽,Controller会做很多动态优化,最典型的是Batch Scheduling:把同一个Page的Traffic都放在一起减少Page Miss,同时让读写尽可能接触更多的Bank,以及尽可能减少Read和Write Switching。这些动态优化都是实时发生的,基本不具备可预测性。最后,系统层面上对DRAM的优化,比如Bank Address Hashing,让Compiler在静态阶段提前定位某段数据的难度太大,落实Cycle确定性的复杂度极高。
其实这些不确定性也不是不能解决,代价就是放弃大部分的优化策略,大幅降低DRAM的效率和利用率。Groq自己其实也对这方面做过探索,他们曾经申请过一个确定性DRAM的专利,但工程上的实现是不现实的,这也是Groq最终选择SRAM Only的核心原因之一。所以确定性Compiler技术路线用在DRAM上不是一个Yes或No的问题,而是这不是一个好的选择,因为这意味着HBM的效率和带宽都要大打折扣,而且是结构性无法避免的损失。这几乎意味着要用Compiler去重写一个完整的Memory Controller,因为确定性DRAM本质上是Compiler Software Defined Memory Controller,这个Software Controller会非常难做,复杂度极高。而且每一代Memory迭代都要大幅更新Compiler里的结构,在工程资源上是不现实的。每一代DRAM、每一家DRAM供货商都需要调试,这在验证和Validation上是一个Nightmare。
第二个死结是英伟达的SIMT路线和Groq的VLIW加Compiler First哲学在本质上是冲突的。这两套体系对同一个问题给出了完全相反的回答:运行时的不确定性该怎么处理?Groq选择在Compiler阶段直接消灭所有不确定性,英伟达选择了用Warp Switching去隐藏不可预测的延迟。英伟达GPU建立在SIMT(Single Instruction Multiple Threads)和硬件层线程调度器(Warp Scheduler)上。当一个Warp因为访存而Stall的时候,硬件Warp Scheduler立刻切换到另一个Ready的Warp继续执行,把Stall的延迟藏在其他Warp的计算里。这整套机制的前提恰恰是:延迟是不可预测的,所以需要足够多的并发线程来统计性地填满Pipeline。
如果要用确定性的Compiler去接管,等于把英伟达GPU里面最核心的硬件调度单元全盘废弃。如果你不需要多Warp轮转,你也不需要那么大的Register File。实际上在历史上,AMD从TeraScale(VLIW)到GCN(Scalar SIMT)的架构转型,正是GPU领域一次大规模的VLIW到SIMT迁移。当工作负载变得不够可预测时,VLIW的Compiler负担太重,应该把调度权还给硬件。所以在原架构上引入确定性Compiler应用到英伟达现有的技术路线,是很难融合的。这不是Compiler能不能改的问题,是两套架构从第一性原理上就走了相反的方向。所以说,Groq在英伟达的唯一出路,就是独立的面向Low Latency Decode的专用产品。
英伟达能给Groq带来什么实质性的技术升级
既然Groq必须作为独立产品线存在,那英伟达收购它之后能带来什么新提升?先看看Groq现在的瓶颈在哪里。简单来说有三个:SRAM容量太小,无法容下大模型的参数量加上KV Cache;推理Decode阶段的主要瓶颈不在SRAM那80TB每秒的速度,而在于Interconnect延迟,这个延迟占了总延迟的80%;对于Prefill这种Compute Bound的任务,Groq的速度较慢。
Groq的主要架构基本上在2017到2018年就完成了,那是CNN的时代,架构也是以CNN和LSTM为主要目标,当时测试的Benchmark都是ResNet50,230MB的SRAM容量是绰绰有余的。但是进入LLM时代,单个TSP计算卡230MB SRAM就显得不够看了。一个LLaMA 70B模型的参数量占内存就相当于3000个ResNet50,再加上因为上下文Long Context日益膨胀的KV Cache,Scale Out就成了唯一的出路。
于是一个70B模型的推理就需要576张卡的集群,采用16个Pipeline并行(PP)和36个Tensor并行(TP)。80层的大模型切成16级流水Pipeline串行,每级横向5层MLP分给36个卡并行推理。16级流水Pipeline串行,每级流水到下级流水的通信Overhead延迟就要乘以16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟,特别是PP延迟,占据了50%以上的总延迟,通信延迟成为了主要瓶颈。
Groq计算卡对Decode阶段的Memory Bound很友好,但是片上巨大的SRAM也挤压了Compute的面积,导致Prefill阶段耗时很高。融入英伟达产品线之后,Groq产品完全可以扬长避短,只做自己擅长的Decode部分,避免Prefill阶段的短板。
英伟达带来的最重要的提升,可能是通过工艺的提升,以及Hybrid Bonding技术(类似AMD 3D V-Cache),扩大Groq LPU SRAM的容量。光是14nm到3nm的工艺提升,SRAM就能从230MB扩大到500MB,如果以后引入3D SRAM,容量还能翻倍。
SRAM变大之后,原来576个LPU能完成的70B模型推理,现在只需要256个LPU了。猜测也许可以用32个Tensor并行乘以8个流水Pipeline串行,Pipeline Interconnect延迟能直接减半。所以英伟达能带来的主要提升可能是,通过扩大SRAM的容量,减少Scale Out的卡数,从而减少通信延迟时间,提高Token速度。
SRAM路线会不会颠覆HBM路线的市场地位
Groq的SRAM路线专用产品进入英伟达产品线,引出了第三个问题:SRAM路线会颠覆HBM路线吗?答案是不会。SRAM路线本质上是用十倍的成本换几倍的速度,只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(Total Cost of Ownership)成本。
做一个简单的成本核算就清楚了。以LLaMA 70B模型为例,算上KV Cache,Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(Groq CEO说实际售价远低于此,那就按2000美元算),576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型,成本不到10万美元。成本差距是一个数量级。
Groq于是转而卖Token服务,Groq的API定价确实便宜,但这是因为两个原因叠加:第一,英伟达的GPU云服务商通常在硬件成本上加倍的Margin卖出去;第二,Groq自己是在亏钱运营的。2025年全年,Groq用LPU做大模型推理、对外卖API的业务,营收大约4000万美元,成本却是6000万美元,毛利负50%。Groq的便宜Token价格不是因为SRAM的经济性更好,而是因为VC在补贴。
那么有人愿意为速度付溢价吗?有。Claude Opus 4.6 Fast模式就是一个很好的市场信号:输出速度提升2.5倍,定价直接从每百万Token 5美元和25美元涨到30美元和150美元,6倍的价格,估计是牺牲了Batch带来的速度提升。所以这部分市场是真实存在的,SRAM路线在这里有它的生态位。
但这个生态位有多大?要看ML工作负载的分类。不同的工作负载对硬件的侧重点要求差距巨大:推理的Prefill阶段对带宽要求低但算力要求高,推理Decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高。对延迟敏感的推理工作负载,Decode阶段对Memory Bandwidth要求高,是SRAM路线的优势领域,主要是Real Time或Interactive LLM:Chat、Copilot、智能体这类需要实时响应的场景。特别是Reasoning Model,SRAM路线带来的极致体验是很夸张的:H100要两三分钟跑完一次Reasoning,Cerebras十秒就搞定了。
这部分注重极致推理速度的市场有多大,目前看到一个Hyperscaler的说法是占10%左右。但是智能体流程工作负载(Agentic Flow Workload),常用的智能体框架做Profiling,比如SWE-Agent、LangChain、Toolformer,CPU最长可以占到90%的端到端延迟,Throughput瓶颈也更多地卡在CPU,这些加起来通常远大于单次Decode的延迟,SRAM路线的速度优势被削弱。
而更大体量的工作负载:Batch Inference、Offline Processing、Ranking、Recommendation对延迟没有那么敏感,Throughput和Cost Per Token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力。H100和B200相当于大巴车,装的人多(Batch Processing),每个人的车票钱很便宜,但是慢悠悠。Groq和Cerebras相当于是法拉利,极致的速度体验,但是装的人少,人均票价是大巴车十倍甚至以上。
长期来看,SRAM的成本劣势是结构性的,不会随时间收敛。6T SRAM Cell天然比1T1C DRAM Cell贵,这是物理决定的,和工艺无关。而且SRAM Scaling已经慢了下来,从N5到N3E,SRAM单元面积几乎没有缩小。即便是速度优势,SRAM路线的缺陷在于访问速度已经接近工艺极限,很难跨代提升。特别是HBM的速度每代都在指数上升的情况下,SRAM 80TB每秒的速度优势很难长久维持。十年前这个路线刚刚兴起的时候,SRAM速度比HBM快了两个数量级简直是降维打击,但现在的速度差已经不到一个数量级(Rubin HBM4达到22TB每秒),再过十年,两者的速度可能拉不开差距了。
所以结论很清楚:SRAM不会颠覆HBM,但它在低延迟、低Batch、实时推理这个细分市场里有不可替代的价值。但长远来看,随着HBM速度指数上升的背景下,SRAM优势也会逐渐慢慢变小。
异构推理新时代的系统化蓝图
写到这里,也许我们可以把这些碎片拼凑出英伟达收购Groq之后计划的下一步雏形:异构推理的新时代开启了。以后的推理工作负载本身已经分化,无法再用单一架构的最优点覆盖。体系结构最重要的是Tradeoff,是尺度范围。一个架构形态在合理的Tradeoff以及特定工作负载下可能惊为天人,用多个架构形态去迎合不同种类的工作负载,就是异构计算的思想。
2026 GTC的最大主题,就是异构推理的系统化。推理不会由单一硬件统一完成,而会被拆成几个部分:
控制和调度、智能体运行时层交给Vera CPU;
针对Long Context的Prefill交给CPX(Content Phase Accelerator,一个专门为Prefill的Compute Bound特性设计的计算模块);
小模型、低延迟、低Batch Decode交给SRAM路线的Groq LPU,256块LPU集群;高吞吐、高并发Batch Decode,HBM GPU仍然是主力。
以及可能会被忽略的ICMS:Inference Context Memory Storage,KV Cache已经是核心基础设施。以前的异构更多是计算异构,现在的异构已然延伸到了缓存异构Memory Hierarchy Heterogeneity(似乎改名成了CMX:Context Memory Storage)。
LPU和GPU的分工,更可能成为推理堆栈里两个不同的Tier,小模型、低延迟、低Batch都交给LPU,长Context、高Batch交给HBM GPU。目前CPX什么方式和LPU或GPU连接还尚不清楚。整个工作流程大概是:CPU做控制和调度,CPX Prefill跑完得到几十GB的KV Cache,分配到Groq LPU阵列SRAM,或者分配到HBM GPU,开启Decode流程。
其实还有一种更大胆的猜想:如果引入Speculative Decoding,那么LPU完全可以跑通常尺寸较小的草稿模型,在LPU上速度极快,HBM GPU作为主力去验证草稿模型即可。这样的异构推理结构,可以让Token Rate大大加速,在某些场景下翻倍也是没问题的(比如代码任务模式固定,小模型很容易猜对语法,所以加速效果很好)。
当英伟达的眼光越过GPU,走向整个智能体流程的系统级优化时,追赶它的难度已经不在一个单一维度了。以前英伟达步子迈得大,靠的是GPU架构和参数的单点暴力跃升;而现在,随着CPX、LPU、ICMS加入异构推理,它是从"数据中心即一台计算系统"的系统视角出发,从智能体流程的角度做底层的异构编排。
无论是系统的复杂度,还是软件栈的工作量(Dynamo、ICMS、CMX),英伟达迈出的这一大步,直接把竞争门槛从"做出一颗好芯片"拉高到了"定义一整套异构系统来做普适加速计算解决方案"。
当英伟达开始从系统角度设计整个推理流程时,竞争难度已经进入另一个层级。