GTC 2026前瞻：英伟达用SRAM Chiplet与Groq架构开启AI异构推理新时代

#AI基础设施 #芯片半导体 #AI人工智能指南

2026-03-11 1 9K banq

文章从第一性原理出发解释Groq的compiler first架构与SRAM设计逻辑，并分析其与NVIDIA GPU+HBM体系的根本差异，进一步推演收购之后的系统级异构推理架构，以及SRAM与HBM在AI推理市场中的长期分工。

英伟达发现一个超级简单但又极其聪明的办法：直接做一块专门装SRAM的小芯片，然后用混合键合（hybrid bonding）这种超高级的芯片堆叠技术，把这块SRAM小芯片贴到计算芯片上。结果就像给电脑突然插了一个超级大的高速内存条，而且软件完全不用改。

这一招为什么厉害？因为很多AI芯片设计公司都在拼命改编译器、改软件架构、改算法框架，忙得像程序员凌晨三点修bug。NVIDIA的做法就像一个游戏玩家突然发现隐藏秘籍：按一个键，血量直接翻倍。程序员一看，代码完全没动，性能却上去了，这种感觉就像考试前背了一整本书，结果老师突然宣布开卷考试。

从工程角度看，这种思路非常“工程师”。
成熟制程做SRAM，成本低、风险低、良率高；计算芯片继续用先进制程；两者通过hybrid bonding叠在一起。整个系统性能直接升级，软件生态完全保持稳定。

很多工程师看到这套操作都会发出同样一句感叹：这简直是半导体界的作弊码。

英伟达收购Groq背后的真相：

Compiler First才是灵魂，SRAM只是副产品，异构推理时代正式开启

当英伟达掏出200亿美元收购Groq时，整个硅谷都在问同一个问题：这家靠SRAM路线火起来的公司，真的值这个价吗？答案是肯定的，但原因和你想的不一样。

Groq真正的价值不在于那230MB的片上SRAM，而在于一套被称为"Compiler First"的确定性编译器哲学。这套哲学让AI推理延迟降到了微秒级，也让Groq在英伟达的GPU帝国里找到了不可替代的生态位。这不是一场关于内存技术的收购，而是一次关于计算范式转移的战略布局。随着Groq LPU加入英伟达产品线，AI推理正在从单一架构走向异构分工的新时代，Compiler First的技术路线将重新定义实时智能体应用的性能标准。

从第一性原理重新理解Groq的设计哲学

Groq的故事要从一个反直觉的判断开始：这家公司本质上是一个Compiler First走到极致的技术路线，SRAM Only只是这个选择的副产品，而非起点。这个认知是理解整个Groq架构的钥匙，也是看懂英伟达这200亿美元花在哪里的关键。当Groq的创始团队坐下来重新审视AI推理这个工作负载时，他们发现了一件很有意思的事：和通用CPU面对的杂乱无章的任务不同，AI推理具有极高的确定性（Deterministic）。这里没有复杂的数据依赖分支（Data-Dependent Branching），Tensor的形状是固定的，内存访问模式在编译时就能确定得一清二楚。

这种确定性的特征让Groq团队问出了一个灵魂问题：在硬件和软件的边界上，什么应该在编译时做，什么应该在运行时做？对于AI推理这个特定的工作负载，答案几乎颠覆了整个行业的常识——几乎所有事情都可以在编译时完成。

这就是Groq最疯狂也最独特的地方：完全确定性编译器（Fully Deterministic Compiler）。这个编译器精确到每个时钟周期，在代码编译阶段就确定了硬件在运行时的每一个状态。编译器扮演了一个全知全能的上帝角色，提前知道每个数据会在哪个周期出现在哪个位置，从而彻底避免了硬件资源的浪费。要实现这种程度的控制，Compiler必须对硬件的每一个细节都了如指掌：LPU里每一次计算、每一次存储访问、每一次芯片间通信的延迟，都必须精确到Clock Cycle级别。这对Compiler的复杂度要求极高，但带来的回报是极致的执行效率。

AI工作负载的高确定性，加上Groq的完全确定性编译器优先路线，巧妙地避开了VLIW（Very Long Instruction Word）架构在传统通用计算中的弱点。VLIW的问题在于内存行为和分支行为不可预测，导致编译器生成的指令流经常遇到流水线停顿。但在AI推理这个确定性极强的场景里，这些问题根本不存在，VLIW的优点却被放大了。既然编译器要控制每个功能单元在每个周期做什么，那指令格式自然就是一个宽指令里打包多个操作，这样能得到最高的执行效率。这就是VLIW编码格式的自然推论。

在Groq的芯片里，你看不到乱序执行（Out-of-Order Execution），看不到推测执行（Speculation），硬件被大幅简化，Instruction Dispatch单元仅占不到3%的芯片面积。所有的复杂度都被移到了静态Compiler上，这正是VLIW思想的精髓所在。为了让编译器能够实现确定性的Cycle-Accurate调度，硬件里所有不确定的因素都必须被消除。Arbiter、Crossbar、Replay这些带有自主算法、会在运行时做出决策的模块，全部被砍掉。内存延迟也必须是确定的，所以一切Cache和DRAM都要被移除。Cache被替换成Scratchpad SRAM，因为Cache Replacement策略是运行时决策的，具有不确定性，必须换成由软件完全控制的Scratchpad，地址映射完全由Compiler控制，这样才能保证确定性。

芯片之间的通信也必须精确到Cycle级别。发送和接收指令的软件协调好执行的时刻，没有传统的"我要发一个包给你，请分配好内存"这类异步操作，而是同步地根据一份时间表严格执行SRAM的分配和收发操作。这份时间表是Compiler在编译阶段就已经决定好的，硬件只需要无脑执行就行了。完全确定性Compiler带来的另一个巨大优势是芯片节点之间互联通信的极低延迟，这可能是Groq确定性架构最被忽视的优点。在传统互联架构里，Packet Routing、Arbiter Contention和Buffer Queuing是延迟波动的重灾区，但在Groq的体系里，这些问题在编译时就解决了。

所以准确地说，Groq并不是一个原生的SRAM First技术路线，也不完全是VLIW First的技术路线，而是Compiler First的技术路线。完全确定性Compiler才是整个Groq架构的核心。只是因为确定性Compiler的要求，在核心Decode阶段无法容忍HBM或DRAM带来的不确定性，SRAM Only才成为了必然的选择。这就是为什么Groq更像是Compiler First路线，SRAM只是这个哲学指导下的技术实现。

为什么确定性Compiler无法移植到英伟达的GPU体系

Groq被英伟达收购之后，很多人第一反应是：这套确定性Compiler技术能不能用在英伟达现在的GPU加HBM体系上？答案是残酷的——不能。原因有两个，而且每一个都是结构性的死结。

第一个死结是HBM和DRAM的物理特性。HBM的带宽优化决定了它天生带有不可预测的延迟，这和Deterministic Compiler是完全不兼容的。DRAM为什么充满了不确定性？首先，Refresh操作每隔一段时间tREFI就会刷新一次Cell上的电量，这个过程会阻断Bank访问，这是由DRAM Cell的物理特性决定的。而且这个Refresh频率会随着温度变化而变化，编译器根本无法在编译时预测什么时候会触发Refresh。其次，为了最大化利用DRAM带宽，Controller会做很多动态优化，最典型的是Batch Scheduling：把同一个Page的Traffic都放在一起减少Page Miss，同时让读写尽可能接触更多的Bank，以及尽可能减少Read和Write Switching。这些动态优化都是实时发生的，基本不具备可预测性。最后，系统层面上对DRAM的优化，比如Bank Address Hashing，让Compiler在静态阶段提前定位某段数据的难度太大，落实Cycle确定性的复杂度极高。

其实这些不确定性也不是不能解决，代价就是放弃大部分的优化策略，大幅降低DRAM的效率和利用率。Groq自己其实也对这方面做过探索，他们曾经申请过一个确定性DRAM的专利，但工程上的实现是不现实的，这也是Groq最终选择SRAM Only的核心原因之一。所以确定性Compiler技术路线用在DRAM上不是一个Yes或No的问题，而是这不是一个好的选择，因为这意味着HBM的效率和带宽都要大打折扣，而且是结构性无法避免的损失。这几乎意味着要用Compiler去重写一个完整的Memory Controller，因为确定性DRAM本质上是Compiler Software Defined Memory Controller，这个Software Controller会非常难做，复杂度极高。而且每一代Memory迭代都要大幅更新Compiler里的结构，在工程资源上是不现实的。每一代DRAM、每一家DRAM供货商都需要调试，这在验证和Validation上是一个Nightmare。

第二个死结是英伟达的SIMT路线和Groq的VLIW加Compiler First哲学在本质上是冲突的。这两套体系对同一个问题给出了完全相反的回答：运行时的不确定性该怎么处理？Groq选择在Compiler阶段直接消灭所有不确定性，英伟达选择了用Warp Switching去隐藏不可预测的延迟。英伟达GPU建立在SIMT（Single Instruction Multiple Threads）和硬件层线程调度器（Warp Scheduler）上。当一个Warp因为访存而Stall的时候，硬件Warp Scheduler立刻切换到另一个Ready的Warp继续执行，把Stall的延迟藏在其他Warp的计算里。这整套机制的前提恰恰是：延迟是不可预测的，所以需要足够多的并发线程来统计性地填满Pipeline。

如果要用确定性的Compiler去接管，等于把英伟达GPU里面最核心的硬件调度单元全盘废弃。如果你不需要多Warp轮转，你也不需要那么大的Register File。实际上在历史上，AMD从TeraScale（VLIW）到GCN（Scalar SIMT）的架构转型，正是GPU领域一次大规模的VLIW到SIMT迁移。当工作负载变得不够可预测时，VLIW的Compiler负担太重，应该把调度权还给硬件。所以在原架构上引入确定性Compiler应用到英伟达现有的技术路线，是很难融合的。这不是Compiler能不能改的问题，是两套架构从第一性原理上就走了相反的方向。所以说，Groq在英伟达的唯一出路，就是独立的面向Low Latency Decode的专用产品。

英伟达能给Groq带来什么实质性的技术升级

既然Groq必须作为独立产品线存在，那英伟达收购它之后能带来什么新提升？先看看Groq现在的瓶颈在哪里。简单来说有三个：SRAM容量太小，无法容下大模型的参数量加上KV Cache；推理Decode阶段的主要瓶颈不在SRAM那80TB每秒的速度，而在于Interconnect延迟，这个延迟占了总延迟的80%；对于Prefill这种Compute Bound的任务，Groq的速度较慢。

Groq的主要架构基本上在2017到2018年就完成了，那是CNN的时代，架构也是以CNN和LSTM为主要目标，当时测试的Benchmark都是ResNet50，230MB的SRAM容量是绰绰有余的。但是进入LLM时代，单个TSP计算卡230MB SRAM就显得不够看了。一个LLaMA 70B模型的参数量占内存就相当于3000个ResNet50，再加上因为上下文Long Context日益膨胀的KV Cache，Scale Out就成了唯一的出路。

于是一个70B模型的推理就需要576张卡的集群，采用16个Pipeline并行（PP）和36个Tensor并行（TP）。80层的大模型切成16级流水Pipeline串行，每级横向5层MLP分给36个卡并行推理。16级流水Pipeline串行，每级流水到下级流水的通信Overhead延迟就要乘以16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟，特别是PP延迟，占据了50%以上的总延迟，通信延迟成为了主要瓶颈。

Groq计算卡对Decode阶段的Memory Bound很友好，但是片上巨大的SRAM也挤压了Compute的面积，导致Prefill阶段耗时很高。融入英伟达产品线之后，Groq产品完全可以扬长避短，只做自己擅长的Decode部分，避免Prefill阶段的短板。

英伟达带来的最重要的提升，可能是通过工艺的提升，以及Hybrid Bonding技术（类似AMD 3D V-Cache），扩大Groq LPU SRAM的容量。光是14nm到3nm的工艺提升，SRAM就能从230MB扩大到500MB，如果以后引入3D SRAM，容量还能翻倍。

SRAM变大之后，原来576个LPU能完成的70B模型推理，现在只需要256个LPU了。猜测也许可以用32个Tensor并行乘以8个流水Pipeline串行，Pipeline Interconnect延迟能直接减半。所以英伟达能带来的主要提升可能是，通过扩大SRAM的容量，减少Scale Out的卡数，从而减少通信延迟时间，提高Token速度。

SRAM路线会不会颠覆HBM路线的市场地位

Groq的SRAM路线专用产品进入英伟达产品线，引出了第三个问题：SRAM路线会颠覆HBM路线吗？答案是不会。SRAM路线本质上是用十倍的成本换几倍的速度，只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO（Total Cost of Ownership）成本。

做一个简单的成本核算就清楚了。以LLaMA 70B模型为例，算上KV Cache，Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元（Groq CEO说实际售价远低于此，那就按2000美元算），576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型，成本不到10万美元。成本差距是一个数量级。

Groq于是转而卖Token服务，Groq的API定价确实便宜，但这是因为两个原因叠加：第一，英伟达的GPU云服务商通常在硬件成本上加倍的Margin卖出去；第二，Groq自己是在亏钱运营的。2025年全年，Groq用LPU做大模型推理、对外卖API的业务，营收大约4000万美元，成本却是6000万美元，毛利负50%。Groq的便宜Token价格不是因为SRAM的经济性更好，而是因为VC在补贴。

那么有人愿意为速度付溢价吗？有。Claude Opus 4.6 Fast模式就是一个很好的市场信号：输出速度提升2.5倍，定价直接从每百万Token 5美元和25美元涨到30美元和150美元，6倍的价格，估计是牺牲了Batch带来的速度提升。所以这部分市场是真实存在的，SRAM路线在这里有它的生态位。

但这个生态位有多大？要看ML工作负载的分类。不同的工作负载对硬件的侧重点要求差距巨大：推理的Prefill阶段对带宽要求低但算力要求高，推理Decode阶段则是反过来。R&R（Ranking & Recommendation）对算力和带宽要求都不高但对存储的容量要求巨高。对延迟敏感的推理工作负载，Decode阶段对Memory Bandwidth要求高，是SRAM路线的优势领域，主要是Real Time或Interactive LLM：Chat、Copilot、智能体这类需要实时响应的场景。特别是Reasoning Model，SRAM路线带来的极致体验是很夸张的：H100要两三分钟跑完一次Reasoning，Cerebras十秒就搞定了。

这部分注重极致推理速度的市场有多大，目前看到一个Hyperscaler的说法是占10%左右。但是智能体流程工作负载（Agentic Flow Workload），常用的智能体框架做Profiling，比如SWE-Agent、LangChain、Toolformer，CPU最长可以占到90%的端到端延迟，Throughput瓶颈也更多地卡在CPU，这些加起来通常远大于单次Decode的延迟，SRAM路线的速度优势被削弱。

而更大体量的工作负载：Batch Inference、Offline Processing、Ranking、Recommendation对延迟没有那么敏感，Throughput和Cost Per Token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力。H100和B200相当于大巴车，装的人多（Batch Processing），每个人的车票钱很便宜，但是慢悠悠。Groq和Cerebras相当于是法拉利，极致的速度体验，但是装的人少，人均票价是大巴车十倍甚至以上。

长期来看，SRAM的成本劣势是结构性的，不会随时间收敛。6T SRAM Cell天然比1T1C DRAM Cell贵，这是物理决定的，和工艺无关。而且SRAM Scaling已经慢了下来，从N5到N3E，SRAM单元面积几乎没有缩小。即便是速度优势，SRAM路线的缺陷在于访问速度已经接近工艺极限，很难跨代提升。特别是HBM的速度每代都在指数上升的情况下，SRAM 80TB每秒的速度优势很难长久维持。十年前这个路线刚刚兴起的时候，SRAM速度比HBM快了两个数量级简直是降维打击，但现在的速度差已经不到一个数量级（Rubin HBM4达到22TB每秒），再过十年，两者的速度可能拉不开差距了。

所以结论很清楚：SRAM不会颠覆HBM，但它在低延迟、低Batch、实时推理这个细分市场里有不可替代的价值。但长远来看，随着HBM速度指数上升的背景下，SRAM优势也会逐渐慢慢变小。

异构推理新时代的系统化蓝图

写到这里，也许我们可以把这些碎片拼凑出英伟达收购Groq之后计划的下一步雏形：异构推理的新时代开启了。以后的推理工作负载本身已经分化，无法再用单一架构的最优点覆盖。体系结构最重要的是Tradeoff，是尺度范围。一个架构形态在合理的Tradeoff以及特定工作负载下可能惊为天人，用多个架构形态去迎合不同种类的工作负载，就是异构计算的思想。

2026 GTC的最大主题，就是异构推理的系统化。推理不会由单一硬件统一完成，而会被拆成几个部分：
控制和调度、智能体运行时层交给Vera CPU；
针对Long Context的Prefill交给CPX（Content Phase Accelerator，一个专门为Prefill的Compute Bound特性设计的计算模块）；
小模型、低延迟、低Batch Decode交给SRAM路线的Groq LPU，256块LPU集群；高吞吐、高并发Batch Decode，HBM GPU仍然是主力。

以及可能会被忽略的ICMS：Inference Context Memory Storage，KV Cache已经是核心基础设施。以前的异构更多是计算异构，现在的异构已然延伸到了缓存异构Memory Hierarchy Heterogeneity（似乎改名成了CMX：Context Memory Storage）。

LPU和GPU的分工，更可能成为推理堆栈里两个不同的Tier，小模型、低延迟、低Batch都交给LPU，长Context、高Batch交给HBM GPU。目前CPX什么方式和LPU或GPU连接还尚不清楚。整个工作流程大概是：CPU做控制和调度，CPX Prefill跑完得到几十GB的KV Cache，分配到Groq LPU阵列SRAM，或者分配到HBM GPU，开启Decode流程。

其实还有一种更大胆的猜想：如果引入Speculative Decoding，那么LPU完全可以跑通常尺寸较小的草稿模型，在LPU上速度极快，HBM GPU作为主力去验证草稿模型即可。这样的异构推理结构，可以让Token Rate大大加速，在某些场景下翻倍也是没问题的（比如代码任务模式固定，小模型很容易猜对语法，所以加速效果很好）。

当英伟达的眼光越过GPU，走向整个智能体流程的系统级优化时，追赶它的难度已经不在一个单一维度了。以前英伟达步子迈得大，靠的是GPU架构和参数的单点暴力跃升；而现在，随着CPX、LPU、ICMS加入异构推理，它是从"数据中心即一台计算系统"的系统视角出发，从智能体流程的角度做底层的异构编排。

无论是系统的复杂度，还是软件栈的工作量（Dynamo、ICMS、CMX），英伟达迈出的这一大步，直接把竞争门槛从"做出一颗好芯片"拉高到了"定义一整套异构系统来做普适加速计算解决方案"。

当英伟达开始从系统角度设计整个推理流程时，竞争难度已经进入另一个层级。

GTC 2026前瞻：英伟达用SRAM Chiplet与Groq架构开启AI异构推理新时代

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道