很多人当初解读收购Groq是为了SRAM,其实这事儿压根和SRAM无关,关键在数据流架构、全局时钟同步,以及英伟达如何用自家IP把Groq这种“疯批级数据流机器”拉到满血状态。真正的杀招叫dataflow,不叫SRAM。核心在于光时钟转发技术与确定性计算的未来。
两个月前,当英伟达宣布以200亿美元收购Groq时,人们第一反应是:这特么不就是贿赂特朗普政府批准H200出口中国的政治献金吗?毕竟Groq三个月前刚完成一轮融资,小特朗普的风投公司1789 Capital就在里面,100%回报只需要三个月,这时间线也太巧了吧?英伟达得卖多少片H200到中国才能赚回这200亿?但当人们看到交易金额不是传闻的140亿而是200亿时,人们闭嘴了。
但是,现在看来,这笔交易可能比2019年英伟达收购Mellanox还要大。为什么?因为Groq不是普通的AI芯片公司,他们造出了计算机架构史上最疯狂、最不平衡、最不可理喻的怪物——而英伟达拥有让这头怪物发挥全部潜力的独家武器库。
计算机架构的四个维度:如何描述任何一台电脑
要理解Groq的疯狂,我们需要一个通用框架。任何计算机都可以用四个属性描述:
- 内存层级、
- 内存访问/路由方式、
- 计算结构、
- 芯片间通信结构。
这四个维度决定了一切。SRAM只是材料,不是灵魂。
先谈谈四个中第一个,内存层级就是经典的金字塔:寄存器最快最贵,L1/L2/L3缓存居中,DRAM最慢最便宜。
关键区别在于:缓存(Cache)是硬件自动管理的,而暂存器(Scratchpad)是软件控制的。
这个区别改变了从内存地址映射到编程模型的一切。
缓存和暂存器不是一回事。这个区别直接改变整个系统哲学。
如果硬件自己决定数据进L1、L2还是L3,那叫缓存。
如果软件明确告诉每一块数据去哪,那叫暂存器。Groq用的是暂存器。也就是说,编译器必须在运行前,把所有数据移动路径、时间节奏全部算好。错一个周期,整个执行流崩塌。
数据如何在芯片里跑:NoC决定灵魂
内存访问/路由看的是片上网络(NoC)。芯片内部的连接结构通常是环状Ring或者网格Mesh。
- AMD用嵌套环状总线Ring,像AMD EPYC Genoa-X采用嵌套Ring结构。
- Intel用网格Mesh,像Intel Sapphire Rapids用Mesh结构。
- 英伟达用网格Mesh加Crossbar,像英伟达Blackwell Ultra内部则是Mesh加Crossbar组合。
- Google TPU用交叉开关加集成路由。
数据从HBM进来,怎么在逻辑Die(负责计算逻辑的那块硅片)内部传?走几跳?会不会拥堵?不同核心之间是否对称?这些都会影响调度模型。
你以为数据就是“搬过去”这么简单?NoC决定数据能不能准点到达。
而Groq这种架构,对时间精度的要求近乎变态。它是cycle级静态调度。时间错一拍,全场停电。
CPU、GPU、TPU与Groq的分裂宇宙
计算结构看的是指令集复杂度:CPU有分支预测、乱序执行等花哨功能。
CPU很“花”,有分支预测,有乱序执行,有推测执行。这些都让硬件在运行时替你做决定。灵活,复杂,功耗高。
GPU核心是SIMD(单指令多数据):英伟达用32线程Warp,AMD用64线程Wave。大规模单指令多数据。
适合AI,因为AI本质就是大量矩阵运算。
TPU像Google Ironwood V7,用的是脉动阵列(Systolic Array),TPU用8宽VLIW(超长指令字)控制脉动阵列。
暂存器喂给阵列,阵列做数据流计算。
编译器提前排好队。
Groq更极端:144-wide VLIW!是的,一次144条指令打包执行!行业里常见的VLIW宽度是8,它直接飙到144。
Groq的TSP(Tensor Streaming Processor)芯片是一个144宽VLIW架构。
什么意思?业界最大胆的尝试也就8宽,这帮疯子直接干了144宽。
整个芯片执行单条指令流,可以看作一个巨大的处理器核心,每个周期发出144条指令控制20个Superlane。
这不是升级,这是变异。
它要求编译器在编译期完成cycle级调度。所有Load、Add、Mul、Store全部预排。没有动态容错。任何同步抖动都会让执行逻辑停车。
数据以"流"的形式组织,32个向东流,32个向西流,每个流每周期自动推进32字节。没有寄存器文件,没有缓存,没有分支预测,没有乱序执行,没有投机执行。一切都是确定性的,编译器必须在编译时就精确知道每个数据在哪个周期到达哪个功能单元。
Groq:史上最不平衡的机器
Groq架构被行业称为极端。它没有DRAM,全靠片上SRAM 暂存器。带来的要求是:芯片之间需要高度同步。每个服务器,每个机架都要对齐节拍。
它的同步机制靠计数器方案。
问题是:时钟漂移、SerDes抖动都会影响执行,如果抖动一旦超阈值,计算单元必须停下等待。
这带来了极致的延迟可预测性和能效比,但也创造了计算机史上最地狱的编译器。编译器必须进行周期级精确的静态调度,填满144个并行执行槽。如果同步出现任何偏差,整个系统就得停车等待。Groq前首席架构师Dennis Abts(现在已在英伟达)在Hot Chips 2022上亲口承认:这可以被视为144宽VLIW。
这是一种把复杂度从硬件转移到编译器的极端做法:硬件简单,编译器地狱。
但问题来了!
如果编译器真的成熟了呢?
如果同步问题能被彻底解决呢?
那这台机器会进入什么级别?
英伟达的王牌:光时钟转发与全局同步
为什么说英伟达能让Groq架构发挥全部潜力?因为他们拥有Groq梦寐以求却永远无法实现的三样神器:
英伟达在ISSCC展示了光学Clock-Forwarded Die-to-Die技术:通过光学链路直接转发时钟信号,并使用Injection Locking稳定相位,相位误差大约0.5 UI,约16皮秒级别。这个精度远优于Groq现有计数器方案。
首先是光时钟转发(Optical Clock-Forwarding)。英伟达刚在ISSCC上展示了这项技术,通过光学链路转发时钟信号,可以实现亚16皮秒的时钟精度。相比之下,Groq用的基于计数器的同步方案简直就是石器时代的技术。
想象一下,如果能在整个数据中心范围内实现光学全局时钟同步,Groq风格的架构能发挥出怎样的性能?
Groq这种数据流机器,如果获得皮秒级稳定全局时钟,会发生什么?
编译器的调度基础变得极稳。同步问题大幅缓解。跨芯片一致性提高。数据流结构可以真正扩展。
这还只是Die-to-Die。
如果光学全局时钟可以扩展到机架级,甚至数据中心级呢?
那Groq那种极端数据流架构,会进入完全不同的物理稳定区间。
混合键合与SRAM扩展:不是数量,是确定性
三样神器中第二个是混合键合(Hybrid Bonding)技术。
Groq的SRAM只有230MB,因为没资源做3D堆叠。
英伟达可以用混合键合把SRAM容量翻倍而延迟惩罚极小,像AMD X3D用3D堆叠SRAM扩展L3。延迟略有影响,但容量翻倍。
Groq用暂存器。它的延迟是编译期确定的。只要物理延迟可测量,就能提前回推调度。
编译器反正都是静态调度,多点延迟提前算好就行。
换句话说,扩容不会破坏模型,只会改变参数。
总之:英伟达具备混合键合资源。Groq以前没这个资源,现在有了。
SRAM扩展不是性能魔法,而是数据流规模扩大。
热设计与时钟频率:物理层的救赎
三样神器中第三是顶尖的热设计团队。
Groq架构的热密度极高,部分执行逻辑会变得非常烫,导致必须降频运行。执行单元部分区域极热。可能被迫降频。
英伟达的液冷团队能轻松解决这个,英伟达在液冷和热设计领域是世界顶级。热点管理能力极强。让芯片跑在目标频率上。
这意味着Groq未来频率上限可能提升。性能释放不是线性,是指数叠加。
这是体系级重构:数据流 + 高精度时钟 + 扩容暂存器 + 热设计优化。
Chip-to-Chip:全互连与拓扑哲学
英伟达NVLink采用全互连结构;在NVL72域内单跳全带宽。
Google TPU用3D-Torus,未来用Dragonfly。
Groq的同步架构原本对拓扑极敏感。如果全局时钟与高精度SerDes结合,拓扑设计空间会扩大。
这里真正的故事是:Groq以前是一座孤岛!英伟达让它进入生态!
数据流才是未来:为什么不是关于SRAM
所有人都在说Groq的价值在于SRAM,错了!完全搞错了方向。
Groq的价值在于数据流架构(Dataflow Architecture)。当计算结构是确定性的、编译器控制一切数据移动时,你就得到了一个数据流机器。
这种架构在推理场景下有巨大优势:没有运行时调度抖动,没有缓存未命中的随机延迟,tail latency极小,能效比极高。代价是灵活性为零——你只能运行编译器完美优化过的模型。
但等等,这正是英伟达想要的。训练需要灵活性,GPU赢;推理需要重复运行同一个模型数十亿次,专业化芯片赢。Google用8宽VLIW的TPU证明了这条路走得通,Gemini的千万token上下文就是证据;Groq的144宽VLIW是更极端的版本,一旦编译器优化完成,性能无可匹敌。
新黄金时代:任何白痴都能造桥
这笔交易预示着一个"非正统计算机"的黄金时代。当英伟达把光时钟转发、混合键合、热管理技术与Groq的数据流架构结合,他们将造出前所未有的怪物。
"任何白痴都能造桥"意思是当基础技术成熟后,建造专用加速器变得简单:
Cerebras的晶圆级引擎、SambaNova的可重构数据流、Etched的静态编译器
这些"疯狂"的架构都有生存空间。
英伟达不需要Groq的芯片(GlobalFoundries 14nm工艺太烂),他们需要Groq的架构思想和那群在地狱级编译器上磨练了六年的工程师。
200亿买的是一张门票——通往确定性计算、光互连、全局同步的未来。
这就是英伟达即将三月发布全新芯片的秘密所在!