英伟达通过IP授权整合Groq,获得LPU确定性推理架构、片上SRAM设计、自研互连技术及TPU创始团队,全面强化其在低延迟、高能效推理市场的统治力,为AI从训练转向大规模部署的战略转型铺路。
英伟达为何拿下Groq?一场决定AI未来十年格局的“静默闪电战”
最英伟达悄悄拿下Groq,虽然没有大张旗鼓地宣布“收购”,而是以IP授权+核心团队整合的“软并购”方式完成。这操作,和微软拿下Inflection、Meta整合Scale AI如出一辙,属于典型的“acquihire式”精准打击。
但真正懂行的人一眼就看出:这不是一次普通的技术补充,而是英伟达在AI基础设施战场上的战略卡位——从“训练霸主”全面转向“推理王者”。
要知道,未来95%以上的AI算力需求,将集中于推理,而不是训练!而Groq的LPU(语言处理单元)正是推理领域的“性能怪兽+能效王者”。
LPU vs GPU:确定性架构才是实时AI的“命门”
很多人以为AI芯片就是比谁算得快,但真正的行业老炮都知道——推理场景最怕的不是慢,而是“不稳定”。
GPU采用动态调度机制,任务来了就排队、插队、抢资源,导致每次生成token的时间忽快忽慢,专业术语叫“jitter”(抖动)。这对聊天机器人、自动驾驶决策、金融风控等实时AI代理(agentic AI)来说简直是灾难。
而Groq的LPU完全不同——它采用完全确定性的架构,从指令发射到结果输出,走的是固定时间路径,每一毫秒都精准可控。这意味着,无论你问100次“今天天气如何”,LPU都能在完全相同的延迟下给出回答。这种“确定性”不是锦上添花,而是未来AI代理大规模落地的基础设施门槛。英伟达看中的,正是这种“可预测的实时性”——这才是真·工业级AI的核心。
片上集成数百兆SRAM:用“奢侈”换极致性能
传统GPU依赖HBM(高带宽内存)或DRAM,虽然容量大、成本低,但访问延迟高、功耗大,数据要绕一大圈才能送到计算单元。
Groq反其道而行之——直接在芯片上集成数百兆字节的SRAM作为模型权重的主存。SRAM贵得离谱,一块芯片的成本可能因此翻倍,但换来的是零延迟、全速数据供给。
想象一下,别人还在等外卖小哥爬楼梯送餐,你家厨房里已经堆满了米其林食材——这就是LPU的“暴力美学”。
结果?LPU跑大语言模型(LLM)推理,速度可达GPU的10倍,功耗却只有1/10。在边缘设备、手机、IoT终端等对能效极度敏感的场景,LPU的能效比甚至比GPU高出100倍!
而别忘了,未来95%的AI请求,就是普通人的日常问答、搜索、语音助手——这些“低价值但高频”的任务,恰恰最需要LPU这种“省电又稳”的解决方案。
VLIW架构+成熟制程:性能与量产的完美平衡
Groq的芯片设计哲学非常“反直觉”——它没死磕3nm、2nm最先进制程,第一代用14nm,下一代才上4nm。
为什么?因为“成熟制程”意味着更高的良率、更低的风险、更可控的成本。
在芯片行业,良率(yield)直接决定生死——100片晶圆里能出多少良品,差10%就是盈亏分界线。Groq用VLIW(超长指令字)架构,在单芯片内集成数百个并行执行单元,靠架构创新而非制程堆料取胜。
这种“聪明的暴力”,让Groq在不依赖台积电最先进产能的情况下,依然打出性能碾压局。
对英伟达而言,这意味着:未来可以快速将LPU技术集成到自家中低端推理芯片产品线(比如面向边缘的Jetson系列),无需等待3nm产能排期,立刻就能抢占市场。这招,既省时间又控风险,堪称教科书级的供应链战略。
自研互连技术:破解分布式推理的“同步噩梦”
别以为LPU只是单芯片快——Groq的杀手锏还有自研的芯片间互连协议。
我们知道,大模型推理往往要拆到多个设备上并行计算,这叫“张量并行”(tensor parallelism)。但GPU集群做张量并行时,节点间通信延迟高、同步开销大,经常出现“一个慢、全队等”的尴尬。
Groq的互连方案让多芯片像一个整体一样工作,数据流转无缝、同步开销极低。
这意味着,用Groq芯片搭的集群,能真正线性扩展性能,而不像某些GPU集群那样“加卡不加效”。英伟达的DGX系统虽然强大,但在中小规模推理部署上仍显笨重。有了Groq的互连技术,英伟达就能推出更灵活、更经济的推理服务器方案,覆盖从单机到百卡集群的全场景需求——这才是“AI工厂”真正的完整拼图。
从训练霸主到推理帝国:英伟达的“第二增长曲线”
必须正视一个残酷现实:AI产业重心正在从“模型训练”转向“模型部署”。训练是一次性的高成本投入,而推理是每天数十亿次的常态化服务。未来,训练可能只占AI总算力的5%,而推理将吃掉95%的蛋糕。
英伟达靠CUDA和A100/H100统治了训练市场,但推理市场早已群雄逐鹿——寒武纪、Graphcore、Cerebras、SambaNova,还有谷歌的TPU,都在虎视眈眈。
Groq作为推理领域的“隐形冠军”,不仅技术领先,团队更是谷歌初代TPU的核心缔造者!拿下Groq,等于英伟达既拿到了顶尖推理架构,又收编了TPU之父团队,一举两得。
更重要的是,这招直接“斩首”了潜在对手——与其让Groq被AMD或英特尔收编,不如自己先吃掉。
“AI工厂”需要两种引擎:GPU负责“造脑”,LPU负责“说话”
黄仁勋最近反复强调“AI工厂”概念——把数据中心变成生产AI智能的流水线。但一个完整的工厂,既需要重型锻压机(训练),也需要精密装配线(推理)。GPU是无可争议的“大脑锻造机”,但当这个大脑要和人类实时对话、控制机器人、处理语音时,就需要LPU这种“神经传导加速器”。
英伟达的野心,是提供从训练到推理的全栈方案。现在,它有了:高端训练用H100+Blackwell,中端推理用Grace Hopper,而未来低端、高并发、低延迟的推理场景,就交给基于Groq IP的新型芯片。
这种“高低搭配、训推一体”的产品矩阵,将让竞争对手更难突围——你就算在训练上追平了,推理端又被拉开一代。
为何不直接收购?IP授权+人才整合才是新时代“吞并术”
细心的朋友会发现,这次交易并非传统意义上的“全资收购”,而是更灵活的IP授权+核心团队整合。
这正是当代科技巨头的高阶玩法:避免巨额现金支出、绕过反垄断审查、快速吸收关键技术,同时保留Groq品牌独立性以维持生态中立性。微软对Inflection、Meta对Scale AI,走的都是这条路。
Groq的客户包括政府、金融、医疗等敏感行业,若被英伟达完全吞并,可能引发客户信任危机。但通过IP授权,英伟达既能用技术,又不破坏Groq的客户关系——堪称“既要又要还要”的典范。
这种“外科手术式”整合,效率高、风险低,是AI时代资源整合的新范式。
终极判断:这不是补强,而是防御性垄断
说到底,英伟达拿下Groq,表面是防御性垄断,实质是技术补短板。
Groq的LPU已经证明:它能在特定场景彻底碾压GPU。当AI进入“推理为王”的时代,任何在能效、延迟、确定性上领先的架构,都可能颠覆现有格局。
时代变了,算力已经从芯片到机架集群SuperPOD,谷歌凭借自家TPU芯片超算以及gemini 3 pro让依赖英伟达最强芯片的OpenAI都亮起红色警报。说明算力市场正在进入深水处,进入推理拼性价比的时期。
结论:
1)LPU 的确定性、大量使用 SRAM 且针对推理进行了优化的设计,为英伟达提供了专用工具,以巩固其在快速增长的推理领域的地位。
2)长期来看,推理计算需求可能会超过所有计算需求的 95%。
极客辣评
英伟达花了相当于 Groq 9月份估值三倍的价格买下了它。这步棋在战略上堪称“核武器”。
以前,所有AI实验室都依赖GPU,造成了巨大的集中性风险。谷歌率先用自研的TPU实现了内部自给自足,证明了“非英伟达不可”的说法是错的。这不仅展示了技术可行性,更揭示出英伟达的护城河比市场想象的浅。一旦有超大规模厂商成功自研芯片,所有精明的买家都会开始盘算:“我们是不是也该自己造?”这直接压缩了英伟达的市场空间。
Groq的创始人Jonathan Ross正是TPU的发明人。他深谙让非GPU的AI加速成为可行的架构原理。他设计的LPU架构专门针对推理工作负载,而GPU在这方面其实是“杀鸡用牛刀”。这很关键,因为长期来看,真正的金矿在推理。训练是一次性投入,但推理是随着使用量持续产生的经常性支出。如果Groq证明了LPU在推理上能做到有竞争力的性价比,那么所有云服务商都会直接贴牌采用它的架构。英伟达将被挤压到“只做训练”的角落,同时失去持续收租的现金流。
这笔交易可以看作英伟达在为“Groq催生整个替代英伟达的生态系统”这个风险上保险。但更有趣的是二阶效应:客户锁定。
现在,英伟达同时掌握了现有的行业标准(CUDA + GPU)和最可靠的替代架构(LPU)。这堪比微软收购Github的战略级别。任何评估“自研 vs 采购 vs 选择其他供应商”的AI实验室,现在面对的是:
- 选项A(英伟达GPU)
- 选项B(英伟达旗下的Groq LPU)
- 选项C(从头自研)
黄仁勋不愧是交易大师,他把一个竞争威胁变成了客户分层的工具。现在他们可以搞价格歧视:高端客户为GPU付溢价,价格敏感的推理需求则被引导到LPU上——钱都进了英伟达的口袋。
如果英伟达不把LPU整合进自己的路线图,那这纯粹是防御性收购。但如果他们真的整合,并开始提供“训练用GPU,推理用LPU”的捆绑方案,那这就成了教科书般的拓宽护城河的收购。
科技行业最贵的事情,不是打造未来,而是阻止别人打造一个没有你的未来。