真正让英伟达动心的是Groq LPU在能效和部署上的独特优势

英伟达200亿美元“收购”Groq,真正让英伟达动心的,是LPU在能效和部署上的独特优势。英伟达试图破解HBM、液冷、能效、封装与竞争五大瓶颈的战略布局,标志着AI硬件进入多架构并存时代。

英伟达豪掷200亿美元,悄然押注ASIC革命:这不是收购,而是一场战略偷袭!  

英伟达以约200亿美元“收购”了Groq这家ASIC初创公司。注意,这里打引号的“收购”其实更接近“人才并购”(acquihire),但背后释放的信号,远比表面动作更猛烈。

要知道,Groq可不是什么默默无闻的小作坊,它曾多次被业内权威媒体提及,其创始人Jonathan Ross更是谷歌TPU(张量处理单元)的核心缔造者之一。

GPU、TPU、LPU三大芯片架构大对决:谁才是AI推理的终极答案?  

要理解英伟达为何出手,首先得搞清楚Groq的LPU(语言处理单元)到底有什么魔力。

我们先从大家最熟悉的GPU说起:
GPU原本是为图形渲染而生,擅长并行处理成千上万个像素点。进入AI时代后,它被“改装”用来跑大语言模型(LLM),把模型计算当作海量并行任务来处理。但问题来了——GPU严重依赖HBM(高带宽内存),而HBM并不集成在芯片内部,而是外挂在旁边。这意味着每次生成一个词(token),GPU都得从外部内存“抓取”模型权重,导致处理器经常干等着数据,学术界称之为“内存墙”(Memory Wall)。

虽然GPU通用性极强,能打游戏、能训练、能推理,但在LLM这种高度序列化、逐词生成的场景中,效率其实并不理想。  

再看TPU,这是谷歌专门为张量运算(线性代数)打造的ASIC芯片。它采用“脉动阵列”(Systolic Array)架构,就像一颗心脏,把数据像血液一样在处理器网格中泵送,无需反复回读主存。这种设计在训练和大批量推理时表现卓越,但一旦面对单用户实时提问(即小批量或单批次推理),延迟依然居高不下。  

而Groq的LPU,则彻底跳出了前两者的框架。它完全不用HBM,而是把SRAM(静态随机存取存储器)直接集成在硅片上。SRAM的速度比HBM快近百倍,数据就在芯片内部,零“取数时间”。

更关键的是,LPU采用“确定性”执行模式——不是由硬件随机调度任务,而是由软件编译器提前规划好每一纳秒每个数据的位置。这就像一条完美同步的装配流水线,零件永不缺位,工人永不空等。Groq甚至先开发了全自动编译器,再反向设计芯片,目的就是绕开对底层手动优化内核(kernels)的依赖——毕竟,一个小团队怎么可能和英伟达上万名软件工程师拼手写汇编?  

LPU的极致速度与致命短板:快如闪电,却装不下整个世界  

Groq LPU最惊艳的地方在于推理速度。实测中,它能轻松实现每秒300–500个token的生成速度,而高端GPU在单请求(Batch Size=1)场景下往往连50都不到。为什么?因为GPU在Batch Size=1时,大部分计算单元都在“摸鱼”——等内存数据。而LPU天生为单请求优化,内部流水线利用率接近100%。  

但别急着喊“GPU杀手”。LPU有个致命缺陷:内存容量太小。一块英伟达H200 GPU拥有141GB的HBM3e显存,而单颗Groq LPU芯片仅有230MB的SRAM。这点内存连最小的AI模型都塞不下!要跑Llama-3 70B这样的大模型,你得把数百颗LPU芯片互联起来,占满好几个机柜;而同样的模型,在英伟达方案里,两到四块GPU就能搞定,塞进一个小机箱就行。这意味着LPU的初始硬件投入高、数据中心占地大、运维复杂度飙升。  

此外,LPU的“确定性”架构也是一把双刃剑。所有计算路径必须在运行前完全确定,一旦模型架构变动(比如从Transformer换成别的),整个编译流程就得重来。它不适合处理动态、多变的工作负载,灵活性远不如GPU。  

能效与部署的隐秘战场:液冷 vs 风冷,谁才是数据中心的未来?  

真正让英伟达动心的,是LPU在能效和部署上的独特优势

数据很直观:从HBM向GPU核心传一个bit的数据,能耗约6皮焦;而从LPU内部SRAM读取,仅需0.3皮焦——能效提升近10倍!这意味着在高并发推理场景下,LPU的每token运行成本远低于GPU。  

更重要的是,LPU不需要液冷。英伟达最新的Blackwell芯片几乎全系液冷,但全球绝大多数数据中心仍是风冷架构。液冷虽强,却对水源、管道、运维提出极高要求,许多老旧机房根本无法改造。最近甚至有超算服务商(如CoreWeave)因液冷部署延期而影响交付。而Groq CEO透露,他们刚拿下一个欧洲大型数据中心项目——那地方原本被某超大规模云厂商放弃,原因正是“无法升级液冷”。  

英伟达显然意识到:如果只押注液冷高性能路线,会把大量风冷市场拱手让人。AWS的Trainium等竞品芯片正是风冷设计,正在蚕食推理市场。通过整合Groq,英伟达立刻多了一条“风冷推理产品线”,既能盘活闲置数据中心资源,又能遏制对手扩张。  

破解五大瓶颈:英伟达的“备胎”战略浮出水面  

这次收购,本质是英伟达在五大战略瓶颈下的精妙破局:  

第一,能源瓶颈。AI算力需求暴增,但电力供应已成天花板。LPU的低能耗特性,为英伟达开辟了高密度、低功耗的推理新赛道。  

第二,HBM内存瓶颈。HBM产能早已被英伟达、AMD、谷歌、亚马逊瓜分殆尽,2026年产能全被预定,2027年也岌岌可危。而LPU完全不用HBM,等于绕开了这个卡脖子环节。  

第三,CoWoS先进封装瓶颈。英伟达高端芯片依赖台积电的CoWoS封装,产能极度紧张。而Groq的LPU甚至能在14纳米老工艺(格芯代工)上跑出高性能——因为SRAM不依赖晶体管密度。这意味着芯片可在外围代工厂生产,缓解对台积电的依赖。  

第四,液冷数据中心瓶颈。如前所述,LPU让英伟达能打入风冷市场,避免增长被冷却方式限制。  

第五,竞争防御。Groq产能正飞速扩张——CEO透露,其token处理能力在18个月内从“万分之一”飙升至每月2000万token。如果让Meta或微软抢先收购Groq,等于在英伟达的护城河外又挖了一条新运河。与其让对手得利,不如自己吃下。  

推理市场真相:高销量、低毛利,英伟达正在重构商业模式  

Groq CEO最近一句大实话点破行业真相:“推理市场将是高销量、低毛利的生意。”英伟达和AMD今年会把能生产的GPU全部卖光,但仍然供不应求。问题在于,当你以70–80%的高毛利卖GPU做推理,最终成本会转嫁给终端用户——这不可持续。  

更聪明的做法是:用高毛利的训练芯片(如H100)赚钱,同时用低成本推理芯片(如LPU)抢占海量部署场景。推理芯片虽然单价低、毛利薄,但用量可能是训练的10–20倍。通过“训练高毛利+推理高销量”的组合拳,英伟达既能守住利润基本盘,又能吃下未来最大的算力蛋糕。  

投资者启示:新供应链正在诞生,AI硬件进入“多架构并存”时代  

对投资者而言,这一举动释放了明确信号:AI硬件不再是一家独大的游戏。英伟达主动拥抱ASIC路线,等于承认“GPU并非万能”。未来数据中心将根据任务类型混搭不同芯片——训练用GPU,高并发推理用TPU,低延迟单请求用LPU。  

这也意味着,围绕SRAM、老工艺代工、风冷优化、编译器自动化的全新供应链正在崛起。