为什么英伟达GPU天生跑不好MoE?而Groq的LPU却像为它而生!

MoE模型的瓶颈从来不在算力而在不确定性,GPU依赖缓存与概率命中,而LPU以确定性执行与片上SRAM重构推理路径,正在成为MoE时代真正的硬件答案。

现在的大型语言模型动辄几百上千亿参数,推理时需要巨大的显存和算力,成本高、速度慢、能耗大,简直是“吞金兽”。而英伟达和Groq这次合作的核心,就是针对一种叫“混合专家模型MoE”的架构进行深度优化,目标只有一个:让AI推理又快、又省、又便宜!他们不是在造新轮子,而是在给现有的轮子装上火箭推进器,让整个AI应用的落地速度实现指数级飞跃!

MoE模型是什么?为什么它成了香饽饽?
混合专家模型,英文全称Mixture of Experts (MoE),简单来说,就是把一个超大的模型拆分成很多个小的“专家”,每次处理任务时,只激活其中一小部分最相关的“专家”来工作,而不是让所有参数都参与运算。

这就好比一个公司,有销售、研发、财务等多个部门,处理客户咨询时,只需要销售部响应,不需要把整个公司的人都叫来开会,效率自然就高了。

DeepSeek V3模型就是一个典型的MoE模型,总参数高达6710亿,但在实际推理时,平均只激活370亿参数,效率提升不是一星半点。英伟达和Groq就是要在这“激活”环节下功夫,让它更智能、更快速!

如果你觉得MoE是大模型的终极解法,那你只看对了一半
混合专家模型(Mixture of Experts, MoE)在学术论文和行业发布会上的确被吹得神乎其神,听起来几乎完美无缺——你想拥有一个万亿参数的模型对吧?但又不想为每个推理请求都付出万亿级的算力成本?

没问题,MoE只让每个输入激活其中一小部分专家,既能享受超大模型的表达能力,又能在推理时大幅节省资源,简直就是“既要又要还要”的终极幻想成真。

可现实是,一旦你把这个模型部署到真实世界里,尤其是用主流硬件如英伟达GPU去跑,就会发现事情远没那么简单。MoE模型在训练阶段可能表现良好,但在推理阶段却成了GPU最讨厌的客人,不是因为它太重,而是因为它太“随机”,太“不可预测”。

MoE的真实敌人不是算不动,而是算不稳
很多人以为MoE模型推理慢是因为参数量巨大,或者专家太多导致计算量爆炸,但实际上,真正让工程师夜不能寐的不是算力不足,而是性能的剧烈抖动。

你明明用的是同一台服务器、同一个模型、同一组输入,但有时候响应只要几十毫秒,有时候却要好几百毫秒,甚至更久。

更诡异的是,批量处理(batching)这种在稠密模型里能显著提升吞度的常规操作,在MoE里反而可能恶化延迟。你加一批请求进去,结果整体吞吐没上去,反而每个请求的等待时间都变长了。

这种现象在传统模型中极其罕见,但在MoE中几乎是家常便饭。这不是软件没优化好,也不是调度策略差,而是模型结构和硬件底层逻辑的根本冲突。

GPU的强大建立在一个前提之上:世界是可预测的
要理解为什么MoE让GPU抓狂,就得先搞清楚GPU是怎么变强的。

图形处理器之所以能在AI时代一骑绝尘,靠的不是“暴力计算”,而是“聪明缓存”。它的整个内存层级——从寄存器、L1/L2缓存到高带宽显存(HBM)——都建立在一个核心假设上:程序访问数据的模式是可预测的、局部的、重复的。

比如,在做矩阵乘法时,某个权重会被连续多次使用;在卷积神经网络里,相邻像素的特征图往往被一起处理。
GPU就靠这种“局部性”来预取数据、复用缓存,从而在单位功耗下榨出惊人的算力效率。

可以说,GPU的辉煌史,就是一部“用统计规律战胜物理延迟”的历史。

而MoE恰恰是对可预测性的正面挑衅
混合专家模型最根本的机制是“路由”(routing):每个输入token都要经过一个门控网络(gating network),动态决定它应该被分配给哪几个专家(通常是Top-2)。这个决策完全取决于token本身的语义内容,无法提前预知。A句子的第5个词可能走专家3和7,B句子的第5个词却走专家12和15。

这意味着,每次推理时,模型实际激活的参数集都在剧烈变化,访问的内存地址也在随机跳转。

对GPU来说,这相当于每毫秒都在面对一个全新的、毫无规律的内存访问模式,缓存预取策略彻底失效,原本高效的流水线被频繁打断,带宽被碎片化使用,整个系统陷入“高算力低效率”的怪圈。

每一次专家切换,都是一次对GPU缓存体系的破坏
想象一下,GPU的缓存就像一个高度自动化的快递分拣中心,它假设每天90%的包裹都发往北京和上海,于是提前把北京上海的传送带调到最大功率。但现在突然来了一个MoE模型,它今天发北京,明天发乌鲁木齐,后天又发三亚,而且每次包裹内容完全不同。

分拣中心不得不频繁清空传送带、重新加载路线图、从仓库深处调取冷门地址的货物。

结果就是,虽然机器一直在转,但实际出货效率暴跌。

在GPU上,这种“分拣混乱”表现为频繁的缓存未命中(cache miss),导致大量时间花在从显存搬运参数上,而不是真正做计算。更糟的是,专家权重通常分散在显存不同区域,切换时还会引发内存带宽竞争,进一步拖慢整体速度。

这就是为什么MoE越大,GPU跑得越难受
你可能会想:那我少用点专家不就行了?但MoE的魅力恰恰在于可扩展性——专家越多,模型容量越大,表达能力越强。然而,专家数量一增加,路由空间就指数级扩大,不确定性也急剧上升。

原来可能80%的token都集中在几个热门专家,缓存还能勉强命中;现在每个token都可能走向不同的组合,连“热点”都不存在了。

GPU引以为傲的统计优势彻底崩塌,性能不再是线性增长,而是出现“规模越大,效率越低”的反直觉现象。

这不是工程师没调好参数,也不是驱动版本太旧,而是物理层面的结构冲突——你让一个为“稳定节奏”设计的乐器去演奏“即兴爵士”,再贵的琴也弹不出和谐音。

LPU从一开始就没有打算赌任何概率
面对这种困境,Groq提出的解决方案不是“修修补补”,而是彻底换赛道。他们的语言处理单元(Language Processing Unit, LPU)压根就不信“缓存命中率”这一套。

LPU的设计哲学极其纯粹:把整个推理过程变成一条确定的数据流流水线。没有乱序执行,没有分支预测,没有动态调度,更没有“希望下次能命中缓存”的侥幸心理。每一条指令从哪来、到哪去、花多少纳秒,都在编译阶段就由编译器精确规划好。

这种设计放弃了通用性,却换来了极致的确定性——延迟恒定、吞吐稳定、能耗可预估,特别适合需要毫秒级响应的实时推理场景。

在LPU的世界里,不确定性是必须被消灭的敌人
这正是LPU与MoE产生化学反应的关键。

MoE模型最大的痛点是动态路由带来的不可预测性,而LPU最大的优势就是消除一切不确定性。

在LPU架构下,推理不再是“运行时猜谜”,而是“编译期排班”。即使模型本身包含路由逻辑,LPU也能通过静态分析和数据流调度,提前为所有可能的执行路径预留资源。

更重要的是,LPU不依赖外部显存做主要计算,而是把关键计算单元和高频数据都放在芯片内部。


共享专家成为MoE与LPU的连接点
有趣的是,并非MoE的所有部分都充满不确定性。

在几乎所有MoE实现中,都存在一类“共享计算路径”——它们不隶属于任何特定专家,却是每次推理都必须执行的骨架。也称为“共享专家”!

比如:输入词嵌入(embedding)、路由器本身的前向计算、注意力机制中的Q/K/V投影、位置编码、甚至某些状态空间模型(SSM)的核心变换。这些计算对所有token都一样,无论它最终走向哪个专家。

也就是说,它们具备极高的复用性和确定性,完全符合LPU的“确定性执行”哲学。

Groq有一个非常牛的技术:他们的芯片里内置了超大的SRAM(静态随机存取存储器),而且是专门用来存放MoE模型中那些“共享专家”的。SRAM的速度比传统的HBM显存快得多,延迟极低,非常适合高频次、小数据量的访问。

Groq的LPU(语言处理单元)就是专门为这种场景设计的,它和英伟达的GPU配合,形成了一个完美的分工协作模式:GPU负责复杂的计算,LPU负责高速的数据调度和专家选择,两者强强联合,把MoE模型的潜力彻底榨干!

GPU无法优雅地对待共享计算
在GPU体系中,即使是这些共享计算,也依然要和其他专家权重一起塞进显存。

虽然它们被频繁访问,缓存命中率相对较高,但本质上还是在“赌”局部性。一旦批量大小变化、输入分布偏移,或者显存被其他任务挤占,这些共享路径的性能也会波动。

更糟的是,GPU无法区分“共享”和“专属”计算,所有数据一视同仁地走同一套缓存流水线,导致资源分配效率低下。你明明知道某些计算每次都要做,却不得不每次都从显存读一次,或者至少从L2缓存再搬一次。

LPU则选择了一条激进但干净的路线
Groq的LPU芯片内部集成了高达数百MB的静态随机存取存储器(SRAM),这在传统AI芯片中是极其奢侈的配置。但他们并没有用这些SRAM去存整个模型参数(那不现实),而是专门用来常驻那些“高频、共享、确定”的计算路径。比如,把词嵌入表、路由器权重、注意力投影矩阵全部固化在片上。

这样一来,无论输入是什么,这些核心计算都能在零延迟、零带宽竞争的情况下完成。整个推理过程被清晰地拆解为两部分:确定性骨架(由LPU高速执行)+ 专家权重(可能由外部协处理器处理)。这种分工让MoE的动态性不再成为性能杀手,反而变成可管理的模块化任务。

这不是把模型塞进SRAM,而是重写模型结构
需要强调的是,LPU的做法不是简单地“把模型往芯片里塞”,而是一种硬件引导模型设计的新范式。

Groq团队与模型开发者深度合作,鼓励他们将MoE架构中的共享部分尽量提取出来,形成标准的、可复用的计算模块。这些模块天然适配LPU的片上存储和确定性流水线。

换句话说,LPU不仅是一个加速器,更是一个“模型结构过滤器”——它通过硬件约束,反向塑造了更适合高效推理的MoE变体。这种“软硬协同设计”正是未来AI芯片竞争的核心战场。

当共享计算被锁死在芯片内部,MoE的本质发生了变化
一旦高频共享路径被固化在LPU的SRAM中,专家切换就不再意味着灾难性的内存跳跃。

现在,切换专家更像是在调用外部协处理器——LPU完成确定性骨架后,把中间结果发给负责专家权重的计算单元(可能是GPU,也可能是其他专用芯片),后者处理完再返回。由于共享部分占了推理的大部分计算量(有时高达70%以上),整个系统的性能瓶颈不再受专家动态性影响。

MoE从“缓存杀手”变成了“模块化服务”,延迟抖动大幅降低,吞吐趋于线性扩展。这才是MoE模型真正可落地的形态。

这也是为什么LPU并不是GPU的替代品,而是补全
很多人误以为LPU要取代GPU,这是极大的误解。

GPU依然是通用并行计算的王者,无论是在训练、图像渲染、科学仿真还是稠密模型推理中,它的性价比和生态优势无可撼动。

但MoE推理代表了一种极端场景:低延迟、高确定性、强实时性。

在这个细分赛道上,GPU的“概率赌徒”策略失效了,而LPU的“确定性工匠”路线才刚刚开始闪耀。

未来的AI基础设施很可能是异构的:GPU负责大规模专家权重计算和训练,LPU负责高频共享路径和实时调度,两者通过高速互连协同工作。这不是取代,而是专业化分工。

从这个角度看,MoE不是GPU的未来,而是GPU的压力测试
MoE的流行无意中暴露了GPU架构的深层局限。

它像一面镜子,照出了“基于缓存的统计优化”在面对极端动态性时的脆弱。GPU厂商当然也在努力应对——比如英伟达的Transformer Engine、更智能的缓存预取算法、甚至未来的架构调整。

但根本矛盾难以消除:只要GPU还依赖缓存命中率,它就无法彻底驯服MoE。

而LPU的出现,恰恰证明了另一条路径的存在——不靠猜测,靠确定;不靠带宽,靠片上集成;不靠规模,靠效率。这场硬件进化,正在从“拼命堆算力”转向“精准匹配模型特性”。

真正的结论并不复杂
GPU并非不够强,而是它被设计在一个假设世界里运行——那个世界数据访问有规律、计算路径可预测、批量处理能摊薄成本。
而MoE模型恰恰生活在另一个世界:动态路由、随机激活、实时响应。当模型开始主动制造不确定性时,只有以确定性为信仰的硬件才能真正驾驭它。LPU的崛起不是偶然,而是模型演进与硬件创新在MoE这个交汇点上必然碰撞出的火花。
​​​​​​​