MoE架构重塑AI推理经济,英伟达凭借系统级优化实现每Token成本15倍优势,AMD受制于互连与软件短板。
混合专家架构如何重塑AI推理的硬件经济模型
当前大模型推理的底层逻辑正在经历一场由模型架构驱动的硬件经济学革命。传统稠密模型(Dense Model)中,每次前向传播需激活全部参数,计算与内存带宽需求随模型规模线性增长,导致推理成本难以压缩。
而混合专家(Mixture of Experts, MoE)架构通过引入稀疏激活机制——仅在每层中选择Top-K个专家子网络执行计算——在几乎不增加推理计算量的前提下,显著扩展模型总参数量和表达能力。
这种“大容量、低激活”的特性,对推理硬件提出了全新的性能要求:高带宽内存(HBM)、低延迟互连、以及高度优化的稀疏算子调度能力,成为决定每Token成本(Cost per Token)的关键瓶颈。
每Token成本的物理本质:带宽-计算-通信三重约束下的系统效率
从技术原理看,每Token成本并非单纯由FLOPS决定,而是由三个相互耦合的维度共同约束:
首先,MoE模型在推理时虽只激活部分参数,但所有专家权重仍需驻留显存,因此显存容量与带宽成为首要限制。以GPT-OSS-120B等百B级MoE模型为例,其激活参数可能仅10–20B,但总参数常超100B,要求单卡HBM容量至少192GB、带宽超8TB/s。
其次,专家选择(routing)引入额外控制流开销,需硬件支持细粒度并行与动态调度,传统GPU的SIMT执行模型在此场景效率骤降。
最后,多GPU部署时,专家可能跨设备分布,导致频繁All-to-All通信,此时NVLink等片间互连的带宽与延迟直接决定扩展效率。
英伟达B200搭载的第五代NVLink(3.2TB/s双向带宽)与统一内存架构,使其在MoE通信瓶颈上具备结构性优势。
英伟达TensorRT-LLM与AMD vLLM的软件栈差异:不只是硬件之争
硬件差距背后是软件栈深度优化的鸿沟。
英伟达的TensorRT-LLM针对MoE场景实现了端到端定制:
其Expert Parallelism策略将不同专家静态分配至不同GPU,结合CUDA Graph消除调度开销;
Kernel Fusion技术将 gating、Top-K selection 与 FFN 计算融合为单个GPU kernel,减少中间结果写回;
FP8量化与稀疏张量核心(Sparsity Tensor Core)进一步提升有效吞吐。
相比之下,AMD的vLLM虽支持基本MoE,但缺乏对Instinct MI300系列硬件特性的深度绑定——例如未充分利用Matrix Core的稀疏加速能力,也未实现类似NVLink的高效跨卡通信抽象,导致在高并发、低延迟场景下调度碎片化严重,实际TPS远低于理论峰值。
系统级扩展性:GB200 NVL72如何通过NVLink-C2C构建推理超节点
GB200 NVL72并非简单堆叠两颗B200 GPU,而是通过NVLink-C2C(Chip-to-Chip互连)将两个Grace CPU与两个B200 GPU封装为单颗超级芯片(Superchip),形成864GB HBM3e统一内存池与144MB L3缓存。
这种设计从根本上消除了传统多卡部署中的PCIe瓶颈与CPU-GPU数据拷贝开销。
在MoE推理中,模型权重可全局共享,专家路由无需跨节点通信,批处理请求可被高效分发至所有计算单元。实测显示,在75 Token/sec/user的高交互目标下,GB200 NVL72的吞吐量达MI355X的28倍——这并非单纯算力优势,而是系统级内存一致性与通信拓扑带来的扩展效率跃迁。
AMD的结构性短板:HBM带宽与互连拓扑制约MoE扩展上限
MI355X虽采用192GB HBM3,但其5.2TB/s带宽仍低于B200的12TB/s;更关键的是,其跨GPU通信依赖Infinity Fabric over PCIe,带宽仅800GB/s且延迟高,无法支撑MoE所需的专家间高频同步。
当批大小(batch size)增大以提升吞吐时,AMD平台因通信瓶颈出现性能饱和,而GB200 NVL72凭借片内NVLink仍保持近线性扩展。
这意味着在真实服务场景中(需兼顾延迟与并发),AMD平台不得不牺牲吞吐以维持交互性,进一步拉大每Token成本差距。即便未来通过软件优化提升单卡效率,其系统级扩展天花板仍由硬件互连架构锁定。
从稠密到混合专家:AI推理成本差异的技术参数与实测数据对比
AI大模型推理的经济性评估正从单纯关注硬件峰值算力,转向对实际部署场景下每Token成本的精细化测算。
Signal65发布的分析报告,基于第三方基准测试与云厂商公开报价,对英伟达B200、GB200 NVL72与AMD MI355X在稠密模型和混合专家(Mixture of Experts, MoE)模型推理中的性能与成本进行了系统性比较。本文聚焦原始参数、性能数据与成本计算逻辑,避免价值判断,仅呈现可验证的技术差异。
推理成本计算模型:基于实测吞吐与公开定价的透明公式
该分析采用的核心公式为:
用户每百万Token成本 =(GPU每小时成本 / 3600)÷(每GPU每秒生成Token数)× 1,000,000
该公式将硬件价格、推理吞吐量(Tokens Per Second, TPS)与交互延迟目标(如25或75 Token/sec/user)解耦,允许读者根据自身部署条件调整输入。关键假设是:在给定交互延迟下,TPS由实测基准确定,而非理论峰值。
硬件平台与软件栈配置
测试基于以下配置:
- 英伟达平台:HGX B200 GPU,运行TensorRT-LLM推理框架;GB200 NVL72系统(2×B200 + Grace CPU,通过NVLink-C2C互连)
- AMD平台:MI355X GPU,运行vLLM推理框架
模型覆盖两类:稠密模型(如Llama 3.3 70B)与MoE模型(如DeepSeek、Kimi K2 Thinking、GPT-OSS-120B)。数据来源为InferenceMAX GitHub于2025年12月4日发布的基准结果。
稠密模型性能对比:B200比MI355X高约1.8倍吞吐
在Llama 3.3 70B稠密模型、25 Token/sec/user交互目标下:
- B200实测TPS为MI355X的约1.8倍
- 此差距主要源于B200的12 TB/s HBM3e带宽 vs MI355X的5.2 TB/s HBM3带宽,以及TensorRT-LLM对Transformer层的Kernel Fusion优化
- 在此场景下,AMD平台因显存带宽限制,批处理(batching)效率较低,导致吞吐增长非线性
MoE模型性能差距显著扩大:系统级瓶颈凸显
在MoE模型(如GPT-OSS-120B)推理中,性能差距急剧拉大。原因在于MoE引入动态路由(routing)与跨专家通信,对系统提出三重压力:
1. 显存容量与带宽:MoE模型总参数常超100B,但仅激活10–20B。需大容量HBM加载全部专家,高带宽支持激活子集快速读取
2. 通信效率:专家若分布于多GPU,需频繁All-to-All通信
3. 调度开销:动态选择专家增加控制流复杂度
实测显示,在25 Token/sec/user下:
- GB200 NVL72的TPS约为H200的20倍,MI325X的16倍以上
- 相比MI355X,GB200 NVL72在75 Token/sec/user高交互目标下TPS达其28倍(低交互时为5.85倍)
云厂商定价与每Token成本计算
CoreWeave报价(2025年12月):
- GB200 NVL72(4 GPU):42美元/小时 → 单GPU 10.50美元/小时
- H200(8 GPU):50.44美元/小时 → 单GPU 6.31美元/小时
- 性能比≈20:1 → 性能/美元比≈12:1 → GB200每Token成本为H200的1/12
Oracle Cloud报价(唯一公开MI355X定价的平台):
- GB200 NVL72:16.00美元/GPU/小时
- MI355X:8.60美元/GPU/小时 → GB200单卡价格为MI355X的1.86倍
在25 Token/sec/user下:
- GB200 TPS为MI355X的5.85倍 → 性能/美元比为3.1倍 → 每Token成本为MI355X的1/3
在75 Token/sec/user下:
- GB200 TPS为MI355X的28倍 → 性能/美元比为15倍 → 每Token成本为MI355X的1/15
系统架构差异:互连带宽与内存拓扑的关键作用
GB200 NVL72采用NVLink-C2C实现2×B200 + 2×Grace CPU的chiplet集成,提供:
- 864 GB HBM3e统一内存
- GPU-GPU互连带宽3.2 TB/s(NVLink 5)
- CPU-GPU一致性内存访问
MI355X在多卡部署时依赖PCIe 5.0或Infinity Fabric,典型跨卡带宽≤800 GB/s,且无硬件级内存一致性。在MoE推理中,专家跨卡分布导致通信成为瓶颈,尤其在高批大小或高交互延迟要求下,吞吐增长受限。
软件栈对稀疏计算的支持差异
TensorRT-LLM在B200上支持:
- MoE-specific kernel fusion(将gating、top-k selection、expert FFN合并执行)
- FP8量化与结构化稀疏加速
- Expert并行(Expert Parallelism)静态分配策略
vLLM对MI355X的支持目前限于基础MoE路由,未深度利用Matrix Core的稀疏计算能力,且缺乏跨卡通信优化,导致在高并发场景下GPU利用率波动较大。
结论1:稠密模型场景下差距缩小,但MoE代表主流趋势
在Llama 3.3 70B稠密模型测试中,B200对MI355X的性能优势收窄至1.8倍,若仅考虑该场景,AMD平台的每Token成本差距显著小于MoE场景。然而,截至2025年12月,Artificial Analysis排行榜上前十开源模型中,70%以上已采用MoE架构(如DeepSeek-V3、Kimi K2、GPT-OSS-120B),表明行业重心正快速向稀疏激活模型迁移。因此,稠密模型的TCO优势不具备长期代表性。
结论2:性能差异源于系统级参数组合,非单一指标决定
实测数据显示,在MoE推理场景中,GB200 NVL72相比MI355X的每Token成本优势(最高15倍)并非来自单一硬件参数,而是HBM带宽(12 TB/s vs 5.2 TB/s)、互连带宽(3.2 TB/s vs ≤0.8 TB/s)、内存容量(192/864 GB vs 192 GB)、以及软件栈对稀疏计算的优化程度共同作用的结果。这些参数在高交互、高并发的MoE负载下形成复合瓶颈,导致性能差距随负载强度非线性扩大。
企业若部署MoE模型,需综合评估上述参数对实际TPS的影响,而非仅比较单卡价格或理论FLOPS。
注意:AI推理经济学已进入“架构适配”时代
虽然AMD在推理上不如英伟达,但是,我们切莫被误导,因为在芯片和AI模型之间还有机架集群这个环节,AMD可以在机架集群 SuperPod上大放异彩,中国华为的superPod万卡集群就是一个成功案例,况且,英伟达刚刚收购Groq,而Groq在推理上优势更明显,远远超过英伟达所有芯片,因此,推理芯片领域刚刚起步,只是英伟达宣传到位,先声夺耳。