InferenceMAX™首次公开多厂商AI推理基准,AMD与英伟达在真实场景中激烈交锋,性能、成本、能效全面比拼!
谁才是AI推理之王?AMD和英伟达正面刚,结果出人意料!
最近,一个叫“推理极限”(InferenceMAX™)的开源项目横空出世,它可不是那种只测一次就扔一边的“摆拍式”跑分,而是每天晚上自动跑、实时更新、覆盖AMD、英伟达甚至即将加入谷歌TPU和亚马逊Trainium的“活体性能仪表盘”!
这背后,是一群来自 SemiAnalysis 的工程师、分析师和行业老兵,包括 Kimbo Chen、Dylan Patel、Daniel Nishball、Cam Quilici 和 Cheang Kang Wen,他们长期深耕AI芯片与系统架构研究,曾多次精准预测行业技术拐点,这次更是拉上了AMD CEO苏姿丰博士、英伟达创始人黄仁勋、OpenAI基础设施VP、微软云AI高管、vLLM和SGLang核心维护者等一众顶级玩家,共同打造这场“透明、中立、贴近真实”的推理性能大考。
先说重点:AI推理不是只看“谁跑得快”,而是要看“谁跑得聪明”——既要响应快(每用户每秒生成多少token),又要吞吐高(每GPU每秒生成多少token),还得算账:每百万token花多少钱?每兆瓦电力能产出多少token?这才是企业真正关心的“总拥有成本”(TCO)和“能效比”。
推理极限项目目前测试的硬件阵容堪称豪华:英伟达的H100、H200、B200、GB200 NVL72超级集群,AMD的MI300X、MI325X、MI355X三剑客。软件栈则覆盖三大主流开源推理引擎:vLLM、SGLang、TensorRT-LLM。测试模型也不含糊:700亿参数的Llama 3 70B代表主流密集模型;DeepSeek R1(6700亿参数MoE架构)被公认为最接近OpenAI内部模型的开源替代;GPT-OSS 120B MoE则对标GPT-5 mini级别。精度方面,FP8、FP4、MXFP4全拉满,真实反映前沿部署趋势。
那么,战况如何?咱们分场景看!
先看Llama 3 70B FP4推理任务。在聊天、推理、摘要三种典型负载下,英伟达B200全面碾压AMD MI355X,尤其在FP4精度支持上,AMD的内核优化明显落后,这是个短板。但别急,换到GPT-OSS 120B FP4摘要任务,剧情反转!当交互性要求低于225 token/秒/用户时,MI355X凭借更低的硬件采购成本,实现了比B200更低的“每百万token成本”——也就是说,虽然绝对速度慢点,但更省钱!这说明什么?选卡不能只看峰值性能,得看你的业务对响应速度的真实需求。
再看MXFP4权重下的GPT-OSS 120B,AMD更是大放异彩。MI300X在全交互性区间都比H100更省钱;MI325X和H200则打得难解难分:低交互性(<135 tok/s/user)时H200靠TensorRT-LLM略胜一筹,但一旦需求变高,MI325X用vLLM反而更划算!更惊人的是,连完全开源的vLLM在Hopper上跑,居然比英伟达自家“半开源”的TensorRT-LLM还快——这说明社区力量不可小觑。
但到了超大规模MoE模型DeepSeek 670B FP8,英伟达的优势就凸显了。无论是H200还是B200,在SGLang引擎下都比同代AMD卡(MI325X/MI355X)快40%左右,延迟更低、吞吐更高。AMD自己也承认,SGLang在ROCm上的优化还在路上,不过他们承诺很快会有大幅提升。
最炸裂的是英伟达GB200 NVL72超级集群的表现。在DeepSeek R1 FP4摘要任务中,启用“解耦预填充+多token预测(MTP)”黑科技后,它在低交互性场景(<90 tok/s/user)下,TCO优势碾压所有单机8卡服务器。但有趣的是,一旦交互性需求拉高,单台B200服务器反而更经济——这说明超级集群并非万能,要看业务场景。
说到能效,更是关键!数据中心的电力是硬约束。测试显示,从MI300X到MI355X,AMD CDNA4架构实现了3倍的能效提升;英伟达从H100到B200也是3倍起步,高负载下甚至达7倍!同代对比,B200比MI355X能效高20%,主要因为后者单卡功耗高达1400瓦,而B200仅1000瓦。但在DeepSeek R1任务中,GB200 NVL72比单台H200能效高出8倍——这才是“AI工厂”的终极形态。
当然,这场大战背后全是技术细节和踩坑故事。比如英伟达Blackwell初期,vLLM容器启动要卡30分钟,原因是NCCL库没预编译Blackwell的机器码,每次都要现场JIT编译;还有FlashInfer下载内核时多进程抢文件锁,差点让整个测试崩盘。AMD那边bug少些,但也遇到过AITER库解析GPU架构名时没处理后缀、容器权限冲突等问题。这些细节恰恰说明:硬件发布只是开始,软件生态的成熟度才是决胜关键。
值得一提的是,推理极限项目全程开源、流程透明,连测试配置都参考了AMD和英伟达官方部署指南。它不搞“特调参数”,而是模拟真实生产环境,甚至连“预热”这种争议操作都统一禁用,确保公平。未来,它还将加入TPU和Trainium,实现真正跨厂商对标,并引入MATH-500、GPQA-Diamond等评测,衡量低精度推理对模型准确率的影响。
总结一句话:没有绝对的赢家,只有最适合的方案。如果你追求极致响应,英伟达Blackwell是首选;如果你在意综合成本,AMD MI355X在特定场景极具竞争力;而如果你在建“AI发电厂”,那GB200 NVL72的能效优势无可替代。这场由社区驱动、厂商共建的透明benchmark,正在终结“参数游戏”,让AI基础设施的选择回归理性与真实。