AMD使用DeepSeek开源工具打造推理引擎ATOM:实现MI355X赶超英伟达B200


AMD基于DeepSeek工程师开源的nano-vLLM,打造专属推理引擎ATOM,针对MI355X显卡和DeepSeek、Qwen、Llama等模型深度优化,在中高并发场景下吞吐量超越NVIDIA Blackwell B200,尤其在DeepSeek-R1上实现1.4倍性能提升。

AMD搞了个叫 ATOM 的东西,全称是 AMD-Tuned Optimized Modules,翻译过来就是“AMD调优过的超级模块”。这玩意儿是个轻量级、超快速的AI推理引擎,专门为AMD的ROCm软件平台量身打造的。它其实是“抄作业”抄来的——从一个叫 nano-vLLM 的小工具改的,这工具是DeepSeek的工程师余兴凯写的,代码才1200行,极简、超快。AMD一看:“哎哟这不错!”于是拿来魔改一番,搞成了自己的ATOM,专门对标那些通用框架(比如vLLM),但只在AMD硬件上跑得快到飞起。


AMD的“秘密武器”:为自家显卡量身定制的AI加速器

当一块显卡不只是用来打游戏,还能像超级大脑一样飞速推理大语言模型,那它就不再只是硬件,而是一台智能引擎。

AMD最近推出的ATOM(AiTer Optimized Model)推理引擎,正是这样一台专为ROCm软件生态和Instinct MI355X显卡打造的高性能AI加速器。它不是从零开始造轮子,而是站在巨人的肩膀上——确切地说,是站在一位叫邢凯宇(Xingkai Yu)的DeepSeek工程师写的nano-vLLM代码之上。

这个原始项目只有大约1200行Python代码,轻巧得像一辆改装过的卡丁车,但经过AMD的“地狱级调校”,直接变身成赛道上的F1赛车。

​​​​​​​ATOM不是通用型工具,而是专门为几个热门大模型——比如DeepSeek-R1、Qwen和Llama——量身剪裁的高性能跑鞋,穿上去就能在ROCm平台上狂奔。

为什么需要专门优化?因为通用框架太“胖”了

市面上常见的大模型推理框架,比如vLLM或SGLang,虽然功能全面、兼容性强,但就像一件万能工装裤,什么场合都能穿,却未必适合冲刺百米。ATOM走的是极简路线,砍掉所有不必要的开销,只保留最核心的推理路径。

这种“轻量化”设计让整个推理流程更紧凑,数据搬运更少,计算效率更高。尤其是在处理像DeepSeek-R1这种带有Mixture-of-Experts(MoE,混合专家)结构的模型时,通用框架往往要来回切换多个专家模块,内存读写频繁,拖慢速度。

而ATOM直接把多个专家的计算融合成一个“超级核函数”,一次性完成,省去了中间反复加载的麻烦。这就好比原本要跑五个快递站取包裹,现在直接在一个仓库里打包好,一步到位。

专精模型的“内功心法”:MLA与MoE融合核

ATOM之所以能在DeepSeek-R1上跑出1.4倍于竞品平台的吞吐量,关键在于它内置了两种特殊“内功”:Multi-Head Latent Attention(MLA,多头潜在注意力)和Mixture-of-Experts(MoE)融合。

MLA是一种改进版的注意力机制,它不像传统Transformer那样对每个token都做完整注意力计算,而是先压缩信息,再在低维空间里做高效交互,最后还原输出。这种设计大幅减少了计算量,同时保持了模型表达能力。

而MoE融合则更狠——它把原本分散在不同GPU核心上的专家网络调度逻辑,直接编译进一个定制化的CUDA-like核(在ROCm里叫HIP核),让MI355X的数千个流处理器协同作战,而不是各自为战。这两种技术叠加,等于给模型装上了双涡轮增压,油门一踩,推理速度直接起飞。

实测性能:在真实负载下碾压对手

性能不能光靠嘴说,得看实测数据。

在MI355X显卡上,ATOM在中高并发请求(32到128个同时任务)的场景下,吞吐量不仅稳如老狗,甚至能跟搭载NVIDIA最新Blackwell B200芯片、运行SGLang的系统打成平手,甚至反超。

要知道,Blackwell B200可是目前地球上最强的AI加速芯片之一,而MI355X能在这个量级上掰手腕,全靠ATOM这套高度优化的推理流水线。

更夸张的是,在DeepSeek-R1这个特定模型上,同样的输入输出长度(比如1K上下文输入 + 1K生成输出),ATOM跑出来的每秒完成请求数(requests per second)比其他平台高出整整40%。这可不是实验室里的理想数据,而是模拟真实生产环境——比如客服机器人、代码生成助手、长文本摘要系统——下的硬核表现。

内存效率:少搬砖,多干活

大模型推理最吃资源的环节,往往不是计算本身,而是数据在显存和缓存之间来回搬运。ATOM的设计哲学就是“能不动就不动”。通过精细调度显存布局、复用中间激活值、以及将多个算子融合成单个核函数,ATOM大幅减少了不必要的内存读写。

这种优化在长文本生成任务中尤其明显。比如处理1K输入 + 8K输出的长对话场景,很多框架会因为显存碎片化或频繁换页而卡顿,但ATOM凭借紧凑的内存管理策略,始终保持高吞吐。这就像一个经验丰富的厨师,提前把所有食材按顺序摆好,炒菜时手不离锅、眼不离火,全程行云流水,绝不回头找调料。

开源双源:上游轻量,下游猛兽

ATOM的代码其实有两个“老家”。

一个是原始作者邢凯宇维护的GeeeekExplorer/nano-vllm仓库,那里保留着最干净、最精简的1200行核心逻辑,适合学习和二次开发。

另一个是AMD官方在ROCm组织下维护的ROCm/ATOM仓库,里面塞满了针对MI300和MI350系列显卡的深度优化,包括各种手工调优的HIP核、模型适配层、以及性能分析工具。

这种“上游轻量 + 下游强化”的模式,既保证了社区的可参与性,又确保了商业级的极致性能。换句话说,普通人可以拿nano-vLLM玩玩小模型,而企业用户可以直接用ATOM在MI355X上部署生产级AI服务,各取所需,互不干扰。

为什么这事很重要?因为AI硬件正在“分家”

过去几年,AI训练和推理几乎被NVIDIA一家垄断,但随着AMD Instinct系列显卡性能突飞猛进,加上ROCm生态日渐成熟,市场终于有了真正的第二选择。而ATOM的出现,标志着AMD不再只是“兼容CUDA的替代品”,而是开始构建自己的高性能AI软件栈。通过深度绑定特定模型和硬件,AMD能打出“组合拳”——硬件卖得出去,软件跑得更快,客户用得更爽,形成正向循环。

这就像手机厂商自研芯片,苹果有A系列,华为有麒麟,现在AMD也有了自己的“AI加速秘方”。未来,谁能把模型、框架、驱动、硬件四层打通,谁就能在AI竞赛中占据主动。



引用 AMD文章
在过去的几个月里,AMD已经实施了许多优化,以提高MI 355 X GPU上DeepSeek-R1的单节点性能和多节点分布式推理。

单节点推理
DeepSeek-R1是一个以推理为中心的开源模型,它将MLA注意力与稀疏的莫伊专家相结合,对计算效率和内存带宽提出了很高的要求。

与使用现有推理框架的NVIDIA Blackwell B200系统相比,运行ATOM的MI 355 X GPU在4到64个并发级别上始终提供强大的推理性能。这些结果是由内核级优化驱动的,例如融合的MoE执行、MLA注意力融合以及减少推理管道中的内存移动。

在更高的并发级别(32和64)下,这对于在大规模部署中最大限度地降低每个令牌的成本至关重要,具有ATOM的MI 355 X GPU表现出特别强大的吞吐量,在这些高吞吐量机制中匹配或超过运行SGLang的B200系统。

MI 355 X GPU在一系列序列长度配置中保持了这一性能优势,包括交互式(1 K/1 K)、面向吞吐量(8 K/1 K)和长代(1 K/8 K)工作负载。

性能有多猛?拿MI355X这张卡来说:

  • 专门调优的模型支持:它专门为DeepSeek-R1、Qwen、Llama这几个模型做了“私人定制”,连里面的MoE(混合专家模型)和MLA(多头潜在注意力)都做了融合优化,就像把多个小脑合成一个超级大脑,跑得飞快。
  • 吞吐量碾压:在32到128个请求这种“中高强度”并发场景下,MI355X + ATOM的组合,直接干翻了NVIDIA的Blackwell B200 + SGLang,一点都不虚,甚至还能反超!
  • 性能直接暴涨:跑DeepSeek-R1模型时,MI355X比对手快了1.4倍,就像你考试从60分飙到84分,直接起飞!
  • 省电又高效:ATOM特别会“省内存”,不让数据在显卡里来回搬来搬去,就像你写作业不翻书包,直接写桌上,效率爆棚!不管是短对话(1K输入/1K输出)还是长文生成(1K输入/8K输出),它都能稳得住,不掉链子。

总之:AMD“抄”了DeepSeek工程师的极简推理引擎,自己魔改成ATOM,然后疯狂调优几个模型,最后在MI355X上跑出逆天成绩,就是为了在性能榜上把NVIDIA按在地上摩擦!