AMD用DeepSeek小工具打造推理引擎ATOM：实现MI355X赶超英伟达B200

#DeepSeek时刻 #AI基础设施 #芯片半导体

2026-01-23 1 23K banq

AMD基于DeepSeek工程师开源的nano-vLLM，打造专属推理引擎ATOM，针对MI355X显卡和DeepSeek、Qwen、Llama等模型深度优化，在中高并发场景下吞吐量超越NVIDIA Blackwell B200，尤其在DeepSeek-R1上实现1.4倍性能提升。

AMD搞了个叫 ATOM 的东西，全称是 AMD-Tuned Optimized Modules，翻译过来就是“AMD调优过的超级模块”。这玩意儿是个轻量级、超快速的AI推理引擎，专门为AMD的ROCm软件平台量身打造的。它其实是“抄作业”抄来的——从一个叫 nano-vLLM 的小工具改的，这工具是DeepSeek的工程师余兴凯写的，代码才1200行，极简、超快。AMD一看：“哎哟这不错！”于是拿来魔改一番，搞成了自己的ATOM，专门对标那些通用框架（比如vLLM），但只在AMD硬件上跑得快到飞起。

AMD的“秘密武器”：为自家显卡量身定制的AI加速器

当一块显卡不只是用来打游戏，还能像超级大脑一样飞速推理大语言模型，那它就不再只是硬件，而是一台智能引擎。

AMD最近推出的ATOM（AiTer Optimized Model）推理引擎，正是这样一台专为ROCm软件生态和Instinct MI355X显卡打造的高性能AI加速器。它不是从零开始造轮子，而是站在巨人的肩膀上——确切地说，是站在一位叫邢凯宇（Xingkai Yu）的DeepSeek工程师写的nano-vLLM代码之上。

这个原始项目只有大约1200行Python代码，轻巧得像一辆改装过的卡丁车，但经过AMD的“地狱级调校”，直接变身成赛道上的F1赛车。

ATOM不是通用型工具，而是专门为几个热门大模型——比如DeepSeek-R1、Qwen和Llama——量身剪裁的高性能跑鞋，穿上去就能在ROCm平台上狂奔。

为什么需要专门优化？因为通用框架太“胖”了

市面上常见的大模型推理框架，比如vLLM或SGLang，虽然功能全面、兼容性强，但就像一件万能工装裤，什么场合都能穿，却未必适合冲刺百米。ATOM走的是极简路线，砍掉所有不必要的开销，只保留最核心的推理路径。

这种“轻量化”设计让整个推理流程更紧凑，数据搬运更少，计算效率更高。尤其是在处理像DeepSeek-R1这种带有Mixture-of-Experts（MoE，混合专家）结构的模型时，通用框架往往要来回切换多个专家模块，内存读写频繁，拖慢速度。

而ATOM直接把多个专家的计算融合成一个“超级核函数”，一次性完成，省去了中间反复加载的麻烦。这就好比原本要跑五个快递站取包裹，现在直接在一个仓库里打包好，一步到位。

专精模型的“内功心法”：MLA与MoE融合核

ATOM之所以能在DeepSeek-R1上跑出1.4倍于竞品平台的吞吐量，关键在于它内置了两种特殊“内功”：Multi-Head Latent Attention（MLA，多头潜在注意力）和Mixture-of-Experts（MoE）融合。

MLA是一种改进版的注意力机制，它不像传统Transformer那样对每个token都做完整注意力计算，而是先压缩信息，再在低维空间里做高效交互，最后还原输出。这种设计大幅减少了计算量，同时保持了模型表达能力。

而MoE融合则更狠——它把原本分散在不同GPU核心上的专家网络调度逻辑，直接编译进一个定制化的CUDA-like核（在ROCm里叫HIP核），让MI355X的数千个流处理器协同作战，而不是各自为战。这两种技术叠加，等于给模型装上了双涡轮增压，油门一踩，推理速度直接起飞。

实测性能：在真实负载下碾压对手

性能不能光靠嘴说，得看实测数据。

在MI355X显卡上，ATOM在中高并发请求（32到128个同时任务）的场景下，吞吐量不仅稳如老狗，甚至能跟搭载NVIDIA最新Blackwell B200芯片、运行SGLang的系统打成平手，甚至反超。

要知道，Blackwell B200可是目前地球上最强的AI加速芯片之一，而MI355X能在这个量级上掰手腕，全靠ATOM这套高度优化的推理流水线。

更夸张的是，在DeepSeek-R1这个特定模型上，同样的输入输出长度（比如1K上下文输入 + 1K生成输出），ATOM跑出来的每秒完成请求数（requests per second）比其他平台高出整整40%。这可不是实验室里的理想数据，而是模拟真实生产环境——比如客服机器人、代码生成助手、长文本摘要系统——下的硬核表现。

内存效率：少搬砖，多干活

大模型推理最吃资源的环节，往往不是计算本身，而是数据在显存和缓存之间来回搬运。ATOM的设计哲学就是“能不动就不动”。通过精细调度显存布局、复用中间激活值、以及将多个算子融合成单个核函数，ATOM大幅减少了不必要的内存读写。

这种优化在长文本生成任务中尤其明显。比如处理1K输入 + 8K输出的长对话场景，很多框架会因为显存碎片化或频繁换页而卡顿，但ATOM凭借紧凑的内存管理策略，始终保持高吞吐。这就像一个经验丰富的厨师，提前把所有食材按顺序摆好，炒菜时手不离锅、眼不离火，全程行云流水，绝不回头找调料。

开源双源：上游轻量，下游猛兽

ATOM的代码其实有两个“老家”。

一个是原始作者邢凯宇维护的GeeeekExplorer/nano-vllm仓库，那里保留着最干净、最精简的1200行核心逻辑，适合学习和二次开发。

另一个是AMD官方在ROCm组织下维护的ROCm/ATOM仓库，里面塞满了针对MI300和MI350系列显卡的深度优化，包括各种手工调优的HIP核、模型适配层、以及性能分析工具。

这种“上游轻量 + 下游强化”的模式，既保证了社区的可参与性，又确保了商业级的极致性能。换句话说，普通人可以拿nano-vLLM玩玩小模型，而企业用户可以直接用ATOM在MI355X上部署生产级AI服务，各取所需，互不干扰。

为什么这事很重要？因为AI硬件正在“分家”

过去几年，AI训练和推理几乎被NVIDIA一家垄断，但随着AMD Instinct系列显卡性能突飞猛进，加上ROCm生态日渐成熟，市场终于有了真正的第二选择。而ATOM的出现，标志着AMD不再只是“兼容CUDA的替代品”，而是开始构建自己的高性能AI软件栈。通过深度绑定特定模型和硬件，AMD能打出“组合拳”——硬件卖得出去，软件跑得更快，客户用得更爽，形成正向循环。

这就像手机厂商自研芯片，苹果有A系列，华为有麒麟，现在AMD也有了自己的“AI加速秘方”。未来，谁能把模型、框架、驱动、硬件四层打通，谁就能在AI竞赛中占据主动。

引用 AMD文章
在过去的几个月里，AMD已经实施了许多优化，以提高MI 355 X GPU上DeepSeek-R1的单节点性能和多节点分布式推理。

单节点推理
DeepSeek-R1是一个以推理为中心的开源模型，它将MLA注意力与稀疏的莫伊专家相结合，对计算效率和内存带宽提出了很高的要求。

与使用现有推理框架的NVIDIA Blackwell B200系统相比，运行ATOM的MI 355 X GPU在4到64个并发级别上始终提供强大的推理性能。这些结果是由内核级优化驱动的，例如融合的MoE执行、MLA注意力融合以及减少推理管道中的内存移动。

在更高的并发级别（32和64）下，这对于在大规模部署中最大限度地降低每个令牌的成本至关重要，具有ATOM的MI 355 X GPU表现出特别强大的吞吐量，在这些高吞吐量机制中匹配或超过运行SGLang的B200系统。

MI 355 X GPU在一系列序列长度配置中保持了这一性能优势，包括交互式（1 K/1 K）、面向吞吐量（8 K/1 K）和长代（1 K/8 K）工作负载。

性能有多猛？拿MI355X这张卡来说：

专门调优的模型支持：它专门为DeepSeek-R1、Qwen、Llama这几个模型做了“私人定制”，连里面的MoE（混合专家模型）和MLA（多头潜在注意力）都做了融合优化，就像把多个小脑合成一个超级大脑，跑得飞快。
吞吐量碾压：在32到128个请求这种“中高强度”并发场景下，MI355X + ATOM的组合，直接干翻了NVIDIA的Blackwell B200 + SGLang，一点都不虚，甚至还能反超！
性能直接暴涨：跑DeepSeek-R1模型时，MI355X比对手快了1.4倍，就像你考试从60分飙到84分，直接起飞！
省电又高效：ATOM特别会“省内存”，不让数据在显卡里来回搬来搬去，就像你写作业不翻书包，直接写桌上，效率爆棚！不管是短对话（1K输入/1K输出）还是长文生成（1K输入/8K输出），它都能稳得住，不掉链子。

总之：AMD“抄”了DeepSeek工程师的极简推理引擎，自己魔改成ATOM，然后疯狂调优几个模型，最后在MI355X上跑出逆天成绩，就是为了在性能榜上把NVIDIA按在地上摩擦！

AMD用DeepSeek小工具打造推理引擎ATOM：实现MI355X赶超英伟达B200

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道