从七月上旬到八月三十一日,DeepSeek FP4 MoE 模型在 GB200 NVL72 平台上的解码输出吞吐性能,在所有交互级别(即每位用户的每秒生成 token 数)上,实现了 10% 到 15% 的显著提升,这一成果背后凝聚了多位 NVIDIA 工程师团队的深度优化与创新突破,堪称大模型推理性能调优的典范案例。
这次性能飞跃并非偶然,而是通过三项关键技术优化协同作用达成的。
首先,来自 NVIDIA 内部被戏称为“破解组”的工程师们,对 MoE(Mixture of Experts,混合专家)架构中的通信瓶颈进行了精准打击。他们将多个原本独立的 AllToAll 通信内核进行了融合,把每个 token 的激活值与其元数据——比如低精度缩放因子、所选专家 ID 以及量化尺度——打包在一起传输。这种定制化的 AllToAll 内核采用了 LL128 协议,即每 128 字节的数据仅需一个 8 字节的控制标志,就能实现低延迟的 MoE 路由与聚合。相比传统的 LL(Low Latency)协议动辄高达 50% 的通信开销,LL128 将冗余大幅压缩,显著降低了跨 GPU 通信的延迟和带宽压力,从而让整个 MoE 系统在高并发交互场景下依然保持流畅响应。
第二项关键优化直击 PyTorch 动态执行模式(eager mode)下的性能痛点。在 batch size = 1、prefill 长度为 8k 的典型推理场景中,原本用于拼接键值对(keys)的 copy 与 concat 操作耗时高达 306 微秒,这比理论上的内存带宽极限(即“光速”SOL,Speed of Light)还要慢 3.8 倍——换句话说,系统明明有更快的潜力,却被低效的代码拖了后腿。
问题出在 MLA(Multi-Layer Attention)机制中,需要将包含位置编码(如 RoPE,旋转位置编码)的 keys 与不包含 RoPE 的 keys 进行拼接,而 PyTorch 默认的 eager 模式在此类操作上效率极低。
解决方案是启用 torch.compile,这一编译优化技术将动态图转换为高度优化的静态图,使得 copy 与 concat 的实际运行时间骤降至仅比理论极限慢 1.3 倍,性能提升超过两倍,彻底释放了硬件内存带宽的潜能。
第三项突破性优化则来自被业内称为“十倍速 NVIDIA TRT-LLM/Dynamo 工程师团队”的天才们,他们开发了一种名为 PDL(Parent-Dependent Launch,父依赖启动)的新型内核调度机制。
传统 CUDA 编程中,子内核必须等待父内核完全执行完毕后才能启动,这在流水线并行中会造成不必要的空闲等待。而 PDL 允许依赖于父内核结果的子内核提前启动,并先行执行那些不依赖父内核输出的初始化或预处理工作。
只有当执行到 cudaGridDependencySynchronize 这一同步点时,子内核才会真正等待父内核完成。这种“边等边干”的策略极大提升了 GPU 计算单元的利用率,尤其在 MoE 这类计算与通信高度交织的模型中,有效隐藏了部分延迟,进一步推高了整体吞吐。
这些优化成果的背后,站着一群默默耕耘的顶尖工程师。NVIDIA TRT-LLM 团队长期专注于大语言模型的高性能推理部署,其 TensorRT-LLM 框架已成为业界标杆;Kyle Kranen 领导的 Dynamo 团队则致力于 PyTorch 编译器的革新,通过 torch.compile 等技术将动态语言的灵活性与静态编译的性能优势结合;而 Kedar Potdar 作为 NVIDIA 高性能计算与 AI 推理领域的资深专家,多年来在分布式训练与推理优化方面贡献卓著。正是这些团队与个人的紧密协作,才让 GB200 NVL72 这一顶级 AI 超级计算机的潜力被充分挖掘。
值得一提的是,所有这些性能数据与优化细节并非闭门造车,而是以 Apache 2.0 开源协议完整公开在 InferenceMAX.ai 网站上。这意味着任何开发者、研究者或企业都能免费获取这些“细粒度、高保真”的基准测试结果,用于自己的模型部署与调优参考。这种开放精神不仅推动了整个 AI 推理生态的进步,也彰显了 NVIDIA 在推动大模型落地方面的战略远见。
对于关注 AI 基础设施的从业者而言,GB200 NVL72 代表了当前大模型推理的巅峰硬件平台——它由 36 颗 Grace CPU 与 72 颗 Blackwell GPU 通过 NVLink 全互联构成,拥有高达 1.4 exaFLOPs 的 FP4 算力和 30TB/s 的片间带宽。而 DeepSeek FP4 MoE 作为一款采用混合专家架构的开源大模型,其稀疏激活特性本就对通信效率极为敏感。因此,上述三项优化——通信融合、编译加速、内核重叠——恰好精准命中了 MoE 模型在超大规模硬件上的三大性能瓶颈:通信开销、内存带宽利用率和计算流水线效率。
从更宏观的视角看,这次 10–15% 的吞吐提升,看似数字不大,但在实际商业部署中意味着巨大的成本节约。假设一个在线服务每天处理十亿次 token 生成请求,10% 的性能提升可直接减少 10% 的 GPU 使用量,对应数百万美元的年度运营成本下降。同时,更低的延迟也意味着更好的用户体验,尤其是在实时对话、代码生成等高交互场景中,毫秒级的响应差异可能决定用户留存率。
此外,这些优化也揭示了一个趋势:未来大模型的性能竞赛,将不再仅仅依赖模型规模或硬件堆砌,而是越来越依赖系统级的软硬协同设计。从内核融合到编译器优化,再到调度策略创新,每一层抽象都成为性能调优的战场。这也对程序员提出了更高要求——不仅要懂模型,还要懂编译、懂通信、懂硬件架构。正如文中所暗示的,真正的“破解”并非破解代码,而是破解性能瓶颈的底层逻辑。
最后,值得强调的是,这些成果虽然是 NVIDIA 工程师主导,但其开源共享的态度值得赞赏。在 AI 领域日益封闭的今天,InferenceMAX.ai 提供的透明、可复现的基准数据,为整个社区树立了良好榜样。无论是学术研究还是工业落地,这种开放协作的精神都是推动技术进步的关键燃料。
总结来看,从七月到八月底的短短两个月,DeepSeek FP4 MoE 在 GB200 NVL72 上的性能飞跃,是通信优化、编译加速与内核调度三大技术协同发力的结果,背后是 NVIDIA 多个顶尖工程团队的智慧结晶,而所有细节的开源共享,则为全球开发者点亮了前行的灯塔。