DeepSeek解码GB200性能飙升15%秘密全公开

DeepSeek FP4 MoE 在 GB200 NVL72 上通过三项核心优化实现 10–15% 吞吐提升，成果开源共享。

从七月上旬到八月三十一日，DeepSeek FP4 MoE 模型在 GB200 NVL72 平台上的解码输出吞吐性能，在所有交互级别（即每位用户的每秒生成 token 数）上，实现了 10% 到 15% 的显著提升，这一成果背后凝聚了多位 NVIDIA 工程师团队的深度优化与创新突破，堪称大模型推理性能调优的典范案例。

这次性能飞跃并非偶然，而是通过三项关键技术优化协同作用达成的。

首先，来自 NVIDIA 内部被戏称为“破解组”的工程师们，对 MoE（Mixture of Experts，混合专家）架构中的通信瓶颈进行了精准打击。他们将多个原本独立的 AllToAll 通信内核进行了融合，把每个 token 的激活值与其元数据——比如低精度缩放因子、所选专家 ID 以及量化尺度——打包在一起传输。这种定制化的 AllToAll 内核采用了 LL128 协议，即每 128 字节的数据仅需一个 8 字节的控制标志，就能实现低延迟的 MoE 路由与聚合。相比传统的 LL（Low Latency）协议动辄高达 50% 的通信开销，LL128 将冗余大幅压缩，显著降低了跨 GPU 通信的延迟和带宽压力，从而让整个 MoE 系统在高并发交互场景下依然保持流畅响应。

第二项关键优化直击 PyTorch 动态执行模式（eager mode）下的性能痛点。在 batch size = 1、prefill 长度为 8k 的典型推理场景中，原本用于拼接键值对（keys）的 copy 与 concat 操作耗时高达 306 微秒，这比理论上的内存带宽极限（即“光速”SOL，Speed of Light）还要慢 3.8 倍——换句话说，系统明明有更快的潜力，却被低效的代码拖了后腿。

问题出在 MLA（Multi-Layer Attention）机制中，需要将包含位置编码（如 RoPE，旋转位置编码）的 keys 与不包含 RoPE 的 keys 进行拼接，而 PyTorch 默认的 eager 模式在此类操作上效率极低。

解决方案是启用 torch.compile，这一编译优化技术将动态图转换为高度优化的静态图，使得 copy 与 concat 的实际运行时间骤降至仅比理论极限慢 1.3 倍，性能提升超过两倍，彻底释放了硬件内存带宽的潜能。

第三项突破性优化则来自被业内称为“十倍速 NVIDIA TRT-LLM/Dynamo 工程师团队”的天才们，他们开发了一种名为 PDL（Parent-Dependent Launch，父依赖启动）的新型内核调度机制。

传统 CUDA 编程中，子内核必须等待父内核完全执行完毕后才能启动，这在流水线并行中会造成不必要的空闲等待。而 PDL 允许依赖于父内核结果的子内核提前启动，并先行执行那些不依赖父内核输出的初始化或预处理工作。

只有当执行到 cudaGridDependencySynchronize 这一同步点时，子内核才会真正等待父内核完成。这种“边等边干”的策略极大提升了 GPU 计算单元的利用率，尤其在 MoE 这类计算与通信高度交织的模型中，有效隐藏了部分延迟，进一步推高了整体吞吐。

这些优化成果的背后，站着一群默默耕耘的顶尖工程师。NVIDIA TRT-LLM 团队长期专注于大语言模型的高性能推理部署，其 TensorRT-LLM 框架已成为业界标杆；Kyle Kranen 领导的 Dynamo 团队则致力于 PyTorch 编译器的革新，通过 torch.compile 等技术将动态语言的灵活性与静态编译的性能优势结合；而 Kedar Potdar 作为 NVIDIA 高性能计算与 AI 推理领域的资深专家，多年来在分布式训练与推理优化方面贡献卓著。正是这些团队与个人的紧密协作，才让 GB200 NVL72 这一顶级 AI 超级计算机的潜力被充分挖掘。

值得一提的是，所有这些性能数据与优化细节并非闭门造车，而是以 Apache 2.0 开源协议完整公开在 InferenceMAX.ai 网站上。这意味着任何开发者、研究者或企业都能免费获取这些“细粒度、高保真”的基准测试结果，用于自己的模型部署与调优参考。这种开放精神不仅推动了整个 AI 推理生态的进步，也彰显了 NVIDIA 在推动大模型落地方面的战略远见。

对于关注 AI 基础设施的从业者而言，GB200 NVL72 代表了当前大模型推理的巅峰硬件平台——它由 36 颗 Grace CPU 与 72 颗 Blackwell GPU 通过 NVLink 全互联构成，拥有高达 1.4 exaFLOPs 的 FP4 算力和 30TB/s 的片间带宽。而 DeepSeek FP4 MoE 作为一款采用混合专家架构的开源大模型，其稀疏激活特性本就对通信效率极为敏感。因此，上述三项优化——通信融合、编译加速、内核重叠——恰好精准命中了 MoE 模型在超大规模硬件上的三大性能瓶颈：通信开销、内存带宽利用率和计算流水线效率。

从更宏观的视角看，这次 10–15% 的吞吐提升，看似数字不大，但在实际商业部署中意味着巨大的成本节约。假设一个在线服务每天处理十亿次 token 生成请求，10% 的性能提升可直接减少 10% 的 GPU 使用量，对应数百万美元的年度运营成本下降。同时，更低的延迟也意味着更好的用户体验，尤其是在实时对话、代码生成等高交互场景中，毫秒级的响应差异可能决定用户留存率。

此外，这些优化也揭示了一个趋势：未来大模型的性能竞赛，将不再仅仅依赖模型规模或硬件堆砌，而是越来越依赖系统级的软硬协同设计。从内核融合到编译器优化，再到调度策略创新，每一层抽象都成为性能调优的战场。这也对程序员提出了更高要求——不仅要懂模型，还要懂编译、懂通信、懂硬件架构。正如文中所暗示的，真正的“破解”并非破解代码，而是破解性能瓶颈的底层逻辑。

最后，值得强调的是，这些成果虽然是 NVIDIA 工程师主导，但其开源共享的态度值得赞赏。在 AI 领域日益封闭的今天，InferenceMAX.ai 提供的透明、可复现的基准数据，为整个社区树立了良好榜样。无论是学术研究还是工业落地，这种开放协作的精神都是推动技术进步的关键燃料。

总结来看，从七月到八月底的短短两个月，DeepSeek FP4 MoE 在 GB200 NVL72 上的性能飞跃，是通信优化、编译加速与内核调度三大技术协同发力的结果，背后是 NVIDIA 多个顶尖工程团队的智慧结晶，而所有细节的开源共享，则为全球开发者点亮了前行的灯塔。

DeepSeek解码GB200性能飙升15%秘密全公开

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道