DeepSeek用HFReduce替代英伟达NCCL:训练速度达PyTorch DDP两倍


DeepSeek 通过自研通信库 HFReduce 与分布式框架 HaiScale DDP,在 GPU 资源受限条件下实现近 90% 的并行扩展效率,训练速度达 PyTorch DDP 的两倍,彰显国产 AI 基础设施的系统级创新能力。

为什么国产大模型公司 DeepSeek 能在 GPU 资源极度受限的情况下,还能跑出世界级的训练效率?很多人只盯着模型参数、数据量或者算法创新,却忽略了背后真正决定成败的——是那套从零搭建、专为极限环境打造的分布式基础设施!

先说一个关键点:DeepSeek 的成功,一大半功劳要归功于他们自研的通信库——HFReduce。你可能听说过 NCCL,这是 NVIDIA 官方推出的集合通信库,被 PyTorch、TensorFlow 等主流框架默认采用。但在 DeepSeek 的 Fire-Flyer 2 集群上,NCCL 却成了性能瓶颈!

为什么?因为 NCCL 的 All-Reduce 操作必须在 GPU 上执行,会占用宝贵的流式多处理器(SM)。这意味着当你在做梯度同步的时候,GPU 的计算单元其实被“占着茅坑不拉屎”——既不能做前向传播,也不能高效做反向传播,严重干扰了计算与通信的重叠效率。

而 DeepSeek 团队直接另起炉灶,搞出了 HFReduce。这个库的核心思路非常大胆:把 All-Reduce 的计算任务从 GPU 转移到 CPU!听起来反直觉对吧?毕竟 CPU 算力远不如 GPU。但关键在于——他们不是用 CPU 做矩阵运算,而是利用 CPU + InfiniBand 网络 + 主机内存,构建了一套全新的数据路由与归约路径。

具体怎么做的?HFReduce 绕过了 AMD EPYC Rome CPU 的 PCIe 带宽瓶颈,通过 InfiniBand 高速网络直接在主机内存之间传输梯度数据,并在 CPU 上完成归约操作。这样一来,GPU 完全解放了!不再需要为通信任务调度 SM 资源,计算和通信真正实现了“井水不犯河水”。

实测效果有多猛?在同样的 Fire-Flyer 2 集群上,HFReduce 相比 NCCL 的环形拓扑(Ring Topology),双向 PCIe 带宽占用大幅下降。这意味着 GPU 可以更专注地干自己的活——训练模型,而不是被通信拖后腿。

而这一切,只是地基。真正让 DeepSeek 训练效率起飞的,是建立在 HFReduce 之上的另一个重磅创新:HaiScale DDP。

HaiScale DDP 是 DeepSeek 自研的分布式数据并行(Distributed Data Parallel)框架,专为大规模模型训练优化。它可不是 PyTorch DDP 的简单魔改,而是从通信后端到执行调度的全面重构。

首先,通信后端直接替换成 HFReduce,彻底抛弃了 NCCL。这意味着从底层通信协议开始,就为异构硬件和资源受限场景量身定制。

其次,HaiScale DDP 实现了极致的“计算-通信重叠”。在反向传播过程中,梯度一旦生成,立刻触发异步 All-Reduce。通信在后台悄悄进行,而 GPU 继续计算剩余层的梯度——两者并行不悖,互不干扰。

最关键的是,由于 HFReduce 不占用 GPU 的流式多处理器,这个 All-Reduce 操作是真正“无感”的。不会打断 GPU 的 kernel 执行流水线,也不会引发资源争抢。这种设计在大规模训练中尤为重要,因为节点越多,通信开销越大,一点点效率提升都会被指数级放大。

实际性能数据震撼人心:在训练经典的 VGG16 模型时,使用 HaiScale DDP 的训练时间只有 PyTorch DDP(NCCL 后端)的一半!更惊人的是,在从 32 卡扩展到 512 卡的过程中,HaiScale DDP 实现了约 88% 的并行可扩展性(Parallel Scalability)——这在分布式训练领域属于顶尖水平。

要知道,很多商业公司即便拥有上千张 A100,也未必能达到如此高的扩展效率。而 DeepSeek 是在 GPU 资源极其紧张、硬件并非顶级配置的情况下做到的。这背后,是系统工程师对硬件瓶颈的深刻理解,以及对软件栈每一层的极致打磨。

这些技术细节,都被完整记录在 DeepSeek 团队发表的《Fire-Flyer AI-HPC》技术白皮书中。这篇论文堪称国产 AI 基础设施的里程碑之作,不仅披露了 HFReduce 和 HaiScale DDP 的设计哲学,还详细分析了 InfiniBand 网络拓扑、CPU-GPU 协同调度、内存带宽优化等关键问题。如果你对机器学习系统、分布式训练或高性能计算感兴趣,这篇论文绝对值得精读。

说到这里,你可能会好奇:DeepSeek 背后的团队到底是什么来头?

DeepSeek 并非由传统互联网巨头孵化,而是一支高度技术驱动的创业团队,核心成员大多来自国内外顶尖高校和 AI 实验室,拥有深厚的系统软件与高性能计算背景。他们不追求短期流量或融资故事,而是沉下心来解决“卡脖子”问题——尤其是在国产算力受限的大环境下,如何用软件创新弥补硬件短板。

这种“工程师文化”贯穿了 DeepSeek 的每一个产品。无论是大模型本身,还是支撑模型训练的底层基础设施,都体现出极强的系统思维和工程洁癖。他们不是在“调参”,而是在“造轮子”——而且是能跑赢国际大厂的轮子。

更重要的是,DeepSeek 的这套技术栈具有极强的可迁移性。HFReduce 和 HaiScale DDP 的设计理念,完全可以应用到其他国产芯片平台(比如昇腾、寒武纪)或异构计算环境中。这意味着中国 AI 产业未来或许不再完全依赖 NVIDIA 的软硬件生态,而是走出一条自主可控的高性能训练路径。

总结一下:DeepSeek 的成功,绝非偶然。它是在资源约束下,通过底层通信库创新(HFReduce)+ 分布式训练框架重构(HaiScale DDP)+ 硬件协同优化(Fire-Flyer 2 集群)三位一体打出的组合拳。这种“软硬协同、系统优先”的思路,正是中国 AI 要想真正崛起所必须走的路。