Meta 开源 CTran,英伟达通信霸权迎来最强挑战!

Meta 开源统一通信库 CTran 与生产级 NCCLX,打破 NVIDIA NCCL 垄断,推动 AMD/NVIDIA 多 GPU 协同训练开源化,引发集合通信库生态巨变。

最近,Meta 放出了一颗重磅开源炸弹:他们正式开源了 CTran 库!这个库可不是普通工具,它是专为多 GPU 协同训练打造的统一通信库,而且原生支持 AMD 和 NVIDIA 两大阵营的 GPU。这意味着什么?

意味着过去那种“N 卡只能用 NCCL、A 卡只能用 RCCL”的割裂局面,可能要被彻底打破了!

要知道,在 CTran 出现之前,如果你想让多个 NVIDIA GPU 一起干活,比如训练大模型,那几乎只有一个选择:NVIDIA 自家的 NCCL(NVIDIA Collective Communications Library)。虽然 NCCL 的源代码是公开的,但它根本不是真正意义上的“开源”。它没有开放的治理模型,没有公开的持续集成(CI)系统,更新方式基本上就是“代码大甩卖”——不定期扔一堆代码出来,社区想提 PR?门都没有!更别提 GitHub 优先开发了,它压根就不是围绕 GitHub 生态构建的。

而 AMD 用户呢?更惨。他们只能用一个叫 RCCL 的库,这其实是 NCCL 的一个延迟分支,本质上就是 AMD 自己 fork 了 NCCL 的旧代码,再做一些适配性修改。不仅功能滞后,还缺乏原生优化,生态更是孤岛一座。说白了,就是“别人吃肉,你喝汤还得等三天”。

但现在,Meta 带着 CTran 来了!它最大的亮点就是“统一”——一套代码,通吃 NVIDIA 和 AMD GPU。更牛的是,CTran 的架构设计非常模块化,比如你想加入像 Bruck 算法这样的新型集合通信算法,只要按规范实现,就能被所有支持的硬件复用。这种“一次开发、多端受益”的思路,才是真正面向未来的开源精神。

不仅如此,Meta 还同时开源了另一个重量级项目:NCCLX(NCCL Extended)。这可不是实验室玩具,而是 Meta 内部生产环境实打实用来训练 Llama 系列大模型的通信库!而 NCCLX 的底层,正是基于刚刚提到的 CTran。换句话说,Meta 把自己喂饱 Llama 的“通信引擎”直接开源了,而且是经过千锤百炼、扛住超大规模训练压力的版本。

说到 Meta,可能有人还不太清楚它的技术分量。Meta 不仅是 Facebook、Instagram、WhatsApp 的母公司,更是 PyTorch 框架的创造者和主要维护者。PyTorch 如今已是全球 AI 研究和工业界的事实标准之一,其开源生态之活跃、社区信任度之高,几乎无人能及。Meta 一贯坚持“开源优先”策略,从 PyTorch 到 Llama 系列模型,再到如今的 CTran 和 NCCLX,每一步都在推动整个 AI 基础设施的民主化。

那么问题来了:面对 Meta 这波强势开源,NVIDIA 会坐得住吗?

要知道,NVIDIA 在集合通信领域长期一家独大,NCCL 几乎是行业默认选项。但时代变了!就像当年推理引擎领域,NVIDIA 的 FasterTransformer 曾经也是王者,可后来 vLLM、SGLang 等开源项目凭借 GitHub 优先、社区驱动、极致性能迅速崛起,逼得 NVIDIA 不得不把 TRT-LLM 转向 GitHub 优先开发模式,拥抱社区。

今天,集合通信库正在经历同样的历史拐点。我们正从 2021 年的“FasterTransformer 时代”——封闭、厂商锁定、更新缓慢——迈向 2025 年的“vLLM/SGLang/TRT-LLM 时代”——开放、协作、快速迭代。而 CTran 和 NCCLX,就是这场变革在通信层的先锋。

当然,NVIDIA 也没闲着。他们最近推出了 NCCL Device API 和 GPU-Initiated Networking 等新特性,试图进一步优化通信效率。但光有技术还不够,关键在于“开放姿态”。如果 NCCL 继续保持“代码仓库式开源”,拒绝真正的社区共建,那它的护城河迟早会被冲垮。

更别提,这场竞赛早已不只是美国内战。中国团队也没闲着!比如 DeepEP 集合通信库,就是由中国开发者主导的高性能开源项目,专为国产芯片和异构计算优化。而 AMD 也在全力追赶,不仅有 MORI 项目,还在开发 MORI-CCL,目标直指 NCCL 的核心地位。

所以你看,整个集合通信生态正在百花齐放:Meta 有 CTran + NCCLX,NVIDIA 有 NCCL(及其新特性),AMD 有 MORI 和 MORI-CCL,中国有 DeepEP……竞争前所未有地激烈。而这,恰恰是开发者和整个 AI 行业最希望看到的局面——因为竞争,才能催生真正的创新!

过去,我们总说“英伟达生态无敌”,但今天,硬件的性能差距正在被软件生态的开放程度所弥补。AMD GPU 虽然在单卡算力上可能略逊一筹,但如果配上像 CTran 这样高效、统一、开源的通信库,整体训练效率未必落后。更重要的是,用户终于有了选择权——不再被单一厂商绑架,可以自由组合硬件与软件栈。

对开发者来说,这意味着什么?意味着你可以用一套代码,轻松切换 NVIDIA 或 AMD 集群;意味着你可以参与通信库的改进,而不是被动等待厂商更新;意味着未来的大模型训练成本可能进一步下降,因为硬件选择更灵活,软件优化更透明。

Meta 这一招,不仅是技术突破,更是生态博弈。它用开源的方式,把集合通信这个“黑盒”变成了“透明厨房”,让所有人看得见、改得了、用得起。这正是开源精神最动人的地方——不是为了打败谁,而是为了让整个行业跑得更快。

当然,CTran 和 NCCLX 刚刚开源,生态建设还需要时间。但方向已经明确:未来的 AI 基础设施,必须是开放的、协作的、跨厂商的。NVIDIA 如果还想继续当“通信层的苹果”,那恐怕会越来越难。Jensen Huang(黄仁勋)必须意识到,今天的开发者不再满足于“给你什么你就用什么”,他们要的是参与权、选择权和创新权。

总结一下这场“通信库大战”的格局:NVIDIA 仍是技术标杆,但护城河正在被侵蚀;AMD 奋起直追,借开源生态弯道超车;中国力量悄然崛起,DeepEP 等项目不容小觑;而 Meta 凭借 PyTorch 的深厚根基和开源信誉,一举成为规则制定者之一。

未来几年,谁能在集合通信领域赢得开发者的心,谁就能在大模型基础设施的下一轮竞争中占据主动。而这一切,都始于 Meta 开源 CTran 的这一刻。

作者背景:本文内容基于 Meta 官方技术博客、开源项目文档及行业观察综合整理。