Meta全面转向非调度网络架构,AI算力中心网络设备格局巨变

Meta正从全局调度网络转向非调度浅缓存架构,重塑AI数据中心供应链,利好英伟达、博通与白盒厂商,亚力士份额承压。

作者背景:本文作者为资深云计算与AI基础设施分析师,长期追踪全球超大规模数据中心网络架构演进,曾主导多项AI集群互联性能评估项目,对以太网调度机制、拥塞控制及DPU/NIC协同优化有深入研究,其观点常被头部科技企业技术战略部门引用。



一个可能改变整个AI数据中心游戏规则的大动作——Meta正在悄悄地、但极其坚决地,把它的AI训练网络底层架构,从过去高度依赖“调度型”以太网,转向一种更轻量、更灵活、更便宜的“非调度型”架构。

这个转变听起来很技术,但它背后牵动的是每年数百亿美元的资本支出流向,影响的是像亚力士(Arista)、英伟达(NVIDIA)、博通(Broadcom)这些巨头的市场份额,甚至决定了未来几年白盒交换机厂商和光模块供应商的命运。

首先,我们得理解一个问题:为什么AI训练网络这么特殊?和普通互联网流量不一样,AI训练不是一堆小数据包乱飞,而是成千上万个GPU同时工作,彼此之间要频繁同步模型参数。

这种通信模式会产生极少数但极其庞大的“大象流”(elephant flows)——想象一下,几万个GPU同时往同一个方向发送几十GB的数据,瞬间就把网络链路塞爆了。这种现象在数据中心里叫“incast拥塞”,就像早高峰所有车都涌向同一个收费站,结果谁都动不了。

为了解决这个问题,过去几年,Meta和很多超大规模云厂商一样,采用了“调度型网络”(Scheduled Fabric)的方案。

这种网络的核心思想是:别让数据随便发,先“预约”一下。具体来说,就是发送端在发数据前,先向接收端发一个“信用请求”(credit request),确认对方缓冲区有空位,才真正开始传输。同时,数据包还会被切成更小的“信元”(cells),通过多条路径并行发送,实现负载均衡,避免某一条链路过载。这种机制能极大提升公平性,控制尾部延迟,特别适合对训练稳定性要求极高的大模型训练。

亚力士的7800R3系列交换机,就是这种调度型网络的代表作:
它本质上是一个“超级大机箱”,拥有极高的端口密度和超深缓存,配合分布式信用调度和信元喷洒技术,能把延迟压到4微秒以下。

Meta早期确实大量采用了这类设备,甚至在2024到2025年还部署了亚力士的7700R4分布式以太网链接交换机(DES),把“大机箱”拆成多个叶子和主干交换机,实现物理上的分布式部署,但逻辑上仍是一个统一调度的高基数交换结构。

但问题来了:这种调度型架构虽然性能卓越,却有一个致命弱点——它太“中心化”了。无论是7800R3还是7700R4 DES,本质上都需要一个全局协调的控制平面,这在超大规模部署时会变得极其复杂。当你的AI集群从几千GPU扩展到几万、甚至几十万GPU时,调度系统的开销、延迟和故障域都会急剧放大。而且,这类高端设备价格昂贵,每端口成本高,功耗也大,不符合Meta“极致性价比”的工程哲学。

于是,在2025年的开放计算项目(OCP)大会上,Meta正式宣布了一个“双轨制”战略:
一边继续使用调度型网络(DSF,Disaggregated Scheduled Fabric),用于中等规模或对延迟极其敏感的集群;
另一边,则大力推动非调度型网络(NSF,Non-Scheduled Fabric),用于其最大型的AI集群,比如即将在2026年上线的俄亥俄州“普罗米修斯”(Prometheus)集群(约1吉瓦电力容量),以及未来目标达5吉瓦的“许珀里翁”(Hyperion)集群。



那么,什么是非调度型网络?

简单说,就是“去中心化+智能网卡”。Meta不再依赖交换机层面的全局调度,而是采用三层架构的浅缓存以太网交换机,把拥塞控制的责任“下放”给智能网卡(NIC)或DPU(数据处理器)。这些网卡内置了先进的拥塞控制算法、自适应路由和遥测功能,能在主机层面动态调整发送速率、选择最优路径,从而避免网络拥塞。

这种架构的最大优势是什么?成本和可扩展性。

Meta现在主推的NSF交换平台,是基于开放计算标准的白盒交换机,比如由伟创力旗下Celestica代工的Minipack3(搭载博通Tomahawk5芯片),以及由智邦科技(Accton)旗下Edgecore代工的Minipack3N(搭载英伟达Spectrum-4芯片)。

这些设备运行开源的FBOSS操作系统,通过OCP定义的SAI接口与上层软件对接,完全符合Meta的开放硬件生态。

这意味着什么?意味着Meta不再被绑定在亚力士这样的高端盒式厂商身上。它可以用更低的价格,采购大量标准化的51.2T交换机,再配合自家或第三方的智能网卡,构建出规模更大、更灵活的AI集群。虽然单点性能可能不如调度型网络,但在万卡甚至十万卡级别,NSF的总体拥有成本(TCO)和部署速度优势就显现出来了。



这个转向,直接带来了三大投资级影响:

第一,亚力士在Meta最大AI集群中的增量份额将显著低于市场此前预期。虽然它仍是调度型网络的技术领导者,7700R4 DES也还在部署,但未来Meta新增的大部分后端端口,尤其是Hyperion这种5吉瓦级别的巨无霸集群,大概率会采用NSF架构。数据显示,Meta对亚力士的收入贡献已从2023年的21%下降到2024年的15%。如果NSF顺利跑通,2026-2027年这一比例可能进一步下滑。亚力士必须靠前端网络升级、其他云厂商订单以及软件服务来对冲这一风险。

第二,英伟达和博通的战略地位大幅提升。英伟达不仅卖GPU,现在它的Spectrum-X交换机正式进入Meta的FBOSS生态,与ConnectX/BlueField SuperNIC形成端到端解决方案。在NSF架构下,网卡的智能程度决定了网络性能,而英伟达的端到端堆栈——从GPU到NIC再到交换机——能提供深度优化的拥塞控制和遥测能力,形成强大的软件锁定效应。这不仅提升了其网络业务的收入,更巩固了其AI系统护城河。

博通则是“左右逢源”。它的Jericho3-AI芯片支撑着调度型网络,而Tomahawk系列则是NSF白盒交换机的事实标准。Meta转向NSF,反而会拉动Tomahawk的出货量。同时,博通的Thor Ultra智能网卡也在争取设计导入,与英伟达竞争。无论Meta走哪条路,博通都能分一杯羹,而且随着资本支出总量上升,其总金额很可能继续增长。

第三,白盒ODM厂商和光模块供应商迎来持续的量能红利。Celestica和Accton/Edgecore作为Minipack3和Minipack3N的制造商,将直接受益于Meta的NSF部署。虽然这类业务毛利率只有中十位数,但胜在规模巨大、订单可见性强。随着Meta从51.2T向102.4T甚至1.6T演进,这些ODM的出货量将持续攀升。



在光模块方面,Meta明确转向更低成本、更低功耗的方案。

它大力推广400G DR4 OSFP-RHS用于网卡到机架顶(ToR)连接,并引入新型2×400G FR4 LITE可插拔模块,支持最长500米的链路。这种“轻量版”FR4简化了热设计,每比特功耗和成本都更低,非常适合在密集的AI机房中百万级部署。像Coherent这样的硅光厂商已推出对应产品。虽然相干光和共封装光学(CPO)仍是中长期方向,但短期内,LPO/Lite类光模块才是主流。

值得注意的是,Meta的资本支出引擎依然强劲。公司预计2025年资本支出高达700亿至720亿美元,2026年还将“显著更高”。普罗米修斯和许珀里翁两大吉瓦级园区,就是这笔巨额投入的锚点。这意味着,无论网络架构如何变化,400G/800G以太网交换、光模块和智能网卡的需求都不会减少,只是“钱花在谁身上”发生了变化。

从行业生态看,Meta正联合AMD、思科、英伟达等推动以太网扩展规模网络(ESUN)和通用拥塞控制(UEC)等标准。这些能力一旦通过SAI API实现标准化,超大规模厂商的议价能力将进一步增强,而传统盒式厂商依赖专有控制平面获取高毛利的模式将难以为继。未来,差异化将更多体现在软件集成、可视化遥测和AI感知路由栈上,而非硬件调度机制本身。

当然,风险依然存在。我们需要密切关注几点:

  • 一是NSF在10万+ GPU规模下是否真能达到训练任务完成时间(JCT)目标,如果性能不达标,Meta可能被迫回调调度型方案;
  • 二是英伟达Spectrum-5/6和SuperNIC的迭代节奏能否压制博通Thor;
  • 三是800G网卡和1.6T交换的端口迁移时间表;
  • 四是FR4 LITE和DR4 RHS的光模块供应链是否跟得上。

总结一下:Meta的这次架构转向,并不是对以太网的否定,而是在以太网内部的一次价值重分配。它标志着AI数据中心网络正从“性能优先”走向“性价比与可扩展性优先”。在这个过程中,硅片供应商(博通、英伟达)、白盒制造商(Celestica、Accton)和规模化光模块厂将受益,而依赖高端调度设备的厂商则面临份额稀释。

对投资者而言,策略也应随之调整:降低对亚力士在Meta最大后端集群中增量份额的预期,但保留其在前端网络、中型DSF集群及其他云客户的敞口;增持英伟达网络业务的期权价值和博通在Tomahawk/NIC领域的杠杆效应;同时,配置一批能吃下Meta FR4 LITE/DR4订单的光模块龙头。



Meta的FBOSS基于Linux,依赖SAI(Switch Abstraction Interface)标准。A股虽无直接开发FBOSS的公司,但:
  • 紫光股份(000938)旗下新华三:虽主攻自有品牌交换机,但其自研Comware系统支持SAI,具备与开放生态对接的技术能力,在国内智算中心有类似架构实践。
  • 锐捷网络(301165):推出开放网络交换机,支持SONiC/FBOSS类系统,技术路线与Meta NSF趋同。
  • 华为:自研CloudEngine 16800系列支持51.2T,采用自研Solar系列芯片。