英伟达Spectrum-X以太网获Meta与甲骨文采用,以95%吞吐效率构建AI超级工厂,推动万亿参数模型时代网络架构革命。
Meta与甲骨文联手用英伟达 Spectrum-X以太网交换机打造“AI超级工厂”
连接算力的网络技术成为算力关键核心:就在最近,英伟达(NVIDIA)正式宣布,全球两大科技巨头Meta(原Facebook母公司)和甲骨文(Oracle)将全面采用其全新Spectrum-X以太网交换机技术,用于构建下一代超大规模AI数据中心。这一消息看似技术味十足,实则意味着我们正站在一场“AI工业革命”的门槛上——而这场革命的核心,正是由英伟达打造的、被其CEO黄仁勋称为“AI工厂神经系统”的Spectrum-X平台。
先说说为什么这件事如此重要:
过去几年,AI模型参数量呈指数级增长,从百亿到千亿,再到如今动辄上万亿参数的大模型,训练它们所需的GPU数量早已不是几千几万,而是“百万级”甚至“千万级”。
但问题来了:就算你有百万块GPU,如果它们之间的通信效率低下、延迟高、丢包严重,那整个系统就像一支人数庞大却各自为战的军队,根本打不出协同作战的威力。传统以太网在这种规模下,性能会急剧下降——数据显示,普通商用以太网在大规模部署时,数据吞吐效率仅能维持在60%左右,剩下的40%全被网络拥塞、流量冲突“吃掉”了。
而英伟达的Spectrum-X,正是为解决这一痛点而生。它不是简单地“更快一点”的以太网,而是全球首个专为AI工作负载从头设计的以太网平台。它由Spectrum-X以太网交换机和Spectrum-X SuperNIC(超级网络接口卡)组成,通过先进的拥塞控制算法、自适应路由和AI驱动的遥测技术,实现了高达95%的数据吞吐效率——这在超大规模AI集群中几乎是颠覆性的突破。
换句话说,同样的GPU数量,用Spectrum-X连接,训练速度可能快出近一倍,能耗和成本却大幅降低。
那么,谁在用?怎么用?先看Meta:
作为全球社交巨头和AI大模型的重要玩家,Meta一直在推进其“开放网络”战略,其自研的FBOSS(Facebook Open Switching System)平台就是这一理念的体现——通过开源软件统一管理海量网络交换机。
如今,Meta将在其新一代Minipack3N交换机中集成英伟达Spectrum以太网芯片,并深度整合进FBOSS系统。Meta网络工程副总裁Gaya Nagarajan明确表示:“下一代AI基础设施需要前所未有的开放性与效率,Spectrum让我们能在训练超大模型的同时,将生成式AI应用快速推向数十亿用户。”
这意味着,未来你在Instagram或Facebook上刷到的AI推荐、智能滤镜、语音助手,背后很可能都跑在由Spectrum-X加速的AI集群上。
再看甲骨文:这家传统数据库巨头近年来全力押注云与AI,其Oracle Cloud Infrastructure(OCI)正试图在AWS、Azure、GCP之外开辟第三条赛道。甲骨文云基础设施执行副总裁Mahesh Thiagarajan直言:“OCI从底层就是为AI工作负载设计的,与英伟达的合作进一步巩固了我们的AI领导地位。”据悉,甲骨文将基于英伟达即将推出的“薇拉·鲁宾”(Vera Rubin)架构——这很可能是下一代GPU或AI加速器的代号——并用Spectrum-X以太网将其互联,打造真正的“AI超级工厂”。这些工厂不仅服务甲骨文自家的大模型训练,还将向企业客户提供超高效率的AI训练与推理服务,让客户“更快地训练、部署并受益于下一代生成式与推理型AI”。
值得注意的是,Spectrum-X的野心不止于单个数据中心。其Spectrum-XGS技术还能实现“跨地域扩展”(scale-across),将分布于不同城市、国家甚至大洲的数据中心连接成一个逻辑上的“巨型AI计算机”。
想象一下:洛杉矶的GPU集群与东京的存储系统、法兰克福的推理节点通过Spectrum-X无缝协同,共同完成一个万亿参数模型的训练——这不再是科幻,而是正在落地的现实。
这一切的背后,离不开英伟达CEO黄仁勋的远见。作为英伟达创始人兼掌舵人,黄仁勋早在20年前就预见到GPU将从图形处理走向通用计算,如今他又精准押注“AI工厂”概念。
在他看来,现代数据中心已不再是传统意义上的“服务器仓库”,而是像炼油厂、汽车厂一样的“AI制造工厂”,而Spectrum-X就是这个工厂的“神经系统”——负责在数百万个“AI工人”(GPU)之间高速、可靠、智能地传递信息。没有这套神经系统,再强大的工人也无法高效协作。
更深层的意义在于,Spectrum-X正在重塑AI基础设施的经济模型。过去,为了弥补网络效率低下的缺陷,企业不得不堆砌更多GPU、部署更复杂的软件调度系统,成本高企。而Spectrum-X通过硬件级优化,直接从底层提升效率,让每一块GPU的算力都物尽其用。这不仅缩短了模型训练时间(从几周压缩到几天),更大幅降低了单位AI任务的能耗与成本——在当前全球关注AI碳足迹的背景下,这一点尤为关键。
可以说,Meta和甲骨文的选择,标志着Spectrum-X正从技术验证走向产业标准。随着更多云服务商和AI公司跟进,一个由英伟达全栈技术(GPU + NVLink + CPU + 软件 + 网络)驱动的AI生态正在成型。