微软Azure全球首发超4600台英伟达GB300 NVL72集群

微软Azure全球首发超4600台英伟达GB300 NVL72集群,专供OpenAI训练数百万亿参数大模型,训练周期从月缩至周,定义AI超算新标准。

微软Azure携手英伟达,引爆AI算力革命!全球首个大规模GB300 NVL72超级集群正式上线,专为OpenAI打造,开启万亿参数大模型训练新时代!

微软Azure刚刚宣布,全球第一个真正意义上大规模量产部署的英伟达GB300 NVL72超级计算集群,已经在Azure云平台上正式投入生产运行!配备了超过4600个GB300 NVL72系统,每个系统都搭载了最新一代的英伟达Blackwell Ultra GPU,通过下一代英伟达Quantum-X800 InfiniBand高速网络互联,堪称目前地球上最强大的AI训练引擎。

更关键的是,这套系统是专门为OpenAI量身打造的,目标只有一个:训练和运行参数规模高达“数百万亿级别”的下一代人工智能大模型!

那么,这个GB300 NVL72到底有多强?咱们得先搞清楚它的“前世今生”。

就在今年早些时候,Azure刚刚推出了基于英伟达Blackwell架构的ND GB200 v6虚拟机,迅速成为OpenAI等顶级AI实验室训练前沿模型的主力平台。

而如今,仅仅几个月后,微软又火速升级到GB300,这不仅是迭代,更是飞跃!全新的ND GB300 v6虚拟机专为“推理模型”、“智能体AI系统”(Agentic AI)和“多模态生成式AI”三大未来方向优化,其底层是一个完整的机架级系统——每机架包含18台虚拟机,总计72颗Blackwell Ultra GPU,搭配36颗Grace CPU,形成一个高度集成的AI超算单元。

性能参数更是让人瞠目结舌:单机架内,通过NVLink和NVSwitch技术,实现了高达130TB每秒的内部互联带宽,配合37TB的超高速显存,彻底打破传统GPU集群的内存墙和带宽瓶颈。

这意味着,即使是超长上下文窗口的万亿参数模型,在这个系统上也能实现低延迟、高吞吐的推理响应。

而在机架之间,Azure部署了全胖树(full fat-tree)、无阻塞架构的Quantum-X800 InfiniBand网络,每GPU提供800Gbps的跨机架扩展带宽——这可是上一代GB200 NVL72的整整两倍!

更厉害的是,这套网络还集成了英伟达SHARP技术,能在交换机内部直接执行集合通信操作(比如All-Reduce),不仅将有效带宽翻倍,还大幅降低GPU间的同步开销,让上万颗GPU协同训练时依然保持极高效率。

说到效率,就不得不提微软在数据中心基础设施上的极致创新。
GB300 NVL72集群功耗密度极高,传统风冷根本扛不住。Azure为此专门开发了新一代液冷+间接蒸发冷却混合系统,采用独立式热交换单元,大幅减少水资源消耗的同时,确保数千颗Blackwell Ultra GPU在满载运行时依然保持稳定低温。

电力方面,微软也重构了配电架构,支持动态负载均衡和超高能量密度供电,确保每一瓦电都用在刀刃上。

软件层面同样全面升级。从存储调度、任务编排到网络协议栈,Azure团队对整个软件栈进行了深度重构,确保计算、网络、存储和数据中心资源在超算规模下能被100%高效利用。

这种“硬件+软件+设施”三位一体的全栈协同设计,正是微软能比其他云厂商更快实现GB300大规模量产的关键。

英伟达负责超大规模与高性能计算的副总裁伊恩·巴克(Ian Buck)对此评价极高:“Azure推出的GB300 NVL72超级集群,是全球首个真正投入生产的GB300系统,为OpenAI运行多万亿参数模型提供了必需的超算引擎,这重新定义了加速计算的新标准。”这句话分量极重——要知道,英伟达自己都承认,这是“世界首个”量产级部署,意味着微软不仅拿到了首批芯片,更在系统集成、稳定性验证和规模化运维上遥遥领先。

展望未来,微软明确表示,这4600个GB300 NVL72只是开始。他们计划在全球AI数据中心部署“数十万颗”Blackwell Ultra GPU,构建前所未有的AI算力网络。对用户而言,这意味着模型训练时间将从“数月”缩短到“数周”,推理成本大幅下降,同时支持训练更大、更复杂的模型。无论是科研机构还是企业开发者,都将从中受益。

可以预见,ND GB300 v6虚拟机将成为下一代AI基础设施的事实标准。而微软Azure凭借与英伟达的深度协同、多年AI基础设施投资积累,以及端到端的工程能力,再次站在了AI竞赛的最前沿。接下来,随着全球更多GB300集群上线,我们有望看到更多突破性AI模型的诞生——而这一切,都建立在Azure与英伟达共同打造的这座算力“珠穆朗玛峰”之上。

(注:文中所有技术参数均基于微软官方博客2025年10月10日发布内容整理,性能数据为理论峰值,实际表现可能因工作负载而异。)

万亿参数模型训练进入“周时代”!微软Azure引爆全球首个GB300超级集群