英伟达Blackwell部署崩盘!OpenAI与Meta急等GB300救援

英伟达Nvidia的黑卡Blackwell芯片家族在2024年遭遇了长达一年的部署噩梦:OpenAI、Meta等顶级客户在购买价值数十亿美元的Grace Blackwell服务器后,发现这些系统存在严重过热和连接问题,导致大规模AI训练项目被迫延迟。Nvidia通过推出改进版GB300芯片、提供退款和折扣来平息客户怒火。这场危机暴露了超大规模AI基础设施部署的脆弱性,也为Google等竞争对手创造了机会窗口。


一年前老黄吹的牛皮炸了锅

一年前的某个阳光明媚的分析师电话会议上,Nvidia掌门人皮衣黄Jensen Huang端着咖啡杯,用那种典型的"老黄式淡定"告诉华尔街的精英们,从上一代AI服务器芯片过渡到新一代Blackwell的过程对客户来说"充满挑战性"。

这话说得轻巧得像是在讨论周末去哪儿野餐。

老黄当时掰着手指头数:机框得换、系统架构得改、硬件得升级、供电系统得推倒重来,所有这些东西都得变,目的只有一个,让芯片性能再往上蹿一蹿。这番话当时听起来像是技术进步的阵痛,现在回头看,根本就是灾难预告片的开场白。

实际情况比"充满挑战性"刺激多了。

对于OpenAI、Meta Platforms这些Nvidia的招牌大客户来说,把Blackwell服务器搞上线这件事,直接变成了一场持续数月的科技版《生存挑战》。两位与OpenAI和其他大客户打交道的Nvidia员工,加上一位亲自处理这些烂摊子的Meta员工,异口同声地证实,去年大部分时间,这些科技巨头都在跟Grace Blackwell系统的稳定性死磕。

他们 struggles to set up and use these systems reliably,翻译成人话就是:装上去跑不起来,跑起来会崩溃,崩溃了要重启,重启了还报错。

这些内部人士还补了一刀:相比之下,Blackwell之前的Nvidia AI芯片简直是天使般的存在,客户收到货几周内就能把它们调教得服服帖帖,该训练训练,该推理推理,一点都不闹脾气。



四万亿市值的底气:搞砸了大客户照样数钱

说实话,Nvidia的大客户们在Grace Blackwell芯片上踩的这些坑,放在任何一家普通公司身上都足以让股价腰斩、CEO引咎辞职。但Nvidia不是普通公司,它是"芯片界的灭霸"。

这些技术挫折压根没在这家芯片巨擘的商业版图上砸出多大的坑。Nvidia依然是全球市值最高的公司,4.24万亿美元的市值摆在那里,相当于好几个国家的GDP加在一起。华尔街的投资者们似乎认定,只要AI还在火,Nvidia就永远是那个卖铲子的。

更重要的是,看起来Nvidia终于把阻止大客户快速部署大量芯片的技术bug修得差不多了。

但这种"先搞砸再修复"的模式埋下了隐患。如果未来的Nvidia芯片继续上演这种"发布即灾难"的戏码,竞争对手的机会就来了。Google这种一直在后面虎视眈眈的玩家,要是能让客户更快地把大规模芯片集群跑起来,完全有可能从Nvidia手里抢走蛋糕。

云服务商的日子也不好过。他们为了抢Blackwell芯片砸下去的真金白银,结果因为部署困难导致利润被压缩,这种冤大头当一次就够了。更惨的是那些依赖这些芯片训练下一代AI模型的公司,每一周的延迟都意味着被对手甩开更远。

这篇报道的信息来源包括Nvidia和Meta的员工、使用Nvidia芯片的云服务商工作人员,以及帮数据中心安装这些芯片的Nvidia合作伙伴。



OpenAI和Meta的隐痛:芯片不够大模型就长不大

对于OpenAI和Meta这种量级的客户来说,没法按预期规模使用芯片集群,直接卡死了他们训练更大AI模型的野心。

想象一下,你花了几百亿美金建了个超算中心,结果发现买来的发动机要么过热熄火,要么互相之间沟通不畅,整个车队跑不起来。这种憋屈感,OpenAI和Meta的技术负责人估计深有体会。

虽然这些金主爸爸们没在公开场合抱怨过Nvidia,但一位Nvidia员工透露,有些客户已经私下里跟他们的Nvidia对接人吐苦水了。这种"表面笑嘻嘻,心里mmp"的状态,在硅谷的大客户关系中算是常态。

为了安抚这些怒火中烧的客户,Nvidia去年不得不掏出血本:部分退款、Grace Blackwell相关的折扣,统统安排上。一位云服务商高管和一位参与这些交易的Nvidia员工证实了这笔"安抚费"的存在。

这就像是卖豪车的发现发动机有问题,不得不给车主退部分车款还送保养套餐,面子和里子都丢了不少。



72颗芯片手拉手:成也集群,败也集群

Nvidia和云服务商的高管们表示,他们遇到的主要问题出在一种特殊的服务器上。这种服务器把Grace Blackwell芯片以72颗为一组链接起来,让它们之间能以超高速通信,像一个统一的超级大脑一样工作。

这些服务器还能跟其他服务器联网,组成更大的超级集群,专门用来进行AI模型的密集训练。

这种设计听起来很美好,现实却很骨感。

Nvidia发言人的回应很有公关技巧:公司已经在2024年回应过关于Grace Blackwell系统部署缓慢的问题。当时他们在给The Information的声明里把这些系统称为"人类创造的最先进计算机",还说需要"与客户共同工程化"。

声明里还写道:"Nvidia正在与领先的云服务商合作,将他们作为工程团队和流程的组成部分。工程迭代是正常的,也是预期的。"

翻译一下:我们知道有问题,但这些问题都在计划内,别担心。

OpenAI的基础设施高管Sachin Katti的表态更官方:"与Nvidia的合作正在按计划推动我们的研究路线图。我们正在训练和推理中充分利用每一块可用的Nvidia芯片,实现快速迭代和部署,正如最近发布的OpenAI模型所展示的那样。"

Meta的发言人选择了沉默,拒绝置评。



成长的代价:从设计缺陷到GB300救场

有迹象表明Nvidia从这次翻车事故中学到了教训。他们对当前的Grace Blackwell系统做了改进,还在准备今年晚些时候推出的下一代服务器,基于名为Vera Rubin的新芯片。

去年,公司发布了Grace Blackwell芯片的更强版本,确保它们比前辈们跑得更稳。两位参与设计的人士透露,这些更强的芯片叫GB300,散热能力更强,用料和连接器质量也比上一代更高。

Meta的工程师们发现,用新版系统组建集群比原来轻松多了,一位直接了解情况的Meta员工证实了这一点。一些客户比如OpenAI,甚至把还没收到的原版Grace Blackwell订单改成了新版,一位与OpenAI合作的Nvidia员工透露了这个消息。

到了去年秋天,Nvidia告诉投资者,Blackwell相关销售的大部分已经来自改进后的Grace Blackwell服务器,公司计划今年大规模出货这些服务器。

马斯克Elon Musk的xAI在这场部署竞赛中似乎领先了一步:这家重度依赖Nvidia芯片的公司,去年10月已经在孟菲斯的数据中心让大约10万颗Grace Blackwell芯片跑起来了。The Information此前报道过这个数字。不过xAI的方法是否产生了更好的结果,目前还不清楚。



先造再测:硅谷速度的双刃剑

Blackwell项目的目标很明确:帮助客户以比上一代芯片更大的规模、更低的成本训练AI模型。

在Nvidia的上一代服务器里,客户最多只能把8颗芯片连在一起,而且它们之间的通信速度还比较慢。到了Blackwell这一代,Nvidia的目标是通过在一个服务器里把72颗Grace Blackwell芯片串联起来,减少不同服务器之间的数据传输量。这样做能解放数据中心的网络带宽,用来训练和运行更大的AI模型。

把芯片组织成这么大的集群,本来还应该提高训练出的模型质量。一位参与集群建设的Oracle员工说,这些系统旨在限制训练过程中通常会出现的硬件错误数量。

结果,Nvidia的新方法带来了新的脆弱性。

把这么多芯片紧密绑在一起,创造了一个风险:只要有一颗芯片出故障,就可能触发连锁反应,搞垮或扰乱包含数千颗芯片的整个集群。三位有经验的人士表示,公司可能要花几千到几百万美元,才能从上次保存的检查点重启被中断的训练任务。

Nvidia的Grace Blackwell系统 rollout 从一开始就不顺。2024年夏天,随着设计缺陷推迟生产,芯片问题开始浮出水面。一年前,当首批Blackwell芯片运抵客户设施时,过热和连接问题困扰着服务器机架,导致微软、亚马逊云服务、Google和Meta等主要客户减少订单,转而购买老芯片。

几位订购Grace Blackwell的云服务商员工认为,Nvidia在硬件和软件完全准备好之前就发布给客户了。

但一位前Nvidia高管为公司辩护,称72芯片Grace Blackwell服务器的成长阵痛反映了老黄喜欢挑战技术极限的倾向,而不是选择稳妥路线。现任和前任Nvidia员工都认为,指望Nvidia知道它的芯片在OpenAI和Meta这种客户规划的规模下会如何表现,是不现实的。

有迹象表明OpenAI现在正在大规模使用Nvidia的72芯片服务器。周四,OpenAI表示,公司最新的AI编程模型GPT-5.3-Codex就是"共同设计、训练并使用"这些特定系统的。



云服务商的血泪账:等客户付款等得花儿都谢了

整个去年,这些延迟伤害了一些OpenAI的云合作伙伴。他们重金投资Grace Blackwell,原本指望快速上线收回成本,结果芯片趴窝,钱砸进去了回报迟迟不来,一位在两家云服务商任职的高管描述了这种窘境。

云服务商只有在客户开始使用芯片后才能拿到钱,这是行业规矩。

为了缓解资金压力,一些云服务商去年与Nvidia谈判拿到了折扣,允许他们为实际使用的芯片数量支付更少的费用,一位参与这些交易的云服务商高管透露。

Nvidia还为一些客户退回了服务器的款项,一位Nvidia员工和一位在Nvidia制造合作伙伴处工作的人士证实。

云服务商在推出新技术时往往利润微薄,因为在客户开始为硬件付费之前他们就承担了成本。举个例子,在截至8月的三个月里,Oracle因为Blackwell家族芯片的租赁业务损失了近1亿美元。The Information看到的一份文件显示,这笔钱烧在了Oracle准备服务器供客户使用到OpenAI实际开始使用并付费之间的时间差上。

这份作为Oracle云高管内部演示一部分的文件称,Grace Blackwell租赁的负毛利率"主要由"OpenAI在德州阿比林数据中心的Grace Blackwell系统以及"客户验收期"的延迟驱动,这个验收期指的是OpenAI测试和接受硬件所需的时间。

Oracle后来告诉投资者,其AI云业务最终将实现30%到40%的毛利率,包括公司承担费用让数据中心上线的爬坡期。

Oracle发言人拒绝置评。



极客辣评:

一个亮点是对行业权力动态的精准刻画:Nvidia作为无可替代的供应商,即使搞砸了交付,客户也只能私下抱怨、接受补偿,然后继续下单。
这种不对等的关系,在芯片短缺的时代被放大到了极致。