英伟达自己都不建数据中心?芯片巨头竟靠租用算力狂飙AI!
你以为英伟达造出最强GPU芯片,就一定自己建数据中心、自己跑大模型训练?错!大错特错!最新消息爆出:英伟达内部的AI训练任务、公司级大模型工作负载,居然大量跑在一家叫“CoreWeave”(中文名:科威夫)的云服务商上,还有其他几家被称为“Neoclouds”(新云厂商)的新兴算力平台!这事儿听起来是不是有点魔幻?芯片制造商不自己用自家芯片搭机房,反而去租别人的?但背后逻辑,恰恰揭示了AI时代最残酷也最真实的竞争法则——时间就是算力,速度压倒一切!
先来简单介绍一下背景。CoreWeave这家公司,可能很多普通用户还不太熟悉,但它在AI圈子里可是如雷贯耳。它不是传统云巨头,比如亚马逊AWS、微软Azure那种“什么都卖”的综合云平台,而是专注GPU算力、专为AI训练优化的新一代云服务商。它从成立之初就All in英伟达GPU,把整个基础设施围绕A100、H100甚至最新的Blackwell芯片深度定制,调度效率、网络延迟、存储吞吐全都为大模型训练量身打造。而“Neoclouds”这个概念,指的就是像CoreWeave这样,不靠通用云计算起家,而是专攻AI高性能计算的新型云厂商。
那么问题来了:英伟达作为全球GPU霸主,手握最先进芯片、最顶尖技术团队,为什么不自己建数据中心跑自己的AI任务?
正方观点:
建数据中心太慢了!从选址、拿地、电力审批、机房建设、冷却系统部署,到服务器上架、网络调优、软件栈部署……一套流程走下来,动辄12到18个月。可AI技术迭代有多快?模型参数翻倍、训练数据爆炸、算法日新月异,等你数据中心建好,可能市场早就换了三轮格局!英伟达CEO黄仁勋早就说过:“在AI时代,速度就是护城河。”所以,与其花两年时间自建,不如立刻租用现成的、高性能的、弹性可扩的云算力,今天下单,明天就能跑千亿参数模型!
更关键的是,英伟达此举其实是一种“战略闭环”操作。它不仅卖芯片给CoreWeave,还把自己的内部工作负载交给对方运行——这等于用实际行动为合作伙伴背书!等于告诉全世界:“你看,连我自己都信任CoreWeave的基础设施,你们还不赶紧上车?”这种“自用+推荐”的模式,比任何市场宣传都更有说服力。同时,为了确保这些新云厂商能持续稳定提供服务,英伟达甚至会“回租”或“担保容量”——什么意思?就是当CoreWeave出现算力闲置时,英伟达承诺兜底采购一部分资源,确保对方现金流健康、持续扩张。这既保障了自身未来算力供应,又扶持了生态伙伴,一箭双雕!
科技巨头追求“垂直整合”——自己造芯片、自己建机房、自己写软件,比如谷歌的TPU+数据中心一体化。但现在,连英伟达这样的硬件王者都选择“轻资产+生态协同”,说明在AI军备竞赛中,灵活性、敏捷性和生态协同效率,已经压倒了传统的资产控制欲。你不需要拥有所有东西,但你必须能最快调用最优质的资源。这就是“时间到容量”(Time-to-Capacity)比“所有权”更重要的新时代逻辑。
反方观点:
英伟达是从一块显卡(GPU)起家的。早年它的客户是游戏玩家、图形工作站用户,后来是科研机构和超算中心。那时的思维模式是:做好一块高性能、高能效的加速卡,插进别人的服务器或PC里就行。GPU是“配件”,生态由主板厂商、服务器厂商、操作系统和应用开发者共同构建。英伟达只需在自己的“小板子”上做到极致。
但AI大模型时代的到来彻底改变了游戏规则。GPU不再是“可选加速器”,而是整个AI计算系统的“心脏”——训练千亿参数模型、推理实时响应、多卡互联通信、内存带宽瓶颈、电力与散热效率……所有这些,都不再是单卡性能能解决的问题,而是系统级工程。这时候,如果英伟达只盯着“板子”,就会错失定义下一代计算范式的机会。
如果英伟达亲自下场造算力中心、建数据中心,它会不会从“最终用户”而非“中间客户”的视角,重新设计GPU?
英伟达当前战略中一个极其危险、却被市场狂热掩盖的“灯下黑”:它造出了全世界最强大的AI引擎,却始终没真正坐在驾驶座上开过车。
英伟达的“客户视角”,长期停留在“卖给谁”而不是“谁在用”。它的直接客户是服务器厂商(戴尔、HPE)、云服务商(AWS、Azure)、新兴Neocloud(如CoreWeave)——这些是“中间商”。而真正的终端用户,比如OpenAI、Anthropic、Meta、字节、阿里,他们不是在“买GPU”,而是在“买结果”:更快训练出模型、更低延迟响应用户、更低成本跑推理、更稳地支撑千万级并发。但英伟达的产品设计逻辑,依然围绕“单卡性能”“TFLOPS”“显存带宽”这些硬件指标打转,而不是围绕“一个ChatGPT请求从用户点击到返回答案的全链路体验”来重构。
这就是典型的“灯下黑”:离火最近的人,反而看不见火怎么烧。
试想,如果英伟达真的把屁股坐在数据中心里,亲自运营一个万卡级AI工厂,每天面对的是:
- 模型训练中途因NVLink故障中断,损失数百万美元;
- 推理服务因显存碎片化导致吞吐暴跌;
- 多租户调度时GPU利用率不到40%;
- 电力账单暴涨但算力产出不成正比;
- 软件栈版本混乱导致新模型无法上线……
而现实是,英伟达至今没有一款真正为“AI工厂”原生设计的GPU架构。它的H100、B100,本质上还是“插在服务器里的加速卡”,依赖PCIe、依赖x86 CPU做控制面、依赖复杂的驱动和CUDA抽象层。这种架构在单机或小集群尚可,但在万卡规模下,通信开销、调度延迟、故障传播、能耗比,全都是灾难。
反观真正的终端用户——比如OpenAI,他们早就开始自研AI基础设施:从定制InfiniBand拓扑,到开发自己的调度器(如Kubernetes的AI分支),再到探索Chiplet级集成、光互联、液冷一体化。他们不是在“用GPU”,而是在“绕过GPU的局限”。
英伟达的傲慢在于:它以为只要芯片足够强,生态就会自动适配。但它忘了,当AI进入工业化阶段,软件定义硬件、场景驱动架构才是王道。你不能指望一个为游戏和图形设计的硬件思维,无缝切换到支撑全球AI服务的基础设施思维。
更讽刺的是,英伟达自己内部训练都跑去租CoreWeave——这说明连它自己都知道,纯靠卖卡,搭不出高效AI工厂。可它却不愿彻底跳下“硬件供应商”的神坛,真正以AI服务运营商的身份重构产品。它宁愿用“DGX”这种高价封闭盒子模拟数据中心体验,也不愿开放底层、拥抱异构、为真实云原生AI工作负载做深度优化。
这就是灯下黑:站在山顶看世界,以为自己掌控全局,却看不见脚下裂缝正在蔓延。
如果英伟达继续只从“卖芯片给中间商”的角度思考,而不从“支撑一个ChatGPT每天处理百亿请求”的终端场景出发,那么终有一天,当客户发现“与其买英伟达的卡再自己搭积木,不如直接用端到端AI平台”时,它的护城河就会被软件和系统级创新悄然绕过。
不坐在数据中心里流汗,就永远设计不出真正属于AI时代的心脏。