别再跪舔三巨头:你的钱正在被“通用云”白烧
兄弟姐妹们,今天咱们聊点扎心又现实的——你是不是还在傻乎乎地觉得,“上云就得上AWS、Azure、GCP”?觉得它们体量大、品牌响、服务稳,贵就贵点无所谓?
行,我问你一句:2025年了,你现在跑一次千亿参数大模型训练,预算是多少?五千万?一亿?还是已经冲到十亿美金级别?
如果答案是肯定的,那我要拍你脑门了——你这不是在烧钱,你是在给通用云巨头的历史包袱当人肉电池!它们那套“通用虚拟化架构”,表面上资源池化、弹性调度,实则像给F1赛车强行套上三蹦子外壳,发动机排量看着是5.0T,可跑起来全是延迟、抖动和虚拟化税,烧的每一分钱都是你融资来的血汗钱,根本没多少真正用在“算”上!
先认识今天的“吹哨人”:Ben Bajarin到底是谁
在进入技术深水区之前,咱们得先搞清楚,今天这场算力革命是谁最先吹响的哨子。Ben Bajarin,Creative Strategies的首席分析师,硅谷老炮儿,三十年如一日专治各种技术泡沫,苹果、Meta、微软都请他去“喝茶”,但他从不站队,只信数据。
最近他花三个月深度调研CoreWeave,结果直接把这家公司的底裤都扒光了——结论就一句:“能把GPU利用率干到60%以上的,才是AI时代的真爸爸,其他全是GPU二房东。”这句话听着糙,但精准得像手术刀。
在MFU(模型浮点利用率)普遍只有30%的行业里,能干到55%甚至60%,意味着什么?意味着同样的硬件,你能快一倍交付模型,客户生命周期价值直接翻番。
扫盲时间:“Neocloud”不是新云,是GPU炒房团
很多人听到“Neocloud”(新云)就以为是什么高大上的技术范式,别被术语唬住——说白了,它就是“算力黄牛云”。
2022年H100一卡难求,黄牛加价三倍都抢不到,于是冒出一批“中间商”:左手抵押贷款买卡,右手签十年机房合同,再挂个Kubernetes面板,就敢对外收租,业内黑话叫“GPU REIT”(算力房地产信托)。
听着很金融很高级,本质就是“炒GPU”,跟炒房没区别。一旦英伟达产能爬坡、市场供过于求,这些靠杠杆堆起来的“云”立马崩盘。但有意思的是,CoreWeave也是从这个“黄牛”身份起家的,可它没止步于此,反而把黄牛生意干成了技术革命。
CoreWeave:从矿老板到AI基建狂魔的逆袭
2017年,CoreWeave还只是几个ETH矿老板的副业。后来以太坊转PoS,矿机全变废铁,他们灵机一动:显卡不挖矿了,能不能“租出去”?于是买了点机柜,装上K8s,挂个网页,就开始收租——典型二房东。
但人家厉害在哪?一边收租,一边偷偷练内功。别人还在拼价格、拼卡数,CoreWeave却把“机柜”当作最小产品单元,直接采购NVL72整机架(72块GB200 Superchip),用NVLink和InfiniBand把整个机柜焊成一个“通信孤岛”,延迟压到纳秒级。
你想想,千亿参数模型做all-reduce,普通云靠以太网跨机房传数据,等于春运绿皮车运黄金;而CoreWeave是在一个封闭车间里用真空管道秒传,效率差十倍都不止。
为什么说“机柜是产品”,不是“显卡是SKU”
兄弟你必须记住一个残酷事实:大模型训练,通信瓶颈远大于计算瓶颈。一次训练要反复做all-reduce,把千亿参数在几千张卡之间同步,哪怕延迟高1毫秒,累积下来就是几小时浪费。
AWS、Azure为了通用性,把GPU散落在全球各地,靠以太网互联,带宽低、延迟高;而CoreWeave直接把72块GB200用NVLink 5.0焊死在一个NVL72机柜里,岛内带宽高达7TB/s,再用InfiniBand NDR 400G做机柜互联,配合NVIDIA的SHARP协议——这个协议牛在哪?它能把归约(reduction)操作直接卸载到交换机芯片里做,不用把数据传回GPU,省下的时间全是真金白银。
训练一次省下的电费,够给整个工程团队发年终奖。
DPU黑科技:把“虚拟化税”彻底归零
再说个更狠的——虚拟化税。
AWS为了支持多租户,必须用Hypervisor做隔离,这一层抽象就要吃掉8%-12%的算力。
听起来不多?可你算算:一次训练花5000万美金,这就白扔掉500万!CoreWeave怎么做?它把网络、存储、加密、隔离全部卸载到NVIDIA BlueField DPU上。主机GPU直接裸奔,客户拿到的是“零税裸金属”性能,同时享受VPC级别的安全隔离。
这叫什么?叫“性能与安全兼得”。三巨头想抄?难!它们的整个IaaS架构建立在Hypervisor之上,要全盘切换就得把十年老底子掀掉重来,股价立马崩给你看。
MFU才是爹:谁在让GPU干活,谁在让它摸鱼
Model Flop Utilization(模型浮点利用率),翻译成人话就是:“你的显卡到底是在干活,还是在刷抖音?”行业平均MFU只有30%左右,意味着GPU 70%时间在等数据、等通信、等调度。
CoreWeave靠什么干到55%+?
三件套:自研调度器CKS(Cluster Kernel Scheduler)、拓扑感知任务调度、Tensorizer快速加载。
CKS能精确感知每块GPU的物理位置、NVLink连接关系,把通信密集的任务钉死在“邻居GPU”上,减少跨节点跳转;
Tensorizer能把checkpoint压缩到极致,秒级加载,避免训练空窗;
再加上硬件故障秒级剔除机制,整个集群像一台精密仪器,没有一滴算力浪费。
参考:DeepSeek再扔降成本核弹:动态负载平衡LPLB把MoE训练成本打到骨折
Mission Control:把SRE变成你的“外包保姆”
传统云厂商机器坏了怎么办?发封邮件:“亲,您的实例异常,请自查。”
CoreWeave呢?它有个叫“Mission Control”的7×24自动化运维系统,像机器人哨兵一样巡逻整个集群。
NIC一抖?自动隔离。GPU温度飙升?作业秒级漂移到健康节点。训练中断?自动从checkpoint续跑,连日志都不丢。
这种“SRE即服务”的能力,以前只有谷歌内部才有,现在CoreWeave打包卖给你,工程师睡觉都能笑醒。
你想想,对一个烧钱如流水的大模型团队来说,这种“无感故障恢复”值多少钱?可能比省下的电费还贵。
四大结构性优势,刀刀见血
第一,真实拓扑 vs 虚假规模。AWS吹“百万GPU”,但它们散在全球十多个区域,通信靠公网,延迟动辄几毫秒;CoreWeave一个pod就是72卡NVLink岛,岛内带宽7TB/s,降维打击。
第二,零虚拟化税。巨头舍不得拆老架构,CoreWeave从第一天就按裸金属设计。
第三,MFU优先的调度栈。通用K8s根本不懂AI通信模式,CoreWeave全栈自研,从固件到调度器全为AI优化。
第四,战略聚焦。巨头要服务数据库、网站、IoT、ERP,AI只是其中一个SKU;CoreWeave只啃最贵最急的那口肉——前沿训练、高吞吐推理、反锁仓中立区,效率自然爆表。
创新者窘境:巨头越成功,越难转身
这就是典型的“创新者窘境”(Innovator’s Dilemma)。AWS如果现在把所有以太网换成InfiniBand,存量客户——那些跑传统应用的企业——立马炸锅:“我们代码没改,怎么网络不通了?”股价一天蒸发千亿美元。
但如果不改,就只能眼睁睁看着月烧两亿美金的大客户被CoreWeave挖走。小公司没有历史包袱,可以孤注一掷押注AI;巨头却被自己的成功锁死,进退两难。CoreWeave就像那个专啃皇冠明珠的小钢炮,不求大而全,只求在最锋利的刀尖上跳舞。
客户画像:谁在疯狂给CoreWeave送钱
三类人:第一类是前沿大模型实验室,比如xAI、Anthropic、Mistral,它们时间比钱贵,早一天发布就多一分胜算,愿意为70%的MFU溢价买单;
第二类是高并发推理厂,比如Runway、Pika这类视频生成App,需要1秒出240帧高清视频,推理成本砍一半就能盈利;
第三类是“反锁仓”企业——它们怕AWS拿到训练数据后复制自家产品,宁愿把算力放在中立云,数据握在自己手里。
CoreWeave就是它们心中的“算力瑞士”,中立、安全、极致性能。
赤裸风险:高杠杆、高集中,一摔就碎
但兄弟们别光听好处,风险也得看清。CoreWeave目前负债率高达70%,靠英伟达和软银输血续命;客户前五名占营收60%以上,极度依赖头部;更致命的是,它商业模式建立在“GPU稀缺+高价”基础上。
一旦英伟达H200/H300产能爆炸,H100价格腰斩,租赁利差瞬间压缩,现金流立刻吃紧。
所以想投它股票的,得先跪求黄仁勋别发善心降价——毕竟,这是一家在算力饥荒中靠“榨汁”活下来的公司,一旦水源泛滥,榨汁机就成废铁。
结论:算力饥荒期,专业狠人赢
只要大模型还处于“暴力美学”阶段——靠堆参数、堆数据、堆算力取胜——时间就是一切。CoreWeave用极致拓扑、零税裸金属、MFU狂飙,把训练成本打到巨头七折,客户用真金白银投票。
等哪天算力像自来水一样便宜、AI能耗比降到手机级别,它或许会重回“二房东”身份。
但在此之前,AWS、Azure、GCP只能眼睁睁看着最肥的肉被叼走。不是它们技术不行,而是它们太成功,成功到不敢自宫。
最后一巴掌:记住,AI不是通用云的“子集”
兄弟们,把这句话刻进DNA:“在云巨头的legacy迷宫里,AI训练只是众多SKU之一;而在CoreWeave的孤岛上,每一度电、每一根光芯、每一个浮点,都只为token而生。”今天你若还迷信“大而全”的通用云,明天你的算力账单就会把你活活烧到融断。别等了,去拥抱那些为AI而疯狂的专业狠人——因为在这个算力即权力的时代,效率就是命,MFU就是王。散会!