GPU云战争真相:七层金字塔下,谁在摘果子,谁在搬砖?

本文揭示英伟达GPU云服务并非同质化竞争,而是七层金字塔结构:传统云全栈通吃,新云巨头专攻训练集群,平台型新云向上集成,基础设施玩家卷价格,市场平台做聚合。胜负关键不在GPU数量,而在占据哪一层价值链。

揭秘GPU云战争:别再被“大模型即服务”忽悠了,真正的战场在底层!

你是不是也听烦了那些华尔街分析师和主流媒体天天嚷嚷“GPU算力就是未来”?好像全球云计算巨头和新贵们都在干同一件事——卖GPU小时。但真相远比这复杂一百倍!

今天这篇文章,带你撕开“同质化GPU服务”的假象,深入七层AI云服务金字塔,看清谁在闷声发大财、谁在裸泳、谁才是真正能扛起下一代AI基础设施大旗的狠角色。这不仅是一场技术架构的较量,更是商业模式、定价权、生态话语权的生死博弈。

传统超大规模云服务商:全栈通吃,把GPU当成本,把AI当利润

先说微软Azure、亚马逊AWS、谷歌云、甲骨文OCI这些传统“老大哥”。他们可不是什么单纯的GPU出租屋,而是从最顶层的AI应用(比如Copilot、Amazon Q)一路干到裸金属服务器的“全栈垄断者”。这些巨头的商业逻辑很简单:GPU基础设施是成本中心,AI SaaS和模型API才是利润引擎。他们用低价GPU吸引客户上云,但真正赚钱的是L1–L4层——也就是你每天在Office里用Copilot、在编程时用CodeWhisperer、企业调用Bedrock模型API时付的那些钱。

举个例子,Azure的Copilot全家桶,你完全感知不到底下跑的是H100还是H200,甚至连“GPU”这个词都没出现过——这就是L1的价值:彻底抽象硬件。而到了L2层,Azure OpenAI服务提供GPT模型API,按token计费,边际成本极低,毛利率高得吓人。再往下,L3–L4比如Azure ML、SageMaker、Vertex AI,提供从数据准备到模型部署的完整MLOps流水线,绑死企业客户。至于L5–L7?对他们来说,只是支撑上层服务的“水电煤”。甲骨文OCI甚至专门拿裸金属GPU当卖点,强调“100%硬件性能交付”,但那也只是为了吸引对延迟极度敏感的HPC客户,并非主战场。

新云巨头崛起:不碰SaaS,专攻训练工厂,把集群当核心产品

和传统云厂商不同,CoreWeave、Lambda、Crusoe、Nebius这四家“新云巨头”(Neocloud Giants)根本不去碰L1那种轻飘飘的AI应用。他们从诞生第一天起,就瞄准了AI训练和大规模推理的真实痛点:不是单卡性能,而是千卡集群的互联效率、调度能力、故障恢复速度。他们主攻L4–L7层,尤其是L4(托管K8s+Slurm)、L5(AI超算集群)、L6–L7(高性能VM/裸金属)。

比如CoreWeave,直接把Kubernetes打造成AI原生平台,内置NVLink拓扑感知、InfiniBand RDMA优化、甚至和Run:ai深度集成做作业调度。他们的客户不是中小企业,而是Meta、xAI这种需要一次性调度上万张H100的巨头。Lambda Labs则靠“开箱即用”的训练环境和一键集群部署,在研究机构和初创公司中积累了口碑。Crusoe更狠,直接把数据中心建在废弃天然气田旁边,用“废弃能源”发电降低成本,最近甚至搞出“太空数据中心”实验——虽然听起来像噱头,但背后是对电力成本的极致控制。Nebius则在东欧构建超大规模MI300X和H100集群,强调“千卡无损通信”,专接那些被传统云厂商排队排到绝望的大模型训练订单。

平台型新云:向上集成,既要集群性能,也要API便利

如果说新云巨头是“重基建”,那Together、RunPod、Verda(原DataCrunch)、Gcore、Hyperstack这批“平台型新云”就是“软硬通吃”。他们既提供L6–L7的高性能GPU实例,又主动往上堆L2–L4层服务,搞出自己的模型推理API、托管微调平台、甚至轻量级MLOps工具链。

Together AI最典型——它直接提供200多个开源模型的serverless推理API,按token计费,对标AWS Bedrock,但价格更低、延迟更优。同时,它还开放全托管训练服务,客户上传数据,它帮你跑完整个LoRA微调流程,最后一键部署成API端点。RunPod则主打“开发者友好”,用“Pod”概念封装GPU实例,配合预装的PyTorch环境和自动扩缩容,让个人研究者也能低成本玩转大模型。Verda更是把B200/H200集群做成“即开即用”的产品,还内置模型监控和自动扩缩容。这些玩家的野心很明显:我不只是卖GPU小时,我要让你离不开我的平台。

基础设施优先型新云:纯硬件玩家,卷到只剩价格和拓扑

再往下看,Voltage Park、Cirrascale、Scaleway、Vultr这些“基础设施优先型”玩家,就完全是另一番景象了。他们几乎不做任何上层软件,就是把裸金属GPU服务器和集群租给你,价格透明、配置硬核。Voltage Park甚至能提供4096张H100组成的超级集群,全部通过3.2Tbps InfiniBand互联,专为千亿参数模型训练设计。Cirrascale则专注HPC风格的物理服务器租赁,适合那些不愿意被虚拟化层拖慢性能的客户。

但问题也在这里:他们的产品高度同质化。客户选你,只看两个指标——每小时多少钱,集群拓扑是否够快。一旦NVIDIA新一代GPU降价,或者竞争对手拿到更便宜的电力,他们的利润立刻被削薄。Scaleway和Vultr虽然也有H100实例,但基本停留在L6层,缺乏集群调度能力,只能吸引中小开发者或渲染农场客户。这类玩家,本质上就是GPU批发商,抗风险能力极弱。

GPU市场平台:Craigslist式聚合,底层之上的底层

最后,还有一类特殊角色:Vast.ai、Prime Intellect、TensorDock这类“GPU市场平台”。他们自己不建数据中心,而是像Airbnb一样,聚合全球各地的闲置GPU资源——可能是大学实验室的夜间空闲卡,也可能是小IDC的二手A100。用户在Vast.ai上提交任务,系统自动匹配最便宜的主机,按秒计费。

听起来很美好?但代价是稳定性和性能不可控。你可能租到一张被超售的卡,或者网络延迟高得离谱。这类平台本质上处于L6–L7的“灰色地带”,它们不拥有技术栈,只是信息中介。甲骨文收购TensorDock后,也只是把它当作补充渠道,核心业务依然靠自建集群。这类模式在GPU极度紧缺时有生存空间,但长期看,注定被整合或边缘化。

七层金字塔:谁在顶层摘果子,谁在底层搬砖?

现在,让我们把整个生态放进一个清晰的七层模型里:

L1:全托管AI应用(Copilot、Amazon Q)——利润最高,完全抽象硬件,传统云垄断。  
L2:模型即服务(Bedrock、Together Inference)——按token收费,软件利润率,平台型新云正在进攻。  
L3:托管训练/微调(SageMaker Fine-tuning、Together Training)——绑定数据和模型生命周期,高粘性。  
L4:ML/MLOps平台(Vertex AI、CoreWeave K8s)——工程效率工具,决定客户能否规模化。  
L5:托管GPU集群(AKS GPU Pools、Voltage Park HGX)——AI超算核心,新云巨头主战场。  
L6:GPU虚拟机(EC2 P5、RunPod Pod)——入门级选择,价格战最激烈。  
L7:裸金属GPU(OCI Bare Metal、HGX租赁)——极致性能,HPC和大模型训练刚需。

传统云从L1干到L7,用上层利润补贴底层;新云巨头卡在L4–L7,靠集群性能吃饭;平台型新云从L7往上爬,试图构建闭环;基础设施型玩家困在L5–L7,卷生卷死;市场平台则在L6–L7打游击。

投资启示:别看GPU销量,要看谁掌控了哪一层

对投资者来说,关键不是“哪家用了最多H100”,而是“哪家在价值链上占据了不可替代的位置”。传统云的护城河在于L1–L2的数据飞轮和客户锁定;新云巨头的护城河在于L4–L5的集群调度能力和长期电力协议;平台型新云如果能成功把L2–L3做起来,就有机会从基础设施商蜕变为软件公司;而纯L6–L7玩家,在GPU供应缓解后,大概率会被洗牌出局。

更关键的是,NVIDIA的新品发布节奏,最先影响的是L6–L7层。H200刚上市时,只有Voltage Park、CoreWeave这些玩家能立刻上架;几个月后,AWS、Azure才在P5/P6实例中提供;再过半年,Bedrock、Together才支持H200加速的推理。这意味着,底层玩家要承担硬件贬值风险,而顶层玩家可以稳坐钓鱼台,把硬件迭代的成本转嫁给客户。