昔日云计算王者亚马逊在AI算力基础设施新赛道掉队

AWS在通用云服务上领先,却在AI基础设施上严重滞后,过度押注自研芯片Trainium,忽视客户对英伟达生态的依赖,正面临失去关键大客户的巨大风险。

AWS掉队了?AI算力大战中,它正被英伟达甩在身后!

亚马逊云科技AWS正在AI算力这场世纪大战中悄悄掉队。你可能觉得AWS是全球最大的云服务商,怎么可能掉队?但现实很残酷:在AI基础设施这条新赛道上,AWS已经落后了,而且落得还不小。

首先,我们要搞清楚一个根本区别:传统云原生(Cloud Native)和AI工作负载(AI Workloads)完全是两码事。

AWS过去十几年的成功,建立在通用计算、弹性伸缩、微服务架构这些“云原生”能力之上。它的自研芯片Graviton在通用计算场景下确实省电又省钱,客户也买账。

但AI不一样!AI训练和推理极度依赖高性能GPU,尤其是英伟达的A100、H100,甚至最新的Blackwell架构芯片。而AWS在GPU集群的部署规模和网络基础设施上,明显慢了不止一拍。

有内部人士透露,目前AWS还在大量使用P5实例部署GB300集群——注意,这已经是相对老旧的方案了。虽然他们也在建设面向生成式AI的数据中心,但到目前为止,大部分投入还集中在网络侧,真正能跑大模型的服务器数量非常有限。换句话说,AWS的“AI底座”还没完全建好,而对手比如微软Azure和谷歌云,早就把成千上万块H100铺满了数据中心。

更致命的是战略误判。

AWS管理层似乎被Graviton的成功冲昏了头,以为只要自己推出自研AI芯片Trainium(中文常称“训练芯片”)和Inferentia(推理芯片),客户就会像用Graviton一样乖乖买单。

但现实狠狠打了脸。为什么?因为AI开发者只认英伟达!CUDA生态已经成了行业事实标准,PyTorch、TensorFlow这些主流框架深度绑定CUDA,换一个芯片就意味着重写代码、重调模型、重训数据——成本高到离谱。没人愿意为了省那点钱,把自己绑死在AWS一家的封闭生态里。

而且,AWS入场太晚了。

虽然早在2020年就推出了P3 GPU实例,但真正为生成式AI和高性能计算(HPC)优化的网络拓扑,直到2023年9月、10月才上线。

这三年黄金窗口期,他们几乎浪费了。反观微软、甲骨文和新云厂商靠着和OpenAI的深度绑定,提前布局万卡集群;谷歌则凭借TPU和JAX生态稳住基本盘。AWS呢?还在试图用“Trainium会更便宜”来说服客户,结果大客户根本不买账。

最让人担心的是,AWS可能正在失去Anthropic这样的关键客户。Anthropic是当前最炙手可热的AI初创公司之一,Claude大模型的开发商,也是AWS的重要合作伙伴。但如果AWS无法提供足够规模、足够先进的英伟达GPU集群,Anthropic完全可能把训练任务转移到Azure或者GCP。一旦连这样的标杆客户都留不住,AWS在AI领域的信誉将遭受重创。甚至有内部人士直言:“不能失去Anthropic,真的不能。”

据彭博社最新报道,Anthropic 正在与谷歌就一项价值数百亿美元的云计算交易进行初步谈判。

还有人担心,连即将推出的Trainium 3(Trn3)也可能重蹈覆辙。如果继续忽视客户对英伟达生态的依赖,一味强调自研芯片的成本优势,只会让开发者敬而远之。说到底,AI不是比谁更省钱,而是比谁更快、更强、更开放。AWS的“成本 obsession”(成本执念)在AI时代可能成了绊脚石。

总结一下:AWS在通用云服务上依然是王者,但在AI基础设施这场新战争中,它起步晚、押错宝、生态封闭、GPU库存不足,正面临被边缘化的风险。如果不能迅速调整策略,加大英伟达GPU采购,同时降低对Trainium的过度依赖,它很可能错失整个AI时代最大的红利。