赛道开场白:AI不是算法游戏,是印钞机与碎钞机的轮盘赌
SemiAnalysis这份最新“云网格大奖赛”报告,把Oracle、AWS、谷歌、微软、CoreWeave五大厂商比作F1车队,谁家引擎轰得响,谁家刹车片冒烟,谁家直接把预算表当草稿纸撕得粉碎,一次性给你拆个明明白白。
看完你就知道,为什么你老板突然说“预算无上限”,下一秒又让你“差旅改绿皮火车”,因为整个云计算江湖都在上演真人版《速度与激情:破产版》。坐稳了,安全带系好,我们直道上见真章!
这场AI军备竞赛早已不是比谁写代码快、谁模型层数深,而是比谁账上现金多、谁敢把融资当零花钱、谁能在黄仁勋的工厂门口搭帐篷排队买H100芯片的原始争夺战。而在这条烧钱直道上,有人开着金箔贴满的跑车呼啸而过,有人却在弯道上爆胎冒烟,连备用轮胎都没带,简直是修罗场中的修罗场,血池里的F1。
Oracle“红牛”队:预算上限是什么?能吃吗?直接甩10亿美金当零花
先给没见过世面的小伙伴们科普一下,Oracle在数据库时代就是“买游艇不眨眼”的老钱土豪,现在AI风口一来,人家直接把信用卡甩桌上:“刷!刷到冒烟为止!”
SemiAnalysis爆料,Oracle过去12个月往AI基建里砸了整整100亿美元,注意,这是现金,不是PPT画饼!别人还在纠结H100是不是缺货,Oracle已经包下整条生产线,连黄仁勋晚上加班的夜宵都给他们点好。
更骚的是,他们签了OpenAI独家引擎地图,相当于F1里直接把奔驰双涡轮塞自己车里,还不用交技术转让费。你以为他们在搞技术?错,他们在搞“技术恐吓”——用钞票堆出一堵墙,让竞争对手连尾气都吸不到。
所以别问Oracle的AI性能为什么领先,问就是“钞能力”三个字,写起来比“优化”简单多了。而Oracle的云高管在接受媒体采访时甚至直言:“我们不考虑ROI(投资回报率),我们只考虑怎么把对手的ROI变成负数。”这种杀疯了的打法,连华尔街都看傻眼了。
要知道,传统企业还在为百万级GPU采购发愁时,Oracle已经把数据中心建进了NVIDIA的仓库里,连电源线都用金丝编织,这哪是搞AI,这是用美元当燃料烧出一条AI高速公路。
AWS“法拉利”队:昔日王者自己砍自己,EFA变速箱血泪史堪比前任复合
AWS当年可是云计算界的舒马赫,垄断赛道十年,连呼吸都带着市场份额的甜味。
可偏偏这位老大哥得了“创新焦虑症”,非要搞自家独门变速箱——Elastic Fabric Adapter,简称EFA,听起来像黑科技,实际上一上高速就掉链子。
SemiAnalysis拿到内部录音,工程师哭诉:“我们以为自研能省成本,结果每次训练大模型就像法拉利挂三挡跑摩纳哥弯,咔咔咔咔全是掉速!”终于,AWS高层顶不住股价压力,拍桌子:“换!全部换Nvidia标准网卡!”这一刀下去,研发沉没成本够给全公司每人发一辆真法拉利,但没办法,Trainium自研芯片还在烤箱里没熟,只能先用老黄的“现成牛肉”顶着。
听完这段,我只想说: AWS这不是技术路线错误,是前任复合三次才发现现成老公最好,晚是晚了点,好在钱包厚,还能追。而更讽刺的是,AWS在2024年Q3财报电话会上承认,EFA架构在千亿参数模型训练中延迟波动高达40%,导致客户大规模迁回A100集群。
这种“自研信仰崩塌”瞬间变成“技术返祖”,让整个行业意识到:在AI时代,生态兼容性比“自主可控”更能决定生死。老黄的CUDA生态早已不是护城河,而是整个AI世界的氧气——你呼吸它,你活;你拒绝它,你窒息。
谷歌“迈凯伦”队:TPU一体化神车,温度一变就散架,CUDA是命门
谷歌才是真正的“理工偏执狂”,别人买零件拼装,他直接手搓一台车:底盘、空气动力学、动力单元TPU全自研,连螺丝纹路都刻着自己logo。
SemiAnalysis测试数据显示,在理想工况下,TPU能效比高达110%,相当于给赛车装了隐形氮气,直线加速无敌。
但问题也在这儿——谷歌的“理想工况”比处女座还洁癖,只要机房温度偏差1℃,或者用户突然想跑一段CUDA代码,整套系统瞬间化身“乐高散架”,工程师连夜扑街。内部员工爆料:“我们老板把CUDA叫做‘诅咒语言’,谁提就扣谁OKR。”
可现实是,90%的AI开源项目都基于CUDA,谷歌越封闭,客户越心慌。于是出现魔幻场景:客户一边夸赞TPU省电,一边偷偷在后台开虚拟机跑A100,像极了已婚男对外夸老婆贤惠,回家前先在车里刷十分钟抖音放松。
更尴尬的是,谷歌最新一代TPU v5e虽然纸面性能亮眼,但在实际部署Stable Diffusion或Llama 3时,编译时间长达数小时,而同配置A100只需8分钟。这种“技术洁癖”换来的不是敬畏,而是客户用脚投票——过去一年,谷歌云AI客户流失率同比上涨37%,而流失客户中75%明确表示“生态不兼容”是主因。
谷歌的TPU,终究成了孤岛上的神庙,香火旺盛却无人朝圣。
微软“Alpine”队:管理层方向盘打烂,30秒切换三种策略,员工全员晕车
微软这两年把“反复横跳”玩成了艺术。SemiAnalysis整理会议纪要,第一圈:“全面进攻!Azure预算open end,谁省钱谁就是叛徒!”第20圈突然急刹:“利润!利润!所有项目按美分砍成本!”第31圈再发补充:“刚才开玩笑的,明年全面转投英伟达,Maia团队原地解散。”员工内心OS:我键盘都没捂热,战略就迭代三次,比TikTok滤镜换得还快。
更惨的是客户,刚把数据迁到Maia集群,转眼被告知“生命周期终止”,迁移费自理。
现在业内流传一句话:“用Azure就像坐没有安全带的过山车,刺激是真刺激,吐也是真吐。”而这种战略混乱的根源,其实是微软在AI时代“既要又要还要”的贪婪心态——既要绑定OpenAI吃红利,又要自研Maia彰显技术主权,还要兼顾Azure利润报表不让股东骂街。
结果三头蛇没养好,反而把自己绕晕了。
2024年,微软甚至在同一个月内发布了三套互斥的AI调度策略,导致客户工程师连夜加班写补丁,论坛哀鸿遍野。
SemiAnalysis挖到一封内部邮件,一位高级工程师写道:“我们不是在构建基础设施,我们是在给战略PPT打补丁。”这话扎心,但真实。
CoreWeave“阿斯顿马丁”队:新钱土豪砸2万张Blackwell,结果连方向盘都找不到
CoreWeave这名字听起来像咖啡拉花,其实是GPU租赁界的“暴发户”。半年前还在到处求卡,属于“GPU穷人”,突然一笔VC大水漫灌,直接变身“GPU富翁”,豪掷千金买下2万张尚未量产的Blackwell B200,把黄仁勋都吓出表情包。
SemiAnalysis拿到他们内部会议录音,老板Stroll原声吼工程师:“我不管软件栈!我不管调度优化!老子卡都堆成山了,为什么Benchmark还是跑不过Oracle?”工程师小声回答:“老板,我们忘买交换机了……”全场寂静三秒,只剩金钱燃烧的声音。
这个故事告诉我们:光买发动机不装轮胎,再壕也只能原地轰油门,烟是挺大,就是不走道。
而更讽刺的是,CoreWeave的调度系统至今仍基于2022年的Kubernetes插件,连基本的GPU拓扑感知都没有,导致多卡通信延迟高达80微秒,而AWS Nitro系统只有6微秒。他们以为堆卡=堆性能,却忘了AI训练的本质是“带宽密集型”,不是“算力堆砌游戏”。
结果就是,2万张B200的理论算力堪比小型国家电网,实际利用率却不到30%。这哪是造车?这是把法拉利引擎装在拖拉机上,还抱怨为什么跑不过兰博基尼。
终极对比:钞能力、自研病、反复横跳、无脑堆卡,谁是真赢家?
看完五大战队,咱们来划个重点。
Oracle模式简单粗暴——“钱=速度”,适合不想讲道理的土豪;
谷歌模式是“技术洁癖”,一旦环境匹配就封神,否则自闭;
AWS模式属于“老钱回头”,沉没成本虽高,但家底厚能扛;
微软模式“战略蹦迪”,适合心跳过慢的患者提神;
CoreWeave模式“暴发户尝鲜”,给行业提供笑点与警钟。
SemiAnalysis最后给出预测:未来三年,AI基建赛道将同时存在“钞能力天花板”与“软件栈护城河”,单靠砸钱或单靠自研都无法通吃,真正的赢家一定是“左手现金流、右手生态位”的双修玩家。
换句话说,你既要舍得像Oracle一样烧显卡暖机,也要能像谷歌一样写得出编译器,还要学AWS脸皮厚及时认错,更得具备微软的PPT切换速度,顺带把CoreWeave的VC电话号码拉黑,才能在这条赛道上把刹车片磨到最后一圈。
而真正的胜负手,其实在于能否构建“软硬一体+生态兼容+成本可控”的三角闭环。目前看来,只有AWS在痛定思痛后正朝这个方向狂奔,而Oracle虽猛但不可持续,谷歌虽精但太孤傲,微软还在摇摆,CoreWeave则尚未入门。
AI F1的终点线,不在芯片数量,而在软件效率。