AI叙事游戏已从谁拥有最快的芯片变成了谁拥有最高效的工厂!

别再只看芯片谁更快了!谷歌TPUv7用光学互联构建超万芯集群,成本直降40%,正从超节点集群瓦解英伟达的CUDA护城河与高毛利帝国。

最近全网都在吵英伟达B200和谷歌TPU谁更强,参数对轰、FLOPS拉满,好像谁单芯片跑分高谁就赢了。但真正决定AI战争胜负的,根本不是芯片本身,而是——怎么把上万个芯片连成一个“超级大脑”。而谷歌,已经悄悄建好了光速高速公路,英伟达还在铜缆小路上狂踩油门。



被所有人忽略的战场:集群,不是芯片

大家熟悉的叙事是:英伟达是AI之王,Blackwell架构性能炸裂,CUDA生态牢不可破,毛利率高达75%,其他玩家只能争老二。

这套逻辑在过去几年完全成立。但2025年,谷歌用TPUv7彻底改写了游戏规则。

关键不在于“芯片多快”,而在于“集群多稳、多便宜、多大”。AI大模型训练从来不是单打独斗,而是万芯协同的系统工程。真正的瓶颈,早已从算力转移到通信带宽和互联成本。



英伟达的铜缆困局:性能强,但撑不住万芯规模

英伟达靠什么把芯片连起来?答案是NVLink + 高端铜缆。这套方案在小规模集群(比如72芯片以内)确实快如闪电,但一旦扩展到数千甚至上万芯片,物理限制就扑面而来。铜缆不仅贵,而且发热严重、信号衰减快、布线极其复杂。每增加一个节点,延迟和功耗都非线性飙升。

更致命的是,铜的物理极限决定了它无法经济高效地支撑超大规模集群。英伟达试图用更粗的铜、更强的信号放大器来硬刚,但这只会让成本滚雪球般上涨。



谷歌的破局点:用光,不用电

谷歌没走英伟达的暴力堆料路线,而是押注光学互联。

他们自研了一套“光学电路交换机”(Optical Circuit Switch, OCS),简单理解,就是用激光和微镜阵列代替铜线传输数据。想象一下:传统数据中心像一座用无数电线缠绕的老式电话交换局,而谷歌的TPU集群则像一座用光束在空中自由穿梭的未来城市。没有物理接触,几乎没有延迟,功耗极低,还能动态重构连接拓扑。这才是真正的“软件定义网络”在硬件层面的终极实现。



9000+芯片无缝协同,成本直降40%

根据SemiAnalysis最新报告,谷歌TPUv7集群已实现9000多颗芯片的高效互联,且训练吞吐远超同等规模的英伟达方案。

更重要的是,总拥有成本(TCO)比英伟达低30%-40%。这个数字意味着什么?

意味着如果你要训练一个万亿参数模型,用谷歌方案可能省下上亿美元。在AI军备竞赛中,成本优势就是战略核武器。当对手能用60块钱干你100块的活,你的高毛利神话就站不住脚了。



谷歌的“垂直整合”杀招:消灭中间商,自产自销

英伟达看似强大,但它的芯片要交给台积电代工、用SK海力士的显存、富士康组装,每一环都要分走利润。而谷歌从芯片(TPU)、交换机(OCS)、液冷系统到数据中心,全部自研自建。

它不是硬件厂商,而是AI基础设施的“端到端运营商”。

这种垂直整合让谷歌能彻底优化每一层效率,把传统供应链中的“利润堆叠”全部抹平。

结果就是:同样算力,成本更低;同样成本,规模更大。



最狠一招:借Anthropic之手,撬动CUDA护城河

谷歌最令人拍案叫绝的操作,不是自己用TPU,而是开放给Anthropic。

目前,Claude大模型已在TPUv7上稳定运行。

这等于向整个AI行业喊话:“你不需要被CUDA绑架!”长期以来,开发者因生态惯性不敢离开英伟达,因为重写代码代价太高。但谷歌通过支持主流模型(如Claude),证明TPU生态已具备实战能力。Anthropic成了谷歌的“战略棋子”,用实际案例瓦解开发者对CUDA的恐惧依赖。一旦有第二个、第三个大模型成功迁移,CUDA的“软性垄断”就会加速崩塌。



英伟达不会死,但高毛利时代结束了

必须承认,英伟达在单芯片峰值性能、通用计算灵活性、软件工具链成熟度上仍有优势。对很多中小规模训练或推理任务,Blackwell仍是首选。

但AI的未来属于超大规模、超低成本、超高能效的集群。

在这一赛道,谷歌已构建出结构性优势。英伟达的75%毛利率神话,将面临前所未有的压力。未来,它要么被迫降价,要么看着客户流向更经济的替代方案。垄断定价权一旦松动,整个估值逻辑都将重置。



下次看芯片,别只看FLOPS,要看“连接成本”

下次你看到一张芯片性能对比图,请别只盯着TOPS或FP8算力。真正关键的问题是:“把10000颗这样的芯片连起来,要花多少钱?延迟多少?功耗多高?”答案将决定谁才是下一代AI基础设施的真正赢家。英伟达赢在硅片,谷歌赢在开关——那个用光速重构数据流的光学交换机,才是掀翻棋盘的关键。



结语:AI战争已从“算力竞赛”升级为“系统工程对决”

这场战争,早已超越芯片层面的军备竞赛。它是一场关于数据中心架构、能源效率、网络拓扑、软件生态和成本控制的全面战争。谷歌用TPUv7证明,真正的创新不是让单个引擎更快,而是设计出能让万马奔腾而不拥堵的高速公路。而这条路,是用光铺成的。



极客一语道破:
谷歌一直以来都奉行垂直整合战略,利用强大的分布式系统软件可靠地扩展通用硬件,例如 GFS/Colossus、Spanner 和 TrueTime 等。在人工智能时代,他们也沿用了这一策略,例如 GSPMD、XLA 和 TensorStore 等。即便竞争对手拥有同等甚至更强大的硬件,也很难与谷歌的垂直整合模式抗衡。


谷歌OCS:功耗降低40%,资本支出减少30%,吞吐量提升30%。信号全程保持光纤传输,无需电信号转换。

TPUv7 的每瓦性能是 v6 的两倍--在相同的电费下产生两倍的计算能力。

部署规模:谷歌使用 48 台交换机来支持 4,096 个 TPU。英伟达需要 568 台 InfiniBand 交换机才能实现相同的部署规模。

谷歌在开关经济性和能效方面明显胜出。

但两种架构都面临同样的限制:电力基础设施无法无限扩展。
谷歌斥资930亿美元用于自主研发的TPU供应链。Anthropologie也投入了数百亿美元。

这些集群需要专用电网。预计到2027年将出现铜短缺。价值510亿美元的数据中心已经在建设自己的发电厂。

  • - 谷歌的优势:每瓦性能可以在电网限制严格之前争取缓冲时间。
  • - 英伟达 75% 的利润率:已成往事。
但这两家公司都没有解决根本问题:如果不能扩大兆瓦级功率,就无法扩大智能规模。