谷歌TPUv7芯片正式对外销售,黄仁勋英伟达芯片帝国被掀桌

谷歌第七代TPU(代号“Ironwood”/TPU v7)+ Anthropic订购100万颗TPU的超级订单,标志着英伟达CUDA生态的“护城河”开始崩塌。

谷歌TPUv7芯片正式对外销售,Anthropic、Meta等巨头排队下单,性能成本碾压英伟达。这场由硬件引发的AI算力革命,或将重塑整个科技行业的游戏规则。

就在昨天,一篇来自SemiAnalysis的深度报告刷爆了整个科技圈,标题就叫《Google TPUv7: The 900lb Gorilla In the Room》,翻译过来就是“谷歌TPUv7:房间里的900磅大猩猩”。

这话什么意思?意思就是,一个庞然大物,一个足以撼动现有格局的巨无霸,它来了!而且它不光是来围观的,它是来抢饭碗的!抢谁的饭碗?没错,就是那个在AI芯片领域呼风唤雨、被无数人奉为“AI教父”的黄仁勋和他的英伟达!

别急着喷,听我给你掰扯清楚,为什么说这次谷歌的TPUv7,真的可能是改变历史的一次大事件,它背后藏着多少惊天秘密,又将如何影响我们每一个普通人的未来生活。准备好瓜子板凳,咱们这就开讲!

一、从内部神器到外部杀手:谷歌TPU的逆袭之路

说起谷歌的TPU,这玩意儿可不是什么新面孔。早在2016年,谷歌就把它投入了生产,用来训练自家那些牛得不行的AI模型,比如AlphaGo、Bert,还有现在的Gemini系列。但一直以来,TPU都像个“内向的学霸”,只在谷歌自家的“小圈子”里发光发热,虽然实力超群,却很少对外展示肌肉。

这就导致了一个非常尴尬的局面:全球的AI公司,无论是OpenAI、Anthropic还是Meta,几乎清一色地把宝押在了英伟达的GPU上,尤其是那款被誉为“AI核弹”的Hopper架构,简直是人人趋之若鹜。

结果呢?英伟达的股价一路狂飙,市值冲上万亿美元,黄仁勋成了当之无愧的“AI之王”。但这一切,在2025年的这个秋天,可能要被彻底改写了。

根据这份报告,谷歌终于坐不住了!他们决定不再藏着掖着,要把TPU这个“秘密武器”拿出来卖!而且,不是小打小闹,是直接开干!第一个吃螃蟹的,就是最近风头正劲的AI明星公司——Anthropic。

这家公司的老板,据说是个技术狂人,对算力有着近乎偏执的追求。他们和谷歌一拍即合,签下了史上最大规模的TPU采购合同:整整一百万台TPUv7!这可不是什么小数目,换算成美元,价值高达数十亿!

更绝的是,这笔交易还分成了两部分:
一部分是直接买断,由博通(Broadcom)负责制造,然后卖给Anthropic;
另一部分则是通过谷歌云(GCP)租赁,金额高达420亿美元!

这已经不是简单的商业合作了,这简直就是一场豪赌,一场旨在颠覆整个AI基础设施生态的豪赌!而谷歌,显然已经做好了准备,要跟英伟达正面刚到底。

二、性能与价格的双重暴击:TPUv7凭什么让巨头们疯狂下单?

那么问题来了,谷歌的TPUv7,到底有什么魔力,能让Anthropic这样的顶级玩家甘愿掏出真金白银,甚至不惜得罪英伟达也要投奔谷歌的怀抱?答案很简单:性能更强,价格更低!

报告里用了一个非常形象的说法:“你买的TPU越多,你省下的英伟达GPU资本支出就越多!”这句话听着有点绕,但意思很直白:TPU的性价比,高到离谱!据说,OpenAI还没开始用TPU呢,仅仅是听说谷歌要对外卖TPU的消息,他们的采购团队就立刻找到了英伟达,要求降价,结果还真让他们砍下了30%的成本!

这说明什么?说明TPU的存在,本身就是一种强大的议价工具,它让所有依赖英伟达的公司都有了谈判的筹码。而这,只是冰山一角。

让我们来看看具体的数据。

TPUv7,代号“Ironwood”,它的理论峰值算力,已经无限接近甚至在某些方面超越了英伟达最新的Blackwell架构。

更重要的是,TPUv7的内存带宽和容量也得到了大幅提升,配备了8-Hi HBM3E显存,这对于处理大型语言模型来说至关重要。
但真正让TPUv7脱颖而出的,不是纸面上的参数,而是实际应用中的表现。

报告指出,由于谷歌在系统设计上的深厚功底,TPUv7在真实工作负载下的“有效算力利用率”(MFU)非常高,远超英伟达的GPU。

这是什么意思呢?简单来说,就是英伟达的GPU虽然标称的算力很高,但在实际运行中,由于功耗、散热、软件优化等各种原因,往往只能发挥出标称值的30%左右。而谷歌的TPU,因为其设计理念更注重稳定性和效率,反而能在长时间运行中保持更高的实际利用率。换句话说,英伟达是在玩“极限冲刺”,而谷歌是在玩“马拉松”,后者更能跑得稳、跑得远。

再来看价格。报告估算,对于像Anthropic这样的大客户,使用TPUv7进行训练的每小时成本,比使用英伟达的GB300服务器要低52%!这是一个什么概念?意味着同样的预算,你可以用TPUv7训练出更多、更强大的模型,或者用更少的钱达到同样的效果。这种成本优势,在AI这个烧钱如流水的行业里,简直是致命的吸引力。难怪连Meta这样的巨头都开始蠢蠢欲动,考虑要不要也加入TPU的阵营。毕竟,谁不想省钱呢?尤其是在当前经济形势下,每一分钱都显得弥足珍贵。

三、系统级的降维打击:谷歌的“3D环形网络”有多牛?

如果说单个芯片的性能和价格是TPUv7的第一重武器,那么谷歌在系统层面的设计,就是它的第二重、也是更致命的武器。这份报告里花了大量篇幅,详细解析了谷歌TPU的“ICI”(Inter-Chip Interconnect)互联网络,也就是它们是如何把成千上万个芯片连接在一起,形成一个超级计算集群的。这可不是普通的网线插插就能搞定的事,这是一个极其复杂、高度精密的工程奇迹。

谷歌的TPU集群,采用了一种叫做“3D环形网络”的拓扑结构。想象一下,把64个TPU芯片排列成一个4x4x4的立方体,每个芯片都通过高速电缆或光纤,与它在X、Y、Z三个方向上的邻居相连。这种结构的好处是,数据可以在芯片之间以最短路径传输,大大降低了延迟。更厉害的是,谷歌还引入了一种叫做“光学电路交换机”(OCS)的技术。这些OCS就像一个个智能的交通指挥中心,可以根据需要动态调整数据流的方向,让任何两个芯片都能建立连接,而不受物理位置的限制。

这意味着,你可以根据不同的任务需求,灵活地组合出不同大小、不同形状的计算集群,从几十个芯片的小集群,到几千个芯片的大集群,都能轻松实现。这种灵活性和可扩展性,是目前市面上绝大多数基于GPU的集群都无法比拟的。

报告里提到,一个完整的TPUv7集群,最多可以容纳9216个芯片!这是什么概念?要知道,英伟达的GB200服务器,一个机架里最多也就装72个GPU。两者相比,差距何止十倍百倍!而且,谷歌的这套系统还特别强调“可靠性”和“可用性”。他们宁愿牺牲一点峰值性能,也要确保整个集群能够长时间稳定运行,不会因为个别芯片故障而导致整个系统瘫痪。这对于需要连续数周甚至数月进行模型训练的AI公司来说,简直是太重要了。毕竟,一次训练中断,可能就意味着前面所有的努力都白费了。

所以,谷歌的TPU不仅仅是一个高性能的计算单元,它更像是一个为AI量身定制的、坚不可摧的“钢铁堡垒”。

四、软件生态的觉醒:谷歌终于开始拥抱开源世界

当然,光有硬件是不够的。一个成功的AI平台,必须要有强大的软件生态作为支撑。在这方面,谷歌过去一直是个短板。他们的TPU主要服务于内部团队,软件工具链也主要是围绕自家的JAX框架开发的,对于习惯了PyTorch和CUDA生态的外部开发者来说,上手难度极大,体验也相当糟糕。这就导致了一个恶性循环:没有好的软件支持,就没人愿意用;没人用,软件就得不到改进。而英伟达则凭借着CUDA这个“护城河”,构建了一个无比繁荣的开发者社区,各种库、工具、教程应有尽有,极大地降低了AI开发的门槛。

但现在,情况正在发生根本性的转变!谷歌似乎意识到了这个问题的严重性,并且已经开始采取行动。报告里明确指出,谷歌正在投入巨大的资源,来改善TPU的软件生态。

首先是PyTorch的支持。PyTorch是目前世界上最流行的深度学习框架,Meta等许多大公司都在用。为了吸引这些客户,谷歌专门成立了一个团队,致力于开发一个“原生”的PyTorch-TPU后端。这个后端将支持PyTorch的所有标准API,包括分布式训练、张量并行等高级功能,让开发者可以无缝地从GPU迁移到TPU,而无需修改代码。这无疑是一个巨大的进步,意味着TPU的易用性将得到质的飞跃。

其次,谷歌也在积极拥抱开源社区。他们已经开始向vLLM和SGLang这两个主流的开源推理引擎贡献代码,为其添加TPU支持。vLLM是目前最高效的LLM推理服务框架之一,SGLang则专注于多模态推理。谷歌的工程师们不仅提供了底层的优化内核,比如针对TPU特化的注意力机制和MoE(混合专家)调度算法,还在尝试将TPU的自定义内核编译器Pallas集成到PyTorch的编译流程中。

这意味着,未来开发者甚至可以直接用Python写代码,然后由编译器自动将其转换成高效的TPU指令,极大地简化了开发流程。虽然目前这些工作还处于早期阶段,存在一些兼容性问题,但方向无疑是正确的。

谷歌正在从一个封闭的“内向型”玩家,转变为一个开放的“生态型”玩家,这是非常值得肯定的一步。

五、一场关于未来的豪赌:TPUv7将如何重塑AI产业格局?

最后,我们来聊聊这场TPUv7风暴的终极影响。它究竟会带来什么样的改变?我认为,这不仅仅是两家公司之间的竞争,更是两种商业模式、两种技术路线、甚至是两种未来愿景的碰撞。

首先,对于AI公司来说,TPUv7的出现,给了他们一个全新的选择。过去,大家都是“非英伟达不选”,现在,有了TPU这个选项,他们就有了更多的谈判空间和议价能力。这将迫使英伟达不得不降低价格、提高服务质量,从而最终受益的是整个AI行业。我们可以预见,未来几年,AI算力的价格将会持续下降,这将大大降低AI应用的门槛,让更多中小企业和个人开发者能够参与到这场AI革命中来。

其次,对于云服务商来说,TPUv7的崛起,将加剧市场竞争。谷歌云(GCP)凭借TPU这个独家武器,将获得前所未有的竞争优势。他们不仅可以提供更便宜、更高效的算力服务,还可以通过捆绑销售、定制化解决方案等方式,吸引更多的企业客户。这对于亚马逊云(AWS)和微软云(Azure)来说,无疑是一个巨大的挑战。特别是Azure,他们的自研芯片项目进展缓慢,目前仍然严重依赖英伟达,如果不能尽快拿出应对方案,很可能会在未来的竞争中落于下风。

再次,对于整个科技行业来说,TPUv7的成功,将证明一个道理:在AI时代,硬件不再是单纯的“管道”,而是核心竞争力的一部分。谁能掌握最先进的硬件技术,谁就能在AI竞赛中占据先机。这将激励更多的科技巨头加大在自研芯片领域的投入,从而推动整个行业的技术创新。我们可能会看到,除了谷歌和英伟达之外,苹果、Meta、甚至中国的华为、百度等公司,都会加速推出自己的AI芯片,形成一个多极化的竞争格局。

最后,也是最重要的一点,TPUv7的出现,将加速AI技术的普及和落地。当算力成本大幅下降,AI模型变得更容易训练和部署时,我们就能看到更多创新的应用场景涌现出来。无论是医疗、教育、金融,还是娱乐、制造、农业,AI都将深入到我们生活的方方面面,为我们带来前所未有的便利和效率。也许在不久的将来,我们每个人都能拥有一个属于自己的“AI助手”,帮助我们处理日常琐事、提供专业建议、甚至陪伴我们度过孤独的时光。而这,正是TPUv7所开启的那个充满无限可能的未来。

总而言之,谷歌TPUv7的横空出世,标志着AI算力时代的正式到来。它不仅是一场硬件的革命,更是一场商业模式、技术路线和产业格局的全面重构。无论你是AI从业者、科技爱好者,还是普通的消费者,都应该关注这场变革,因为它将深刻地影响我们每一个人的未来。让我们拭目以待,看看这场由TPUv7掀起的风暴,最终会把我们带向何方。



极客辣评:
OpenAI 甚至还没部署 TPU,就已经在其整个实验室的 NVIDIA 设备组中节省了约 30% 的成本。这表明 TPU 的性价比优势非常显著,即使在启用 TPU 之前,也能立即获得收益。