当亚马逊 Trainium3 遇上谷歌 TPUv7:谁才是英伟达真正的“掘墓人”?

谷歌TPUv7与亚马逊Trainium3从架构、软件到部署哲学全面对垒,共同对英伟达AI霸权发起最强挑战,AI芯片格局正被彻底重塑。

如果你还在以为AI芯片战场只是英伟达一家独大,那你就真的OUT了!2025年底,两大科技巨头——谷歌和亚马逊——几乎同步亮出“王炸”:谷歌TPUv7震撼发布,亚马逊Trainium3(Trn3)全面商用,甚至连Trainium4(Trn4)都已官宣!

这不是简单的硬件升级,而是一场围绕“性能每美元”(Perf per TCO)的终极对决。

今天咱们就来深度对比这两位“自研芯片狂魔”——一个用TPU打造AI“神殿”,一个用Trainium撬动万亿模型“引擎”,他们到底谁更有可能把Jensen Huang从王座上拉下来?

架构哲学:谷歌追求极致集成,亚马逊专注极致灵活

先看谷歌TPUv7。

这玩意儿根本不是“芯片”,而是一整套“AI操作系统”——从底层TPU芯片、XLA编译器、JAX框架到ML Pathways调度系统,全都死死攥在自己手里。它像一套瑞士军刀,高度优化、无缝协同,每一瓦电力都榨出最大算力。
但代价也很明显:封闭、难移植、生态门槛高。你必须用JAX重写模型,否则性能大打折扣。
谷歌的逻辑很清晰:我们不求人人会用,只求顶尖团队用得爽。Anthropic、DeepMind这些自家王牌军团,就是TPUv7的最佳代言人。

反观亚马逊Trainium3,走的完全是另一条路。

它没有TPU那种“垂直整合”的执念,反而像一个“乐高积木大师”——硬件模块化、软件全面开源、部署极度灵活。

Trainium3提供两种机柜:风冷版“Teton3 PDS”(NL32x2)和液冷版“Teton3 MAX”(NL72x2)。前者能直接塞进任何老数据中心,后者对标英伟达GB200,专攻超大规模MoE模型。最绝的是,AWS甚至为交换芯片准备了“三步走”策略:先用现成的160通道PCIe 6.0交换芯片快速上市,再升级到320通道,最后切换到自家UALink协议。

这种“硬件可进化”的设计,把供应链风险降到最低,也让客户能“边用边升级”。


互联拓扑:全互联交换 vs 专用路由,MoE模型的终极考场

为什么架构差异如此重要?

因为今天的AI前沿,早已不是普通稠密模型的天下,而是Mixture-of-Experts(MoE,混合专家)模型的天下。

MoE的核心在于“All-to-All”通信——每个token都要动态路由到不同专家,通信量爆炸式增长。
Trainium2用的是传统的3D Torus(环面)网络,听起来高大上,实则在面对前沿MoE模型时力不从心。Trainium2或早期TPU根本扛不住这种“流量洪峰”。
MoE的核心每个专家(Expert)都要和所有令牌(Token)打交道,而3D环面存在严重“过订阅”(Oversubscription)问题,消息一大,网络立马拥堵。

谷歌TPUv7为此打造了“Pod超节点集群级”全互联网络,数千颗TPU通过自研高速互联组成“算力超大陆”,通信延迟极低。但它的互联协议是闭源的,外人根本无法接入。

亚马逊Trainium3则另辟蹊径,直接祭出“交换式架构”(Switched Fabric),成为英伟达之外第一个商用全互联交换拓扑的玩家!它甚至比AMD MI450X还要早一年落地。Trainium3 NL72x2 Switched支持144颗芯片跨双机柜组成域,通过交叉机柜AEC电缆实现超大专家并行,专为万亿参数级MoE模型准备。


更聪明的是,它还支持“自动转发”和“流量整形”——程序员不用操心消息怎么传,芯片自己会选最优路径;还能给不同流量(如张量并行 vs 权重预取)分配优先级,确保关键任务不堵车。

这种设计,既满足了Anthropic这种顶级团队的性能需求,又保留了未来向开放生态演进的可能。

Trainium3的微架构里藏着太多魔鬼细节:
首先,它用8个超大“NeuronCore”(神经元核)取代了GPU那种成百上千个小Tensor Core的设计。每个NeuronCore里都集成了Tensor Engine(张量引擎)、Vector Engine(向量引擎)、Scalar Engine(标量引擎)和GpSimd Engine(通用SIMD引擎),能并行处理注意力机制里的QK^T、Softmax、AV等不同操作,效率极高。

其次,它配备了专用通信核心!这些核心只干一件事:芯片间通信。这和英伟达/AMD GPU把通信和计算任务都塞进同一个SM(流式多处理器)完全不同。好处是,通信和计算可以完美重叠,无需像在GPU上那样手动调参(NCCL_MIN_CTA),普通开发者也能获得接近最优的通信效率。

更夸张的是,Trainium3的通信可以直接在芯片的SBUF(软件管理的SRAM暂存区)之间进行,无需经过高延迟的HBM,这让小消息通信快如闪电。

它还支持“自动转发”——你不用关心消息怎么从A芯片传到C芯片,中间的B芯片会自动接力,省去了大量编程负担。还有“流量整形”(Traffic Shaping)功能,能像操作系统一样给不同流量(如张量并行、专家并行、后台预取)分配优先级,确保关键任务不被拖慢。

这些设计,处处透露出AWS对AI工作负载的深刻理解。
​​​​​​​


软件生态:闭源神殿 vs 开源乐高,开发者的心在谁那?

如果说硬件是骨,那软件就是魂。谷歌的TPU生态,像一座精美但封闭的神殿。XLA编译器是业界最强,能把JAX代码优化到极致,但它不开源!你只能在谷歌的围墙花园里跳舞。虽然性能无敌,但对广大普通开发者而言,学习成本高得吓人。

亚马逊这次彻底“悟了”——CUDA的护城河,不是英伟达工程师挖的,而是百万开发者用脚投票堆出来的!所以Trainium3的软件策略来了个180度大转弯:全面开源!Phase 1:推出原生PyTorch后端,支持torch.compile、FSDP、DDP等所有原生API,这意味着什么?意味着开发者可以用熟悉的torch.compile、FSDP、DDP等原生API无缝迁移模型,不再需要学习英伟达那一套或XLA的奇技淫巧。
更猛的是,AWS Day 0就原生支持MoE所需的all_to_all通信原语和Flex Attention,连AMD都还没搞定!

Phase 2:直接把自家的XLA图编译器、JAX栈、还有那个神秘的NKI(Neuron Kernel Interface)内核语言全部开源!NKI是AWS内部顶尖工程师(比如Anthropic那帮人)用来手写极致性能内核的秘密武器,现在也要开放给社区了。这招太狠了——CUDA生态是开发者自发贡献形成的,AWS现在要亲手复制这个过程,用“开源+社区”去对抗英伟达的“闭源+垄断”。

这意味着什么?意味着AWS要亲手复制CUDA的崛起路径,用“开源+社区”去撼动英伟达的生态霸权。CUDA的护城河不是英伟达工程师建的,是外部开发者挖的。AWS完全理解了这一点,并正在执行完全相同的策略。


部署哲学:液冷信仰 vs 风冷务实,谁更懂“商业现实”?

再看数据中心层面,两家的差异更是天壤之别。谷歌TPUv7几乎全面拥抱液冷,追求极致PUE(电源使用效率),但代价是数据中心必须“量身定制”,灵活性极差。

亚马逊却反其道而行之,其新建的Project Rainier AI超算中心,依然沿用标志性的风冷设计
为什么?
因为风冷TCO更低!AWS的风冷设计,依靠外部新风+蒸发冷却,全年大部分时间无需机械制冷,PUE稳定在1.2左右。
而真正的液冷数据中心,CapEx和OpEx都极高,极端天气下PUE甚至飙升到1.5。

更重要的是,灵活性!AWS可以把CPU、Trainium2、Trainium3、未来Trainium4部署在任何一个数据中心,而不用担心液冷设施不匹配。这种“哪里有电就往哪塞”的能力,在AI军备竞赛中是巨大的战略优势。

一个致命短板:LNC=8缺席,普通科研用户被“拒之门外”

当然,Trainium3并非完美。它有一个让广大普通AI研究员“血压飙升”的短板:Day 0只支持LNC=1或LNC=2模式。这意味着一个逻辑设备只能看到36GB HBM内存(整颗芯片有144GB!)。

想跑个稍大点的模型,就必须早早引入FSDP等复杂并行技术。

而在H100(80GB)或GB200(192GB+)上,你完全可以先用单卡爽跑。AWS承诺2026年中推出LNC=8模式,但在此之前,Trainium3的生态,注定还是属于“硬核玩家”的俱乐部。

相比之下,谷歌TPUv7虽然生态封闭,但至少提供了“MegaCore”模式,允许一个逻辑设备看到整颗芯片,对科研用户更友好。

总结:双雄并起,英伟达王座已摇摇欲坠!

谷歌TPUv7和亚马逊Trainium3,代表了两种截然不同的AI芯片哲学:一个追求极致性能与垂直整合,打造“神殿”;一个追求极致TCO与开放生态,搭建“乐高”。但他们的共同目标只有一个——终结英伟达的垄断。

英伟达的王座并非不可撼动。如果Jensen Huang和他的团队陷入“创新者的窘境”,一步走错方向,在“道生一”时刻,胡乱选择了一个方向走下去,因为他没有参考,前面方向只有孤独的他自己选择,在岔路口一旦选择错误,就自挖陷阱,大量时间精力投入后没有效果,目前看得见的两个可能错误方向:
1、CUDA不是自己主动开源,但是成了自己的一个护城河,结果,成也萧何败也萧何,自己不主动积极参与被超过,比如:CUDA-L2用大模型+强化学习自动生成GPU矩阵乘法内核,竟比NVIDIA官方库还快30%! 

2、乱投资,自己不建算力中心,不去体会自己开发的AI加速器在机房机柜整体环境Context中的窍门,不在一个固定环境下打磨自己的显卡,而是兼顾比特币挖矿、游戏显卡和AI超算等多个应该场景,牺牲了特别场景的优化机会!结果被谷歌TPU和亚马逊超越了!
​​​​​​​