谷歌第八代TPU芯片深度解析：针对智能体的121 ExaFlops算力怪兽

#AI基础设施 #芯片半导体 #AI人工智能指南 #AI智能体Agent

2026-04-23 8K banq

121 ExaFlops算力也救不了Gemini的死亡循环：谷歌第八代TPU芯片深度解析：121 ExaFlops算力怪兽背后的硬件野心与软件困局

谷歌发布第八代TPU两款专用芯片TPU 8t和TPU 8i，训练芯片单个超级计算单元扩展至9600颗芯片、2 PB共享内存、提供121 ExaFlops算力，推理芯片配备288 GB高带宽内存和384 MB片上SRAM，每瓦性能比上一代提升两倍。

谷歌从芯片到数据中心完成了十年技术积累的终极整合，采用自研Axion ARM架构CPU和第四代液冷技术，目标是将前沿模型训练周期从数月缩短至数周。

然而Hacker News的开发者讨论揭示了一个尴尬现实：硬件层面谷歌已经建立起难以撼动的护城河，但Gemini模型在编程智能体、工具调用、多步骤推理等关键场景上表现糟糕，死亡循环和错误工具调用频发，软件体验远远落后于硬件能力，形成了“硬件巨人、软件婴儿”的巨大反差。

十年磨一剑：第八代TPU的硬件技术全景

谷歌在Cloud Next大会上正式推出了第八代张量处理器单元，包含两款采用专用架构的芯片。TPU 8t专注于大规模模型训练，TPU 8i专注于高吞吐量推理任务。这两款芯片与Google DeepMind合作设计，旨在应对智能体时代基础设施面临的全新挑战。

硬件开发周期远比软件漫长。每一代TPU设计时，团队都需要预判数年后的技术趋势和市场需求。数年前谷歌就预见到随着前沿模型大规模部署，推理需求将急剧上升。随着AI智能体的兴起，行业将从训练和推理专用芯片中获益。

TPU 8t的核心设计目标是降低前沿模型的开发周期，将训练时间从数月缩短至数周。单个TPU 8t超级计算单元现在可扩展至9600颗芯片和2 PB共享高带宽内存，芯片间带宽是上一代的两倍。这套架构提供121 ExaFlops的计算能力，允许最复杂的模型利用单个海量内存池进行训练。

对比全球超算TOP500榜单，排名前十的超级计算机总算力为11,487 PetaFlops。一个TPU 8t计算单元提供121,000 PetaFlops的算力，是前十名超算总算力的十倍以上。当然这里存在精度差异，TPU主要计算4位浮点运算，而超算榜单通常统计64位双精度浮点运算，但即便如此，单个计算单元的规模依然令人震撼。

TPU 8t还集成了比上一代快十倍的存储访问能力，结合TPUDirect技术将数据直接拉入TPU，确保端到端系统的最大化利用。新的Virgo网络结合JAX和Pathways软件，意味着TPU 8t可以在单个逻辑集群中为多达一百万颗芯片提供近线性扩展。

除了原始性能，TPU 8t还通过一套完整的可靠性、可用性和可维护性能力，将目标“有效算力”设定在百分之九十七以上。这套系统包括跨数万颗芯片的实时遥测、自动检测和绕过故障ICI链路而不中断作业、以及无需人工干预即可在故障周围重新配置硬件的光路交换技术。

TPU 8i则专注于推理任务。在智能体时代，用户期望能够提出问题、委派任务并获得结果。TPU 8i通过四项关键创新重新设计了整个技术栈，以消除“等待室效应”。

第一项创新是打破“内存墙”。TPU 8i将288 GB高带宽内存与384 MB片上SRAM配对，片上内存容量是上一代的三倍，将模型的活动工作集完全保留在芯片上。第二项创新是采用自研Axion ARM架构CPU，每台服务器的物理CPU主机数量翻倍，通过非统一内存访问架构进行隔离，优化了整个系统的性能。

第三项创新针对现代混合专家模型。TPU 8i将芯片间互联带宽翻倍至19.2 Tb/s，新的Boardfly架构将最大网络直径减少超过百分之五十，确保系统作为一个紧密协同的低延迟单元运行。第四项创新是新的片上集合加速引擎，将全局操作从主计算单元卸载，将片上延迟降低多达五倍。

这些创新使得TPU 8i的每美元性能比上一代提升了百分之八十，企业可以在相同成本下服务接近两倍的客户量。

从芯片到数据中心：垂直整合的能效革命

谷歌在能效方面的优化覆盖了整个技术栈。集成电源管理根据实时需求动态调整功耗，TPU 8t和TPU 8i的每瓦性能比上一代Ironwood提升了两倍。

但谷歌的效率不仅仅是芯片层面的指标，而是从硅片到数据中心的系统级承诺。谷歌将网络连接与计算集成在同一芯片上，显著降低了数据在TPU计算单元间传输的功耗成本。数据中心与TPU协同设计，过去五年间每单位电力的计算能力提升了六倍。

两款芯片都采用第四代液冷技术，维持风冷无法达到的性能密度。通过拥有从Axion主机到加速器的完整技术栈，谷歌能够在主机和芯片独立设计时无法实现的方式上优化系统级能效。

值得注意的是，两款芯片采用了不同的代工厂商。TPU 8t由博通代工，TPU 8i由联发科代工。这种差异化供应链策略显示出谷歌在不同芯片类型上采取了灵活的分工管理。

开发者社区的尖锐吐槽：Gemini的死亡循环与工具调用灾难

有用户认为Gemini 3已经证明了通过提高训练效率能取得怎样的成就，Pro和Flash版本的模型体积可能比Opus和GPT-5类模型小五到十倍。Gemini生成的问题解决令牌数量大幅减少，但在推理和执行方面的改进投入明显不足，经常产生错误的工具调用，在智能体任务上表现不佳。对于不使用工具或搜索的原始问题解决，Gemini与Opus和GPT相当，而规模可能只有它们的一小部分。

有用户预测，谷歌迟早会推出一款超越当前最先进技术整整一代的产品，前提是他们真的从原型阶段过渡到正式版，而不是仅仅停留在预览阶段。目前为止的所有产品都感觉像是原型机，为了向投资者展示产品、验证概念而匆匆发布。

另有用户对模型体积的猜测提出了质疑。他认为谷歌的硬件优势或许能让谷歌以更低的成本、更快的速度运行更大的模型。Pro版本可能比GPT 5.4和Opus 4.6要小，但五倍的差距似乎太大了。在他看来，Gemini 3 Pro在各方面都最智能，尤其在人文领域。Gemini知识渊博，是目前在生成大量人类语言的自然文本方面排名第一的模型。对于小众语言，这种差距更加明显。多语言能力排名前四的模型都是谷歌的，即使是OpenAI和Anthropic最大的模型也无法匹敌。

但这位用户也承认Gemini的数学能力明显较弱，在智能体方面逊色得多。Gemini Chat作为一款应用也落后了不止一个时代，与三年前刚发布的ChatGPT几乎没有任何区别。这些缺点让Gemini给人的感觉比实际水平要弱得多。

有用户从多语言创作角度进行了更深入的分析。他指出Anthropic过去曾开发出最好的多语言和通用模型，Claude 3在这方面表现最佳，甚至包括已消亡语言和资源匮乏的语言。无论是现代的Claude还是Gemini，都远不及Claude 3的能力。Anthropic从Sonnet 3.5开始彻底颠覆了之前的训练策略，以牺牲其他一切为代价优化代码生成能力，Claude 4的多语言能力因此大幅下降。

这位用户还指出所有现代模型包括Gemini在内，在基本的语言连贯性方面都存在缺陷，包括随机语言切换、自我纠正尝试导致幻觉等。他推测这是由于强化学习过于复杂，其奖励和策略并未针对创意写作进行优化所致。

当另一位用户质疑基准测试结果似乎并未表明语言能力下降时，这位用户给出了尖锐的回应。他说这就是基准测试的问题所在，如果没有评估和实际操作经验，基准测试会给人虚假的自信。Claude现在的发音听起来几乎像临床诊断一样生硬，无法像以前那样轻松切换不同的表达风格。Claude 4比Claude 3使用了更多借自英语的句式，尤其是在斯拉夫语系中，这些句式听起来很不自然。

他还指出了一个更严重的问题。大多数现代模型在处理较长的文本时最终都会出现故障，随机输出一些完全不相关的文字如泰卢固语、格鲁吉亚语、乌克兰语，然后又像什么都没发生一样继续用主语言运行。这种情况虽然罕见但确实会发生。这在旧模型中不是问题，而是一个普遍存在的问题，大致与推理功能的引入有关。

编程智能体的真实战场：Gemini CLI为何让人抓狂

有用户直接点出了编程场景的核心痛点。他同意Gemini CLI与Claude Code和Codex相比太糟糕了。但谷歌显然优先发展最先进的AI技术以增强甚至取代传统搜索，这是谷歌的命脉所在。谷歌在这方面比任何人都更有优势实现盈利，用户数量领先其他竞争对手超过十亿。他希望谷歌开始优先考虑Gemini CLI，给这个领域带来更多竞争。

有用户提出了一个技术性的疑问。他用OpenCode测试后发现，Gemini实际模型在工具调用方面并没有比Opus或GPT导致更差的结果，问题可能出在框架层面而非模型本身。他个人更喜欢GPT 5.4的整体结果，因为GPT能发现更多Gemini遗漏的代码审查错误并生成更简洁的代码。

也有用户为Gemini辩护。有用户表示自己用gemini-cli编写英文功能描述或整个项目，它就能自动生成代码，已经用它开发了很多东西，想不出还缺少什么。另有用户补充说自己开发过几十个小工具和脚本，从来没觉得有必要尝试其他的东西。

有用户提供了一个时间维度的观察。他说大约六个月前，Gemini CLI与Claude Code相比确实存在循环和奇怪决策的问题，几乎无法使用。但大约一个月前重新开始使用后，感觉相当不错，还没遇到之前那些令人抓狂的使用体验问题，每天用好几个小时都没问题。自动模型选择功能也相当迅速。几个月前由于Anthropic的糟糕表现取消Claude Pro计划后，一直担心仅仅依靠Codex也会出现同样的问题，所以很高兴Google One计划中也包含了Gemini。

另有用户则给出了更尖锐的评价。他说Gemini充其量只能算个二流模型，收集信息还行但算不上出色，执行智能任务时完全没用，就像喝醉了一样。在Antigravity里用完积分后，一天的游戏就结束了。他看到谷歌声称“为了解决问题而大幅减少生成的令牌数量”时直接笑死，因为这种不断循环的死亡机制根本无法解决任何问题。

有用户回应说，谷歌居然能在不出现死亡循环的情况下完成基准测试，这简直匪夷所思。Gemini CLI甚至提供了一个热修复程序来打破这种死亡循环模型。

上下文长度优势与工具使用缺陷的悖论

有用户提出了一个有力的反驳。他说那些说Gemini不擅长处理长上下文的人完全错了。你可以把五万到七万行代码的整个代码库放进Gemini 3.1 Pro的上下文里，生成超过八十万个令牌，然后给它分配详细任务要求返回所有需要更改的文件。Gemini有时一次执行，有时需要两次，但注意力集中度和上下文保持率确实非常惊人。

不过这位用户也承认这是一种效率极低的糟糕方式，二十分钟就要烧掉价值十美元的令牌。而且Gemini在工具使用方面确实很差，但这与上下文能力无关。

另有用户补充说，Gemini长期以来拥有最好的长上下文支持，即使现在令牌数超过四十万，它的长上下文回忆率仍然是最好的。问题是Gemini在自主性、工具使用和智能行为方面的训练程度不如其他前沿模型，谷歌似乎更注重视频、图像、科学知识和世界知识的整合。

还有用户从实际工作角度提出了质疑。他说自己的经验是Gemini宣称内容丰富，但随着上下文扩展，为了填充内容反而变得语无伦次和混乱。Gemini在一般工具使用方面表现糟糕，长时间使用后表现更差，经常会陷入循环不断尝试编辑源文件却总是失败。他好奇如果这就是Google内部使用的智能体编码方式，老同事们是怎么工作的。他怀疑Google内部使用的模型已经在定制工具上进行了微调，性能可能更好。

行业竞争格局：英伟达的CUDA护城河与谷歌的垂直整合

有用户从投资角度分析了谷歌的竞争优势。他认为目前做大模型AI项目，基本上只能从英伟达购买或者从谷歌租用。谷歌可以在整个数据中心环境下设计芯片、引擎和系统，集中处理芯片供应商无法集中处理的方面。当项目规模真正扩大时，谷歌的系统始终会更具成本效益。

另有用户给出了一个尖锐的回应。他说如果Gemini CLI的使用体验能接近Codex或Claude，他也会长期持有谷歌股票。谷歌的硬件或许很棒，但如果旗舰编码代理程序总是卡在寻找回合结束标记的循环中，那一切都毫无意义。

有用户用英伟达的历史做了一个深刻的类比。他说糟糕的软件会毁掉好的硬件，反过来也一样。英伟达很长一段时间只是游戏显卡公司，和AMD竞争。九十年代组装电脑时经常在这两家之间轮换，最终选择主要取决于渲染速度和帧速率。但黄仁勋押宝计算引擎推出了CUDA，CUDA后来成为GPU上快速并行运算的事实标准。英伟达成功搭上了比特币的顺风车，随后又抓住了深度神经网络的浪潮。尽管十五年过去了，AMD至今仍未跟上步伐。

另有用户纠正了一个时间点错误。他说自己也犯了同样的错误以为现在是2020年。CUDA早在2006年就发布了，2007年2月正式上线。所以实际上AMD和Radeon二十年来都没意识到他们需要一个好的软件栈。

有用户从成本角度进行了深入分析。他说不用支付英伟达的高额费用很可能成为谷歌巨大的竞争优势，而且没有人能像谷歌那样以如此低的成本建造数据中心。他提到有说法称Claude Mythos的训练成本约为一百亿美元，他认为谷歌现在或很快就能以至少低一个数量级的成本完成同样的工作。

这位用户还提出了一个关于模型商品化的观点。他认为这些模型最终会被商品化，没有任何一家公司能凭借单一的模型护城河维持其万亿美元市值。理由有两条。第一，说到底这只是软件，而软件可以无限复制和分发，今年已经发生了一起严重的Anthropic模型泄露事件。第二，中国将确保世界不会过度依赖一家拥有AI技术的美国科技公司，DeepSeek事件只是敲响的警钟。

模型弃用政策与客户体验的冲突

有用户提出了一个关于模型弃用政策的观察。他说在大型推理服务提供商中，谷歌的模型弃用政策是最不便的之一。谷歌会在模型发布一年后立即弃用，并强制用户升级到下一代模型。他原以为使用自研芯片稳定性应该更好，但事实恰恰相反。谷歌的速率限制也比OpenAI等公司严格得多。

另有用户补充说，谷歌如此随意地淘汰旧版Gemini令人沮丧。一旦新版本占据了百分之九十以上的市场份额，谷歌就会按照成本效益分析毫不留情地关闭旧版本。不过最近他们延长了Gemini 2.5的生命周期结束日期，这倒是令人惊讶。

有用户问了一个看似合理的问题。坚持使用旧模型有什么好处？如果API是一样的，切换成本是什么？

有用户解释说，新模型在每个任务上的行为并不与前辈相同。你可能已经构建了依赖特定行为的管道，但新模型在特定任务上表现更差或者行为不同，需要调整提示词。新版本还可能从根本上改变默认模型设置，比如Gemini 2.5的温度设置行为与之前完全不同。这创造了一个不断移动的目标，让你必须不断调整和返工，而不是提供一个你和你的用户可以依赖的稳定平台。其他提供商有更长的弃用窗口，他们至少理解这种沮丧。

另有用户进一步补充说，如果你试图运行可重复的工作流，不改变模型带来的稳定性可能超过更聪明的新模型带来的好处。成本也会发生巨大变化，Gemini Pro的令牌成本从2.5版本的每百万输入令牌1.25美元上涨到3.1版本的2美元，新版本对图像和PDF页面的令牌化效率也更低，每个图像或页面的令牌使用量超过两倍，所以在新版模型上每个请求的成本要高得多。

谷歌的长期战略：缓慢但致命的潮汐式增长

有用户提出了一个宏观观察。他说谷歌一直在悄无声息地不断增强实力，抢占消费者市场份额。考虑到从第一天起就在AI领域进行了如此深度的垂直整合，谷歌的基础设施问题似乎很少。曾经有一度谷歌看起来像是一个失败者，但他们就像潮汐一样，只是全方位地增长。

另有用户反驳说，去看看Google Antigravity的subreddit就知道了，那完全是个灾难现场。用户情绪的糟糕程度可能比ClaudeAI的subreddit还严重，这已经很说明问题了。

有用户表示，他认为未来一两年内谷歌和苹果都会吃到蛋糕。他们没有玩那种每月发布粗糙产品来翻倍估值的游戏，他们有足够的时间思考和观察，推出真正精致的产品。

另有用户直接怼了一句，像苹果智能那样精致？那东西相当烂。

有用户补充说，大多数人期望在2026年能够更可靠地设定一个口头计时器。还有用户指出，广告中展示的功能在内部从未实现过，而且即使在市场推广发布后过了这么久，至今仍然无法使用。

智能体时代的真实需求与硬件能力的错配

谷歌官方博客强调，在智能体时代，模型必须通过推理解决问题，执行多步骤工作流，并在持续循环中从自身行动中学习。这给基础设施带来了全新需求。TPU 8t和TPU 8i正是为了应对这些挑战而设计的，从构建最有能力的AI模型，到完美编排的智能体集群，再到管理最复杂的推理任务。

然而从Hacker News的讨论中可以清晰地看到，至少在编程智能体这个核心场景上，谷歌的软件体验远远落后于硬件能力。开发者们普遍反映的问题包括Gemini CLI存在死亡循环、错误工具调用、冗长而误导性的回答、奇怪的语气、速度慢、经常超时或返回错误等。

更令人担忧的是，谷歌似乎并不急于解决这些问题。他们的优先方向仍然是增强传统搜索，而不是打造一个真正好用的编程智能体。这种战略选择从商业角度或许合理，因为搜索是谷歌的现金牛，但从开发者社区的角度看，这无疑是一种资源错配。

如果谷歌不能尽快补齐软件和模型智能体能力的短板，第八代TPU的强大算力可能只会成为一场华丽的硬件炫技，而不是真正推动行业进步的引擎。正如有用户所说，糟糕的软件会毁掉好的硬件。英伟达用CUDA证明了好的软件栈可以让硬件称霸二十年，谷歌现在需要证明自己也能做到这一点。

谷歌在硬件层面的垂直整合已经达到了令人震撼的程度，从芯片到数据中心，从Axion CPU到第四代液冷技术，从Virgo网络到Pathways软件，谷歌建立起了一道难以逾越的技术壁垒。但软件和模型能力的短板正在侵蚀这道壁垒的价值。开发者社区期待的是一台真正能干活不犯错的智能体，而不是一个算力惊人但干活时不断卡死的硬件怪兽。

谷歌第八代TPU芯片深度解析：针对智能体的121 ExaFlops算力怪兽

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道