极简代码+开源精神正撕开英伟达与谷歌的AI芯片铁幕

Anthropic 选择谷歌 TPU 凸显训练芯片双寡头格局，tinygrad 创始人 George Hotz 主张极简软硬件设计，挑战英伟达与谷歌垄断，AMD 有望成第三极。

Anthropic 和谷歌达成 TPU 独家训练芯片合作，这事儿彻底坐实了一个残酷现实：放眼全球，真正能做出大模型训练芯片的，只有两家——英伟达和谷歌。

别看其他巨头和创业公司前赴后继，结果呢？特斯拉的 Dojo 项目雷声大雨点小，亚马逊的 Trainium 虽然有 AWS 背书，但生态和软件支持始终没跑通，国产大模型公司 DeepSeek 也只能依赖华为的昇腾芯片勉强支撑。至于那些拿了大笔融资的 AI 芯片初创公司？一轮又一轮流片（tapeout），烧了几亿美金，却连一个真正被主流大模型团队采用的案例都拿不出来。

但你可能不知道，谷歌的 TPU 芯片硬件本身其实非常简单！真正拉开差距的，是背后那套闭源的软件栈——尤其是 XLA-TPU 编译器。

业内公认，XLA-TPU 是目前最强大的深度学习编译器，没有之一。可惜，谷歌把它牢牢锁在自家生态里，外人想用？门儿都没有。这也解释了为什么那么多公司砸钱做硬件，却始终无法撼动英伟达 CUDA + cuDNN 的统治地位——不是芯片不行，是软件生态太难建。

不过，现在有一股新势力正在悄悄崛起：

tinygrad 这个项目，很多人一开始觉得是“玩具”，甚至嘲笑它充满“达克效应”（Dunning-Kruger effect）——就是那种能力不足却盲目自信的状态。但事实证明，它的核心理念是对的：深度学习底层计算的抽象其实非常简单。

如今 tinygrad 的代码库已经高度精简，针对特定硬件后端的适配代码只有大约 1000 行！这意味着什么？意味着构建一个高性能、可扩展的深度学习运行时，不再需要动辄百万行的复杂工程。

更疯狂的是，他们下一步打算自己造芯片！而且不是纸上谈兵。团队认为，一个真正高效的 AI 加速器，其 Verilog 硬件描述代码应该控制在 3000 行左右。先在 FPGA 上验证原型，跑通后再找晶圆厂合作伙伴流片。这思路，既务实又大胆——用极简设计对抗巨头的复杂堆砌，用开源精神挑战闭源垄断。

顺便提一句，他们现在还在全力推进与 AMD 的 MLPerf 合作项目。

过去两年，AMD 在 AI 软件栈上进步神速，ROCm 平台越来越成熟，整体架构思路明显在向英伟达 CUDA 看齐。一开始很多人觉得这是“模仿”，但现在看来，这是一种极其聪明的策略——先兼容主流生态，再逐步建立自己的优势。照这个势头下去，AMD 很可能在两年内成为无可争议的第三大训练芯片玩家，彻底打破“英伟达一家独大”的格局。

说到这儿，不得不提一下背后这个人——George Hotz。他是美国著名黑客、程序员，2007 年破解初代 iPhone 而一战成名，后来创办自动驾驶公司 Comma.ai，开源了自动驾驶栈，还多次在公开场合挑战特斯拉 Autopilot 团队。他向来以“极简主义”和“第一性原理”思考著称，坚信复杂问题往往有简单解法。tinygrad 正是他这一哲学的最新实践：用最少的代码，实现最大的性能，最终目标是让任何人都能轻松训练大模型，而不被巨头的封闭生态绑架。

这场 AI 芯片战争，表面上是硬件之争，实则是软件生态与开放理念的对决。英伟达靠 CUDA 建起护城河，谷歌靠 TPU + XLA 锁定自家大模型，而 tinygrad 代表的是一种“去中心化”的可能性——用开源、简洁、可复制的方式，让算力真正回归开发者手中。

未来两年，如果 tinygrad 真能发布 1.0 版本并实现性能超越，那将不只是技术突破，更是一场对现有 AI 基础设施权力结构的颠覆。

我们正站在一个关键转折点上：是继续依赖少数巨头的黑盒系统，还是拥抱一个更开放、更透明、更民主的 AI 未来？答案，或许就藏在那 1000 行后端代码和 3000 行 Verilog 之中。

极简代码+开源精神正撕开英伟达与谷歌的AI芯片铁幕

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道