Anthropic 和谷歌达成 TPU 独家训练芯片合作,这事儿彻底坐实了一个残酷现实:放眼全球,真正能做出大模型训练芯片的,只有两家——英伟达和谷歌。
别看其他巨头和创业公司前赴后继,结果呢?特斯拉的 Dojo 项目雷声大雨点小,亚马逊的 Trainium 虽然有 AWS 背书,但生态和软件支持始终没跑通,国产大模型公司 DeepSeek 也只能依赖华为的昇腾芯片勉强支撑。至于那些拿了大笔融资的 AI 芯片初创公司?一轮又一轮流片(tapeout),烧了几亿美金,却连一个真正被主流大模型团队采用的案例都拿不出来。
但你可能不知道,谷歌的 TPU 芯片硬件本身其实非常简单!真正拉开差距的,是背后那套闭源的软件栈——尤其是 XLA-TPU 编译器。
业内公认,XLA-TPU 是目前最强大的深度学习编译器,没有之一。可惜,谷歌把它牢牢锁在自家生态里,外人想用?门儿都没有。这也解释了为什么那么多公司砸钱做硬件,却始终无法撼动英伟达 CUDA + cuDNN 的统治地位——不是芯片不行,是软件生态太难建。
不过,现在有一股新势力正在悄悄崛起:
tinygrad 这个项目,很多人一开始觉得是“玩具”,甚至嘲笑它充满“达克效应”(Dunning-Kruger effect)——就是那种能力不足却盲目自信的状态。但事实证明,它的核心理念是对的:深度学习底层计算的抽象其实非常简单。
如今 tinygrad 的代码库已经高度精简,针对特定硬件后端的适配代码只有大约 1000 行!这意味着什么?意味着构建一个高性能、可扩展的深度学习运行时,不再需要动辄百万行的复杂工程。
更疯狂的是,他们下一步打算自己造芯片!而且不是纸上谈兵。团队认为,一个真正高效的 AI 加速器,其 Verilog 硬件描述代码应该控制在 3000 行左右。先在 FPGA 上验证原型,跑通后再找晶圆厂合作伙伴流片。这思路,既务实又大胆——用极简设计对抗巨头的复杂堆砌,用开源精神挑战闭源垄断。
顺便提一句,他们现在还在全力推进与 AMD 的 MLPerf 合作项目。
过去两年,AMD 在 AI 软件栈上进步神速,ROCm 平台越来越成熟,整体架构思路明显在向英伟达 CUDA 看齐。一开始很多人觉得这是“模仿”,但现在看来,这是一种极其聪明的策略——先兼容主流生态,再逐步建立自己的优势。照这个势头下去,AMD 很可能在两年内成为无可争议的第三大训练芯片玩家,彻底打破“英伟达一家独大”的格局。
说到这儿,不得不提一下背后这个人——George Hotz。他是美国著名黑客、程序员,2007 年破解初代 iPhone 而一战成名,后来创办自动驾驶公司 Comma.ai,开源了自动驾驶栈,还多次在公开场合挑战特斯拉 Autopilot 团队。他向来以“极简主义”和“第一性原理”思考著称,坚信复杂问题往往有简单解法。tinygrad 正是他这一哲学的最新实践:用最少的代码,实现最大的性能,最终目标是让任何人都能轻松训练大模型,而不被巨头的封闭生态绑架。
这场 AI 芯片战争,表面上是硬件之争,实则是软件生态与开放理念的对决。英伟达靠 CUDA 建起护城河,谷歌靠 TPU + XLA 锁定自家大模型,而 tinygrad 代表的是一种“去中心化”的可能性——用开源、简洁、可复制的方式,让算力真正回归开发者手中。
未来两年,如果 tinygrad 真能发布 1.0 版本并实现性能超越,那将不只是技术突破,更是一场对现有 AI 基础设施权力结构的颠覆。
我们正站在一个关键转折点上:是继续依赖少数巨头的黑盒系统,还是拥抱一个更开放、更透明、更民主的 AI 未来?答案,或许就藏在那 1000 行后端代码和 3000 行 Verilog 之中。