在 Google Cloud Next 25 大会上,谷歌隆重推出第七代张量处理单元 (TPU) Ironwood。它是可扩展性最强的定制 AI 加速器,也是首款专为推理而设计的加速器。
谷歌TPUv7:
- 每秒能算4.6千万亿次浮点运算(FP8格式)
- 配了192GB超级快的内存(速度每秒7.4万亿字节)
- 芯片间传输速度每秒600GB(单向)
- 耗电大约1000瓦
- 每秒能算5千万亿次(FP8格式)或1亿亿次(FP4格式)
- 同样192GB超级快内存(速度每秒8万亿字节)
- 芯片间传输每秒900GB(单向)
- 耗电约1200瓦(声明:以上都是公开信息整理,纯属个人观点)
TPU好像把输入输出部件挪到了顶部薄芯片上,这样能省点成本。但在整机系统层面,TPU优势巨大——最多能连9216个芯片!不过这种立体环状连接方式会限制编程灵活性。
对比GB200:最多只能连72个芯片,但是用交换机连接的。这种方式灵活得多,但交换机更耗电,而且因为连接规模小,得更多依赖数据中心网络。
两者都能扩展到10万+加速器(通过InfiniBand或DCN网络),但TPU可能更稳定,因为用了光路交换技术。这篇博客有点夸张不实——拿TPU和El Capitan超算的FP64性能比。其实应该比FP8性能:El Capitan的FP8峰值性能是43808个MI300A芯片×每秒1961万亿次=86亿亿次。也就是说,9216个TPUv7芯片的算力约是El Capitan的一半,但功耗只有三分之一。
如果和El Capitan单排芯片比(大概每秒1.5亿亿次FP8运算),那一排只占整个超算的1/50。
这芯片和系统确实厉害,真没必要搞这种博眼球的对比!
有个趣闻:这芯片原本可能叫TPU v6p——是训练专用芯片。但(可能因为推理模型变重要了)改名成TPU v7,还号称"谷歌第一款为推理时代打造的TPU"——转型真够突然的。
总的来说,这是个GB200级别的芯片,但搭载了更牛的系统架构:光交换、机柜、数据中心网络、建筑设计。这次没有颠覆性创新,就是扎实的工程。
TPU团队再次干得漂亮。现在搞AI加速器的,依然只有英伟达和谷歌两家独大。