特斯拉人工智能Dojo概述

几天前,Tesla Dojo 项目的负责人 Genesh Venugopal 宣布了 Dojo(道场) 机器学习培训系统。这是一个异常丰富的网络、功率密集和内存轻的设计。特斯拉打破了制造计算机的所有规则并建立了行业标准。
特斯拉已经使用 NVIDIA GPU构建了世界上最强大的超级计算机之一。这就是他们所说的 GPU 堆栈,GPU 的数量“超过了世界排名前 5 的超级计算机”。只比中国的 神威·太湖之光( Sunway TaihuLight )超级计算机少一点:

事实上,当谈到特斯拉创建 Dojo 所针对的特定任务时,Dojo 很可能会以非常大的幅度超过世界上所有其他超级计算机的总和。
超越了原始计算性能,Dojo 及其令人瞠目结舌的工程几乎以所有其他可以想象的方式让所有超级计算机相形见绌。为了从逻辑上解释这一点,我们需要从小规模开始。

在下面总结了系统的架构,发现系统的三个方面特别有趣:

  • 大规模网络:每个Tesla  D1 芯片提供 16,000 Gbps(4 通道 4Tbps)的网络,它们组合成 25 芯片 MCM(多芯片模块)以提供 36,000 Gbps (4x 9Tb) 的网络带宽
  • 微小的内存与计算比:每个 D1 芯片由 354 个功能单元组成,每个功能单元只有 1.25 MB 的 SRAM,根本没有 DRAM,因此每个 D1 处理器的内存不到 ½ GB。他们在 5 个机架行的每一端配置了大型 DRAM 池,计算机机架本身没有 DRAM。它们如何能在如此轻的内存上运行时,我怀疑这是巨大的网络带宽的组合,并且该系统旨在运行视觉模型,其中内存密集度低于许多其他常见的 ML 训练工作负载。
  • 巨大的功率密度:每个 D1 芯片仅耗散 400 W,这与该尺寸的现代部件的预期差不多,但它们将它们组合成相当密集的 25 个芯片 MCM,称为训练片,每个 MCM 耗散 15 千瓦(10 千瓦的 D1 和 5 千瓦的稳压器和其他开销)。对于完整规划的 10 机架 Dojo 培训系统来说,这是 1.8 兆瓦。作为一个规模点,中型数据中心将在 30 到 40 兆瓦范围内运行)。

特斯拉现在已经掌握着摩尔定律的衣钵,就像 NVIDIA 十年前从英特尔手中接过领导地位一样。特斯拉不只是人工智能公司,而且是芯片设计公司。

以上资料来自:
Tesla Project Dojo Overview
Tesla’s Dojo Supercomputer Breaks All Established Industry Standards

更多#马斯克