DeepSeek启示:通信是训练与推理最大区别

banq

DeepSeek极端榨取硬件性能,看起来不同寻常!推理和训练之间最大的区别之一是通信需求。

1、对于推理:
芯片之间不需要太多通信。你可以把它想象成普通的数据中心,甚至可以混合使用 Nvidia、AMD、Intel 等不同品牌的硬件,就像 Azure 现在为 OpenAI 等大模型提供服务那样。这也是为什么液体冷却越来越流行,因为你可以把芯片放得更近。

谷歌的 TPU 也比其他公司更早开始使用液体冷却。

2、对于训练:
情况就复杂多了。在考虑用于训练 AI 的芯片时,有三个方面:

  • 浮点运算 (FLOPS)
  • 内存带宽和容量
  • 互连(芯片到芯片互连)

训练需要频繁进行 all-reduce 和 all-gather 操作来同步整个网络中的模型。

实现这一点的主要因素(除了 Nvidia 销售的网络硬件)是软件。举个例子:

  • Meta 有一个叫 pytorch.powerplantnoblowup 的操作符,它会做一些假计算,防止在权重交换时出现功率峰值。
  • Nvidia 提供了一个高级库叫 NCCL(Nvidia 通信集合库)来帮助实现这些操作,但它只支持 Nvidia 硬件。
  • 除了Meta会自己定制 NCCL 版本,DeepSeek 就只能使用Nvidia更低级别的抽象(部分原因是出口管制限制了硬件选择)。

因为Nvidia 提供了多种选择:你可以直接用他们的库,也可以自己定制,甚至可以直接在PTX 级别上操作。

总的来说,Nvidia 和它最接近的竞争对手 AMD 在训练方面的软件差距仍然很大,尽管这个差距正在缩小。Dylan 甚至承认 AMD 的硬件在某些方面更好,但真正的问题是他们的软件。

任何用过消费级 GPU 的人可能都有同感。

目前,谷歌是唯一一家能在训练领域与 Nvidia 竞争的公司,他们的 TPU 堆栈(包括芯片、网络和软件)确实很强,但他们没有像 Nvidia 那样花大力气服务外部客户。Gemini上下文长度之所以能比其他模型长,部分原因就是谷歌的 TPU 堆栈。

Nvidia 在训练领域可能仍占主导地位,但从推断来看,我们看到很多竞争对手的出现。
Nvidia 在训练和微调方面非常强大,对于小公司来说,几乎不需要额外努力就能上手,而且他们把很多精力都放在了性能优化上。不过,即使 Nvidia 的引擎已经为训练做了优化,如果有人想要达到顶尖实验室级别的性能,他们还是会用比 CUDA 更底层的代码来进一步优化。

不过,想要极快的训练速度,你还是需要一个集群,因为芯片上的 SRAM 有限(只有 44GB),有家公司做了这样集群产品,它的内存接口还兼容 HBM 和 DDR,带宽非常快……而且它还支持 PyTorch,已经有模型训练速度极快的例子了。

除非 Nvidia 也做类似的事情,否则这款产品肯定会赢。也许未来会有人做出一个立方体,在垂直堆叠的芯片层之间加入冷却剂,实现类似的高互连速度,这样就不用依赖晶圆级的高产量了……

OpenAI 计划在 2026 年开发自己的 AI 芯片
OpenAI 正在完成他们第一个自己设计的 AI 芯片的最后工作。他们打算和台湾的台积电一起生产这个芯片,刚开始的试生产可能会花几个月的时间。
这个芯片会用台积电最新的 3 纳米技术来制造,这样 OpenAI 就有可能在 2026 年开始大量生产。

这个项目由一个之前在谷歌做芯片的专家 Richard Ho 带领,团队有 40 个人。他们正在和博通公司紧密合作,想要做出一个既能训练 AI 模型又能运行 AI 模型的芯片,不过刚开始可能不会大规模使用。
这个团队的人数让一些人有点疑问——行业内的专家说,一个完整的芯片项目通常需要几百个工程师,所以和谷歌或者亚马逊的类似项目比起来,OpenAI 的团队显得有点小。

有了解这个项目的消息人士说,OpenAI 主要是想通过这个芯片在和别的供应商谈条件时更有优势。虽然现在 Nvidia 在 AI 芯片市场上是老大,但亚马逊、微软和 Meta 这些大公司也一直在尝试自己做硬件。

这个动作正好赶上 AI 芯片需求越来越大。亚马逊、Meta 和微软都计划在 AI 基础设施上投几百亿美元,而 OpenAI 自己也参与了一个价值 5000 亿美元的星际之门基础设施计划。