英伟达暴跌17%!DeepSeek数次宕机

banq

英伟达股价周一下跌17%,原因是投资者担心这家中国公司与OpenAI等竞争对手相比,使用的英伟达芯片远少于美国公司。但DeepSeek周一也在努力适应新用户的涌入,数次出现网络瘫痪,无法访问。

英伟达达周一表示,中国的人工智能公司DeepSeek的进步证明了他们的芯片对中国市场很有用,而且未来会需要更多的芯片来满足DeepSeek服务的需求。

因为投资者担心中国的DeepSeek使用的Nvidia芯片比美国公司少很多,Nvidia的股价下跌了17%,所以Nvidia在周一发表了声明。

Nvidia在声明中说:“DeepSeek的工作展示了如何用这项技术创建新模型,利用广泛使用的模型和完全符合出口管制的计算。”

DeepSeek的一篇研究论文显示,他们用了大约2000块Nvidia的H800芯片。这些芯片的设计符合美国2022年发布的出口管制,但专家告诉路透社,这几乎不会减慢中国人工智能的进步。
美国的微芯片出口管制是想冻结中国用来研发核武器和人工智能系统的超级计算机。

兰德公司的技术分析高级顾问吉米·古德里奇说,中国至少有十几台大型超级计算机,其中很多是用当时合法购买的Nvidia芯片。DeepSeek就是用这些芯片来学习如何提高计算效率。计算效率也是美国人工智能公司关注的重点。

“DeepSeek不是突然冒出来的——他们多年来一直在研究模型构建,”古德里奇说。“大家都知道DeepSeek有一支非常优秀的团队,如果他们能获得更多的计算能力,谁知道他们会有多强大。”

周一,DeepSeek正在努力应对大量新用户的涌入,数次出现无法访问的情况,这说明Nvidia芯片仍然会很受欢迎。

推理需要大量的Nvidia GPU和高性能网络
Nvidia现在正在销售一款叫H20的芯片,这款芯片的设计符合最新的出口管制规定。虽然这些限制影响了这款芯片在AI训练中的用途,但可能是世界上最好的推理芯片。

DeepSeek架构
就像GPT2和GPT 3诞生之初的先前模型一样,DeepSeek-R1 是Transformer解码器块的堆栈:

  • 它由 61 个 Transformer 解码器块组成。前三个是密集的,
  • 但其余的是混合专家MoE

MoE(Mixture of Experts,专家混合模型)是一种通过“分工合作”来提升AI模型效率的设计方法。它的核心思想是:让不同的“专家”模型专注于解决不同的问题,而不是让整个大模型处理所有任务。这种方式可以显著提高硬件性能的利用率,尤其是在使用高性能硬件(比如H800芯片)时。

MoE模型由两个主要部分组成:

  • 门控网络(Gating Network):负责决定哪个“专家”模型最适合处理当前的任务。
  • 专家模型(Experts):多个小型模型,每个模型专门处理某一类任务。

当一个任务输入到MoE模型时,门控网络会根据任务的特点,选择最合适的专家模型来处理。只有被选中的专家模型会被激活,其他模型则保持“休眠”状态。这种方式避免了不必要的计算,从而节省了硬件资源。

假设你有10个专家模型,但每个任务只需要2个专家来处理。那么,MoE模型的计算量只有传统模型的20%,硬件资源的使用效率大大提升。

MoE模型中的专家模型是独立的,可以并行运行。这意味着多个专家模型可以同时在不同的硬件单元(比如GPU的核心)上运行,充分利用硬件的并行计算能力。

  • 高性能硬件(比如H800芯片)通常有成千上万个计算核心,MoE模型可以通过并行计算将这些核心的性能完全发挥出来。

MoE模型只需要加载被激活的专家模型的参数,其他部分不需要加载。这样可以显著减少内存占用,让硬件能够处理更大规模的模型。

DeepSeek使用了大约2000块H800芯片来训练他们的AI模型。如果使用传统模型,可能需要更多的硬件资源才能达到相同的效果:
DeepSeek V3在H800 GPU上做了一些特别的优化。H800 GPU有132个SM,DeepSeek V3分配了其中的20个专门用于服务器之间的通信任务。这里的关键是,SM通常是用于计算任务的,比如进行大量的数学运算。而DeepSeek V3却用一部分SM来做通信任务,这听起来有点不寻常:为了加速MoE模型中的通信过程。

这些通信任务与MoE(Mixture of Experts,专家混合模型)中的门控网络有密切关系:
在MoE模型中,门控网络负责决定哪个专家模型最适合处理当前的任务。这个过程需要以下步骤:

  1. 输入数据分发:将输入数据发送给门控网络。
  2. 专家选择:门控网络根据输入数据的特点,选择最合适的专家模型。
  3. 数据路由:将输入数据路由到被选中的专家模型。
  4. 结果汇总:将各个专家模型的计算结果汇总,生成最终输出。

这些步骤中,数据路由和结果汇总需要大量的通信,尤其是在分布式计算环境中(比如多个GPU或服务器之间)。如果通信效率不高,就会成为整个系统的瓶颈。

在MoE模型中,通信任务(尤其是门控网络的数据路由和结果汇总)对性能的影响非常大。以下是几个关键原因:

  • 高频率通信:门控网络需要频繁地将数据分发到不同的专家模型,并将结果汇总回来。
  • 低延迟要求:通信延迟会直接影响整个模型的推理速度。如果通信速度慢,即使计算速度再快,整体性能也会受到限制。
  • 大规模分布式计算:在DeepSeek V3这样的系统中,专家模型可能分布在多个GPU或服务器上,通信任务变得更加复杂和繁重。

总之:
DeepSeek V3对硬件性能的深度优化,尤其是在处理复杂的MoE模型时,能够最大化利用H800 GPU的计算和通信能力。