DeepSeek一文吓慌硅谷,英伟达市值蒸发6000亿!


上周五下午,杰弗里·伊曼纽尔在布鲁克林的家里开始写一篇博客。他坐在电脑前敲了好几个小时键盘,他老婆则忙着照顾小孩,顺便给他送点吃的。伊曼纽尔一直写到半夜,到周六凌晨,他已经写了差不多12000字。

这篇博客的主要内容是:他建议大家做空英伟达(NVIDIA)的股票。英伟达是现在股市里最火的公司之一,主要做人工智能相关的芯片。伊曼纽尔认为,人工智能领域最近发生了很多变化,尤其是中国一家叫DeepSeek的公司推出了新的技术,可能会对英伟达造成冲击。他把这篇文章发在了自己的博客上,还分享到了Reddit、X(以前的Twitter)等平台。

周六早上,伊曼纽尔看了看博客的访问量,发现有35个人在同时读他的文章。他觉得还不错,毕竟这只是他个人博客上的文章。但没想到,事情很快就失控了。

到了周六晚上,全球有1500人同时在读他的博客!一些大V也开始转发他的文章,比如著名的投资人Chamath Palihapitiya(有180万粉丝)和Naval Ravikant(有260万粉丝)。Y Combinator(一家很有名的风投公司)的合伙人也提到了他的文章,Dropbox的副总裁也在一个阅读量超1300万的帖子里提到了他。伊曼纽尔自己的X帖子浏览量接近50万,粉丝也从2000涨到了1.5万。

伊曼纽尔后来接受采访时说,他的网站甚至因为流量太大崩溃了,大家只好分享一个存档链接,但他的分析工具没法追踪这个链接的数据。不过,他发现访问量最高的城市是加州的圣何塞——正好是英伟达总部所在地。

伊曼纽尔的核心观点是:美国的大型科技公司并没有华尔街吹的那么厉害。这些公司虽然用了很多数据和昂贵的硬件来搞人工智能,但成本非常高。而中国的DeepSeek公司最近推出了类似的技术,用的芯片更少、成本更低。伊曼纽尔觉得,华尔街的分析师们忽略了这一点,结果被他这个“普通人”发现了。

到了周一,事情变得更疯狂了。英伟达的股价开盘就暴跌了12.5%,之后一路下跌。到收盘时,英伟达的市值蒸发了近6000亿美元,创下了历史上最大的单日跌幅。财经专栏作家马特·莱文说,伊曼纽尔的帖子可能是这次股市暴跌的重要原因,甚至称这是“有史以来最具影响力的做空报告之一”。

接下来的一周,伊曼纽尔忙得不可开交。很多对冲基金愿意每小时付他1000美元,让他通过电话聊聊对英伟达和人工智能的看法。

伊曼纽尔说:“我累得都快说不出话了,这简直是我人生中最不真实的经历。”

伊曼纽尔论点的要点如下:
一些最具影响力的科技公司已经确定,深度学习和人工智能是互联网诞生以来最大的技术进步。为了将这项技术融入到他们的业务中,这些公司必须构建和训练他们的人工智能,这需要大量的数据和计算资源。Nvidia 销售这些公司所需的关键硬件,其最先进芯片的利润率非常高。 

但伊曼纽尔表示,一些正在发生的变化证明这种情况可能是不可持续的。 

首先,人工智能公司一直在使用扩展定律,该定律本质上说,用于训练人工智能模型的数据越多,模型就越好。但伊曼纽尔写道,该行业可能缺少训练人工智能的优质数据——也就是说,一堵潜在的“数据墙”即将出现,这可能会减缓人工智能的扩展,并减少对训练资源的一些需求。

Emanuel 还提出了一个问题:在训练完 AI 后,训练硬件会怎样?GPU 的性能不断呈指数级增长,因此几年后,公司可能就不想再使用旧硬件了。这让他们陷入了一个循环:他们总是花更多的钱来获得最好的硬件。但最终,这些公司会希望看到巨额投资的回报。

其中一些公司,例如 Alphabet,也一直在投资打造自己的半导体芯片。一段时间以来,Nvidia 的硬件一直是训练 AI 的最佳选择,但随着越来越多的公司(例如 Cerebras)打造更好的硬件,这种情况可能不会永远持续下去。其他 GPU 制造商(例如 Advanced Micro Devices AMD) 正在更新其驱动程序软件,以提高与 Nvidia 的竞争力。

除此之外,一些新的人工智能模型被证明更加节省资源。这就是DeepSeek 的所有戏剧性之处。DeepSeek 推出了自己的人工智能,与 OpenAI 的 ChatGPT 等相媲美,但真正令人吃惊的是,它声称它使用更少的芯片在更短的时间内训练了人工智能。

将所有这些因素加在一起:不可持续的支出和数据中心建设、可用的训练数据更少、更好的竞争硬件和更高效的人工智能(这段逻辑的因果必然性缺少严谨,所有因素加在一起,也不是必然得出不可持续的支出和不可持续的数据中心建设没有必要了),你会发现未来很难想象 Nvidia 的客户会在 Nvidia 硬件上花费这么多。

后果
伊曼纽尔的博客文章引发了巨大的连锁反应,尤其是对英伟达股价的影响。虽然他的预测看起来很有先见之明,但实际情况可能更复杂。

(其实他的文章只是被用来做空英伟达的一个借口,是天地人和中的“天道”名义部分。)

伊曼纽尔的博客文章关于DeepSeek:
这家小小的中国公司怎么能完全抢走我们领先的人工智能实验室里所有最聪明的人的风头,而这些实验室拥有比我们多100倍的资源、员工、工资、资本、GPU等等?拜登对GPU出口的限制难道不应该让中国陷入困境吗?好吧,细节确实很技术性,但我们至少可以从高层次来解释一下。也许事实就是,DeepSeek相对较少的GPU处理能力反而成了他们更具创造力和聪明才智的关键因素,毕竟“需要是发明之母”。

他们的一项重大创新是先进的混合精度训练框架,这让他们能够在整个训练过程中使用8位浮点数(FP8)。大多数西方人工智能实验室使用“全精度”32位数字进行训练(这基本上决定了人工神经元输出的可能等级数;FP8中的8位可以存储比你想的更广泛的数字——它不仅限于256个不同的大小等级,就像你用普通整数时那样,而是通过巧妙的数学技巧来存储非常小和非常大的数字——虽然精度比32位低)。主要的权衡是,虽然FP32可以在很大范围内以极高的精度存储数字,但FP8牺牲了一些精度来节省内存并提高性能,同时仍然保持足够的精度来满足许多人工智能任务的需求。

DeepSeek通过开发一个巧妙的系统解决了这个问题,这个系统将数字分成小块来处理激活,将权重分成块,并在网络的关键点策略性地使用高精度计算。与其他实验室不同,其他实验室通常以高精度训练然后压缩(这会导致一些质量损失),而DeepSeek的原生FP8方法意味着他们可以节省大量内存而不影响性能。当你在数千个GPU上进行训练时,每个GPU的内存需求大幅减少意味着总体上需要的GPU数量会大大减少。

另一个重大突破是他们的多标记预测系统。大多数基于Transformer的大型语言模型(LLM)通过一次预测一个标记来进行推理。DeepSeek想出了如何同时预测多个标记,同时保持单标记预测的质量。他们的方法在这些额外的标记预测上实现了大约85-90%的准确率,这实际上将推理速度提高了一倍,而没有牺牲太多质量。巧妙之处在于他们保持了预测的完整因果链,所以模型不仅仅是猜测——它是在做出结构化的、上下文相关的预测。

他们最具创新性的开发之一是多头潜在注意力(MLA)。这是他们在处理所谓的键值索引方面取得的突破,键值索引基本上是Transformer架构中各个标记在注意力机制中的表示方式。虽然这在技术上有点复杂,但可以说这些键值索引是训练和推理过程中VRAM的主要用途之一,也是为什么你需要同时使用数千个GPU来训练这些模型的部分原因——每个GPU最多有96GB的VRAM,而这些索引会把这些内存全部占满。

他们的MLA系统找到了一种压缩这些索引的方法,可以在占用更少内存的情况下捕捉基本信息。最妙的是,这种压缩直接内置在模型的学习方式中——这不是他们需要单独做的步骤,而是直接内置在端到端的训练管道中。这意味着整个机制是“可微分的”,并且可以直接使用标准优化器进行训练。所有这些都有效,因为这些模型最终会找到比所谓的“环境维度”低得多的底层数据表示。因此,存储完整的键值索引是一种浪费,尽管这基本上是其他人所做的。

你不仅会因为存储了比实际需要多得多的数字而浪费大量空间,从而大大提高训练内存占用和效率(再次大幅减少训练世界级模型所需的GPU数量),而且实际上还可以提高模型质量,因为它可以充当“正则化器”,迫使模型关注真正重要的东西,而不是用多余的容量去适应训练数据中的噪音。所以,你不仅可以节省大量内存,模型甚至可能表现更好。至少,你不会因为节省大量内存而遭受性能的大幅下降,这通常是AI训练中的常见权衡。

他们还通过DualPipe算法和自定义通信内核在GPU通信效率方面取得了重大进展。这个系统智能地重叠计算和通信,仔细平衡这些任务之间的GPU资源。他们只需要大约20个GPU的流式多处理器(SM)进行通信,其余的则用于计算。结果是GPU的利用率远高于典型的训练设置。

他们做的另一件非常聪明的事情是使用所谓的混合专家(MOE)Transformer架构,但在负载平衡方面进行了关键创新。你可能知道,AI模型的大小或容量通常以模型包含的参数数量来衡量。参数只是一个存储模型某些属性的数字;比如某个神经元相对于另一个神经元的“权重”或重要性,或者某个标记在其上下文中的重要性(在“注意力机制”中),等等。

Meta最新的Llama3模型
Meta最新的Llama3模型有几种大小,比如:10亿参数的版本(最小)、70B参数的模型(最常部署的模型),甚至还有405B参数的大型模型。对于大多数用户来说,这种最大的模型实用性有限,因为你需要在计算机上安装价值数万美元的GPU才能以可接受的速度运行推理,至少如果你部署的是简单的全精度版本。所以,这些开源模型在现实世界中的大多数使用和关注点都在8B参数或高度量化的70B参数级别,因为这正是消费级Nvidia 4090 GPU可以容纳的,而你现在可以以不到1000美元的价格买到它。

那么,为什么这些都很重要呢?从某种意义上说,参数数量和精度可以告诉你模型内部存储了多少原始信息或数据。请注意,我说的不是推理能力,也不是模型的“智商”:事实证明,在解决复杂的逻辑问题、证明平面几何定理、SAT数学问题等方面,即使参数数量出奇地少的模型也能表现出非凡的认知能力。

但这些小型模型不一定能告诉你司汤达每部小说中每个情节转折的每个细节,而真正的大型模型却有可能做到这一点。这种极端知识水平的“代价”是,模型变得非常难以训练和推理,因为你总是需要同时将这405B个参数中的每一个(或任何参数数量)存储在GPU的VRAM中,才能对模型进行任何推理。

MOE模型方法的优点在于:
你可以将大模型分解为一组较小的模型,每个模型都了解不同的、不重叠(至少是完全不重叠)的知识。DeepSeek在这方面的创新是开发了他们所谓的“无辅助损失”负载平衡策略,这种策略可以保持专家的有效利用,而不会出现负载平衡通常带来的性能下降。然后,根据推理请求的性质,你可以智能地将推理路由到该组较小模型中最能回答该问题或解决该任务的“专家”模型。

你可以粗略地把它想象成一个由拥有各自专业知识领域的专家组成的委员会:一个可能是法律专家,另一个可能是计算机科学专家,另一个可能是商业战略专家。所以如果有关于线性代数的问题,你不会把它交给法律专家。当然,这是一个非常宽泛的类比,实际上它并不是这样运作的。

这种方法的真正优势在于,它允许模型包含大量知识,而不会变得非常笨重,因为即使所有专家的参数总数很高,但在任何给定时间,这些参数中只有一小部分是“活跃的”,这意味着你只需要将这一小部分权重存储在VRAM中就可以进行推理。在DeepSeek-V3的情况下,他们有一个绝对庞大的MOE模型,具有671B参数,所以它比最大的Llama3模型还要大得多,但在任何给定时间,这些参数中只有37B是活跃的——足以装入两个消费级Nvidia 4090 GPU的VRAM(总成本低于2000美元),而不需要一个或多个H100 GPU,每个H100 GPU的成本约为40000美元。

据传ChatGPT和Claude都使用了MoE架构,一些泄露的消息表明GPT-4共有1.8万亿个参数,分布在8个模型中,每个模型包含2200亿个参数。尽管这比试图将所有1.8万亿个参数放入VRAM中要容易得多,但由于使用了大量的内存,它仍然需要多个H100级GPU才能运行该模型。

除了已经描述的内容之外,技术论文还提到了其他几项关键优化。这些包括极其节省内存的训练框架,该框架避免了张量并行性,在反向传播期间重新计算某些操作而不是存储它们,并在主模型和辅助预测模块之间共享参数。所有这些创新的总和,当层层叠加在一起时,已经导致了约45倍的效率改进数字,这些数字在网上流传开来,我完全愿意相信这些数字是正确的。

一个非常有力的指标就是DeepSeek的API成本:尽管DeepSeek的模型性能几乎是同类中最好的,但通过其API进行推理请求的费用比OpenAI和Anthropic的同类模型低95%左右。从某种意义上说,这有点像将Nvidia的GPU与竞争对手的新定制芯片进行比较:即使它们不是那么好,但性价比要高得多,因此根据应用程序的不同,它仍然是轻而易举的事,只要你可以限定性能水平并证明它足以满足你的要求,并且API可用性和延迟足够好(到目前为止,尽管由于这些新模型的性能而出现了令人难以置信的需求激增,但人们对DeepSeek的基础设施表现感到惊讶)。

但与Nvidia的情况不同,Nvidia的成本差异是其数据中心产品获得90%以上的垄断毛利率的结果,而DeepSeek API相对于OpenAI和Anthropic API的成本差异可能只是因为它们的计算效率高出近50倍(在推理方面甚至可能更高——约45倍的效率是在训练方面)。事实上,OpenAI和Anthropic是否从API服务中获得了丰厚的利润甚至还不清楚——他们可能更感兴趣的是收入增长,以及通过分析收到的所有API请求来收集更多数据。

在继续之前,如果我不提一下,那我就太失职了,很多人都在猜测DeepSeek在训练这些模型所用的GPU数量和GPU时长方面撒了谎,因为他们实际上拥有的H100数量远远超过了这些卡的出口限制,他们不想给自己惹麻烦,也不想损害自己获得更多这些卡的机会。虽然这当然是可能的,但我认为他们更有可能说的是实话,他们只是通过在训练和推理方面极其聪明和富有创造力的方法才能够取得这些令人难以置信的成果。他们解释了他们是如何做事的,我怀疑他们的结果被其他各个实验室的其他研究人员广泛复制和证实只是时间问题。

能够真正思考的模型
较新的R1模型和技术报告甚至可能更加令人震惊,因为他们能够在Chain-of-thought(思维链)上击败Anthropic,现在基本上是除OpenAI之外唯一能够大规模使用这项技术的公司。但请注意,O1预览模型是OpenAI于2024年9月中旬发布的。这只是大约4个月前的事!你绝对必须记住的一点是,与OpenAI不同,OpenAI对这些模型在低水平上的实际工作方式非常保密,并且不会向除微软等签署了重要保密协议的合作伙伴以外的任何人透露实际的模型权重,而这些DeepSeek模型都是完全开源的,并且获得了许可。他们发布了非常详细的技术报告,解释了它们的工作原理,以及任何人都可以查看和尝试复制的代码。

借助R1,DeepSeek基本上破解了人工智能的圣杯之一:让模型逐步推理,而无需依赖大量监督数据集。他们的DeepSeek-R1-Zero实验展示了一些非凡的成果:使用纯强化学习和精心设计的奖励函数,他们设法让模型完全自主地开发复杂的推理能力。这不仅仅是解决问题——模型有机地学会了生成长链思维、自我验证其工作,并为更难的问题分配更多的计算时间。

这里的技术突破是他们新颖的奖励建模方法。他们没有使用可能导致“奖励黑客”的复杂神经奖励模型(即模型找到虚假的方式来提高奖励,但实际上并不会带来更好的现实世界模型性能),而是开发了一个巧妙的基于规则的系统,该系统将准确性奖励(验证最终答案)与格式奖励(鼓励结构化思维)相结合。事实证明,这种更简单的方法比其他人尝试过的基于过程的奖励模型更强大、更可扩展。

特别有趣的是,在训练过程中,他们观察到了所谓的“顿悟时刻”,即模型在遇到不确定性时自发学会在中途修改其思维过程的阶段。这种突发行为并非明确编程;它是模型与强化学习环境之间的交互自然产生的。模型会自行停止,标记其推理中的潜在问题,并以不同的方法重新启动,而所有这些都无需经过明确训练。

完整的R1模型基于这些见解,在应用强化学习技术之前引入了他们所谓的“冷启动”数据(一小组高质量示例)。他们还解决了推理模型的主要挑战之一:语言一致性。之前对思维链推理的尝试经常导致模型混合语言或产生不连贯的输出。DeepSeek通过在强化学习训练期间巧妙的语言一致性奖励解决了这个问题,以较小的性能损失换取更易读和更一致的输出。

结果令人难以置信:

  • 在最具挑战性的高中数学竞赛之一AIME 2024上,R1的准确率达到了79.8%,与OpenAI的O1模型相当。
  • 在MATH-500上,它的准确率达到了97.3%,在Codeforces编程竞赛中达到了96.3个百分点。
但也许最令人印象深刻的是,他们设法将这些功能提炼到更小的模型中:他们的14B参数版本的表现优于许多大小为其几倍的模型,这表明推理能力不仅与原始参数数量有关,还与如何训练模型来处理信息有关。

总结
总的来说,英伟达现在面临着五个主要的威胁:架构创新、客户自己做芯片、软件抽象化、效率突破和制造民主化。这些威胁中只要有一个成功,就可能会对英伟达的利润或增长产生重大影响。

英伟达现在面临着前所未有的竞争压力,它的高估值(20倍销售额和75%的毛利率)越来越难站得住脚。它在硬件、软件和效率方面的优势正在被逐渐打破,全球最聪明的人和大量资金都在从各个角度挑战它。

  1. 硬件方面:像Cerebras和Groq这样的公司通过全新的芯片设计,绕过了英伟达的互连技术(这是它在数据中心领域的主导优势)。同时,谷歌、亚马逊、微软等大公司都在开发自己的定制芯片,这可能会抢走英伟达的高利润业务。比如,亚马逊已经为Anthropic打造了超过40万个定制芯片的庞大系统。
  2. 软件方面:英伟达的CUDA软件框架曾经是它的护城河,但现在新的高级框架(如MLX、Triton和JAX)正在削弱CUDA的重要性。AMD的驱动程序也在改进,可能会让更便宜的硬件替代品变得更有竞争力。更厉害的是,AI驱动的代码转换工具正在出现,可以自动将CUDA代码移植到其他硬件上运行,这可能会彻底打破英伟达的软件锁定效应。
  3. 效率方面:DeepSeek最近的突破表明,AI模型的训练和推理可以大幅降低成本。DeepSeek用1/45的计算成本就达到了与GPT-4相当的性能,这意味着整个行业可能一直在浪费计算资源。再加上更高效的推理架构(如思维链模型),未来对计算资源的需求可能会比预期低得多。DeepSeek的API调用费用比OpenAI低95%,这要么说明英伟达的客户在浪费钱,要么说明英伟达的利润率必须大幅下降。
  4. 制造方面:台积电可以为任何有钱的客户生产高性能芯片,这限制了英伟达的架构优势。历史上,市场总能找到绕过人为瓶颈的方法,超额利润很难长期维持。

>这意味着整个行业可能一直在浪费计算资源。再加上更高效的推理架构(如思维链模型),未来对计算资源的需求可能会比预期低得多
(注:更高效模型只意味着效率提升,不代表处理量提升,因为处理量取决于用户规模和任务需求,一个人从一天处理10件事情提升到一天处理100件事情,但是他一个人也只能应付100人的任务,100人以上他一个人是无法应对的,必须扩展复制他这样的一个人)