AI大语言模型、AGI

Meta四个作战室正在研究DeepSeek

#算法教程 #大语言模型LLM #DeepSeek时刻

2025-01-28 3K banq

Meta 正在召集多个工程师的“作战室”，以研究 DeepSeek 的人工智能如何以极低的价格击败其他所有公司。

作战室：

意味着的只是一群人需要在较长的一段时间内保持通话并集中注意力。
每两个月会召开一次“作战室”。

据一位匿名的 Meta 员工称，Meta 为应对 DeepSeek 的潜在突破而建立了四个作战室，其中两个团队将试图破译 High-Flyer 如何降低训练和运行 DeepSeek 的成本，目的是将这些策略用于 Llama。

据《The Information》报道，剩下的两个团队中：

一个将试图找出 DeepSeek 使用哪些数据来训练其模型，
另一个将考虑 Llama 如何根据 DeepSeek 模型的属性重构其模型。

如果 Meta 能够解决这个问题，这意味着 Llama 4 或 4.x 将会大大改进。希望我们能得到一个与 DeepSeek 相当的 70B 密集模型。

从 Meta（就是 Facebook 那家公司）的角度来看，如果他们没办法拿到所有信息，那他们怀疑别人说的成本是不是真的，也是很合理的。
比如，Meta 花了多少钱搞 Llama（他们的 AI 模型），这个数字看起来挺高的，但我们能查到他们的财务情况，所以很难怀疑他们花了多少。

网友讨论：
1、 DeepSeek 可以访问大量美国公司没有的中文数据。我一直在做一个业余物联网项目，主要用 ChatGPT 来学习我能学到的东西，当我切换到 DeepSeek 时，它对工业控制的了解要多得多；这是我见过的唯一一个它有明显优势的地方。

2、GRPO 是秘密武器，它不需要奖励估计，从而降低了计算成本。未来的突破将在 RL 端，与监督/无监督机制相比，RL 端的研究还远远不够。

3、Deepseek 写了一篇关于它的完整论文。简而言之，没有SFT + 基于规则的 RL + MoE + ChatGPT 和 Claude 的合成数据，当你不必启动基础并且不需要支付数据注释费用时，AI 训练就会便宜得多……太令人震惊了

4、以下是Twitter 上的全面分析，总结了 DeepSeek R1 的所有独特进步。

fp8 代替 fp32 精度训练 = 内存节省 75% 。但是，现在训练 AI 模型时，大家都不用 fp32（一种高精度的计算格式）了，因为太费资源。虽然有些部分可以压缩到 fp8（一种低精度的格式），但模型和梯度的计算还是需要更高精度的格式，不然会影响训练效果。
多 token 预测可大幅加快 token 输出速度：但是推理（就是模型实际干活的时候）不会用“多标记预测”这种技术，所以生成内容的速度不会因此变快。
专家混合 (MoE)，这样推理就只使用模型的部分而不是整个模型（每次激活约 37B，而不是整个 671B），从而提高效率
多头潜在注意力 (MLA) 大大减少了注意力的计算、内存使用和推理成本（感谢u/LetterRip）
PTX（基本上是低级汇编代码）对旧版 Nvidia GPU 进行破解，以尽可能地发挥旧版 H800 GPU 的性能

所有这些与许多其他较小的技巧相结合，实现了高效的训练和推理。这就是为什么只有没有读过 V3 和 R1 论文的局外人才会怀疑550 万美元这个数字。该领域的专家一致认为，降低训练运行成本是合理的。

大家忽略的最大一点是，DeepSeek 有一群精通底层 GPU 硬件代码的工程师。例如，AMD 与其团队合作，使用 SGLang 优化运行 DeepSeek。DeepSeek还宣布支持华为的昇腾Ascend 系列国产 GPU。对硬件优化的深入了解可以使 DeepSeek 的模型在运行时比竞争对手更高效。

5、Lamda 实验室以每百万 0.80 美元的价格生产 llama 3.1 405B，尽管 v3/r1 更大，但效率更高，因为它们是 MoE。Meta这样拥有专有模型的大型实验室正在欺骗我们？

6、与完整的 Transformer 模型相比，MoE 架构需要的计算量更少

7、我觉得 Meta 没有全力搞 MoE（混合专家模型）是有原因的。
Llama系列的主要卖点是你可以直接在本地电脑上运行它，但 MoE 模型虽然在计算上很高效，却很占内存。如果用同样的内存来比较 MoE 和密集模型，密集模型的表现通常会更好一些。
MoE 更适合那些内存超多的大型 DGX 集群（就是那种超级计算机）。

8、据我们了解，Meta 可能正在为 Llama 4 训练 MoE（混合专家模型）。
Llama 3 和 Llama 2 的架构完全一样，因为（按照扎克伯格的说法）他们想看看用更好的数据能把模型推到什么水平。
他们可能也考虑了训练流程，毕竟他们已经花了很多精力去优化它，好让模型能在他们的大型集群上顺利运行。

Meta四个作战室正在研究DeepSeek

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道