首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件!
1、DeepSeek 的DualPipe 算法
DeepSeek 的 DualPipe 算法是一种优化技术,主要用于提高 GPU 节点之间的通信效率和混合专家(MoE)模型的利用率。MoE 模型通过将计算任务分配给多个“专家”(即不同的神经网络)来实现更高效的计算训练,尤其是在使用数千个 GPU 进行训练时。虽然这种方法可以显著提高计算效率,但由于所有参数都需要加载到 GPU 的显存(VRAM)中,因此对内存的需求仍然很高。
如果有人想打败英伟达,唯一需要做的就是制造配备128、256、512、1024 GB显存的GPU。不需要更快,甚至不需要很棒的工具。我们需要更多显存。英伟达似乎不明白这一点,第一个做到的公司将会取代英伟达。
DualPipe 算法在前向和后向微批次内和跨微批次重叠计算和通信阶段,减少了管道效率低下的问题。
具体来说,调度(把令牌路由到专家)和组合(聚合结果)操作与计算并行处理,并用了定制的 PTX(并行线程执行)指令,这意味着他们写了低级的专用代码来和 Nvidia CUDA GPU 交互并优化操作。
DualPipe 算法的核心在于将 token 路由给不同的专家,并通过一种名为 PTX(并行线程执行)的代码并行处理结果的聚合。这种方法不仅优化了硬件利用率,还帮助降低了成本。
DualPipe 算法有效地减少了训练过程中的瓶颈,特别是在 MoE 架构中跨节点专家并行性方面。这种优化使得 DeepSeek 的集群在预训练期间能够处理 14.8 万亿个 token,而通信开销几乎为零。
除了 DualPipe,DeepSeek 还把每个 token 的最大节点数限制在 4 个,减少了参与通信的节点数。这减少了流量,确保通信和计算能有效重叠。
低精度训练技术
降低计算和通信需求的一个关键因素是用了低精度训练技术。DeepSeek 用了 FP8 混合精度框架,在不影响数值稳定性的情况下实现了更快的计算速度和更低的内存使用量。矩阵乘法等关键操作用 FP8 进行,而嵌入和规范化层等敏感组件保留了更高的精度(BF16 或 FP32)以确保准确性。这种方法降低了内存需求,同时保持了准确性,相对训练损失误差始终低于 0.25%。
MoE 模型优缺点
- MoE 模型有很多优势,比如能够以更低的成本训练更大的模型,加快预训练和推理速度,并减少生成第一个 token 的延迟。
- 然而,MoE 模型也有一些挑战,比如需要更多的显存来同时存储所有专家,并且在微调模型时可能会遇到困难。
混合精度和多头潜在注意力降低内存使用
DeepSeek 还通过一种名为“多头潜在注意力”(MLA)的技术进一步降低了内存使用率,将内存使用量减少了 5% 到 13%。MLA 通过处理长文本序列来减少推理过程中的内存需求。正如 ML 工程师 Zain ul Abideen 指出的那样,“MLA 的性能优于传统的多头注意力(MHA),并且显著减少了键值(KV)缓存,从而提高了推理效率。”
内存是 GPU 中非常昂贵的组件,尤其是像 Hopper 这样的 GPU,它的 HBM3e 内存容量有限,只有 80GB。相比之下,Blackwell GPU 的 HBM3e 内存容量高达 192GB,几乎是 Hopper 的 2.5 倍。因此,减少内存使用量是优化 Hopper GPU 性能的关键。
DeepSeek 的成功还得益于其创新的模型架构方法。他们引入了一种新颖的 MLA 方法,将内存使用量降低到传统 MHA 架构所消耗内存的 5%-13%。
2、英伟达硬件的优势
Nvidia 的 Hopper 系列 GPU 凭借其 TransformerEngine 在 AI 领域表现出色。两年前,Hopper 的 Transformer Engine 为 ChatGPT 的成功奠定了基础,因为它消除了在数学上寻找元素之间模式的需求,从而大大扩展了可用数据集的范围和处理速度。
H100 GPU 还利用 Transformer Engine 实现了混合精度计算,例如 FP8、FP16 或 FP32,具体取决于工作负载的需求。Nvidia 设计了在不同浮点精度之间切换的能力,以减少内存使用量。
FP8 使其能够“同时加速训练并减少 GPU 内存使用”,因为他们验证了 FP8 可以用于以极低的成本训练大规模模型。大多数计算密集型的操作都是在 FP8 中进行的,而一些关键操作则保留了更高的精度,例如那些对精度要求较高的操作。
虽然低精度训练经常会受到激活值、权重和梯度中异常值的限制,并且测试表明 FP8 训练容易出现不稳定性,但随着硬件的进步(例如 Hopper 对 FP8 的支持和 Blackwell 对 FP4 的支持),低精度训练正在成为一种高效的解决方案。
与 Hopper 相比,Blackwell 具有新的 Tensor Core 精度、FP4 精度、更多的流处理器(SM)和 CUDA 核心。Blackwell 集成了 2080 亿个晶体管,能够提供高达 20 petaflops 的 FP4 计算能力,而 H100 的 FP8 计算能力仅为 4 petaflops。B200 GPU 配备了支持 4 位浮点(FP4)的第二代 Transformer Engine,目标是在保持准确性的同时,将内存可支持的模型的性能和大小翻倍。
为了简单重现 DeepSeek 的训练效率并开发大规模模型,Hopper GPU 是必不可少的,因为它支持 FP8,而 Blackwell 则带来了 FP4 支持,能够为万亿参数模型提供实时推理和增强训练。
3、通向AGI两条道路:强化学习 vs. 英伟达Blackwell芯片
人工智能(AI)发展的两个关键方向:硬件(GPU)和算法(强化学习),这两个方面是合力还是二选一?
这可能代表未来两条道路:
- 硬件:Blackwell芯片支持的万亿参数模型
- 算法:与强化学习的专家小模型并行。
(1)认为硬件是通往AGI道路的观点:
Blackwell 和未来几代 GPU 是 AI 发展的必需品,
- GPU(比如英伟达的 Blackwell)是 AI 模型训练和运行的核心硬件。它们提供了强大的计算能力,能够处理海量数据。
- AGI(通用人工智能)是指像人类一样能够理解、学习和解决各种复杂问题的 AI。要实现 AGI,我们需要更强大的硬件支持,尤其是能够处理万亿级参数模型的 GPU。
- 未来几代 GPU(比如 Blackwell)会越来越强大,能够支持更大规模的 AI 模型训练,这是实现 AGI 的基础。
(2)强化学习可能是实现 AGI 的路径之一
强化学习是一种让 AI 通过与环境的互动来学习的方法:比如,AI 通过试错,获得奖励或惩罚,从而调整自己的行为。这是智能体的核心。
智能体强调专业深入,而不是如同大模型那么广大而神奇。
如果 AI 在一个复杂的环境中不断尝试最大化奖励,它可能会学会一些复杂的能力,比如社交智能和语言理解。这些能力是 AGI 的重要组成部分。这就是强化学习会发明自己的专家语言,也就是领域语言:AI自创符号语言:DeepSeek内部私语被曝光!
创建自己的领域专家语言下一步,通过类似DDD领域驱动设计或其他符号推理机制,落实为具体实施步骤,只能一个个代理智能实现成为可能。
(3)思维陷阱
这些无数个专业的博士级别智能体如同瑞士军刀,深入各个专业领域游刃有余,如同包丁解牛,需要时才启动,实现按需提供专家,而不是运行一个庞大的大型计算机系统为全球所有知识服务,这是典型的愚蠢的数据库中心系统,这也是Oracle老板投资5000亿建立数据中心的原因,因为打造上帝核心是这些人的默认心理模式,上帝是一个单点风险,尼采像皇帝新装中的小孩,说了一句上帝死了,主语没有了,人们突然从灯下黑中醒悟,这才是真正文明觉醒,但是历史总是在重复,在 AGI/ASi到来的今天,商人们又在玩同样花样。
有一种观点认为:
- 强化学习通常专注于解决特定任务(比如下棋或玩游戏),而 AGI 的目标是让 AI 能够像人类一样处理各种任务。
- 虽然强化学习是迈向 AGI 的重要一步,但它还不够。AGI 需要 AI 具备更广泛的能力,比如理解复杂的环境、学习新知识并应用到不同领域。
其实人类是一个聚合概念,集体概念,没有一个具体的人会处理各种任务,人有所长,AGI也是如此,AGI必须依靠一个个强化学习专家组成一个集合概念,才能像像“人类”一样处理各种任务。我们不能把“人类”和“个人”混同在一起,这其实是主语思维导致。幽默:“主语是什么”是一个重要的哲学课题
关于第二条:“理解复杂的环境、学习新知识并应用到不同领域”
这是也因为主谓宾的造句语言方式影响了我们的思维方式,集合与个体元素不能混同,因为领域有专业区别,领域存在边界,限制上下文,因此,只要做好每个领域边界内的事情,你就是专家,无数个你这样的专家每天通过学习,应用到自己的专业领域,这就是类似人类的分而治之,分工协作。
(4)上帝思维的AGI:
- 要实现 AGI,AI 模型需要变得更大、更复杂。目前的模型参数规模在千亿级别,但 AGI 可能需要万亿甚至十万亿级别的模型。
- 这种规模的模型需要强大的硬件支持,比如英伟达的 Blackwell 和其他 AI 加速器。这些硬件能够提供足够的计算能力和内存,来训练和运行这些巨型模型。
总结:
以强化学习为主的AGI或ASI实现道路主要基于大自然分而治之的智慧,人类内部线粒体网络都有这种分工协作应对环境不同而采取的策略,这么简单常识为何人们选择性忽视?却去追逐大而全的上帝?用全球能源作为祭品供奉这样的上帝机器?