DeepSeek-R1涉及论文清单列表

banq

DeepSeek-R1 是 AI 开放模型生态系统向前迈出的一大步,其最新模型在多项指标上与 OpenAI 的 o1 相媲美。他们用更少的资金和计算实现了这一目标,这一事实引起了很多炒作和关注。

如果想了解大模型的入门,参考这个比喻:

下面是DeepSeek基于的论文研究集合:

Transformer 论文
从本质上讲,DeepSeek 是建立在 Transformer 神经网络架构之上的。如果你不熟悉 Transformer,我建议你先阅读 Google、OpenAI、Meta 和 Anthropic 的一些基础论文。

1、你只需要注意力
这篇论文在 2017 年在机器翻译的背景下介绍了 Transformer 架构,并开启了 GPT-2、GPT-3、ChatGPT 以及现在的 DeepSeek 模型的缩放定律趋势。

2、语言模型是无监督的多任务学习者(GPT-2)
这篇论文展示了使用一套今天我们认为很小的模型对更大规模预训练的推广。这在当时是一件大事,表明我们不再需要为每个任务训练专门的模型,但这种“无监督”学习方法可以让模型“多任务”。

链接:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
还有一篇GPT-3 论文(语言模型是少样本学习者),介绍了促进 LLM 的想法。这篇论文主要评论了他们如何扩大数据和计算。

3、训练语言模型以遵循指令(InstructGPT)
InstructGPT 论文展示了 OpenAI 如何从预训练的 GPT-3 模型转变为类似 ChatGPT 的模型。他们没有在这篇论文中明确将其称为 ChatGPT,但如果你仔细阅读,就会发现它要么是 GPT-3.5,要么是 ChatGPT。这里的核心见解是收集数据来训练奖励模型,并使用强化学习将原始的预训练模型转变为遵循指令的有用聊天机器人。

4、Llama-3 模型群
Meta 的 Llama-3 Herd of Models 论文是首个可与 GPT-4 相媲美的大型语言模型。他们发布了一个 405B 模型和一套较小的模型,以及一份技术报告,揭开了训练流程内部工作原理的神秘面纱。

5、Transformer 的数学框架
Anthropic 的博客文章和论文对于理解 Transformer 的内部工作原理非常有用。这篇论文深入探讨了 Transformer 的工作原理,从最小的“电路”开始,然后逐步向上。它们很长,非常详细,但非常值得一读。

思路推理论文
DeepSeek 的 R1 和 OpenAI 的 o1 都依赖于包含模型内部推理的内部“思维”标记。这种行为可以被提示并训练到模型中。使用这些额外的标记作为草稿,模型已被证明可以解决多步骤问题并处理更复杂的任务。以下论文很好地说明了思维链推理研究在过去几年中取得了哪些进展。

1、思路链提示引发大型语言模型中的推理
本文表明,仅通过提示,模型就可以生成中间推理步骤,然后得出最终答案。提示提高了模型在一系列算术、常识和符号推理任务上的表现。它们的表现超过了(当时)最先进的微调 GPT-3 模型。


2、思想树:利用大型语言模型进行深思熟虑的问题解决
当语言模型从左到右逐个标记地生成文本时,如果它们犯了一个错误,就很难回溯或让模型纠正路线。在思想树论文中,他们允许模型考虑多种可能的推理路径,同时自我评估选择以确定下一个最佳行动选择。这是一种更昂贵的技术,因为它需要多次生成和多次验证,但表明该模型能够解决三个需要非平凡规划或搜索的新任务:24 游戏、创意写作和迷你填字游戏。


3、思维图谱:利用大型语言模型解决复杂问题
本文以思想链和思想树为基础,构建了一个任意图,其中信息单元(“LLM 思想”)是顶点,边对应于这些顶点之间的依赖关系。与思想树相比,这有助于降低计算成本。

4、思想的一切:打破彭罗斯三角定律,实现思想生成
该技术也称为 XoT,它结合了蒙特卡洛树搜索模块并结合了外部领域知识来解决问题。值得注意的是,XoT 只需一次 LLM 调用即可产生多个解决方案,展现了其在解决不同领域复杂问题方面的卓越能力。

5、提示报告
这篇论文对不同的“思想”论文以及许多其他提示技巧进行了很好的调查。你可以整理这篇论文中的所有提示和技巧,以创建一些非常有趣的合成数据集,以进一步训练越来越好的模型......只是说说而已。

专家混合论文
DeepSeek-V3 是他们所谓的“强混合专家 (MoE) 语言”模型,总共有 671B 个参数,每个 token 激活 37B 个参数。GPT -4 一直被传言是混合专家。这些架构背后的动机是,一些 token 需要不同程度的理解,通过将模型划分为许多专家,您可以平衡活动参数的数量和模型理解,甚至可以获得比完全密集模型更好的性能。

1、GShard:通过条件计算和自动分片扩展巨型模型
在一篇早期的 Mixture of Experts 论文中,他们将这项技术称为“分片”模型权重。他们展示了一个巨型模型可以在 4 天内高效地完成训练,实现从 100 种语言到英语的翻译,与现有技术相比,质量要高得多。这有助于扩大模型权重,同时保持模型在计算和准确性方面的性能。

2、Switch Transformers:通过简单高效的稀疏性扩展到万亿参数模型
Switch Transformers 论文训练了一个他们称之为具有大量参数的模型。他们简化了 MoE 中的路由算法,以提高训练大型模型的稳定性并改善计算成本。

3、深度学习中的稀疏专家模型回顾
无论从哪一方面来说,MoE 都不是新鲜事物,这篇论文对深度学习模型中在稀疏性领域的尝试进行了很好的历史性探索。


4、专家Mixtral
本文简要介绍了 Mistral 为小型 8x7B MoE 所做的工作。它们的性能达到了 GPT-3.5 级别,并根据 Apache 2.0 许可发布了模型权重。我喜欢这篇论文的简洁性和易读性。


5、升级改造的 MoE 击败了密集的 LLM 
升级是 Nvidia 团队的一项有趣技术。我们还邀请了Arxiv Dives上的作者来谈论他的工作。这个想法是采用一组预先训练的密集模型,并将它们组合成专家混合模型。我认为,这里可以进行很多探索,将开放权重模型组合起来,并将它们升级为更智能的模型。

强化学习论文
正如Yann LeCunn喜欢说的那样,这是锦上添花。这就是将经过预先训练的 LLM 变成具有个性、语气和实用性的聊天机器人的原因。它还有助于使模型与人类偏好保持一致。本节将主要涉及后训练 LLM 背景下的 RL,尽管该领域有大量其他研究。

1、RLAIF 与 RLHF:利用 AI 反馈扩展人类反馈的强化学习
本文通过从循环中移除人类,扩大了为 LLM 提供反馈的数据管道。RLHF(来自人类反馈的 RL)是一种可靠的信号源,因为反馈是由人类提供的,但收集数据的成本很高。他们表明,可以从充当奖励模型的 LLM 中获取信号。这为其他工作奠定了基础,包括自我奖励语言模型,最终是 R1 和 o1。

2、自我奖励语言模型
该摘要的第一行非常精彩:“我们假设,为了实现超人代理,未来的模型需要超人的反馈,以提供足够的训练信号。”

在本文中,他们展示了不仅可以使用外部奖励模型,还可以使用相同的 LLM 作为生成器和奖励模型。这个想法是,如果相同的模型权重学习如何生成文本并理解什么是好的和坏的输出,那么性能就会更好。他们循环设置了这个模型,并看到模型在 3 个训练周期内自我判断和改进的持续改进。

3、思考LLM:遵循一般指导并进行思维生成
撰写上述《自我奖励语言模型》论文的 Meta 团队在 o1 发布后带着类似的流程回来了,这次加入了思维链推理。他们在 o1 发布后很快推出了这项研究,但没有发布任何模型,但这是一个与训练 R1 风格模型非常相似的流程。

4、DPO——直接偏好优化
尽管还有许多其他信号可用于强化学习,例如 DeepSeek 中使用的 PPO 或 GRPO,但本节中还是将 DPO 论文放在了这一部分。在我看来,DPO 是最容易理解的,它将为您提供其他技术的良好起点。

DeepSeek 论文
最后但并非最不重要的是 DeepSeek 论文本身。我想先从非 DeepSeek 论文开始,让您在深入“深度”端之前有一个基本的了解。R1 的成功离不开一系列工作的进展,所以我不会错过下面的任何一篇论文。

1、DeepSeekLLM:利用 Longertermism 扩展开源语言模型
这是他们基础语言模型的 V1。在这里,DeepSeek 正在探索缩放定律的极限,并遵循现已确立的预训练、监督微调和 DPO 模式来获得最终的聊天模型。


2、DeepSeek-V2:强大、经济、高效的混合专家语言模型
DeepSeek MoE 仍然使用您最喜欢的 SFT 和 RL 来获得最终模型。在这里,DeepSeek 将 V1 扩展为专家混合模型,从而提高性能并将训练成本降低 42%。他们在这里开始升温。


3、DeepSeek-V3 技术报告
与 R1 相比,这篇论文的宣传力度略低,可能是因为它是在 12 月 26 日发布的,而所有 AI 影响者都在放圣诞假。这个模型的训练成本令人震惊,仅为 500 万美元,而其他实验室报告的为 1 亿美元。他们发布了检查点,作为对世界其他地区的一份礼物,并取得了与许多其他前沿实验室相当的表现。

4、DeepSeek-R1:通过强化学习激励法学硕士的推理能力
我们终于有了 o1 竞争对手,开源,可供所有人免费下载和试用。好吧,如果你想下载 670GB 的模型权重并拥有一组 GPU 来运行它们。幸运的是,他们还提炼了一组较小的模型,甚至可以在现代 Macbook 上本地运行。这些模型是开源和开放模型向前迈出的有希望的一步,也是人们在家中创建合成数据集和运行 SOTA 模型的绝佳起点。


5、DeepSeekMath:在开放语言模型中突破数学推理的极限
在 R1 论文中,他们提到他们在强化学习阶段使用了一种算法 GRPO。GRPO 实际上是在这篇 DeepSeekMath 论文中引入的,他们提高了模型推理数学问题的能力。这篇论文是 DeepSeek 论文集中的一篇精妙 MVP,强烈推荐。

另外一些可能被遗漏的 DeepSeek 论文是:

网友指南:
DeepSeek [1] 使用了 2015 年强化学习提示工程师 [2] 及其 2018 年改进版 [3] 的元素,通过 1991 年的神经网络蒸馏程序 [4 ]:一个蒸馏的思路链系统,将 [2] 的 RL 机器和世界模型折叠成一个网络。

参考文献(在网上很容易找到):
[1] #DeepSeekR1 (2025):通过强化学习激励法学硕士中的推理能力。arXiv 2501.12948

[2] J. Schmidhuber (JS, 2015)。关于学习思考:强化学习控制器和循环神经世界模型的新组合的算法信息理论。arXiv 1210.0118。第 5.3 节描述了强化学习 (RL) 提示工程师,它学会主动和迭代地查询其模型以进行抽象推理、规划和决策。

[3] JS (2018)。一个大网络,万物皆可。arXiv 1802.08864。另请参阅 US11853886B2。本文使用 1991 年的神经网络蒸馏程序 [4],将强化学习器和 [2] 的世界模型(例如基础模型)合并为一个网络。本质上就是现在所谓的 RL“思想链”系统,其中后续改进不断被蒸馏成一个网络。另请参阅 [5]。

[4] JS (1991)。使用历史压缩原理学习复杂的扩展序列。神经计算,4 (2):234-242,1992。基于 TR FKI-148-91,TUM,1991。第一个基于深度循环神经网络层次结构(具有不同的自组织时间尺度)的深度学习器,通过无监督预训练(CHatGPT 中的 P)和预测编码克服了梯度消失问题。此外:将教师网络(分块器)压缩或提炼为学生网络(自动化器),不会忘记其旧技能 - 这种方法现在被广泛使用。另请参阅 [6]。

[5] JS (AI Blog, 2020)。规划与强化学习与循环世界模型和人工智能好奇心诞生 30 周年(1990 年,引入高维奖励信号和 GAN 原理)。包含上述 [2][3] 的摘要。

[6] JS(AI Blog,2021 年)。30 周年:第一个采用无监督预训练的深度学习(1991 年)[4]。无监督分层预测编码可找到序列数据的紧凑内部表示,以促进下游学习。层次结构可以提炼 [4] 为单个深度神经网络。1993 年:解决深度 >1000 的问题。