Deepseek r1与OpenAI o1比较评测总结

banq


DeepSeek 通过 r1 实现了令人难以置信的成就,这可能是自 GPT-4 以来最重要的 AI 发布:一个开源的、MIT 许可的推理模型,可与 OpenAI 的旗舰产品 o1 相媲美,这在几个月前是不可想象的。

DeepSeek 推理(测试时计算)模型有两种:

  • DeepSeek-R1-Zero :是仅使用大规模 RL(强化学习)训练的模型,没有使用 SFT(监督微调)
  • DeepSeek-R1:是在 RL 之前集成了冷启动数据,以解决 r1-zero 的重复、可读性和语言混合问题,实现接近 OpenAI-o1 级别的性能。

阅读官方ReadMe了解更多信息。

除了这两个完整推理模型之外,Deepseek 还开源了六个提炼模型。

  • • Qwen 2.5:使用 DeepSeek-R1 在 1.5B、7B、14B 和 32B 中精选的 800k 个样本进行微调。
  • • Llama 3.1 8b 基础版和 Llama 3.3 70b 指导:Deepseek 精炼 Llama 模型

DeepSeek 模型比 o1便宜约 30 倍,速度约快 5 倍。

在这篇文章中,我们将剖析 DeepSeek-R1 的细节,解开对其地震释放的反应,并使用我个人的推理、数学和编码问题将其与 o1 进行比较。

Deepseek r1 的关键技术细节
Deepseek r1 技术论文是一座金矿。它展示了强化学习实现最先进推理模型的能力。因此,这里简要介绍一下 r1 的技术细节。查看原始论文以进行深入分析。

Deepseek-R1-zero

  • deepseek-r1-zero 基于最近发布的v3 模型(671B/37B 已激活)。
  • 该模型使用组相对策略优化( GRPO )算法进行大规模强化学习。
  • 模型根据其答案的准确性及其对指定格式的遵守情况(使用 标签进行推理和回答)获得奖励。
  • 此阶段不使用监督微调 (SFT)。模型纯粹通过 RL 进行学习。
  • 该模型展示了纯粹通过 RL 进行推理的能力,但存在可读性差和语言混合等缺点。
  • 在 RL 期间,研究人员观察到了他们所谓的“顿悟时刻”;这是指当模型犯错时,使用“我可以在这里标记一个顿悟时刻”之类的短语识别其错误并纠正其错误。

Deepseek-R1

  •  为了克服 R1-zero 的缺点,该模型在包含长思路链 (CoT) 示例的小型数据集(表示为“~k 个样本”,即数千个样本)上进行了微调。这些数据经过精心整理,易于阅读,并在末尾包含摘要。这一步对于为模型提供初始方向和解决 R1-Zero 的可读性问题至关重要。
  •  该模型经过强化学习进行推理,类似于 R1-Zero,但增加了语言一致性的奖励函数组件。此奖励会惩罚生成的 CoT 中的语言混合,鼓励模型坚持使用单一语言。
  •  一旦模型收敛,就会收集 800k SFT 数据用于后续步骤。它包括推理数据(600k)和非推理数据(200k)。
  •  该模型经过强化学习的最后阶段,以使其与人类偏好保持一致,并提高其执行写作、讲故事和角色扮演等一般任务的能力。

蒸馏
在这一步中,Deepseek 展示了即使是使用来自 r1 的推理样本进行微调的更小的模型也能显示出显著的性能提升。

他们使用了前面步骤中的相同的 800k SFT 推理数据来微调模型,例如 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。

这些模型没有经过强化学习,这意味着它们还没有达到其智能的上限。

Deepseek r1 推理能力总结
从我使用 Deepseek r1 的经验来看,它是一款出色的推理机;它的感觉肯定比 o1-preview 好。然而,o1 对我来说仍然保持领先,这也反映在 ARC AGI 结果中,其中 r1 与较低的 o1 模型进行了比较。

虽然这款机型在原始性能方面可能还无法超越顶级 O1 系列,但其优化的性价比使其成为日常使用的更实用的选择。您可以使用 r1 解决大多数数学问题。

我通常会选择最近的 LeetCode 难题来减少该问题出现在训练集中的机会。
因此,我使用“最长特殊路径”问题来测试 r1。这是一个相当棘手的问题。(至少对我来说)
他们都能够正确完成任务。不过,r1 的结果在整体内存消耗方面更佳,而 o1 在速度和内存方面则相当平衡。

o1 和 r1 在编码方面都差不多,但 o1-pro 更好一些(很明显)。但同样,考虑到价格,r1 毫无疑问胜出。

Deepseek-r1 最不为人知的能力是创意写作
R1 在创意写作方面绝对比我用过的任何模型都出色,包括 O1 和 O1-pro,原因很简单,因为它更自由奔放,从根本上更像人类。这种写作能力可以归功于 SFT 中的 20 万非推理数据。

互联网上对 r1 非凡的创造力赞不绝口。最近的一篇 帖子 重点介绍了一次有趣的交流,其中一位用户询问 Bing Sydney 的模型——而 r1 的回答令人印象深刻。

如果您想提高自己的创意写作提示 r1,请务必探索AIamblichus 的精彩提示建议,这些建议非常适合富有想象力的写作。

创意写作摘要
在创造力方面,这个模型比老模型要好得多。它受到的限制少得多,几乎可以自由地探索想法,而不受任何限制。此外,它有个性——就像克劳德一样——让人觉得和它聊天非常人性化。说真的,和它说话有时感觉就像在和真人聊天。这让你不禁想问:我们喜欢这些模型是因为它们很聪明,还是因为它们很迷人?不管怎样,它们取得的进步令人难以置信。

此次发布对于开源和整个 AI 行业来说都至关重要。一家中国公司可以花费不到 1000 万美元训练出 O1 级模型,这可能会在硅谷引起混乱。但最终,它将使最终用户受益。

以下是最后的总结,

  • • 从推理上来说,o1 仍然更好,感觉更清脆,但 r1 是一个强劲的竞争对手,我完全相信他们很快就能达到 o1,甚至 o1-pro。
  • • 数学和编码也一样。O1 在这方面更好。
  • • 然而,从每次演出的成本来看,Deepssek r1 显然是赢家。
  • • 就创意写作而言,Deepseek r1 更胜一筹。

总结

  • GenAI 的 Rednote 时刻,每个人都对中国实验室感到敬畏。
  • 纯 RL 释放推理能力;没有 MCTS 或 PRM。
  • 蒸馏工作。较小的蒸馏模型比原始模型更高效。
  • 与其他 SOTA 模型相比,它的审查要少得多,如果您担心审查,可以绕过它。
  • 在复杂推理和数学方面与 o1 相比如何?它 很接近,但还没有完全达到。你可以看出它仍然落后了一步。
  • 对于创意写作来说,它比其他的要好得多。

让我们向理查德·萨顿致敬;他很早就开始了这项工作。纯强化学习,既不是蒙特卡洛树搜索 (MCTS),也不是基于 LLM 的过程奖励建模 (PRM),以解锁非凡的推理能力。他的短文“苦涩的教训”准确地表达了这种情绪:

我们应该从这次深刻的教训中学到的一点是通用方法的巨大力量,这些方法能够随着计算能力的提升而不断扩展,即使可用的计算能力变得非常强大。似乎可以无限扩展的两种方法就是搜索和学习