中国大模型DeepSeek-R1性能与OpenAI-o1不相上下


DeepSeek-R1来了!性能与OpenAI-o 1相当,便宜30倍,甚至在几乎所有的基准测试中都优于Claude 3.5 Sonnet和o 1-mini!
MIT许可:Distill免费商业化!网站API现已上线!
DeepThink就在今天已经开放:http://chat.deepseek.com


DeepSeek-R1 是一个通过强化学习(RL)训练出来的智能模型,专门用来解决复杂的数学、编程和逻辑问题。它有两个版本:DeepSeek-R1-Zero 和 DeepSeek-R1。

DeepSeek-R1-Zero 是完全通过强化学习训练的,没有任何人工指导数据。它自己学会了很多强大的推理能力,比如自我验证和生成复杂的思考过程。不过,它有时候写的东西不太容易读懂,还会混用不同语言。

为了解决这些问题,DeepSeek-R1 在训练时加入了一些高质量的“冷启动”数据,帮助模型更好地开始学习。它还通过多阶段的训练和拒绝采样来进一步提升推理能力。最终,DeepSeek-R1 在推理任务上的表现和 OpenAI 的 o1-1217 模型差不多。

为了让更多小模型也能拥有强大的推理能力,DeepSeek-R1 还通过“蒸馏”技术,把它的推理能力传授给了一些小模型(老师教学生)。这些小型模型在推理任务上的表现也非常出色,甚至超过了其他一些大模型。

网友1:
这些模型看起来总是很棒,直到你真正将它们用于实际任务。可靠性大大下降,你不能像信任 4o 这样的低端模型那样信任其输出。基准测试并没有捕捉到某种常识性的可用性指标,你可以相信模型能够处理每天现实世界提示中随机出现的少量歧义。

其实,像 OpenAI 这样有钱的最大好处,可能就是能请很多不同的研究团队,去解决各种小问题。就像修路一样,最后一段路往往最难修,但有了足够的钱和人手,就能把这些小问题一个个搞定。

网友2:
Deepseek v3 需要大约 1tb 的 VRAM / RAM,因此需要 10 个 A100。
如果你可以接受更差的延迟和吞吐量,那么有多种方法可以用更低的显存来运行它

DeepSeek-V3 和 DeepSeek-R1 都是非常大的模型,参数规模达到了 7000 亿(700B)。这种规模的模型需要非常多的计算资源,尤其是内存(RAM),才能在本地运行。

现在的问题是,普通人的电脑或服务器根本没有那么多内存来运行这么大的模型。通常,这种规模的模型需要超级计算机或者专门的云计算资源才能运行。

网友3:
DeepSeek R1的训练过程是一个多阶段训练循环非常有效:Base → RL → Finetune → RL → Finetune → RL扩展阶段=更好的性能吗?
分解每个阶段:

  1. R1零→ R1微调冷启动(阶段1/4):纯粹通过 RL 进行训练,没有在标注数据上进行任何初始微调
  2. R1冷启动→ R1 Reasoner with RL(第2/4阶段):使用多阶段管道,包括RL和 "冷启动 "数据
  3. R1 Reasoning → R1 Finetuned-Reasoner(Stage 3/4):使用 监督微调 来提高 LLM 的推理能力
  4. R1指令-推理器→ R1校准(阶段4/4):

网友4:
DeepSeek-R1 论文里说的“顿悟时刻”特别重要,意思是:
只用强化学习(RL),就能让大模型(LLM)自己学会思考和反思。
这跟以前的想法不一样。以前大家觉得,要复制 OpenAI 的 o1 推理模型,得用很多“思维链”(CoT)数据。但现在发现,其实只要给模型正确的“奖励”,它就能学会。
这就像当年 AlphaGo 下围棋一样:AlphaGo 通过玩无数盘围棋,用强化学习最大化奖励(赢比赛),最后打败了最厉害的人类棋手。
现在,大模型(LLM)也进入了强化学习时代。2025 年可能会变成“强化学习之年”。

网友5:
以前,大家担心大人工智能模型会“卡住”,因为网上能轻松找到的、带标签的数据快用完了。但现在,这种新方法告诉我们:不用一直给模型喂带标签的例子了!模型可以通过强化学习(RL)自己学会高级推理能力。简单来说,就是模型自己试试看,然后得到一个信号,告诉它做得好不好。
这意味着,我们不用再等新的带标签的数据了。人工智能可以直接从反馈中学习,变得越来越厉害!

网友6:
“蒸馏”=元认知,元认知就是“对自己思考过程的思考”。你可以把它理解为一种“超级高效解决问题”的能力。OpenAI和DeepSeek都意识到了这一点,但有人认为DeepSeek可能是“借鉴”了OpenAI的思路。

这就是大家为什么惊慌失措,可能是因为这种能力太强大了,甚至有点超出预期。它不仅仅是“感知”或“理解”问题,而是能迅速找到解决方案,效率极高。这种能力让人感到惊讶,甚至有点不安。