DeepSeek黑科技SPCT:算力不变,性能翻番


DeepSeek 的通用奖励模型(GRM)通过推理时缩放优化奖励信号,让本地大模型更高效:
  1. 减少训练成本——动态调整计算量,避免冗余训练;
  2. 提升泛化能力——适应多任务,无需反复微调;
  3. 开源可商用——本地部署更灵活,降低依赖云端成本。

阅读原文点击标题:
强化学习(RL)有个大难题:除了那些能直接验证的问题或者人为定好的规则外,怎么才能让大语言模型(LLM)在各种任务里得到准确的"奖励信号"(就像告诉它"做对了还是错了"的评分)?

在这项研究中,我们探索了两个关键方向:

  1. 让通用奖励模型(GRM)更"聪明":通过增加对普通问题的推理计算量(比如让它多"想想"),提升奖励建模(RM)的能力——这叫"推理时扩展"。
  2. 提升计算效率:用合适的学习方法,确保这种增加计算量的方式真的能提高性能,而不是白费算力。

实验证明,我们的方法 SPCT 大幅提升了 GRM 的质量和扩展性:

  • 在各种 RM 测试中打败了现有方法,结果更准且没有明显偏差。
  • 和单纯延长训练时间相比,SPCT 用更高效的方式达到了更好的效果。

不过,DeepSeek-GRM 在某些任务上仍有不足,但我们相信,未来对通用奖励系统的改进会解决这些问题。这些模型将全部开源发布,供大家使用!

本文介绍了 DeepSeek-GRM,这是一种新颖的奖励建模方法,可以实现有效的“推理时间扩展”:通过并行运行多个评估而不是需要更大的模型来获得更好的结果。

研究人员开发了一种称为自我原则批评调整 (SPCT) 的方法,该方法训练奖励模型以为每个评估任务生成量身定制的原则,然后根据这些原则生成详细的批评。

他们的实验表明,具有并行采样的 DeepSeek-GRM-27B 可以达到或超过更大的奖励模型(最多 671B 个参数)的性能,表明在推理时间而不是训练时间可以更有效地使用计算。

对于在本地运行 LLM 的爱好者来说,这项研究提供了一种无需大量模型即可实现更高质量评估的有希望的途径:

  • 通过使用中等规模的奖励模型(27B 个参数)并使用不同的种子多次运行它,然后通过投票或它们的元 RM 方法组合结果,您可以实现与更大模型相当的评估质量:采用并行采样的 DeepSeek-GRM-27B 可以达到或超过更大的奖励模型(最多 671B 个参数)的性能
  • 这是与采用贪婪采样的 GPT-4o 以及使用 4+ 个样本的带有 metaRM 的 Gemma32B GRM 调整模型进行比较。

这种生成奖励建模方法避免了标量奖励模型的领域偏差,使其更适用于不同类型的任务。这些模型将是开源的,可能让本地 LLM 用户能够使用高质量的评估工具。

为什么说这个新算法是本地运行大模型的福音?
这个新算法(SPCT)能成为本地大模型的福音,核心原因有4点,用大白话拆解

  1. 省算力:
    • 传统方法靠“狂练”(训练时堆计算),它改成“聪明想”(推理时动态调整计算量),让普通显卡也能高效跑大模型,电费都省一半!
  • 免调参:
    • 以前换新任务得重新训练,现在模型自己推理时就能适应不同任务,像“万能钥匙”开各种锁,本地部署更方便。
  • 防作弊:
    • 奖励模型(RM)质量更高,能更准判断输出好坏,避免大模型胡说八道——本地运行不用总联网查规则。
  • 可白嫖:
    • 直接开源!企业/个人都能低成本用上顶级技术,不用被大厂API绑死。
    总结:让“小电脑跑大模型”更便宜、更灵活、更可靠,这就是革命性!


    网友:
    1、如果是真的,那绝对令人震惊。想象一下,在普通玩家的家里有一台 R1?

    • 如果需要运行 1000 次才能得到答案,那么它就没什么用,尽管这是一个突破性的发现
    • 我们已经在 llamacpp 中实现了并行。并行比一个接一个的标记要快得多。所以不用担心...

    2、用户将 SPCT 视为具有更好回报的黑盒减速;CoT 感觉像是一个深思熟虑的推理过程。

    • DeepSeek还指出,你将能够选择你想要的奖励投票者数量 - 这样你就可以调整模型以优先考虑速度而不是“准确性”
    • DeepSeek似乎还认为这种“准确性”主要是为了获得更好的自我评价,而不是实际更好的质量输出。如果这是真的,那有点令人失望。

    3、阿里千问qwq32b 在家里不是很像DeepSeek r1 吗?
    从编码、逻辑和推理的角度来看,确实如此!

    就一般知识而言,可能并非如此,因为您无法在 600GB 和 32GB 中容纳相同数量的知识(除非 600GB 模型在知识培训方面未得到充分利用)。

    就我个人而言,我是 Qwen 的超级粉丝,我认为 QwQ-32b 是无限制重量级拳坛的旗舰产品。到目前为止,它一直给我留下深刻印象,还没有发现任何失败的任务(也许不是零发,但到目前为止,多次发球解决了所有问题)

    4、根据我的经验,QwQ 会像其他 30B 类模型一样犯编码错误。也许这是量化的问题,但无论如何,我认为对于大多数人来说,它都不是“家里的R1 ”。
    公平地说,除非你用建议的配置测试了 q8 版本,否则你并没有尝试该模型提供的所有功能。我知道量化模型在较弱的硬件上运行非常有用,但模型宣传的性能始终是未量​​化的权重。

    5、如果这些人确实提供了与 671B 相匹配且可以在笔记本电脑上运行的东西,那么明年这个行业将会完全不同。

    6、你们都错过了,DeepSeek 发布论文两周后,他们就会发布模型和工具。这意味着,一切很快就要到来了!
    可怜的 llama-4 团队 :) 他们现在可能不得不进一步推迟 llama-4 的发布

    7、当所有人都对宫崎骏吉卜力机器着迷时,中国人正在摧毁美国的人工智能商业模式并突破界限。
    将强大的模型投入公开市场会与那些想把一切都藏在幕后以谋利的美国老年投资者发生冲突。

    8、美国公司需要进行更多合作。
    感觉所有新奇、酷的东西都来自中国,而且很开放。我们大多数公司都以盈利为目的,过于谨慎。