微软推DeepSeek R1 后训练版

MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多语言示例数据集,该数据集涵盖了各种存在偏差的主题。

MAI-DS-R1 成功解锁了原始 R1 模型中大多数先前被阻止的查询,同时在相关安全基准测试中超越了近期发布的 R1-1776 模型(由 Perplexity 进行后训练)。这些结果的实现同时保留了原始 DeepSeek-R1 的通用推理能力。

MAI-DS-R1 保留了 DeepSeek-R1 的通用推理能力,可用于广泛的语言理解和生成任务,尤其是在复杂的推理和问题解决方面。主要的直接用途包括:

  • 通用文本生成与理解——针对各种提示生成连贯、上下文相关的文本。这包括根据给定的提示进行对话、撰写文章或延续故事。
  • 一般知识任务——回答需要事实知识的开放领域问题。
  • 推理和解决问题——通过运用思路链策略处理多步骤推理任务,例如数学应用题或逻辑谜题。
  • 代码生成和理解——通过生成代码片段或解释代码来协助编程任务。
  • 科学和学术应用——协助解决 STEM 和研究领域的结构化问题。

网友: 1、这是史上最大的微调/后训练吗?据我所知,最大的一次是Nous训练Hermes 405b。

2、Perplexity 类似地对 DeepSeek R1 进行了后训练,但结果最多是相同的,微软的组合似乎有明显的优势,特别是在代码生成方面

3、Deepseek R1 对我来说在代码生成方面表现得非常好,所以这真的非常令人兴奋。

4、昨天/前天,美国政府又发布了另一份 OAI 游说的“R1 国家安全风险报告”,微软的举动很有趣

5、这个模型在 livecodebench 上的表现似乎更好

6、这个模型在R1基础上审查更严格,但适合企业公司需要,谢谢微软。

7、主要目的是让它在硅谷意义上变得更“安全”。

并没有取消中国的审查制度,而是增加了 2-3 种美国企业安全审查制度。