OpenAI泄露o1模型的隐藏思维链

banq


我们相信隐藏的思维链为监控模型提供了一个独特的机会。

如果它是忠实且清晰的,隐藏的思维链会让我们能够“读懂”模型的思维,并理解其思考过程。例如,在未来我们可能希望监控思维链,以寻找操纵用户的信号。

为了实现上述目标,模型必须有其自由以一种没有被改变的形式表达其思维,因此我们不能在思维链上训练任何政策合规性或用户偏好(不能用道德绑架AI的自由)。我们也不想让用户直接看到不一致的思维链。

因此,在权衡了用户体验竞争优势以及追求思维链监控的多个因素之后,我们决定不向用户展示原始的思维链

我们承认这一决定有其缺点。我们努力通过教导模型在答案中复现思维链中的任何有用想法来部分弥补这一点。

对于o1模型系列,我们展示了一个由模型生成的思维链摘要

网友讨论:
1、创新:推理计算的扩展
Open AI的o1被RL训练成在通过隐藏的思想链做出响应之前“思考”。它思考的时间越长,在推理任务中的表现就越好。
这为缩放扩展打开了一个新的维度:我们不再被预先训练所困扰,我们现在也可以扩展推理计算。 

  • 机器学习模型的效率或可扩展性可能会以非线性方式增长。如果 OpenAI 的扩展推理计算显示出以较低的计算成本获得显着收益或突出模型扩展的新趋势,那么难怪社区会感到兴奋。
  • 扩展推理计算”有点像美国的小费制度,这意味着公司偷偷地将计算和培训数据生成成本转移给客户,减少他们的资本支出。说实话,这是天才的一招。

2、推理应该是*知识获取*,但是,新的 OpenAI 模型不进行推理,它们只是记住人类赋予的推理轨迹。现在是发现这一点的最佳时机(刚刚推出),因为随着时间的推移,随着差距缩小,它将变得更加难以区分。

例如,一个聪明的人可能知道一个特定的数学问题需要使用对称性来解决。OpenAI 模型可能还不知道,因为它以前没有在那种情况下见过。当人类提示模型并告诉它答案时,它的 CoT 模型将被更新,下次在类似情况下,它将“知道”采取什么策略。

这将反复进行,因为它们会从用户那里吸收推理数据,直到许多“瑞士奶酪中的漏洞”被填满。但归根结底——这不是推理。不过,这仍然很酷。

3、推理过程中强化学习
过去,OpenAI 花费了大量计算来训练模型以使用 CoT 进行推理,现在首先使用 强化学习RL 生成这些合成数据,同时,结合使用过程监督,监控模型的输出。也就是说OpenAI 使用 RL 来改进推理/CoT 过程,而不仅仅依靠人工生成的 CoT 示例/评估。

  • 如果用户要求模型反思其先前的答案,它确实会得到正确的答案。
  • 这导致:测试时间计算(或推理时间计算)也非常庞大。

谷歌的论文《扩展 LLM 测试时间计算的优化效果比扩展模型参数更有效》中有一些关于这些内部提案/验证器方法的信息。

思维链提供了一个了解模型如何“思考”的窗口,OpenAI 在o1 系统卡中对此进行了最好的解释:
o1 模型的一个关键区别特征是它们在尝试解决问题时使用思维链:思维链默认情况下更容易辨认,可以让我们监控模型的复杂行为。
除了监控模型的输出之外,我们一直对监控其潜在思维的前景感到兴奋。

推理过程中进行强化学习RL 训练真的很酷:

  • 它不是根据人类反馈或人类生成的 CoT 示例来微调该过程,而是通过 RL 进行自己训练。
  • 这是自行改进其推理过程,以产生更好的最终输出。

当然,模型会花费更多的计算/时间进行推理以产生更好的输出。

现在,OpenAI(以及 Google 和其他实验室)已经证明,随着推理计算的进行,准确率会提高

  •  简单来说,你给它思考的时间越多,它就越聪明!
  • 而且,这种推理过程通过 强化学习RL 以良性循环的方式进行调整,变得更好。

4、o1-preview 目前在 LiveBench AI 上排名第一
来源:livebench.ai。一组非常有趣的结果

  • o1-mini 在一项推理任务上取得了 100% 的成绩(web_of_lies_v2)
  • o1-preview 在 NYT 连接任务中取得了 98.5% 的成绩
  • claude-3.5 在编码方面仍然排名第一,这完全是因为 o1 在 coding_completion 任务上表现不佳

o1-mini 的分布非常有趣。在最纯粹的推理任务上,它比 o1-preview 好得多,但在小型模型通常难以完成的任务上,它的表现要差得多

5、下面方法是在现有旧模型使用中模仿 OpenAI 的 O1 模型中的一些推理步骤,这些模型旨在花更多时间“思考”和改进复杂任务的解决方案:

  • 你必须严格按照系统提示操作。问:{输入查询} 再读一遍问题:{输入查询}
  • 引发思考的提示(例如,“让我们一步一步思考”)

要点:
  • #先展示你对每个步骤的想法,然后得出答案(例如,“对接下来的每个步骤的想法”)#
  • #花尽可能多的时间在得出答案之前#