OpenAI o1工作原理简介

banq


OpenAI的O1是如何工作的?

这里是我最近读过的关于LLM推理的论文摘要列表。

我将它们分为2类:
1)基于提示的-执行一步一步的推理自我纠正流程纯粹使用提示
2)基于学习的-将上述内容烘焙到策略模型的权重(或验证器-通常是PRM;过程奖励模型)

1、CoT:
起初,OpenAI O1始于 Chain-of-Thought 论文。 这一类方法可以归结为要求 LLM 很好地揭示其内部思想(例如,"让我们一步一步地思考";更广泛地说,告诉模型以某种方式揭示中间的计算步骤)。

CoT 的一个简单变种是 "CoT 自洽性"--即并行采样多个 CoT 迹线,并使用多数投票来找到 "正确 "答案。

https://arxiv.org/pdf/2201.11903

2、ToT(思想树)
将上述内容进一步复杂化(在 CS 术语中,我们从线性列表变为树状):

建立一棵由 m 个中间想法(想法 = CoT 的中间步骤)组成的 mary 树;

在每个想法/节点上:
a) 运行 "提出下一个想法 "提示(或只抽样完成 m 次)
b) 评估这些想法(独立或联合)
c) 保留顶部的 m

  • 缺点:非常昂贵且缓慢
  • 优点:可与现成的 LLM 配合使用

https://arxiv.org/pdf/2305.10601

3、自我反思
如果回答不正确,则在尝试重新回答之前,将自我反思反馈传回给一名 LLM;作为输入,自我反思会得到一个金色答案,并被提示解释它现在将如何解决问题。 在反馈之前,会对结果进行编辑,以避免泄露解决方案。 

即使只给出二元反馈("你之前的答案不正确"),重新回答也明显强于基线(无反馈,只抽样回答一次)。
https://arxiv.org/pdf/2405.06682

4、自我对比:

  • a) 通过评估源自原始问题的不同提示,创建多个解决方案(产生关于如何解决问题的不同观点
  • b) 对解决方案进行配对对比
  • c) 生成待办事项清单,以便修改 a) 中的生成物

https://arxiv.org/pdf/2401.02009

5、在说之前先思考:
介绍 CSIM 方法: 他们用来帮助提高沟通技巧的 5 个提示是:

  1. "换位思考"、
  2. "话题转换"、
  3. "主动提问"、
  4. "概念引导"、
  5. "经常总结"。

OpenAI的 LLM 有两个角色:思考和发言。

思考角色或 "内心独白 "偶尔会由 5 个提示触发,但不会显示给用户,而是作为面向用户的发言角色的输入。

我认为这 5 个要点很好地概括了我所观察到的基于提示的方法的主要模式

https://arxiv.org/pdf/2311.07445