OpenAI o1工作原理简介

OpenAI的O1是如何工作的？

这里是我最近读过的关于LLM推理的论文摘要列表。

我将它们分为2类：
1）基于提示的-执行一步一步的推理自我纠正流程纯粹使用提示
2）基于学习的-将上述内容烘焙到策略模型的权重（或验证器-通常是PRM;过程奖励模型）

1、CoT：
起初，OpenAI O1始于 Chain-of-Thought 论文。这一类方法可以归结为要求 LLM 很好地揭示其内部思想（例如，"让我们一步一步地思考"；更广泛地说，告诉模型以某种方式揭示中间的计算步骤）。

CoT 的一个简单变种是 "CoT 自洽性"--即并行采样多个 CoT 迹线，并使用多数投票来找到 "正确 "答案。

https://arxiv.org/pdf/2201.11903

2、ToT（思想树）
将上述内容进一步复杂化（在 CS 术语中，我们从线性列表变为树状）：

建立一棵由 m 个中间想法（想法 = CoT 的中间步骤）组成的 mary 树；

在每个想法/节点上：
a) 运行 "提出下一个想法 "提示（或只抽样完成 m 次）
b) 评估这些想法（独立或联合）
c) 保留顶部的 m

https://arxiv.org/pdf/2305.10601

3、自我反思
如果回答不正确，则在尝试重新回答之前，将自我反思反馈传回给一名 LLM；作为输入，自我反思会得到一个金色答案，并被提示解释它现在将如何解决问题。在反馈之前，会对结果进行编辑，以避免泄露解决方案。

即使只给出二元反馈（"你之前的答案不正确"），重新回答也明显强于基线（无反馈，只抽样回答一次）。
https://arxiv.org/pdf/2405.06682

4、自我对比：

https://arxiv.org/pdf/2401.02009

5、在说之前先思考：
介绍 CSIM 方法：他们用来帮助提高沟通技巧的 5 个提示是：

OpenAI的 LLM 有两个角色：思考和发言。

思考角色或 "内心独白 "偶尔会由 5 个提示触发，但不会显示给用户，而是作为面向用户的发言角色的输入。

我认为这 5 个要点很好地概括了我所观察到的基于提示的方法的主要模式

https://arxiv.org/pdf/2311.07445