OpenAI的O1是如何工作的?
这里是我最近读过的关于LLM推理的论文摘要列表。
我将它们分为2类:
1)基于提示的-执行一步一步的推理自我纠正流程纯粹使用提示
2)基于学习的-将上述内容烘焙到策略模型的权重(或验证器-通常是PRM;过程奖励模型)
1、CoT:
起初,OpenAI O1始于 Chain-of-Thought 论文。 这一类方法可以归结为要求 LLM 很好地揭示其内部思想(例如,"让我们一步一步地思考";更广泛地说,告诉模型以某种方式揭示中间的计算步骤)。
CoT 的一个简单变种是 "CoT 自洽性"--即并行采样多个 CoT 迹线,并使用多数投票来找到 "正确 "答案。
https://arxiv.org/pdf/2201.11903
2、ToT(思想树)
将上述内容进一步复杂化(在 CS 术语中,我们从线性列表变为树状):
建立一棵由 m 个中间想法(想法 = CoT 的中间步骤)组成的 mary 树;
在每个想法/节点上:
a) 运行 "提出下一个想法 "提示(或只抽样完成 m 次)
b) 评估这些想法(独立或联合)
c) 保留顶部的 m
- 缺点:非常昂贵且缓慢
- 优点:可与现成的 LLM 配合使用
https://arxiv.org/pdf/2305.10601
3、自我反思
如果回答不正确,则在尝试重新回答之前,将自我反思反馈传回给一名 LLM;作为输入,自我反思会得到一个金色答案,并被提示解释它现在将如何解决问题。 在反馈之前,会对结果进行编辑,以避免泄露解决方案。
即使只给出二元反馈("你之前的答案不正确"),重新回答也明显强于基线(无反馈,只抽样回答一次)。
https://arxiv.org/pdf/2405.06682
4、自我对比:
- a) 通过评估源自原始问题的不同提示,创建多个解决方案(产生关于如何解决问题的不同观点
- b) 对解决方案进行配对对比
- c) 生成待办事项清单,以便修改 a) 中的生成物
https://arxiv.org/pdf/2401.02009
5、在说之前先思考:
介绍 CSIM 方法: 他们用来帮助提高沟通技巧的 5 个提示是:
- "换位思考"、
- "话题转换"、
- "主动提问"、
- "概念引导"、
- "经常总结"。
OpenAI的 LLM 有两个角色:思考和发言。
思考角色或 "内心独白 "偶尔会由 5 个提示触发,但不会显示给用户,而是作为面向用户的发言角色的输入。
我认为这 5 个要点很好地概括了我所观察到的基于提示的方法的主要模式
https://arxiv.org/pdf/2311.07445