大语言模型LLM能否对自己的成果进行批判和迭代？ | evjang

在计算机科学的许多领域（密码学，NP复杂性），验证解决方案比生成解决方案容易得多。这篇博客文章发现大语言模型LLM（主要是GPT-4）可能能够自我验证其解决方案。

与概率推理和最优控制中的大多数算法思想一样，让代理者自己批评其决策以使其变得更好是一个古老的想法，已被一遍又一遍地重新实施。以下是一些相关作品：

在机器人技术中，模型预测控制算法和后退地平线规划器对某些成本函数进行搜索以改进其初始猜测。“世界模型”是批评家，细化是通过采样或凸优化进行的。
Deep RL 中的 Actor-critic 算法将函数逼近（参与者）与对评论家进行采样相结合，以进一步完善动作建议。这可能发生在训练时间或推理时间。
AlphaGo 在预测值函数上使用 Monte Carlo Tree Search 可以认为是对策略网络提出的初始动作进行细化。这用于训练时间和推理时间。
在深度 RL 中众所周知，学习奖励函数或情节成功检测器比生成情节动作以成功完成任务要容易得多
“让我们一步步思考”论文显示可以指示大语言模型在生成过程中通过思维链 (CoT) 提示更仔细地推理，例如“让我们一步一步地思考”。类比为控制，我们正在使用 LLM 的逻辑推理原语，如“逻辑世界模型”来生成轨迹。但是，如果自回归生成出错，CoT 提示无法返回并修复错误。自我反省的好处是模型可以识别错误（可能使用 CoT 提示自身），并通过完全重新开始来纠正错误。随着 LLM 中神经网络上下文长度的增加，我预计自我反思将成为更有效的 CoT 提示技术。如果你真的眯着眼睛并发挥你的想象力，你可以将反射视为类似于 LLM 输出的去噪运算符。
OpenAI 研究人员已经研究过使用LLM 来帮助批评 LLM 答案，尽管它是从自动化人类评分者工作量的非常合理的角度来解决这个问题的。自我反省更进一步，询问是否可以在没有人为干预的情况下实际使用批评来产生更好的输出。

详细点击标题