为什么大语言模型在战略和规划方面较弱?

banq

我们经常听说大语言模型(LLM) 有多么强大,但在战略和规划方面,他们似乎有一个明显的弱点。

一篇文章对此进行了精辟的分析:

规划任务成功率低:
研究表明,当像 GPT-4 这样的大语言模型( LLM 自主用于规划任务时,它们在不同领域的平均成功率仅为 12%。 这是相当低的成功率

模式识别与真正的规划:
当任务以模糊通常动作和对象名称的方式呈现时,LLM 的表现会更差。 这表明它们更依赖于模式识别,而不是实际的计划能力。

执行失败:
许多由 LLM 生成的计划都未能正确执行或实现目标。 看来,在制定计划和制定真正可行的计划之间存在着巨大的差距。

创意生成优势:
另一方面,大语言模型似乎擅长生成初步创意。他们可以提出各种各样的创意概念,这些概念可以作为有价值的起点。

改进潜力:
一些研究人员建议使用大语言模型 LLM 来产生初步想法,然后通过反向提示和外部验证来完善这些想法。这种方法已显示出前景,特别是在符合常识推理的领域。

为什么 LLM 在规划和策略方面如此吃力?这是其架构的根本限制,还是可以克服的?

为什么LLM在规划任务中表现如此不稳定
1、LLM依赖模式识别而非真正的规划能力

  • 当任务以模糊通常动作和对象名称的方式呈现时,LLMs的表现会更差。这表明它们更依赖于模式识别,而不是实际的规划能力。
  • LLM可以从训练数据中记忆特定的示例或解决任务的策略,而不会内化使得它们稳健地完成这些任务的推理过程。

2、LLM缺乏动态调整上下文的能力

  • LLM无法动态地重置自己的上下文。它们使用内部状态跟踪中间计算,这意味着有很多类型的计算LLM无法做得更好。
  • LLM无法停止、收集真实状态,推理,重新审视旧答案或预测未来的答案,除非这个过程也在训练数据中详细地说明过。

元认知
元认知指的是个体对自己认知过程的意识和调控能力,包括对学习、思考和解决问题的监控与调节。它涉及自我反思、自我评估和自我调节。

在面对复杂问题时,大模型LLM的反思和调整能力相对有限。这意味着它们在遇到错误时,可能无法有效识别错误的根源或调整解决策略,从而影响其在规划任务中的表现

LLM缺乏动态调整上下文的能力,无法有效地重置自己的内部状态,这限制了它们在复杂任务中的元认知表现。它们的推理过程往往是一种一次性的预测,缺乏对过程的持续监控和调整