为什么大语言模型在战略和规划方面较弱？

我们经常听说大语言模型(LLM) 有多么强大，但在战略和规划方面，他们似乎有一个明显的弱点。

一篇文章对此进行了精辟的分析：

规划任务成功率低：
研究表明，当像 GPT-4 这样的大语言模型( LLM 自主用于规划任务时，它们在不同领域的平均成功率仅为 12%。这是相当低的成功率

模式识别与真正的规划：
当任务以模糊通常动作和对象名称的方式呈现时，LLM 的表现会更差。这表明它们更依赖于模式识别，而不是实际的计划能力。

执行失败：
许多由 LLM 生成的计划都未能正确执行或实现目标。看来，在制定计划和制定真正可行的计划之间存在着巨大的差距。

创意生成优势：
另一方面，大语言模型似乎擅长生成初步创意。他们可以提出各种各样的创意概念，这些概念可以作为有价值的起点。

改进潜力：
一些研究人员建议使用大语言模型 LLM 来产生初步想法，然后通过反向提示和外部验证来完善这些想法。这种方法已显示出前景，特别是在符合常识推理的领域。

为什么 LLM 在规划和策略方面如此吃力？这是其架构的根本限制，还是可以克服的？

为什么LLM在规划任务中表现如此不稳定
1、LLM依赖模式识别而非真正的规划能力

2、LLM缺乏动态调整上下文的能力

元认知
元认知指的是个体对自己认知过程的意识和调控能力，包括对学习、思考和解决问题的监控与调节。它涉及自我反思、自我评估和自我调节。

在面对复杂问题时，大模型LLM的反思和调整能力相对有限。这意味着它们在遇到错误时，可能无法有效识别错误的根源或调整解决策略，从而影响其在规划任务中的表现

LLM缺乏动态调整上下文的能力，无法有效地重置自己的内部状态，这限制了它们在复杂任务中的元认知表现。它们的推理过程往往是一种一次性的预测，缺乏对过程的持续监控和调整