大语言模型能用作世界模拟器吗?


语言模型可以被用作世界模拟器吗? 在我们的ACL 2024论文中,我们证明了这不是真的。

  • GPT-4在模拟基于常识任务(如沸水)的状态变化时,准确率仅为60%。

该论文题为 "语言模型能否作为基于文本的世界模拟器?

  • 该论文讨论了大型语言模型(LLM)在模拟基于文本的游戏中的状态转换方面的性能,
  • 当前的语言模型是否能够作为世界模拟器,正确预测动作如何改变不同的世界状态,从而绕过广泛的手动编码需求?
  • 并评估了它们作为显式形式模拟器的能力。

作者提出了一个基准数据集 BYTESIZED32-State-Prediction,由 76,369 个虚拟文本环境状态转换组成,并使用 GPT-4 测试了模型的能力。通过这个基准测试,他们首次直接量化了大型语言模型(LLMs)作为文本基础世界模拟器的性能。

结果表明:

  • 尽管 LLM 可以模拟简单的转换,但它们在处理需要算术、常识或科学知识的更复杂转换时却显得力不从心。

本文强调了当前 LLM 在这项任务中的局限性,并建议需要进一步改进,使其成为可靠的文本世界模拟器。

实验:
如果你只是和一个LLM对话,它有时似乎是一个合理的世界模拟器(例如AI Dungeon)。 但是,当它必须跟踪对象(如水槽、杯子和炉子)及其状态的显式表示时,事情就变得更加困难了。

游戏模拟器有两个主要阶段:

  1. 基于直接用户操作更改对象状态(例如打开接收器)
  2. 根据操作更改隐式环境状态(例如,水槽中的杯子装满水)

LLM在#1时表现良好(~70%+),但在#2时仍然很差(~20-50%)

但是:LLM在这方面正在迅速变得更好。 

最大的底线是:错误会在模拟器多个步骤中复合。 如果您在模拟单个步骤时的精度为X%,则在模拟N个步骤时的精度为X^n。 因此,准确度需要达到90%以上才能获得短期模拟准确度。

因此,我们这些为LLM构建详细虚拟环境模拟器的人仍然会有一段时间的工作。

结论:
研究结果表明,尽管LLM显示出了希望,但它们作为直接基于文本的世界模拟器仍然不可靠,特别是在捕获环境驱动的转换和需要复杂推理的转换时。

通用LLM这样的结果并不令人惊讶。在RAG方法中,当被专有和特定领域的应用程序增强时,它们能成为更好的世界模型吗?人们会这样想。

当LLM大模型像人有五官,在它的参数中充满了3D世界的图像和视频时,他们的分数就会上升。60%对于生活在一个单词宇宙中并不得不进行推断来说是相当不错的。