视觉语言模型在空间推理中的弱点

视觉语言模型在空间推理中有以下的弱点：

本论文通过严格控制的测试，揭示了这些模型的缺陷，如近乎随机的准确性、类比失败、对措辞的敏感性，以及无法通过训练得到改善。

问题似乎是结构性的，而不仅仅是缺乏数据。

我们整理了三个新的语料库，以量化模型对此类基本空间关系的理解能力。这些测试比 VQAv2 等现有数据集更精确地分离出了空间推理，例如，我们的 What'sUp 基准包含的照片集只改变了物体的空间关系，而物体的身份则保持不变。

我们对 18 个 VL 模型进行了评估，发现所有模型的表现都很差，例如，
在 VQAv2 上进行微调的 BLIP 在我们的基准测试中获得了 56% 的准确率，而人类的准确率为 99%。最后，我们研究了这一惊人行为的原因，发现

我们希望这些语料库能促进进一步的研究，并在此 https URL 上发布了我们的数据和代码。

论文点击标题