视觉语言模型在空间推理中的弱点


视觉语言模型在空间推理中有以下的弱点:

  • - 在将图像与 "桌子上的杯子 "等空间说明进行匹配时,模型的得分接近随机概率。他们无法掌握 "上 "与 "下 "这样的概念。
  • - 在 "桌子上的杯子与桌子下的杯子,就像桌子下的碗与桌子上的碗 "这样的视觉类比中,模型的得分率仅为 9%。他们没有学到可推广的空间概念。
  • - 对于相同的图像,模型在 "背景中 "的得分远高于 "背后"。他们不能很好地理解 "后面"。
  • - 额外的空间关系训练有时会降低模型的得分。他们在学习这些概念时存在先天不足。

本论文通过严格控制的测试,揭示了这些模型的缺陷,如近乎随机的准确性、类比失败、对措辞的敏感性,以及无法通过训练得到改善。

问题似乎是结构性的,而不仅仅是缺乏数据。

我们整理了三个新的语料库,以量化模型对此类基本空间关系的理解能力。这些测试比 VQAv2 等现有数据集更精确地分离出了空间推理,例如,我们的 What'sUp 基准包含的照片集只改变了物体的空间关系,而物体的身份则保持不变。

我们对 18 个 VL 模型进行了评估,发现所有模型的表现都很差,例如,
在 VQAv2 上进行微调的 BLIP 在我们的基准测试中获得了 56% 的准确率,而人类的准确率为 99%。最后,我们研究了这一惊人行为的原因,发现

  • 1)LAION-2B 等流行的视觉语言预训练语料库几乎不包含学习空间关系的可靠数据;
  • 2)基本的建模干预措施,如提高含介词实例的权重或对我们的语料库进行微调,不足以应对我们的基准所带来的挑战。

我们希望这些语料库能促进进一步的研究,并在此 https URL 上发布了我们的数据和代码。

论文点击标题