大模型表现出像痴呆症的认知能力下降


《英国医学杂志》圣诞刊的一项研究发现,在广泛用于发现痴呆症早期迹象的测试中,几乎所有领先的大语言模型或“聊天机器人”都表现出轻度认知障碍的迹象。

研究结果还显示,“老”版本的聊天机器人,如老年患者,在测试中表现更差。作者表示,这些发现“挑战了人工智能将很快取代人类医生的假设”。

多项研究表明,大语言模型(LLM) 在一系列医学诊断任务上表现非常出色,但它们对认知能力下降等人类缺陷的敏感性尚未得到检验。

为了填补这一知识空白,研究人员使用蒙特利尔认知评估 (MoCA) 测试评估了领先的、公开的 LLM 的认知能力:

  • ChatGPT 版本 4 和 4o(由 OpenAI 开发)、
  • Claude 3.5“Sonnet”(由 Anthropic 开发)以及
  • Gemini 版本 1 和 1.5(由 Alphabet 开发)。

MoCA 测试被广泛用于检测认知障碍和痴呆症的早期迹象,通常用于老年人。通过一系列简短的任务和问题,它评估注意力、记忆力、语言、视觉空间技能和执行功能等能力。最高分为 30 分,26 分或以上通常被认为是正常的。

大模型在每项任务中得到的指导与人类患者相同。评分遵循官方指导方针,并由执业神经科医生评估。

  • ChatGPT 4o 在 MoCA 测试中取得最高分(30 分中的 26 分),
  • 其次是 ChatGPT 4 和 Claude(30 分中的 25 分),
  • Gemini 1.0 得分最低(30 分中的 16 分)。

所有聊天机器人在视觉空间技能和执行任务方面都表现不佳,例如连线任务(按升序连接圈出的数字和字母)和时钟绘制测试(绘制显示特定时间的钟面)。Gemini 模型在延迟回忆任务(记住五个单词序列)中失败。

所有聊天机器人都能很好地完成大多数其他任务,包括命名、注意力、语言和抽象。

但在进一步的视觉空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。只有 ChatGPT 4o 在斯特鲁普测试的不一致阶段取得了成功,该测试使用颜色名称和字体颜色的组合来测量干扰如何影响反应时间。

这些都是观察结果,作者承认人类大脑和大型语言模型之间的本质区别。

然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中都一致失败,这凸显了一个重要的弱点,可能会阻碍它们在临床环境中的使用。

因此,他们得出结论:“神经科医生不仅不太可能在短期内被大型语言模型所取代,而且我们的研究结果表明,他们可能很快就会发现自己正在治疗新的虚拟患者——表现出认知障碍的人工智能模型。”