AI大型语言模型有逻辑推理能力吗? – TechTalks


如果有更多的AI人员理解逻辑推理和模式识别之间的区别,很多废话就可以避免:

大型语言模型(LLM)是在大量文本上训练出来的深度学习模型,像GPT-3和LaMDA这样的大型语言模型能够在长篇文字中保持连贯性。他们似乎对不同的主题都很了解。他们可以在冗长的对话中保持一致。LLMs已经变得如此有说服力,以至于有些人将它们与人格和更高形式的智能联系起来。

但是LLMs能像人类一样进行逻辑推理吗?根据加州大学洛杉矶分校科学家的一篇研究论文,LLMs中使用的深度学习架构Transformers并没有学习模仿推理功能。相反,他们找到了巧妙的方法来学习推理问题中固有的统计特征。

研究人员在一个有限的问题空间上测试了BERT,一个流行的转化器架构。他们的研究结果表明,BERT可以准确地对训练空间中的分布内的例子做出反应,但不能泛化到基于相同问题空间的其他分布中抽取的例子。
他们的工作突出了深度神经网络的一些缺点,以及用来评估它们的基准。

为了检测LLMs是否存在逻辑推理能力,加州大学洛杉矶分校的研究人员开发了 SimpleLogic,这是一类基于命题逻辑的逻辑推理问题。为了确保语言模型的推理能力经过严格测试,研究人员通过使用模板语言结构消除了语言差异。

SimpleLogic 问题由一组事实、规则、查询和标签组成。事实是已知为真的谓词。规则是条件,定义为子句。查询是 ML 模型必须响应的问题。标签是查询的答案,“真”或“假”。
SimpleLogic 问题被编译成连续的文本字符串,其中包含语言模型在训练和推理期间所期望的信号和分隔符。

SimpleLogic 的特点之一是它的问题是自包含的,不需要先验知识。这一点尤其重要,因为正如许多科学家所说,当人类说话时,他们忽略了他们共享的知识。这就是为什么当被问及每个人都知道的基本世界知识的问题时,语言模型经常陷入陷阱。相比之下,SimpleLogic 为您提供解决其问题所需的一切。

因此,任何查看 SimpleLogic 格式提出的问题的人都应该能够推断其规则并能够处理新示例,而不管他们的背景知识如何。

统计特征和逻辑推理
研究人员证明,SimpleLogic 中的问题空间可以用一个推理函数来表示。研究人员进一步表明,BERT 有足够的能力解决 SimpleLogic 中的所有问题,他们可以手动调整 ML 模型的参数来表示推理功能。

然而,当他们在 SimpleLogic 示例数据集上训练 BERT 时,该模型无法自行学习推理功能。机器学习模型设法在一个数据分布上实现近乎完美的准确性。但它并没有推广到同一问题空间内的其他分布。尽管训练数据集覆盖了整个问题空间并且所有分布都来自相同的推理函数。

研究人员写道:“经过进一步调查,我们为这个悖论提供了一个解释:仅在分布测试示例上达到高精度的模型还没有学会推理。事实上,该模型已经学会在逻辑推理问题中使用统计特征来进行预测,而不是模拟正确的推理功能。”

这一发现凸显了将深度学习用于语言任务的一个重要挑战。神经网络非常擅长发现和拟合统计特征。在某些应用程序中,这可能非常有用。例如,在情感分析中,某些词和情感类别之间存在很强的相关性。

然而,对于逻辑推理任务,即使存在统计特征,模型也应该尝试找到并学习潜在的推理功能。

不幸的是,随着语言模型变大,逻辑推理问题并没有消失。它只是隐藏在他们庞大的架构和非常大的训练语料库中。LLM 可以吐出事实和很好地拼接在一起的句子,但是在逻辑推理方面,他们仍然使用统计特征进行推理,这不是一个坚实的基础。

而且没有迹象表明通过向转换器添加层、参数和注意力头,逻辑推理鸿沟将被弥合。

当一个模型被训练来从数据中学习一项任务时,它总是倾向于学习统计模式,这些模式固有地存在于推理示例中;然而,另一方面,逻辑规则从不依赖统计模式来进行推理。由于很难构建一个不包含统计特征的逻辑推理数据集,因此从数据中学习推理是很困难的。