小语言模型存在重大推理缺陷

一项新研究发现,人工智能语言模型的推理能力存在重大缺陷,尤其是那些规模较小且价格较低的模型。这些模型在解决链式基础数学问题时会遇到困难。

Mila 研究所、Google DeepMind 和微软研究院的研究人员调查了不同的 AI 语言模型在解决小学数学应用题方面的表现。他们创建了一个名为“Compositional GSM”的测试,该测试结合了 GSM8K 数据集中的两个问题,并使用第一个问题的答案作为第二个问题的变量。

结果显示,许多模型在这些更复杂的推理任务上的表现远低于预期。这种“推理差距”在较小、较便宜的模型,甚至是专门从事数学的模型中尤为明显。

较小的模型难以完成复杂的任务
虽然较小的模型在标准数学测试(如 GSM8K)上的得分通常与较大的模型相似,但它们在新的 Compositional GSM 测试中显示出 2-12 倍的逻辑差距。例如:

  • GPT-4o mini 在新测试中远远落后于 GPT-4o,尽管在原始基准上几乎与之匹配。
  • 其他模型系列(如 Gemini 和 LLAMA3)也出现了类似的模式。

研究人员认为,这表明较小的模型可能识别常见任务中的表面模式,但难以将这些知识应用于新的上下文环境中。这些模型的当前训练方法可能过于注重优化标准基准,而牺牲了一般推理能力。

即使是专门的小数学模型也显示出弱点。例如,Qwen2.5-Math-7B-IT 在高中困难任务上的得分超过 80%,但正确解答小学连锁问题的分数不到 60%。

该研究还研究了指令调整(一种改进语言模型的方法)的效果。对于小型模型,这显著提高了原始 GSM8K 测试的性能,但对 Compositional GSM 的性能提升不大。大型模型没有表现出这种差异,这表明小型模型在学习和泛化方面存在根本差异。

该研究并非完全是最新的,因为OpenAI 的新逻辑优化 o1 模型尚未经过测试。最近的规划基准测试表明,o1 在规划方面表现更好,但仍然会犯重大错误。

一位数学教授最近表示,虽然 o1 能够完成其他 LLM 无法完成的数学证明,但人类能够更快、更优雅地解决该问题。据称,谷歌的 Gemini 模型在最近更新后在数学任务中的表现也更好。

总结
研究结果挑战了最近关于人工智能效率提升的说法。虽然有人认为语言模型变得更高效而不是更强大,并且扩展这些高效模型可以显著提高性能,但这项研究表明情况并非如此。

这项研究进一步证实了语言模型的逻辑性弱点。先前的研究表明,尽管法学硕士在常见逻辑和数学基准测试中得分很高,但他们在基本逻辑推理和简单的规划难题方面仍然举步维艰。