苹果AI研究人员质疑OpenAI o1推理能力

著名苹果AI科学家 Samy Bengio 在内的苹果研究人员进行的一项新研究对当今大型语言模型的逻辑能力提出了质疑——甚至是 OpenAI 的新“推理模型”o1。

该团队由 Mehrdad Farajtabar 领导，创建了一个名为 GSM-Symbolic 的新评估工具。该工具以 GSM8K 数学推理数据集为基础，并添加了符号模板，以更彻底地测试 AI 模型。

研究人员测试了 Llama、Phi、Gemma 和 Mistral 等开源模型以及专有模型，包括 OpenAI 的最新产品。研究结果发表在 arXiv 上，表明即使是 OpenAI 的 GPT-4o 和 o1 等领先模型也没有使用真正的逻辑，而只是模仿模式。

添加不相关的信息会降低性能
结果表明，目前 GSM8K 的准确率得分并不可靠。研究人员发现，性能存在很大差异：

Farajtabar 表示，对于大多数模型而言，GSM-Symbolic 的平均性能低于原始 GSM8K。

使用 GSM-NoOp 数据集进行的实验尤其具有启发性。在这里，研究人员向文本问题添加了一条看似相关但对整体论证没有贡献的陈述。
结果是所有模型的性能都下降了，包括 OpenAI 的 o1 模型。“如果我们只改变名字，小学生的数学考试成绩会相差约 10% 吗？”

真正的问题是，任务难度仅略有增加，方差就会急剧增加，而表现也会下降。要处理难度增加的方差，可能需要“成倍增加的数据”。

总体而言：

但是，有专家说，大模型缺乏逻辑思维这一事实在 2023 年初是一种“极其异端的观点”，而现在它正在成为“不言而喻的传统观点”。正如大模型存在幻觉一样，已经没有什么大惊小怪。

两大领先的人工智能研究机构苹果和 OpenAI 持相反立场。OpenAI 认为o1 是第一个推理模型（第 2 级），为逻辑代理（第 3 级）奠定基础，这应该是 OpenAI 的下一个增长领域。

例如，新的 OpenAI 基准测试表明 o1 可以解决机器学习工程任务，这削弱了苹果研究人员的论点。OpenAI 声称已明确从训练数据中排除了测试示例。另一项研究得出结论，人工智能模型至少执行某种概率推理。

如果这样说：除了OpenAI的o1以外的大模型都是模式匹配，这种说法已经是共识，没有什么大惊小怪的。

造成差异的一个原因可能是，智能、推理和逻辑等术语比较模糊，可能会出现变化和程度的变化，或者在机器逻辑的情况下，可能会出现新的形式逻辑，也就是说，由于人脑有限，很多形式逻辑依赖于抽象，抽象必然是一种有损失的压缩，而大模型不必压缩。