Meta试图超越OpenAI o1的推理形式

Meta 正在探索超越 OpenAI 最新模型的数学重点的不同形式的人工智能推理。

尽管“广大公众”可能认为人工智能中的推理是一个单一的概念,但它实际上包含了几种因应用而异的类型:

  • 数学推理:解决数学问题
  • 规划推理:制定策略和计划
  • 离散推理:通过符号寻找解决方案
  • 语言推理:分析语言元素,例如计算单词中的字母数量
  • 模态推理:解释视觉、音频或视频内容

OpenAI 的 o1 模型专注于数学推理,而Meta 则采取了不同的方法:对使用文本和多模态信息进行推理更感兴趣,这更符合 Meta AI 用户的需求。

这一重点在 Meta 最近的“思维偏好优化”(TPO)方法中得到了体现。TPO 旨在教会语言模型在回答一般任务(而不仅仅是数学或逻辑问题)之前“思考”,而无需特殊的训练数据。

真正可靠的智能体还需要一段时间才能实现,并指出智能体就像人类一样,需要犯错才能从中吸取教训。

在平衡智能体自主性和人类控制性方面,一个关键挑战是智能体需要确认每个动作,而智能体又需要独立做出太多决定。找到理想的中间地带,即智能体可以可靠地做出重要决定,仍然“遥遥无期”。

总结:

  • Meta 正在探索多种形式的人工智能推理,而不仅仅是 OpenAI 在 o1 中展示的数学重点。这些包括规划、离散、语言和模态推理。
  • Meta 的“思维偏好优化”(TPO)方法不需要特殊的训练数据,在回答一般任务之前也能“思考”,不仅仅像OpenAI o1那样限定在数学或逻辑问题中。
  • 智能体从错误中吸取教训很重要,平衡智能体自主性和人类控制很难。