什么是AI涌现(emergence)?


如果你在一个任务上训练ML系统,然后它能够执行你没有预料到的另一个任务,这就是涌现(emergence)。

许多人将“涌现”解释为某种奇妙而神奇的东西--“它是活的!
但它实际上是平常的,已经持续了很长一段时间。

涌现学习之所以发生,是因为信息空间不是随机的。它是高度组织化的。因此,如果你学习了其组织的一个方面,作为副产品你就会学习到其他方面。
这在自我监督学习中尤为普遍。

有史以来开发的每一个自我监督系统都表现出了某种涌现特性。
当 Mikolov 在 2013 年训练词向量时,他注意到结果空间中的一些向量编码了有用的语义转换,例如“plural(x)”或“gender(x)”。这就是涌现。
他没有设计或训练系统来执行此操作。它被认为是学习单词共现的副产品。
学习在向量空间中组织单词,你的空间将具有你意想不到的有趣属性。

法学硕士到处都展示了涌现学习——这并不奇怪,因为它们几乎是词向量的深度、大规模版本。

但为什么会发生这种情况以及它的含义通常会被误解。

这种情况发生的程度也被误解了——LLM最擅长的是任务:*他们被明确调整来完成这种任务*。
他们可能通过自我监督的培训获得了某些技能,但要将这些技能转化为有用的东西,需要明确的监督。

这不意味著LLM不会记忆:
那些说 "LLMs 不会记忆:看,它能做 X,而这在它的训练数据中从未见过 "的人误解了记忆的含义。
LLM 不只是记忆*内容*。
它们记忆的是*内容转换*。
内容空间上的函数--米科洛夫的 "plural(x) "和 "gender(x) "向量的高级版本。

大多数内容转换不需要显式学习——就像 2013 年的词向量一样。它们只是自我监督训练的副产品。

但它们仍然是从训练数据中记忆下来的函数!
要做到这一点,模型需要看过足够多的底层模式实例,才能拟合出一个函数。
而从泛化的角度来说,它所学习到的函数可能并不是很好。

记忆和推理有什么区别?
简而言之,它是一种从极少数例子中快速合成新功能的能力--人类和许多动物就是这样做的。

  • 如果你需要在一个模式(即使是隐含的)的许多例子中接受训练,才能学会一个可重复使用的表示法,那你就是在记忆。
  • 如果你能通过为一项新任务合成一个新的分叉功能(从你之前记忆的零碎片段中)来快速适应它,这就是推理。

此外,被学习/合成的函数的*泛化*也受到不断被挑战。

  • 记忆系统(例如任何基于梯度下降拟合向量函数的系统)倾向于通过点式映射来学习函数,这不会带来良好的泛化效果。
  • 同时,推理系统(如程序合成引擎)倾向于学习精确的程序,从而显示出很强的泛化能力。

一个很好的例子就是乘法运算。
LLMs 已经学会了执行乘法运算的函数,但

  • 1. 这些函数需要大量数据才能学会;
  • 2.它们与特定的数字分布相联系,即使在分布内运行,它们仍然会经常犯错。

与此同时,使用包含 "add "和 "for "的基本 DSL 的程序合成引擎,只需使用少量的训练示例,就能合成出一个乘法函数,该函数将*精确地*泛化到任何新的输入,甚至与特定的输入分布无关。

点击标题见原文