什么是AI涌现(emergence)？

如果你在一个任务上训练ML系统，然后它能够执行你没有预料到的另一个任务，这就是涌现(emergence)。

许多人将“涌现”解释为某种奇妙而神奇的东西--“它是活的！
但它实际上是平常的，已经持续了很长一段时间。

涌现学习之所以发生，是因为信息空间不是随机的。它是高度组织化的。因此，如果你学习了其组织的一个方面，作为副产品你就会学习到其他方面。
这在自我监督学习中尤为普遍。

有史以来开发的每一个自我监督系统都表现出了某种涌现特性。
当 Mikolov 在 2013 年训练词向量时，他注意到结果空间中的一些向量编码了有用的语义转换，例如“plural(x)”或“gender(x)”。这就是涌现。
他没有设计或训练系统来执行此操作。它被认为是学习单词共现的副产品。
学习在向量空间中组织单词，你的空间将具有你意想不到的有趣属性。

法学硕士到处都展示了涌现学习——这并不奇怪，因为它们几乎是词向量的深度、大规模版本。

但为什么会发生这种情况以及它的含义通常会被误解。

这种情况发生的程度也被误解了——LLM最擅长的是任务：*他们被明确调整来完成这种任务*。
他们可能通过自我监督的培训获得了某些技能，但要将这些技能转化为有用的东西，需要明确的监督。

这不意味著LLM不会记忆：
那些说 "LLMs 不会记忆：看，它能做 X，而这在它的训练数据中从未见过 "的人误解了记忆的含义。
LLM 不只是记忆*内容*。
它们记忆的是*内容转换*。
内容空间上的函数--米科洛夫的 "plural(x) "和 "gender(x) "向量的高级版本。

大多数内容转换不需要显式学习——就像 2013 年的词向量一样。它们只是自我监督训练的副产品。

但它们仍然是从训练数据中记忆下来的函数！
要做到这一点，模型需要看过足够多的底层模式实例，才能拟合出一个函数。
而从泛化的角度来说，它所学习到的函数可能并不是很好。

记忆和推理有什么区别？
简而言之，它是一种从极少数例子中快速合成新功能的能力--人类和许多动物就是这样做的。

如果你需要在一个模式（即使是隐含的）的许多例子中接受训练，才能学会一个可重复使用的表示法，那你就是在记忆。
如果你能通过为一项新任务合成一个新的分叉功能（从你之前记忆的零碎片段中）来快速适应它，这就是推理。

此外，被学习/合成的函数的*泛化*也受到不断被挑战。

记忆系统（例如任何基于梯度下降拟合向量函数的系统）倾向于通过点式映射来学习函数，这不会带来良好的泛化效果。
同时，推理系统（如程序合成引擎）倾向于学习精确的程序，从而显示出很强的泛化能力。

一个很好的例子就是乘法运算。
LLMs 已经学会了执行乘法运算的函数，但

1. 这些函数需要大量数据才能学会；
2.它们与特定的数字分布相联系，即使在分布内运行，它们仍然会经常犯错。

与此同时，使用包含 "add "和 "for "的基本 DSL 的程序合成引擎，只需使用少量的训练示例，就能合成出一个乘法函数，该函数将*精确地*泛化到任何新的输入，甚至与特定的输入分布无关。

点击标题见原文