为何神经网络注入能量后就变得智能?

banq


向这些神经网络注入足够的能量(计算量),它们就能实现智能。 但这仍然是一个神秘的现象:如此简单的规则(如梯度下降+反向传播,遵循奖励函数)和大量的能量怎么会导致如此复杂的结果?

这个问题的答案就在我们身边: 生命本身就是这样一个系统。 在物理学中,我们称这些系统为耗散系统。

以进化为例:我们周围任何复杂生物的出现都是一种简单机制的产物:自然选择。 没有人需要设计这些复杂的生物,是宇宙本身创造了这种复杂性。

当我们观察生命、智慧或任何复杂系统时,我们可以推断出其出现的几个先决条件:

选择:

  • 选择意味着根据给定的选择标准找到 "最佳 "解决方案。 如果我们看一下自然选择,我们试图找到具有最高适应性的基因(或具体的等位基因)。
  • 在神经网络中,奖励函数试图在神经网络的损失面上找到最佳损失。
  • 甚至社会也试图通过资本主义找到最好的公司、工人和思想。

有足够的多样性:
基因变异使自然选择得以发挥作用。 如果所有基因都一样,竞争就无法选出最好的基因(它们都一样好)。

复杂生物结构的出现必须是逐步或跳跃式的。 例如,在我们进化出眼睛之前,我们可能会先从小规模的突变开始,使我们拥有光子受体,然后再从另一种突变开始,在上面形成一个圆顶形细胞,将光线集中到受体上,等等,直到我们达到眼睛的复杂程度。

然而,有些结构并不适合迭代改进,而需要跳跃式的改进。 在这种情况下,我们需要多个正确的元素才能使某些东西发挥作用。 我们可以将其与陷入局部最小值的神经网络联系起来: 我们需要较高的步长/随机性来 "引导 "自己走出局部最小值,进入更有利的状态。

最容易被忽视的是,我们需要能量:
我们通过时间和动力获得能量(能量=时间*动力)。

生命的动力就是太阳,它为复杂系统的出现提供了足够的能量。
没有能量,就不会有选择和多样性。

没有太阳,生命就不可能存在,这不仅是生物意义上的,也是物理意义上的。

这是因为生命可以被看作是一个耗散系统(https://journals.sagepub.com/doi/10.1177/1059712319841306?icid=int.sj-full-text.similar-articles.5),而耗散系统要达到最佳状态,就需要能量。

只要有足够的能量和时间,系统就会获得越来越多的能量,从而越来越接近其最佳状态。

对于像自然选择这样的选择性和多样性系统来说,这意味着达到具有最高适应性的基因。 对于智慧而言,这意味着达到最高形式的理解。

透过这一视角,我们就不难理解深度学习为何行之有效:

  • 这是一个具有选择、多样性和能量的系统。

如果我们的深度学习选择正确,多样性足够高,能量足够大,那么理论上我们就能达到最佳理解。

选择程序越通用,所需的能量就越大。

举例来说,

  • 如果搜索空间相当有限,比如在专业人工智能中,选择就不需要那么多能量。
  • 如果我们试图通过强化学习让机器人学会走路,那么如果我们教它先移动左腿、踩下脚掌,然后再移动右腿,计算成本就不会那么高。
  • 如果我们通过指定子目标来限制搜索空间,那么搜索空间就会小得多,机器人就能以更少的计算量更快地收敛。

不过,我们要以此牺牲通用性和创造性。

如果我们通过达到行走的每个子目标来限制机器人,那么它可能永远也学不会一种新的、更有效的行走方式。

随着时间的推移,我们会发现,计算能力越强,奖励功能就越广泛。

这就是我们如何从专业人工智能转向通用人工智能的:

  • 区别在于奖励函数的范围。

我们不说: "优化国际象棋的最佳得分",
我们说: "优化下一个单词的最佳预测"。

这种奖励函数是如此普遍和广泛,以至于人工智能可以学习几乎所有可以想象到的技能。

然而,这并不仅仅是独创性,而是计算能力提高的结果,是计算能力的提高让我们能够拥有更广泛的奖励函数。

从这些结果推断,我们可能会想,下一个 "步骤 "可能会是一个更广泛的奖励函数。

也许类似于 "让人类快乐 "是一个非常通用的目标,人工智能可以找到真正新颖、有创意的方法来实现这个目标。
不过,现在要做到这一点并不可行,因为考虑到其通用性,它的搜索空间太大了,但这意味着未来的模型可能会做到这一点。

我们可以让奖励函数更通用的另一种方法是:优化最佳神经网络权重+架构"。
我们可以使用某种进化算法来变异和选择性能最佳的架构,同时进化这些架构的权重,而不是像使用神经网络那样重新定义架构。
这是谷歌(利用自动进化算法发现神经网络架构)已经完成的工作,虽然取得了巨大成功,但他们承认在计算上这还不切实际。

总而言之,通过选择、多样性和能量这一视角,我们可以对智能甚至生命本身的出现有一个直观的认识:

  • 我们可以预测,随着系统中能量的增加,系统的复杂性也会增加。
  • 随着计算能力的不断提高,我们可以期待更复杂的模型。
  • 计算能力的提高也会带来不同的选择功能,这些功能比我们现在所拥有的功能更加通用,从而让人工智能随着时间的推移产生更多的创造力和价值。

缩放定律不仅仅是人工智能的定律,它还是自然法则的一种反映,一种由名为耗散系统的物理学概念所描述的自然法则。

这个想法对我自己的生活非常有启发。
例如,我知道如果我坚持做某件事,我就会进步。

  • 这是因为一致性意味着你不断地将精力投入到某件事上,这意味着如果你做这件事足够长的时间,你自然会找到一个最小值。
  • 如果你保持创造力(高突变/可变性),你将始终能够摆脱局部最小值:这可能意味着重新考虑你的整个方法或尝试一些不同的东西。
  • 如果你的奖励函数设置正确,那么它将带你获得出色的表现。

你投入某件事的精力越多,你的奖励函数就越通用。这让你,就像人工智能一样,想出创造性和有效的解决方案。然而,这确实增加了搜索空间,所以你需要有足够的精力来完成这个项目。

例如,如果你决定开设一个 YouTube 频道,一开始你可能做得不是很好。但只要付出足够的努力(力量)和时间,做 YouTube 的能力就会充满能量。

如果你的奖励函数设置正确(获得较高的观看时间),那么根据物理定律,这将引导你找到一个最小值。你可能会被困在一定数量的观看次数上,似乎没有增加,但随后你意识到你可以尝试不同的方法来制作视频。这种多样性使你能够跳出局部最小值,进入更优化的最小值。

最后,你可能会给自己一个制作一个病毒式视频的广泛目标,从而大大增加你的搜索空间。你可能不会将达到更高的观看时间作为子目标,而是只专注于制作一些病毒式的东西。你可能会在这个广泛的目标上变得非常有创造力,但这会耗费你大量的精力。

总而言之,只要你投入足够的精力和时间,将注意力集中在正确的奖励函数上,并不断尝试新事物,你几乎可以做任何事情。这不是基于盲目的乐观,而是耗散系统的现实结果。

巴别图书馆
你听说过巴别图书馆吗?它基本上是一本无限的书,里面有所有可能的字母组合,因此也有所有可能的单词组合,因此也有所有可能的理论和故事,无论是有用的还是胡言乱语的。我对神经网络的看法是:神经网络是通用函数近似,因此理论上可以近似任何函数,从而近似任何知识。它们就像巴别图书馆。

因此,学习问题实际上只是一个搜索问题:我们如何在 Babel 库中找到包含有用信息的页面?或者在 NN 的情况下,我们如何找到有用的 NN 配置?因此,梯度下降和反向传播实际上只是搜索算法,而奖励函数定义了我们要搜索的内容。


以上观点与斯蒂芬·沃尔夫勒姆 (Stephen Wolfram) 在元胞自动机方面所做的工作相吻合: