神经网络是用类比方式 "思考 "吗? - qualcomm

22-09-18 banq

人只有两种思考方式:因果性和相关性。因果性遵循逻辑形式,属于分析分解的还原主义,遵循第一性原理,这是数学课上练习的;相关性有比喻 形象对比 打比方等形象思考,语文课上练习的。原文转译如下:

认知语言学家乔治-拉科夫和马克-约翰逊提出了一个著名的观点:几乎所有的人类思维都受隐喻的支配。
创造性的类比,有助于用其他东西来解释一件事。比方说:
  • 通过将 "时间 "视为 "金钱",我们隐含地自动允许与 "储蓄"、"浪费 "或 "投资 "有关的概念来支配我们对它的思考。
  • 或者通过将 "理论 "视为 "建筑",我们允许 "基础"、"构建 "和 "支持 "等概念来组织我们的讨论。


有影响力的学者和作家道格拉斯-霍夫斯塔德(Douglas Hofstadter)(在过去几十年里,他是我们许多人的灵感和榜样)一直在走得更远。多年来,霍夫斯塔德认为,人类的思维实际上无非是 "每秒一打的类比"--换句话说,在最广泛的意义上,隐喻构造了认知的每一个方面,从简单的日常活动一直到深刻的科学发现。

认知就是打比方。
尽管它很吸引人,但早些年类比法对人工智能的影响是有限的。而且它主要是以计算机模型的形式出现的,这些模型试图在玩具实例中模仿隐喻思维的某些方面,但没有产生强烈的影响。
在围绕认知和人工智能的辩论中,它也被用作指导原则,最著名的也许是,”suggesting embodiment “是推进人工智能的一个重要成分(通过允许人工智能系统正确解释与物理概念相联系的隐喻概念,如这个句子中的例子:"She is on top of the situation")。 

打比方就是分享权重
一个可能的解释是,为什么隐喻(打比方)在人类思维中如此普遍,是因为它们允许我们分享神经回路:通过联想,当你想到 "建筑 "时普遍活跃的神经进入发射模式,隐喻允许我们在思考任何与隐喻相关的概念(如 "理论")时,分享并随时提供我们对”建筑“的所有认识。
一种非常类似(可以说是 "相同")的分享在机器学习中很普遍。
事实上,人们可以说,霍夫斯塔特对认知隐喻的极端解读("每秒一打类比")的一个变种,这个变种在过去几十年中几乎一直支配着深度学习的所有方面。

深度学习的一个关键问题是模型是数据饥饿的。
统计学常识规定,一个模型的参数越多,我们就需要更多的数据来训练它。几乎所有类型的学习都是如此,从监督和自我监督到强化学习。解决这个问题的唯一办法是保持每个参数的训练实例数量较大。而神经网络研究人员已经找到了一个广泛使用的解决方案:权重共享。

事实上,很难找到任何神经网络不以这样或那样的形式使用权重共享。

  • 例如,卷积网络将一个单一的过滤器应用于图像中的多个不同位置,与完全连接的网络相比,参数减少了几个数量级。
  • 递归网络在不同时间段共享一组连接。转移学习将一个网络的一部分应用于多个任务。

权重共享是如此普遍,以至于有时它隐藏在众目睽睽之下。
事实上,任何多层神经网络都有这样的特性:高层的神经元与它们的同伴分享下面所有层的激活模式和突触连接。因此,甚至深度学习本身也可以被认为是一种隐性使用权重共享的方式。

就像认知隐喻在人类认知中普遍存在一样,权重共享在人工智能中也普遍存在。这可能不是偶然的。
事实上,我们可以将两者视为同一事物。并且服务于相同的简单目的:统计效率,这样才能激活学习。

机器学习:从前馈专家到递归通才
共享的统计优势可以将人工智能的发展推向有时是反直觉的方向。权重共享--及其提高学习的统计效率的能力--将我们推向整体发展和建立日益普遍的模型。它还将我们从还原主义的 "分而治之 "的方法中推开,”还原主义“的这种方法不仅常见,甚至在工程文化中根深蒂固。它将挑战从分析、分解,然后为一项任务建立模型转移到寻找产生数据的方法,使网络能够自己学习任何所需的组件及其整合的端到端。

端到端学习的趋势在2010年左右随着物体和语音识别以及随后使用的 "倒数第二层"--预训练模型的调谐而起飞。但这还远远没有结束,在未来几年里,它可能会将神经网络推向更高的抽象和能力水平。

最明显的是,权重共享目前正在推动一个(可能是不可逆的)长期的递归网络的趋势--其先兆是流行的大型自动回归语言模型。
原因是:递归或自动回归网络可以吸收比任何前馈分类或回归模型更广泛的概念和能力。
看到这一点的一个方法是,考虑到自动回归模型被训练为逐步输出一个序列,而不是一个单一的类别标签。而且,该序列有许多实例--或 "可用于训练的标签"。将输出序列中的每个元素视为一个 "行动Action",就可以说明自动回归模型可以训练的任务的惊人广度。
这就扩大了可能的监督信号的来源,包括文本、感官输入,甚至强化学习信号。
从概念隐喻的角度来看,这意味着模型不仅可以学习利用静态概念或特征之间的联系,还可以学习利用动态的 "常规"、策略、承受力或最广泛意义上的 "技能"。

我们可以把隐喻看作是利用 "高级不变性 "的一种方式:那些不变的、不改变的东西。
卷积网络通过将一个过滤器应用于图像中的多个位置来利用低层次的空间不变性,而隐喻则通过将一个 "思维过程 "应用于多个不同的概念或情况来利用高层次的不变性。
高水平抽象的认知能力在心理学中被称为 "系统2 "能力,与低水平感知(或 "系统1")形成对比。诺贝尔奖获得者丹尼尔-卡尼曼(Daniel Kahneman)对这一区别进行了深入研究,他认为,尽管系统-2扮演着刻意的、控制性的角色,但在大多数时候,真正处于驾驶位置的是系统-1。同样,人们可以认为,虽然系统2的思维过程在表面上看起来是句法性的和机械性的,但正是对隐喻和类比的使用为它们注入了活力,增加了意义、洞察力,有时甚至是创造力。 


在高通公司人工智能研究部的研究小组中,我们认为在研究神经网络能够获得的洞察力和 "思考 "隐喻的能力类型方面存在着巨大的机会。这相当于仔细选择能够引起潜在协同作用和联系的数据、任务和模式--并缓慢但稳步地提高权重共享能够施加影响的抽象水平。例如,我们正在研究语言的预训练如何为模型提供提高其决策能力的概念,或者基于文本的推理如何与模型结合并帮助其更好地理解视频流。

神经网络缺乏人类概念所依赖的那种主体和基础。一个神经网络对 "痛苦"、"尴尬 "或 "快乐 "等概念的表述不会与我们人类对这些概念的表述有丝毫相似之处。神经网络对 "并且"、"七 "或 "上 "等概念的表述将更加一致,尽管在许多方面仍有很大的不同。然而,人类认知的一个关键方面,神经网络似乎掌握得越来越好,那就是能够发现看似不相关的概念之间的深层和隐藏的联系,并以创造性和原始的方式利用这些联系。随着我们训练网络的抽象程度的提高,它们的能力水平也会让我们感到惊讶和吃惊。

 

1