普林斯顿大学研究揭示,循环(递归)神经网络中神经元激活函数的选择,会根本性地影响其学习认知任务的内在电路机制与泛化行为,表明架构细节为任务解决方案提供了强归纳偏好,对构建更贴近生物大脑的计算模型至关重要。
神经网络架构隐藏惊人秘密:激活函数微小差异竟彻底改变认知任务解决机制,Tanh网络表现最另类!
训练一个神经网络就像教一群学生解数学题,不同的学生可能用完全不同的方法得出正确答案。最近在《自然机器智能》上发表的一项研究惊人地发现,循环神经网络中每个小小神经元使用的“激活函数”,竟然会彻底改变整个网络解决问题的方式!
这项研究由普林斯顿大学神经科学研究所的帕维尔·托尔马乔夫和塔蒂亚娜·恩格尔领导。恩格尔教授的实验室专注于用计算模型理解大脑如何进行认知计算,而托尔马乔夫是这项工作的主要完成者。他们发现,这个看似技术性的选择,实际上为网络如何学习任务注入了强烈的“归纳偏好”。
想象一下,你正在做一个需要根据上下文做决策的任务。
比如,屏幕上可能会提示你根据“运动”线索或者“颜色”线索来做选择。
研究人员训练了使用三种常见激活函数的循环神经网络来完成这个任务,包括ReLU、sigmoid和tanh。
结果发现,使用tanh激活函数的网络,其神经群体活动的轨迹、单个神经元的反应特性,以及网络动力学的“固定点”配置,都与使用ReLU和sigmoid的网络截然不同。
这不仅仅是看起来不同那么简单。
研究人员通过一种叫做“模型蒸馏”的技术,深入挖掘了这些网络内部的工作机制。他们发现,ReLU和sigmoid网络倾向于使用一种“抑制无关信息”的电路解决方案。就像是一个经理,在“运动”上下文中,他会主动压制来自“颜色”部门的信息,只让运动部门的信息影响最终决策。
而tanh网络则玩了一套完全不同的把戏。
它利用的是tanh函数的“饱和”特性。在任务开始时,相关的神经元被推到负饱和区,无关的神经元被推到正饱和区,它们对输出的影响相互抵消。当相关刺激出现时,它能把相关神经元从饱和区拉出来,进入对输入敏感的变化区,从而影响决策。而无关刺激再强,也只是把无关神经元更深地推入饱和区,无法改变其活动,因而对决策毫无影响。
这两种不同的“解题思路”导致了截然不同的“考试”表现。
当研究人员给网络提供一些训练时从未见过的、特别强烈的无关刺激时,ReLU和sigmoid网络就被带偏了,开始受到这些无关信息的影响。而tanh网络则完全不受干扰,表现出惊人的鲁棒性。
更有趣的是,这种因激活函数不同而导致的差异,不仅仅出现在一个任务中。研究者在“执行/不执行”任务和“记忆数字”任务中也重复了类似的发现。tanh网络始终特立独行,与ReLU和sigmoid网络格格不入。
那么,哪个网络更像我们的大脑呢?
研究表明,tanh神经元在生物学上是不太 plausible 的,因为生物神经元通常不会产生负的发放率。而且,像Stroop效应这样的心理学实验表明,人类在面对强烈的无关信息时是会被干扰的,这一点与ReLU和sigmoid网络的行为更相似,而不是那个“完美”的tanh网络。
这项研究给我们敲响了一个警钟。当我们使用循环神经网络来模拟大脑、提出假设时,不能随意选择网络架构。一个看似微小的选择,比如使用哪个激活函数,就可能让网络走向一条与生物大脑完全不同的解决之路。为了建立真正能反映大脑工作机制的模型,我们需要仔细考虑这些架构上的“归纳偏好”,选择那些与生物学约束更一致的设计。
未来的研究方向可能包括在网络中引入更多样化的单元类型,模拟大脑中不同的细胞种类,这或许能让我们的人工网络更接近那个我们试图理解的、充满魅力的生物大脑。