信用分配问题是学习的核心。反向传播作为一种简单而有效的信用分配理论,自诞生以来就推动了人工智能的显著进步,并且在理解大脑学习方面也占据了主导地位。由于这一成功,最近的许多研究都集中在理解生物神经网络如何以类似于反向传播的方式学习;尽管许多提出的模型并没有完全实现反向传播,但它们仍然试图近似反向传播,并且非常强调这种近似有多接近。
然而,大脑学习在许多关键方面都优于反向传播。例如,与大脑相比,反向传播需要更多刺激才能学习,而且会受到新存储信息和先前存储信息的严重干扰。
这就提出了一个问题:使用反向传播来了解大脑的学习是否应该成为该领域的主要关注点。
信用分配问题:ANN与大脑的共同挑战
Marvin Minsky 等早期人工智能领域的先驱确实对信用分配问题(Credit Assignment Problem)进行了深入思考。他们意识到,这一问题不仅是人工神经网络(ANN)的核心,也是生物神经系统学习的关键挑战。
马文·明斯基Marvin Minsky(1927年8月9日-2016年1月24日) 是人工智能(AI)领域的奠基者之一,被誉为“人工智能之父”。他对计算机科学、心理学和哲学的交叉领域作出了开创性贡献,并为AI的发展奠定了理论基础。
- 在人工神经网络中,信用分配问题指的是如何将整体输出误差分解为网络中各层或节点的贡献,从而调整权重以优化性能。反向传播通过梯度计算和链式法则高效解决了这一问题。
- 在生物神经网络中,信用分配的核心在于如何为特定的突触调整提供信号,使得学习过程能够有效进行。然而,大脑并没有显示出直接使用反向传播的证据。
反向传播是人工神经网络的核心,但非大脑的解决方案
Minsky和其他学者指出,大脑在解决信用分配问题时,可能依赖于与反向传播完全不同的机制。这是因为:
生物学限制:
- 反向传播需要精确的误差信号在整个网络中反向传播,而大脑的神经元连接结构不适合这样的全局信息传播。
- 大脑的学习过程通常是局部的(Local Learning),即突触的变化主要取决于邻近神经元之间的活动,而不是全局误差信号。
时间尺度和效率:
- 反向传播的效率适合计算机,但可能过于耗时且不符合大脑实时学习的需求。
- 大脑需要快速适应环境变化,可能依赖启发式或近似方法。
其他不同:
- 生物系统具有较高的鲁棒性和随机性,允许噪声和不确定性参与学习过程,这与ANN中高度精确的误差传播方式有显著差异。
- 反向传播可能导致“灾难性干扰”,即学习新事物会削弱旧关联,这与观察到的生物过程不符。
大脑可能使用的替代机制
以下机制被认为是大脑可能用于信用分配的方式
- Hebbian学习规则
- "Fire together, wire together":大脑通过活动相关性调整突触强度,这是一种局部的、无需全局误差信号的学习方法。
- 突触可塑性
- 突触的长时程增强(LTP)和长时程抑制(LTD)被认为是信用分配的一部分。
- 全局调节因子
- 神经调质(如多巴胺和乙酰胆碱)可能提供全局的奖励或惩罚信号,辅助信用分配。
- 层次化学习
- 大脑可能利用分布式层次结构,让不同脑区分担部分学习任务,而不是一个统一的误差优化。
- 自由能最小化
- 基于Karl Friston等提出的自由能原则,大脑通过预测和校正误差来优化行为和学习,可能为信用分配提供一种替代解释。
为何说霍普菲尔德Hopfield 网络与生物大脑更加相似(Hopfield 网络与注意力层紧密相连)
霍普菲尔德Hopfield 网络是一种基于能量最小化的递归神经网络,它在某些方面体现了与生物神经网络的相似性,尤其是在信息存储、记忆和能量动态方面。此外,近年来的研究表明,Hopfield 网络与现代机器学习中的注意力机制(Attention Mechanism)存在理论上的联系,这进一步加强了其在人工智能领域的地位。
联想记忆功能
- 霍普菲尔德Hopfield 网络的核心能力是联想记忆(Associative Memory),类似于人类大脑从部分信息恢复整体记忆的功能。例如,从模糊的输入模式恢复存储的完整模式。
- 大脑中的海马体被认为与这种功能类似,尤其是在长时记忆的存储和检索方面。
其他:
- Hopfield 网络的记忆是分布式存储的,这与大脑的记忆存储方式非常相似。没有某个单一节点存储完整信息,系统的冗余性增强了对损伤的鲁棒性。
- Hopfield 网络通过设计一个能量函数(Energy Function)来描述网络状态,动态演化总是趋向于能量最低点。大脑的神经活动也可以被建模为一种趋向稳定状态的动态过程。
- Hopfield 网络的更新规则与Hebbian学习("用进废退")的理念相契合,即连接强度取决于神经元间的共同活动。
霍普菲尔德Hopfield 网络与注意力机制的联系
近年来的研究(如 Demystifying Transformer Models: A Hopfield Network Perspective, 2020)发现,Hopfield 网络与注意力机制之间存在数学和功能上的深度关联:
- 经典霍普菲尔德 Hopfield 网络的状态更新可被视为对能量函数的最优化,这与注意力机制中通过相似性度量选择相关信息的过程本质上是相似的。
- 现代化的 霍普菲尔德Hopfield 网络模型(如连续空间Hopfield网络)对原始设计进行了扩展,适应更高维度的输入,并可以处理稀疏表示。这与注意力层在处理高维输入(如 Transformer 的序列数据)时的能力一致。
- 注意力机制可以被视为一种内存查询(Memory Query)过程,查询向量(Query)根据键值对(Key-Value)进行加权匹配,这类似于 Hopfield 网络中的联想记忆过程。
- Transformer 中的注意力层在计算注意力分数时可以被看作优化问题的一部分,而这种优化行为与 Hopfield 网络最小化能量函数的过程高度一致。
新型学习机制:前瞻性配置
这项研究提出了一种称为“前瞻性配置/prospective configuration”的新型学习机制,作为传统反向传播的替代方案。前瞻性配置通过推断学习后应出现的神经活动模式,然后调整突触权重以巩固这些变化,与大脑皮层的成熟模型相一致。
这种机制更高效,且能够解释人类和动物学习实验中的神经活动和行为模式。与反向传播相比,它可能更适合生物系统在复杂环境中的学习需求。
在这里,我们提出,大脑用一种完全不同的原理来解决信用分配问题,我们称之为“前瞻性配置”。
- 在前瞻性配置中,在修改突触权重之前,整个网络中的神经活动会发生变化,以便输出神经元更好地预测目标输出;只有这样,突触权重(以下称为“权重”)才会被修改,以巩固神经活动的这种变化。
- 相比之下,在反向传播中,顺序是相反的;权重修改占主导地位,神经活动的变化是随之而来的结果。
我们认为前瞻性配置是一种原则,这一原则被一系列具有坚实生物学基础的成熟神经模型(即基于能量的网络)所隐含。
这些网络包括霍普菲尔德Hopfield 网络和预测编码网络,它们已被成功用于描述皮层中的信息处理,为了支持前瞻性配置理论,我们表明:
- 它既可以产生人类和动物能够实现的高效学习,
- 也可以重现人类和动物学习实验的数据。
前瞻性配置和预测编码都关注如何通过优化神经活动来提高学习效率,但它们有关键区别:
- 前瞻性配置:学习首先通过调整神经活动模式来匹配预期输出,然后通过突触可塑性来巩固这种活动模式。它强调网络在学习中先形成预测,再修改权重强化这种预测。
- 预测编码:关注通过最小化预测误差来更新神经活动和权重。神经元根据预测与实际观察之间的误差进行调整,通常应用于感知和动作预测中。
前瞻性配置在操作上更侧重于通过优化活动模式来“先行动”,而预测编码则侧重于通过最小化误差来进行调整。
因此,
- 一方面,我们证明前瞻性配置在生物系统面临的各种情况下比反向传播执行更高效、更有效的学习,例如深度结构学习、在线学习、有限数量的训练示例学习、在不断变化的环境中学习、多任务持续学习和强化学习。
- 另一方面,我们证明,包括感觉运动学习、恐惧条件反射和强化学习在内的各种人类和动物学习实验中的神经活动和行为模式可以用前瞻性配置自然解释,但不能用反向传播解释。
受反向传播是生物学习基础这一信念的指导,先前的研究表明基于能量的网络可以非常接近反向传播。然而,为了实现这一点,网络的建立方式并不自然,即通过将监督信号限制为无限小。相比之下,我们发现,基于能量的网络遵循独特的反向传播原则是不切实际限制的,前瞻性配置原则在学习效率和生物学习数据方面都更胜一筹。
前瞻性配置 vs 反向传播:一个直观的例子
为了最佳地规划行为,大脑预测未来的刺激至关重要:
- 例如,根据其他模态预测某些模态的感觉。如果观察到的结果与预测不同,则需要更新整个网络中的权重,以便纠正“输出”神经元中的预测。
- 反向传播计算应如何修改权重以最小化输出的误差,并且当网络下次进行预测时,此权重更新会导致神经活动发生变化。
相比之下:
我们建议首先将神经活动调整到新的配置,以便输出神经元更好地预测观察到的结果(目标模式);然后修改权重以强化这种神经活动配置。我们将这种神经活动配置称为“预测/前瞻性”,因为它是网络应该产生的神经活动,以正确预测观察到的结果。
与提出的前瞻性配置机制一致,在生物神经元中确实已经广泛观察到,呈现预测结果会触发神经活动的变化;例如,在要求动物预测果汁递送的任务中,奖励不仅会触发味觉皮层活动的快速变化,还会触发多个皮层区域活动的快速变化。
想象一只熊看到了一条河:在熊的脑海中,这一景象会让它预测自己会听到水声和闻到鲑鱼的味道。那天,熊确实闻到了鲑鱼的味道,但没有听到水声,也许是因为耳朵受伤了,因此熊需要改变它对声音的期望。
1、反向传播
反向传播将通过反向传播负误差来减少视觉和听觉神经元之间路径上的权重,然而,这也需要减少视觉和嗅觉神经元之间的权重,这将影响下次去河边闻到鲑鱼味道的期望,即使鲑鱼的味道存在并且被正确预测了。
这些使用反向传播学习的不良和不切实际的副作用与灾难性干扰现象密切相关,在灾难性干扰中,学习新的关联会破坏先前学到的记忆。
这个例子表明,通过反向传播,即使学习关联的一个新方面也可能会干扰对同一关联的其他方面的记忆。
2、前瞻性配置
前瞻性配置假设学习从将神经元配置为新状态开始,这对应于使网络能够正确预测观察到的结果的模式;然后修改权重以巩固该状态。
这种行为可以“预见”潜在权重修改的副作用并动态地进行补偿。为了纠正错误输出上的负误差,隐藏神经元会稳定在活动较少的预期状态,结果,正误差显露出来并分配给正确的输出。因此,前瞻性配置会增加连接到正确输出的权重,而反向传播则不会。因此,前瞻性配置能够有效、高效地纠正学习关联的副作用,而且干扰很少。
基于能源的网络
基于能量的网络已广泛且成功地用于描述生物神经系统。
在这些模型中,神经回路由动态系统描述,该系统通过减少抽象的“能量”来驱动,例如,反映神经元的错误:神经活动和权重会发生变化以减少这种能量;因此,它们可以被视为动态系统的“可移动部件”。
基于能量的网络在数学上等同于物理机器(我们称之为“能量机器”),其中能量函数具有直观的解释,其动力学很简单;能量机器只需调整其可移动部件即可降低能量。
能量机揭示了能量型网络的本质;在权重修改之前进行松弛,使网络稳定到一个新的神经活动配置,该配置对应于通过权重修改纠正错误后可能发生的神经活动,即预期活动(因此,我们将此机制称为预期配置)。简而言之,基于能量的网络中的松弛推断出学习后的预期神经活动,然后向该预期神经活动修改权重。这使其与反向传播区分开来,在反向传播中,权重修改占主导地位,神经活动的变化是随之而来的结果。
前瞻性配置的优点:减少干扰,学习速度更快
我们还将前瞻性配置与用反向传播训练的人工神经网络 (ANN) 的性能进行了比较,因为它们密切相关,这使得比较公平。
在前瞻性配置中,梯度下降通过直接最小化损失,会导致与反向传播相同的权重变化。这种方法提供了一种独特的方式比较两者:前瞻性配置通过调整神经活动以匹配预测和目标,从而间接优化权重,而反向传播则直接通过链式法则传播误差信号进行权重更新。此对比能够隔离学习算法的具体影响,并展示前瞻性配置机制如何更接近生物神经网络的学习方式,同时保持与人工神经网络一致的优化结果。
实验发现:尽管反向传播修改权重以直接降低权重空间中的成本(即执行梯度下降),但令人惊讶的是,它并没有将产生的输出活动直接推向目标,这颇具颠覆性。
相比之下,前瞻性配置会首先找到所需的神经活动网络配置,然后再考虑更新其他权重的结果,这种机制在反向传播中是缺失的,但在基于能量的网络中却是自然而然的。
实验发现:目标对齐几乎不受学习率的影响,这表明学习率对输出神经元所采取的方向和轨迹影响很小。当网络没有隐藏层时,目标对齐等于 1,随着网络变得更深,反向传播的目标对齐会下降,因为一层权重的变化会干扰其他层的变化,并且反向传播的误差不会导致隐藏层权重的适当修改,由于反向传播会在减少损失的方向上修改权重,因此对于较小的学习率,它具有正的目标对齐,但不一定接近 1。相比之下,前瞻性配置在整个过程中保持更高的值。
更高的目标对齐度直接转化为学习效率。
在生物学相关场景中进行有效学习
我们通过实证研究证明,前瞻性配置实能比反向传播更好地处理生物系统面临的各种学习问题。由于机器学习领域已经开发出测试学习性能的有效基准,我们使用经典机器学习问题的变体,这些变体与自然环境中的学习具有共同的关键特征。
- 前瞻性配置需要的学习情境上下文比反向传播要少。
- 其次,生物体需要连续学习多个任务,而 ANN 则表现出灾难性的遗忘。
- 第三,生物系统通常需要快速适应不断变化的环境。这种在更新其他信息的同时保留重要信息的能力对于在必然会发生变化的自然环境中生存至关重要,而前瞻性配置在这方面具有非常明显的优势。
- 此外,生物学习还具有数据可用性有限的特点。当使用较少的示例训练模型时,前瞻性配置的表现优于反向传播
生物系统面临的另一个关键挑战是决定采取哪些行动:强化学习理论(例如Q学习)提出,通过学习不同情况下不同动作所产生的预期奖励来解决该问题
使用前瞻性配置或反向传播进行训练:前瞻性配置比反向传播具有显着优势。这种巨大的优势可能是因为强化学习对网络权重的不稳定变化特别敏感(因为目标输出取决于网络本身对新状态预测的奖励;方法)。
该论文提出以下证据:
- 推断学习过程中的潜在状态
- 在学习过程中发现任务结构
总结
这篇论文提出了“前瞻性配置”学习原则,主张学习通过优化神经元活动以匹配正确输出,并利用突触可塑性强化这种活动模式。不同于传统认为神经活动转移是误差传播的代价,该研究证明这种转移在提高学习效率和解释实验数据方面至关重要。前瞻性配置在局部计算情况下减少了干扰,表现出优于反向传播的学习性能,同时与生物神经网络的机制更加一致。
该理论解决了一个长期存在的问题,即大脑如何解决可塑性与稳定性的两难问题,例如,尽管在学习过程中初级视觉皮层的表征发生了调整 ,但我们仍然可以理解我们一生中学到的视觉刺激的含义。 根据该理论当某些权重被修改时,其他权重也会发生补偿性变化,以确保正确预测输出的稳定性。
因此,该理论减少了学习单个关联时不同权重修改之间的干扰。 以前的计算模型已经提出了在学习多个联想时减少新信息和以前获得的信息之间干扰的机制。这些机制和该理论极有可能在大脑中并行运作,以最大限度地减少这两种类型的干扰。
该理论与统计建模中的推理和学习程序有关。 如果基于能量的方案中的 "能量 "是变分自由能,那么该理论就可以看作是包含推理和学习的变分贝叶斯的实现。
最近的其他研究 也注意到,基于能量的网络的自然形式(用他们的话说是 "强控制")与反向传播的学习方式不同: 他们的分析集中在深度反馈控制的架构上,并证明其模型的特定形式等同于前瞻性配置。
我们论文的独特贡献在于展示了这种强控制的优势,并解释了它们产生的原因。
前瞻性配置原理也存在于其他最新模型中:例如
- Gilra 和 Gerstner50 建立了一个尖峰模型,在该模型中,输出误差的反馈会在可塑性发生之前直接影响隐藏神经元的活动。
- 海德尔等人为基于能量的模型开发了一种更快的推理算法,它能计算出活动可能收敛的值,即潜在平衡。 根据潜在平衡迭代设置每个神经元的输出可大大加快推理速度5,并能高效计算预期配置。
前瞻性配置要求各层神经元之间的前向和后向权重对称,因此出现了一个问题,即这种对称性在大脑中是如何形成的?
如果前瞻性配置的初始化权重是对称的,那么这种对称性就会持续存在,因为神经元 A 和 B 之间权重的变化与反馈权重(神经元 B 和 A 之间)的变化相同。 即使权重的初始化不是对称的,如果模型中包含突触衰减 ,对称性也可能会形成,因为这时初始的不对称值会逐渐消失,权重值会更多地受到近期对称变化的影响。 不过,有效的信用分配一般并不要求权重对称。
神经活动和权重并行更新的学习规则在开始时将经历相当于反向传播的权重更新,然后在系统趋于平衡时转向前瞻性配置。
前瞻性配置的优势表明,它可以有效地应用于机器学习,以提高深度神经网络的效率和性能。但其障碍在于松弛阶段的计算成本很高。然而,最近的研究表明,通过在每一步松弛之后修改权重,模型的速度会变得与反向传播相当快,而且更容易并行化。
banq注:从错误中学习是正常学习的机制,如果你小时候考试总是正确,其实你已经偏离了试错的正常轨道