2024年诺贝尔物理学奖颁给两位AI专家!秒变图灵奖?

2024年诺贝尔物理学奖授予了两位在机器学习领域作出重大贡献的科学家:美国普林斯顿大学的约翰·J·霍普菲尔德(John J. Hopfield)和加拿大多伦多大学的杰弗里·E·辛顿(Geoffrey E. Hinton)。以表彰他们利用人工神经网络实现机器学习的奠基性发现和发明。

约翰·霍普菲尔德以其在物理学和生物学领域的贡献而知名,他创建了一种可以存储和重建信息的结构,即著名的Hopfield网络。这种网络可以在受损的情况下保持信息存储的能力,对后来的神经网络研究产生了深远影响。

杰弗里·辛顿被誉为“深度学习教父”,他对神经网络的研究贡献巨大,尤其是在反向传播算法和深度学习方面。辛顿的工作包括发明了玻尔兹曼机,以及对深度信念网络的研究,这些工作为现代深度学习技术奠定了基础。

霍普菲尔德网络
霍普菲尔德网络(Hopfield Network)是一种联想记忆神经网络,由约翰·霍普菲尔德(John Hopfield)于1982年提出。它是一种联想记忆模型,常用于模式识别和记忆存储等任务。与传统的前馈神经网络不同,霍普菲尔德网络的节点(神经元)是全连接的,且具有对称的权重矩阵,意味着连接的权重是相同的双向值。

霍普菲尔德网络虽然属于早期神经网络模型,但它的核心思想对大语言模型(LLMs,Large Language Models)等现代神经网络的发展起到了基础性的影响。

递归神经网络启发了记忆上下文

  • 霍普菲尔德网络是递归神经网络的早期形式,展示了网络节点的相互连接和状态更新如何形成联想记忆和模式存储的功能。
  • 递归神经网络(RNN)和其变种(如LSTM、GRU)在自然语言处理任务中具有重要作用,因为它们能够处理序列数据并保留输入的上下文信息。
  • 霍普菲尔德网络的状态收敛和记忆功能为递归结构奠定了基础思想。
  •  

联想记忆与语义关联

  • 霍普菲尔德网络的核心优势之一是联想记忆,即通过输入不完整或有噪声的模式恢复出完整模式。
  • 这种联想记忆的概念影响了大语言模型中的语义关联能力。现代大语言模型如GPT系列,会通过大量训练数据学习语义空间中的模式,并能在面对部分输入时预测出合理的下文或补全句子。
  • 这与霍普菲尔德网络中的模式恢复有相似之处,即从部分信息中联想到完整的信息。

缺点:

  • 网络大小是固定的,无法线性扩展
  • 能够记住一定数量的固定模式,但其存储能力有限。当网络存储的模式过多时,可能会出现混淆或记忆不稳定的情况。
  • 难以扩展到大规模数据处理。
霍普菲尔德网络结构相对简单,通常只有一层或少量层,主要目的是将输入与存储的模式进行匹配,找到最接近的记忆模式。这种网络大多是全连接的,所有神经元彼此连接,通常不涉及复杂的层次结构或深层网络。其工作原理依赖于能量最小化,通过状态更新使网络收敛到存储的模式。

深度学习
深度学习网络通常包含多层结构,网络的每一层提取数据中的不同级别的特征。

  • 输入层处理原始数据,
  • 中间层提取高级特征,
  • 输出层生成最终的预测或分类结果。

现代深度学习网络可以包含数十到数百层,每层可以包含成千上万个节点,尤其在大规模任务如图像识别或语言建模中非常常见。

网络训练通过反向传播和梯度下降优化,而不是像霍普菲尔德网络那样依赖能量最小化。

深度学习网络通过训练数据中提取的特征来“记住”信息。这种记忆是分布式的,隐含在网络的权重和激活函数中,而不是显式存储在网络某个特定节点。

深度学习依赖反向传播和梯度下降等优化算法,需要大量数据进行训练。每一层都通过计算损失函数的梯度来调整权重,以逐步减少模型的误差。

深度学习需要大规模标注数据来进行有效的训练。通常,越大的数据集,模型的性能越好,且能更好地泛化。

由于包含大量网络层和节点,深度学习网络的计算复杂度非常高,尤其是大规模神经网络的训练需要大量计算资源和时间。处理如图像识别和语言建模等任务时,通常需要使用GPU或TPU等加速硬件。

发展轨迹
1982年,约翰·霍普菲尔德(John Hopfield)提出了霍普菲尔德网络,这是一种能够实现联想记忆的神经网络,用于存储和检索离散模式。

感知器(Perceptron)模型是最早期的神经网络之一,由Rosenblatt在1958年提出。感知器用于二分类问题,但只适合解决线性可分问题。

1、反向传播算法
1986年,杰弗里·辛顿Geoffrey Hinton等人提出了反向传播算法(Backpropagation),这是训练多层感知器(MLP)的重要方法,标志着人工神经网络进入了一个新的阶段。反向传播通过梯度下降法更新网络权重,使得更深层的神经网络得以有效训练。

这段时间为后来的深度学习奠定了基础,主要是网络结构和训练算法的探索。

在20世纪80年代到90年代,神经网络的研究一度陷入瓶颈,尤其是由于计算能力不足和数据量限制,加深网络层数容易导致梯度消失或梯度爆炸等问题。大多数人对更深层的网络持怀疑态度。

2006年,辛顿等人提出了深度信念网络(DBN, Deep Belief Networks),这是一种基于无监督学习的深层网络,可以逐层预训练,然后进行微调,缓解了梯度消失问题。此时,研究者重新意识到深度神经网络的潜力。

随着计算能力的提升(尤其是GPU的发展)和大数据的可用性,神经网络的规模和复杂性显著增加,深度学习开始展现出巨大的应用潜力。

2、RNN递归神经网络
卷积神经网络(CNNs)成为了图像处理领域的突破性架构,尤其是2012年,AlexNet在ImageNet竞赛中取得了重大胜利,标志着深度学习的崛起。CNNs 的层次结构能够自动学习图像特征,并通过多层提取出从低级到高级的特征信息。

对于序列数据的处理,递归神经网络(RNNs)成为了主流选择。RNN通过循环机制保持了对序列信息的依赖,适合处理时间序列数据,如语音识别、语言翻译等。

RNN扩展问题:RNN在训练过程中依赖于反向传播算法(Backpropagation Through Time, BPTT),这种算法会随着时间步回传梯度,从而更新网络权重,然而,RNN的隐藏状态是逐个时间步依赖的,当序列很长时,梯度在多个时间步上逐步传播,这会导致梯度的以下两个极端现象:

  • 梯度消失:当梯度反向传播通过多个时间步时,梯度逐渐趋于0。这意味着在训练中,较早的时间步对网络的权重更新几乎没有贡献,导致网络难以记住长时间前的输入信息。
  • 梯度爆炸:相反,如果网络权重的初始值或更新过大,梯度可能会指数级增长,导致数值不稳定,使得权重更新过大,模型训练变得不可靠。
NN在处理长序列时,容易出现梯度问题,从而使得网络难以学习长距离依赖的特征,例如人类语言中依赖于上下文的特征。

RNN递归循环结构依赖于前一个时间步的计算结果,无法进行并行处理。这意味着每个时间步的计算必须依次进行,无法像卷积神经网络(CNNs)那样在不同层之间并行计算。这种顺序依赖性使得训练长序列时的计算成本非常高,特别是在处理大规模数据时,计算效率极低。

由于RNNs 在长序列中会遇到梯度消失的问题,长短期记忆网络(LSTM)和门控循环单元(GRU)相继被提出。这些改进使得网络可以处理更长的依赖关系,成为当时自然语言处理中的标准架构。

3、Transformer架构
2017年,由Vaswani等人发表的论文《Attention is All You Need》提出了全新的Transformer架构,这是自然语言处理领域的一个重大突破。

与之前的RNN和LSTM不同,Transformer摒弃了递归结构,完全依赖于注意力机制(Attention Mechanism),尤其是自注意力机制(Self-Attention)。这种机制可以直接处理输入序列中的所有元素,并且允许模型并行计算,极大地提高了训练效率。

Transformer的自注意力机制可以处理整个输入序列,与RNN不同,不依赖前后序列的顺序,极大地提高了对长序列的处理能力。

由于Transformer摆脱了递归循环结构,可以进行并行计算,从而加快了训练速度,尤其在大规模数据上的表现非常突出。

尽管Transformer在架构上与传统的递归循环神经网络(RNN)不同,它仍依赖反向传播来优化模型中的权重。Transformer的关键模块包括自注意力机制(Self-Attention)和前馈神经网络(Feedforward Neural Network),这些模块仍然通过反向传播来调整内部的权重。

获奖者贡献
1、约翰·J·霍普菲尔德(John J. Hopfield)被引用最多的论文:该研究探索了大量简单的、相互连接的神经元可能产生的计算特性。它的重点是研究如何集体行为在这样的神经网络可以导致有用的计算能力,

2、杰弗里·辛顿提出了反向传播算法,在集体网络结构中实现反向传播,调整权重。

他们利用物理学来寻找信息中的模式
机器学习的发展在过去十五到二十年里呈爆炸式增长,它利用了一种称为人工神经网络的结构。

人工神经网络使用整个网络结构来处理信息。其灵感最初来自于对大脑工作原理的理解。20 世纪 40 年代,研究人员开始围绕大脑神经元和突触网络背后的数学原理进行推理。另一个谜题来自心理学,这要归功于神经科学家唐纳德·赫布的假说,即学习是如何发生的,因为神经元之间的联系在协同工作时会得到加强。

后来,人们尝试通过建立计算机模拟的人工神经网络来重现大脑网络的功能。在这些神经网络中,大脑的神经元由赋予不同值的节点模拟,突触由节点之间的连接表示,这些连接可以变得更强或更弱。唐纳德·赫布的假设仍然被用作通过称为训练的过程更新人工网络的基本规则之一。

20 世纪 60 年代末,一些令人沮丧的理论结果让许多研究人员怀疑这些神经网络永远不会有任何实际用途。然而,人们对人工神经网络的兴趣在 20 世纪 80 年代被重新唤醒,当时有几项重要的想法产生了影响,其中包括今年获奖者的研究成果。

联想记忆
通过搜索相似单词来找到正确单词的过程让人想起物理学家约翰·霍普菲尔德 (John Hopfield) 于 1982 年发现的联想记忆。

霍普菲尔德网络可以存储模式,并有一种方法可以重新创建这些模式。当网络获得不完整或略有失真的模式时,该方法可以找到最相似的存储模式。

霍普菲尔德之前曾利用他的物理学背景探索分子生物学的理论问题。当他被邀请参加一次神经科学会议时,他接触到了对大脑结构的研究。他对所学内容非常着迷,并开始思考简单神经网络的动态。当神经元共同作用时,它们会产生新的强大特性,而这些特性对于只关注网络各个组成部分的人来说是无法察觉的。

1980 年,霍普菲尔德离开了普林斯顿大学,他的研究兴趣让他远离了物理学同事们的研究领域,他搬到了美国大陆的另一边。他接受了加州理工学院(位于南加州帕萨迪纳)的化学和生物学教授职位。在那里,他可以免费使用计算机资源进行实验并发展他的神经网络思想。

然而,他并没有放弃物理学的基础,物理学激发了他去理解由许多小组件共同作用的系统如何产生新的有趣现象。他特别受益于对磁性材料的了解,这些材料由于原子自旋而具有特殊的特性——这种特性使每个原子都成为一个微小的磁铁。相邻原子的自旋相互影响;这可以形成自旋方向相同的域。他能够利用描述自旋相互影响时材料如何发展的物理学,创建一个具有节点和连接的模型网络。

  • Hopfield 网络的编程方法是将图像输入到节点,节点被赋予黑色 (0) 或白色 (1) 的值。然后使用能量公式调整网络的连接,以便保存的图像获得较低的能量。
  • 当另一个模式被输入到网络中时,有一个规则是逐个检查节点,并检查如果该节点的值发生变化,网络是否具有较低的能量。
  • 发现如果黑色像素变为白色,能量就会降低,它会改变颜色。
  • 这个过程一直持续到不可能找到任何进一步的改进。当达到这一点时,网络通常会重现它所训练的原始图像。
为什么不直接保存图像本身并将其与正在测试的另一幅图像进行比较,但 Hopfield 的方法很特别,因为可以同时保存多张图片,并且网络通常可以区分它们。

霍普菲尔德将搜索网络中保存的状态比作将球​​滚过山峰和山谷,摩擦力会减慢球的运动速度。如果球掉落在某个特定位置,它将滚入最近的山谷并停在那里。如果网络获得的模式接近于已保存的模式之一,它将以同样的方式继续向前移动,直到它最终到达能量景观中的山谷底部,从而找到其记忆中最接近的模式。

使用十九世纪物理学进行分类
当霍普菲尔德发表关于联想记忆的文章时,杰弗里·辛顿正在美国匹兹堡的卡内基梅隆大学工作。他之前曾在英格兰和苏格兰学习过实验心理学和人工智能,他想知道机器是否能学会以类似于人类的方式处理模式,找到自己的类别来对信息进行分类和解释。

辛顿与他的同事特伦斯·塞诺夫斯基一起从霍普菲尔德网络开始,并利用统计物理学的思想对其进行扩展,构建出了一些新的东西。

统计物理学描述的是由许多相似元素组成的系统,例如气体中的分子。追踪气体中所有单独的分子是困难的,甚至是不可能的,但可以将它们作为一个整体来考虑,以确定气体的总体特性,如压力或温度。气体分子以不同的速度在其体积中扩散,并仍然具有相同的集体特性,这有很多潜在的方式。

可以使用统计物理学分析各个组件可以共同存在的状态,并计算出它们发生的概率。有些状态比其他状态更有可能发生;这取决于可用能量的数量,这在 19 世纪物理学家路德维希·玻尔兹曼 (Ludwig Boltzmann) 的一个方程中有所描述。Hinton 的网络利用了该方程,该方法于 1985 年以引人注目的玻尔兹曼机 (Boltzmann machine)的名称发表。

识别同一类型的新示例
玻尔兹曼机通常与两种不同类型的节点一起使用。信息被馈送到一组节点,这些节点称为可见节点。其他节点形成隐藏层。隐藏节点的值和连接也对整个网络的能量有贡献。

  • 该机器通过应用规则来运行,每次更新一个节点的值。最终,机器将进入一种状态,其中节点的模式可以改变,但整个网络的属性保持不变。
  • 然后,每个可能的模式将具有特定的概率,该概率由网络能量根据玻尔兹曼方程确定。
  • 当机器停止时,它已经创建了一个新的模式,这使得玻尔兹曼机成为生成模型的早期例子。
玻尔兹曼机可以学习——不是通过指令,而是通过给出的例子。它通过更新网络连接中的值进行训练,以便在训练时输入可见节点的示例模式在机器运行时具有最高的出现概率。如果在训练过程中多次重复相同的模式,则该模式的概率甚至更高。训练还会影响输出与机器训练的示例相似的新模式的概率。

经过训练的玻尔兹曼机能够识别出它之前未见过的信息中的熟悉特征。想象一下,当你遇到朋友的兄弟姐妹时,你立刻就能看出他们一定是亲戚。同样,如果一个全新的示例属于训练材料中的某个类别,玻尔兹曼机也能识别它,并将其与不相似的材料区分开来。

在其原始形式中,波尔兹曼机效率相当低,需要很长时间才能找到解决方案。当它以各种方式开发时,事情变得更加有趣,而欣顿一直在探索这一点。后来的版本已经变得稀疏,因为一些单元之间的连接已被移除。事实证明,这可能会使机器更有效率。

波尔兹曼机通常用作大型网络的一部分。例如,它可以根据观众的喜好推荐电影或电视剧。

由于物理学为机器学习的发展贡献了工具,因此有趣的是,物理学作为一个研究领域也受益于人工神经网络。机器学习长期以来一直应用于我们可能熟悉的领域,从以前的诺贝尔物理学奖中可以看出。其中包括使用机器学习来筛选和处理发现希格斯粒子所需的大量数据。其他应用包括降低碰撞黑洞引力波测量中的噪声,或寻找系外行星。

网友质疑
1、图灵奖秒变物理奖

深度学习教父Geoffrey Hinton荣获诺贝尔物理学奖!

物理学已经没有创意了?诺贝尔委员会刚刚将物理学奖颁给了一位计算机科学家!这说明了现代物理学的现状如何?
尽管 20 世纪上半叶物理学取得了许多突破,但很明显,当代物理学的成果要少得多。

计算机科学是科学的新前沿吗?
这个奖项可能证明计算机科学不仅仅是编码;它是新的科学游乐场,在这里可以测试突破性的理论并诞生创新。

计算机科学现在是科学发现的中心。

2、霍普菲尔德作为一名物理学家和物理学领域做出了杰出的工作,但杰弗里·辛顿从未以物理学家的身份工作过,充其量只是将物理学中的一些现有事物应用到认知科学用例中。
布莱克或斯科尔斯获得物理学奖而不是经济学奖,因为他们著名的方程式可以改写成薛定谔方程形式。

3、一个物理学家如果只把数学用在物理上,是得不到数学奖的。

4、很惊讶 Terry Sejnowski 没有被包括在内,考虑到这次物理奖似乎是为霍普菲尔德网络和玻尔兹曼机而设的,而 Terry 在后者中发挥了重要作用。

5、霍普菲尔德网络和玻尔兹曼机是被广泛接受的神经网络知识吗?我认识 Rosenblatt、Perceptron 等,但我从未听说过霍普菲尔德网络和玻尔兹曼机在AI历史上占有重要地位。
我读过的描述都是数学的,重点是具有神奇反向传播的计算图(坦率地说,这只是记忆中间计算)。这些文字描述还不遗余力地阻止使用“突触”之类的术语,而是使用“单位”。

6、波尔兹曼机在深度学习的早期就已存在。这是一种巧妙的破解方法,可以逐层训练深度网络,并使用有限的资源。
每一层的训练方式与自动编码器的编码器部分类似。这样,逐层转换就不是随机的,而是大致保留了一些原始数据属性。到目前为止,训练都是在没有使用标记数据的情况下进行的。完成此训练阶段后,您的网络将获得非常好的初始化,并可以根据您的任务和目标标签对其进行端到端的训练。
如果我没记错的话,神经层的输出是概率性的。因此你不能简单地使用反向传播来学习权重。

7、我觉得这次的奖项有点奇怪,因为它关注的是霍普菲尔德网络和玻尔兹曼机。特别选择这两种架构似乎有点武断。此外,帕里西在2021 年因自旋玻璃而获奖。霍普菲尔德网络非常相关。他们本可以将霍普菲尔德和辛顿也包括在内,这样看起来会更连贯。
令人担忧的是,最近诺贝尔奖委员会似乎忽视了基础广泛的理论贡献。

8、我同意霍普菲尔德网络和波尔兹曼机的选择令人惊讶地随意。这就像他们想为神经网络的某个人颁发奖项,但必须从他们自己的领域内挑选代表发展的人,这限制了选择范围。

9、霍普菲尔德网络和玻尔兹曼机本质上是“统计力学的创造性应用”。我是一名矿物物理学家,现在从事机器学习工作,我绝对认为整个领域都是应用统计力学

10、许多机器学习都深受物理学家(例如玻尔兹曼机)、语言学家(例如最优化理论)、计算生物学家(例如进化树)、电气工程师(例如克劳德·香农)等人的基础研究的影响。
机器学习(ML)是一个多学科交叉的领域,它的发展受到了来自不同学科的理论和方法的深刻影响。以下是一些重要的例子:

  • 物理学:物理学家对机器学习的贡献是基础性的。例如,Boltzmann Machines(玻尔兹曼机)就是由物理学家John J. Hopfield和Geoffrey E. Hinton等人受到统计物理中玻尔兹曼分布的启发而开发的。霍普菲尔德网络是一种能够存储和重建图像和其他类型的数据模式的联想记忆网络。
  • 语言学:语言学家如Paul Smolensky对机器学习也有重要贡献。他的研究集中在将符号计算和神经网络计算整合起来,用于模拟人类大脑中的语言和推理过程。他的工作对语言理论、神经网络理论和认知科学的基础哲学都有贡献。
  • 计算生物学:计算生物学家如Stuart Russell和Tandy Warnow在进化树(Phylogenetic Trees)的研究中,使用计算方法来推断物种之间的进化关系。这些方法在生物学研究中非常重要,并且对机器学习算法的发展也有启发作用。
  • 电气工程:电气工程师如克劳德·香农Claude Shannon对信息论的贡献为现代通信和数据压缩技术奠定了基础,这些技术对机器学习中的数据处理和传输至关重要。