Transformer与卷积、Hopfield和状态空间关系

Transformer 架构已在各种神经网络模型的背景下得到广泛讨论,包括它们与卷积神经网络 (CNN)、Hopfield 网络和状态空间模型的关系。以下是最近关于这些主题的研究的主要见解的总结。

1、Transformer 作为 CNN
一篇题为“将视觉 Transformers 解释为具有动态卷积的卷积网络”的论文探讨了视觉 Transformers 与 CNN 之间的关系。

作者认为:视觉 Transformers 可以看作是一种利用动态卷积的 CNN。

这种观点允许使用统一的框架来比较这两种架构之间的设计选择。该研究强调了如何用 CNN 中常用的激活函数(例如 ReLU)替换视觉 Transformers 中的 softmax 函数,从而提高收敛速度和性能。

此外,还提出了一种深度视觉 Transformer,它效率更高,同时保持与传统模型相当的性能

为了阐明注意力和卷积之间的关系,文献中发现的一个更有力的说法采取了相反的观点:

  • 与其将注意力视为卷积的增强形式,不如说卷积是一种注意力的形式,这可能更准确。
从几何深度学习的角度来看,Transformer 可以视为具有位置编码的全连接图注意力网络 (GAT)。

此外,众所周知,注意力消息传递(动态计算特征相关权重,如 GAT 中所示)包含静态加权卷积消息传递。这是因为注意力机制始终可以等同于表查找,从而产生静态权重。

因此,虽然直观地认为将卷积算子概括为依赖于输入且动态的会引起一种注意力形式,但基本关系实际上似乎是相反的。

这种观点也更为普遍,因为它以更基本的方式对待卷积和注意力,也就是说,不参考底层域(LLM 中的标记、视觉中的补丁、图中的节点等)。

另一种直观的关联两者的方法是 CNN 和 Transformers 都是图神经网络 (GNN) 的特例:
在 GNN 中,图中的每个节点都包含一些值,这些值通过聚合来自邻近节点的信息,然后将其放入某个 NN 转换 + 激活函数中进行更新。一般 GNN 可以具有任意的图结构、聚合函数等。CNN 是具有特定图结构(节点是像素,边连接网格中的节点)和从邻近节点聚合信息的特定方式(卷积)的 GNN。类似地,Transformer 是具有完全连接图(每个节点通过注意力机制连接到其他每个节点)的 GNN,它使用注意力机制聚合信息。

邻域注意力(natten)与滑动窗口卷积实际上是完全相同的。

2、Transformer 和 Hopfield 网络
论文“Hopfield 网络就是您所需要的一切”介绍了 Hopfield 网络的现代版本,它结合了连续状态和新颖的更新规则

这种新架构可以存储大量模式并有效地检索它们。
值得注意的是,更新规则反映了 Transformers 中使用的注意机制。
这种等价性允许对 Transformer 头部进行详细表征,表明它们在早期层执行全局平均,

在更深层执行部分平均。将 Hopfield 层集成到深度学习架构中为记忆和注意力提供了新功能,从而提高了各种任务的性能。


3、Transformer 作为状态空间模型
在另一项题为“Transformers 就是 SSM:通过结构化状态空间对偶实现广义模型和高效算法”的研究中,研究人员研究了 Transformers 与状态空间模型 (SSM) 之间的联系。

他们建立了一个框架,揭示了这些模型之间的理论联系,表明 SSM 可以在较小规模上匹敌或超越 Transformers 的性能。

作者介绍了一种名为 Mamba-2 的新架构,它改进了现有的 SSM 技术,以实现更快的处理时间,同时在语言建模任务中保持竞争力

总之
这些发现共同说明了 Transformer 架构在各种神经网络范式中的多功能性和适应性,凸显了它们在未来深度学习技术进步中的潜力。