经典论文:《注意力就是你所需要的》


Vaswani 等人在 2017 年发表的论文《注意力就是你所需要的》介绍了 Transformer 架构,这是近年来人工智能研究和进步蓬勃发展的关键驱动力。该论文为 BERT、GPT 等 Transformer 模型及其变体奠定了基础,这些模型在自然语言处理任务中取得了最先进的性能。

Transformer 的注意力机制显著提高了对序列数据的处理能力,使得对更大的数据集进行更高效的训练成为可能,并在机器翻译、情感分析和语言建模等领域取得了前所未有的突破。使用 Transformer 并行训练的能力也大大减少了训练时间,加速了模型准确性和能力的进步。

自 2017 年发表论文 "Attention is all you need "以来,人工智能研究呈爆炸式增长:

Transformer 论文所创造的智力资本催化了人工智能领域创新的爆炸式增长,新的研究论文以惊人的速度发表。人工智能的这一巨大转变推动了 GPU 和 TPU 等强大硬件的发展,以及各个行业人工智能原生初创企业和人工智能嵌入式解决方案的出现。

Transformer架构的影响如此深远,被认为是人工智能领域最重要的里程碑之一,标志着人工智能技术快速进步和广泛应用的新时代的开始。

Transformer 架构

  • 它提出了一种完全基于注意力机制的新型神经网络架构,它完全基于注意力机制,无需递归和卷积。
  • Transformer 依靠自注意力机制在对输入序列进行编码并生成输出时权衡输入序列不同部分的重要性。
  • 与递归模型相比,这种自注意力机制允许在训练期间进行更多并行化,从而显著减少训练时间。
  • Transformer 模型在 WMT 2014 英语到德语和英语到法语的翻译任务中取得了最佳效果。
  • 它提出了一种称为“缩放点积注意力”和“多头注意力”的新机制来绘制输入和输出之间的全局依赖关系。
  • 该模型使用“位置编码”来注入有关序列顺序的信息,因为它缺乏重复性。
  • 事实证明,Transformer 可以很好地推广到其他任务,例如英语成分解析。

关键创新
1、自注意力机制
Transformer 架构的核心创新是自注意力机制,该机制允许模型在对输入序列进行编码和生成输出时权衡输入序列不同部分的重要性。与 RNN 和 LSTM 等以前的序列模型相比,这种自注意力机制使模型能够更有效地捕获长距离依赖关系和上下文信息。

2、并行化和效率
通过用自注意力机制取代循环,Transformer 架构允许在训练过程中实现更多并行化,与循环、递归模型相比,训练时间显著缩短。这种效率使得能够在更多数据上训练更大的模型,从而提高性能。

注意力机制
注意力机制是Transformer模型的核心组件,其工作原理如下:

缩放点积注意力机制
基本注意力函数是缩放点积注意力函数,它对查询(Q)、键(K)和值(V)向量进行操作:

  1. 查询 Q 与键 K 相乘得到相似度分数:Q * K^T = 分数
  2. 将分数除以 sqrt(d_k) 以防止极小的梯度(d_k 是键的维度)
  3. 分数通过 softmax 函数来获得注意力权重
  4. 将注意力权重与值 V 相乘得到注意力输出
所以注意力(Q,K,V)= softmax(Q * K^T / sqrt(d_k))* V

多头注意力机制
Transformer 并不执行单一的注意力功能,而是使用多头注意力:

  1. 查询、键和值被线性投影 h 次(h 是头的数量)
  2. 缩放点积注意力机制在每个投影版本上并行执行
  3. 注意力输出被连接起来并再次投射
这使得模型能够共同关注来自不同位置的不同表示的信息。

自注意力机制
在 Transformer 编码器中,查询、键和值来自前一层的输出。因此,每个位置都会关注序列中的所有其他位置来计算其表示 - 这称为自注意力。自注意力输出被输入到前馈神经网络中以产生最终的编码表示。在解码器中,通过屏蔽相应的值来修改自我注意力,以防止在训练期间关注未来的位置。

Transformer 的关键创新是应用自注意力来计算表示,而无需使用 RNN 或卷积等顺序操作。这可以实现更多的并行化和更快的训练。

​​​​​​​