Data2vec:第一个适用于语音、视觉和文本等多领域的高性能自监督算法


自我监督学习推动了人工智能的许多重大进展,所谓自我监督学习:机器通过直接观察环境进行学习,而不是通过标记的图像、文本、音频和其他数据源进行明确的教导;虽然人们也似乎以相似的方式学习,但是学习的方式存在很大差异方式。
这种差异一直是更广泛地应用自我监督学习进步的重大障碍。因为为理解图像而设计的强大算法不能直接应用于另一种模态,例如文本,所以很难以相同的速度推动几种模态。
这就是为什么Meta AI开发并兴奋地宣布data2vec,第一个适用于多种模式的高性能自监督算法。
我们将data2vec分别应用于语音、图像和文本,它的性能超过了以前计算机视觉和语音的最佳单一用途算法,而且在NLP任务上也很有竞争力。它也代表了一种新的整体自我监督学习的范式,新的研究改善了多种模式,而不仅仅是一种模式。
它也不依赖于对比性学习或重建输入实例。除了帮助加速人工智能的进展外,data2vec使我们更接近于建造能够无缝学习周围世界不同方面的机器。它将使我们能够开发出更具适应性的人工智能,我们相信它将能够执行超出今天的系统所能做到的任务。
 
传统监督学习原理
许多人工智能仍然基于监督学习,而监督学习完全是通过标记的数据进行的。但是,我们根本不可能为所有我们希望机器做的事情收集标记的数据。例如,虽然研究人员在为英语语音和文本创建大规模的标记数据集方面做了大量工作,但要为地球上的成千上万种语言做到这一点是不可能的。

自我监督使计算机能够通过观察世界,然后找出图像、语音或文本的结构来了解世界。拥有不需要明确教导就能对图像进行分类或理解口头语言的机器,其可扩展性就更强。

今天,自我监督学习的研究几乎总是集中在一个特定的模式上。因此,研究一种模式的研究人员往往采取与研究另一种模式的研究人员非常不同的方法。对于文本,研究人员训练模型来填补句子中的空白。然而,语音模型需要学习语音的基本声音清单,以便预测缺失的声音。在计算机视觉中,模型通常被训练成为牛的彩色图像和相同的图像翻转后的相似表征,因此它将两者联系起来的程度要比与之无关的图像(如鸭子的图像)密切得多。

算法还为每种模式预测不同的单位:图像的像素或视觉标记,文字的单词,以及语音的声音学习目录。一组像素与一个音频波形或一段文字是非常不同的,正因为如此,算法设计一直与特定的模式相联系。这意味着算法在每种模式下的运作方式仍然不同。
 
data2vec如何工作
Data2vec通过训练模型来预测它们自己对输入数据的表示,而不考虑模式,从而简化了这一点。通过关注这些表征--神经网络的层--而不是预测视觉标记、单词或声音,一个单一的算法可以处理完全不同类型的输入。这就消除了学习任务中对特定模式目标的依赖。直接预测表征并不直截了当,它需要为任务定义一个稳健的规范化特征,在不同的模态中都是可靠的。

我们的方法使用一个教师网络,首先从图像、文本或语音语调中计算出目标表征。
接下来,我们屏蔽部分输入,用学生网络重复这一过程,然后预测教师的潜在表征。
学生模型必须预测全部输入数据的表征,尽管它只看到了部分信息。
教师网络与学生模型相同,但其权重略微过期。
  
点击标题原文