Facebook如何使用自我监督学习检测仇恨文字和图片?


预训练语言模型 XLM之类的自我监督正在加速在Facebook上的应用:包括 主动检测仇恨言论。我们已经部署XLM-R,该模型利用了我们的 罗伯塔 架构,以改善我们在Facebook和Instagram上使用多种语言的仇恨语音分类器,即使在训练数据很少的语言中也可以实现仇恨语音检测。
 
常识可以帮助人们学习新技能,而无需为每项任务进行大量的训练。例如,如果我们仅向小孩子展示几头母牛的图画,他们最终将能够识别出他们看到的任何母牛。相比之下,受过监督学习训练的AI系统需要许多实例的牛像,并且可能仍然无法在特殊情况下(例如躺在海滩上)对牛进行分类。在几乎没有监督的情况下,人们如何在大约20个小时的练习中学会驾驶汽车,而全自动驾驶仍然是一种需要我们参与的AI系统,该系统已经接受了来自人类驾驶员的数千小时数据的训练。简短的答案是,人类依赖于他们先前获得的有关世界运作方式的背景知识。
我们如何让机器做同样的事情?
我们相信,自我监督学习(SSL)是建立此类背景知识并近似AI系统中一种常识形式的最有前途的方法之一。自我监督学习使AI系统能够从数量级中学习更多数据,这对于识别和理解更微妙,更不常见的世界表示形式非常重要。自我监督学习在推动自然语言处理(NLP)领域取得了长足的成功,包括 Collobert-Weston 2008 modelWord2VecGloVEfastText, 还有: BERTRoBERTaXLM-R
与仅以监督方式进行培训相比,以这种方式进行预培训的系统所产生的性能要高得多。
 
自我监督学习是预测性学习
自我监督学习通常是利用数据的基础结构从数据本身获取监督信号。自我监督学习的一般技术是根据输入的任何观察到的或非隐藏的部分来预测输入的任何未观察到的或隐藏的部分(或属性)。例如,在NLP中很常见,我们可以隐藏句子的一部分,并从其余单词中预测隐藏的单词。
要完成诸如“( 什么 )在热带稀树草原中追赶(什么 )”这样的句子,系统必须了解狮子或猎豹可以追捕羚羊或牛羚,但是猫是在厨房而不是热带草原中追逐老鼠。训练的结果是,系统学会了代表单词的含义,单词的句法作用以及整个文本的含义。
但是,这些技术不能轻易扩展到新领域,例如CV计算机视觉。主要原因是,在图像的预测中表示不确定性比在单词中表示不确定性要困难得多。当无法准确预测缺失的单词时(是“狮子”还是“猎豹”?),系统可以将分数或概率与词汇表中所有可能的单词相关联:“狮子”,“猎豹”的高分和其他一些掠食者,词汇表中所有其他单词的得分都较低。
但是,当我们预测视频中丢失的帧或图像中缺少的色块时,我们不知道如何有效地表示不确定性。我们无法列出所有可能的视频帧,也无法将得分与每个视频帧相关联,因为它们的数量是无限的。
尽管此问题限制了视觉中SSL的性能改进,但诸如SwAV之类的新技术SSL技术开始超越视觉任务中的准确性记录。SEER系统最好地证明了这一点,该系统使用了经过数十亿个示例训练的大型卷积网络。
 
对预测中的不确定性建模
为了更好地理解这一挑战,我们首先需要了解预测不确定性及其与CV相比在NLP中建模的方式。在NLP中,预测丢失的单词涉及计算词汇表中每个可能单词的预测分数。虽然词汇表本身很大,并且预测缺少的单词会带来一些不确定性,但可以生成词汇表中所有可能单词的列表以及该位置出现单词的概率估计。典型的机器学习系统通过将预测问题视为分类问题并使用巨大的所谓的softmax层来计算每个结果的分数,从而将原始分数转换为单词的概率分布,从而实现上述目的。
最近,我们 创建并开源一个名为SEER的新的具有十亿参数的自我监督CV模型,已被证明可有效处理复杂的高维图像数据。它基于应用于卷积网络体系结构(ConvNet)的SwAV方法,可以从大量随机图像中进行训练,而无需任何元数据或注释。ConvNet足够大,可以从庞大而复杂的数据中捕获和学习每个视觉概念。在对10亿张随机,未标记和未整理的公共Instagram图像进行预训练并在ImageNet上进行监督微调之后,SEER优于最先进的,最先进的自我监督系统,在ImageNet上的top-1准确性达到了84.2%
这些结果表明,我们可以将自我监督的学习范式转变为计算机视觉。
更多点击标题见facebook原文