DeepMind依靠CBN统计方法来构建公平的机器学习模型


机器学习系统可以做出决策而不会受到人类主观性的影响,但是,该论点仅部分正确。虽然机器学习系统不能根据感觉或情感来做出决定,但它们确实通过训练数据集继承了很多人为偏见。
偏见很重要,因为它会导致不公平,在过去的几年中,可以减轻偏见的影响并提高机器学习系统的公平性的技术开发方面已取得了许多进步。几个月前,  DeepMind发表了一篇研究论文,提议使用一种称为因果贝叶斯网络(CBN)的旧统计技术来构建更公平的机器学习系统
我们如何在机器学习系统的背景下定义公平性?人类通常根据主观标准来定义公平。在机器学习模型的上下文中,公平性可以表示为敏感属性(种族,性别...)与模型输出之间的关系。尽管方向正确,但该定义尚不完整,因为如果不考虑模型的数据生成策略就无法评估公平性。大多数公平性定义表示模型输出相对于敏感信息的属性,而没有考虑数据生成机制所依据的相关变量之间的关系。
由于不同的关系需要模型满足不同的属性才能公平起见,这可能导致错误地归类为表现出不良/合法偏见的公平/不公平模型。从这个角度来看,识别数据生成机制中的不公平路径与理解模型本身一样重要。
了解有关分析机器学习模型中的公平性的另一个相关要点是,它的特征扩展到技术构造之外,并且通常涉及社会学概念。从这个意义上讲,可视化数据集是识别潜在偏见和不公平现象的重要组成部分。从市场上不同的框架中,DeepMind依靠一种称为 因果 贝叶斯 网络 (CBN)的方法来表示和估计大数据集中的不公平性。
 
因果贝叶斯网络(CBN)
因果贝叶斯网络(CBN)是一种统计技术,用于使用图结构表示因果关系。从概念上讲,CBN是由表示随机变量的节点形成的图,这些节点由表示因果影响的链接连接。DeepMind方法的新颖之处在于使用CBN对数据集中不公平属性的影响进行建模。通过将不公平定义为来自图中敏感属性的有害影响的存在,CBN提供了简单直观的视觉表示,用于描述数据集基础下的不同可能的不公平情形。此外,CBN为我们提供了一个强大的定量工具,可用 来测量数据集中的不公平现象,并帮助研究人员开发解决不公平现象的技术。
CBN的一个更正式的数学定义是一个由节点组成的图,这些节点代表因果关系链接的各个变量。在CBN结构中,从节点X到节点Z的路径定义为从X开始到Z结束的一系列链接节点。 如果存在从X到Z的因果 路径 ,则X是Z的原因(有影响)。

详细点击标题