Google AI数据卡攻略:数据集文档透明化工具包

22-11-21 banq

Google发布了数据卡,这是一个数据集文件框架,早在提供高数据集生命周期的透明度。数据卡包包括以下内容:
  1. 上游资源
  2. 数据收集和注册方法
  3. 培训与考核方式
  4. 数据集的预期用途
  5. 影响模型性能的决策


随着机器学习 (ML) 研究转向能够执行大量下游任务的大规模模型,对数据集的起源、发展、意图和演变的共同理解对于 ML 模型的负责任和知情开发变得越来越重要。然而,关于数据集的知识,包括使用和实现,往往分布在团队、个人甚至时间上。

数据卡方法很吸引人,尤其是随着机器学习 (ML) 研究转向能够执行大量下游任务的大规模模型。对数据集的起源、发展、意图和演变的共同理解对于负责任和知情的发展变得越来越重要。

数据卡是透明的工件,它提供 ML 数据集的结构化摘要,其中解释了塑造数据的过程和基本原理,并描述了如何使用数据来训练或评估模型。

在实践中,有两个关键因素决定了透明度工件的成功,即识别决策者使用的信息的能力以及获取该信息所需的流程和指南的建立。我们开始在我们的论文中探索这个想法,使用三个“脚手架scaffolding”框架,旨在使数据卡适应各种数据集和组织环境。这些框架帮助我们创建边界基础设施,这些流程和参与模型补充了在实践社区之间交流信息所必需的技术和功能基础设施。边界基础设施使数据集利益相关者能够找到共同点,用于为数据集的创建、文档和使用的决策提供不同的输入。

今天,我们介绍了Data Cards Playbook,这是一个自导式工具包,供各种团队使用他们的 ML 数据集应对透明度挑战。Playbook 将以人为本的设计方法应用于文档——从规划透明度策略和定义受众到编写以读者为中心的复杂数据集摘要——以确保文档数据集的可用性和实用性得到很好的理解。我们已经创建了参与式活动来克服建立数据集透明度工作的典型障碍,可以将数据透明度扩展到新数据类型的框架,以及研究人员、产品团队和公司可以用来制作反映其组织原则的数据卡的指南。

详细点击标题