研究表明:用于机器学习的数据集正在被影响垄断 - Unite.AI


构建一个好的数据集需要付出大量的努力,如果它变得更大,则比例更大,人们喜欢大数据集,因为您可以从中训练出更强大的模型。因此,人们倾向于被资金充足的机构制作的数据集所吸引。
加州大学和谷歌研究中心的一篇新论文发现,少数“基准”机器学习数据集,主要来自有影响力的西方机构,经常来自政府组织,正日益主导人工智能研究领域。这种“默认”使用高度流行的开源数据集(例如ImageNet)的趋势带来了许多令人担忧的实际、道德甚至政治原因。
全球数据集使用的不平等越来越严重,在调查的 43,140 个样本中,超过 50% 的数据集使用由十二个精英机构(主要是西方机构)引入的数据集。占主导地位的机构包括斯坦福大学、微软、普林斯顿、Facebook、谷歌、马克斯普朗克研究所和 AT&T。排名前十的数据集来源中有四个是企业机构。