研究表明：用于机器学习的数据集正在被影响垄断 - Unite.AI

构建一个好的数据集需要付出大量的努力，如果它变得更大，则比例更大，人们喜欢大数据集，因为您可以从中训练出更强大的模型。因此，人们倾向于被资金充足的机构制作的数据集所吸引。
加州大学和谷歌研究中心的一篇新论文发现，少数“基准”机器学习数据集，主要来自有影响力的西方机构，经常来自政府组织，正日益主导人工智能研究领域。这种“默认”使用高度流行的开源数据集（例如ImageNet）的趋势带来了许多令人担忧的实际、道德甚至政治原因。
全球数据集使用的不平等越来越严重，在调查的 43,140 个样本中，超过 50% 的数据集使用由十二个精英机构（主要是西方机构）引入的数据集。占主导地位的机构包括斯坦福大学、微软、普林斯顿、Facebook、谷歌、马克斯普朗克研究所和 AT&T。排名前十的数据集来源中有四个是企业机构。