Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
分布式架构
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
人工智能
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
更多话题
研究表明:用于机器学习的数据集正在被影响垄断 - Unite.AI
21-12-06
banq
构建一个好的数据集需要付出大量的努力,如果它变得更大,则比例更大,人们喜欢大数据集,因为您可以从中训练出更强大的模型。因此,人们倾向于被资金充足的机构制作的数据集所吸引。
加州大学和谷歌研究中心的一篇新论文发现,少数“基准”机器学习数据集,主要来自有影响力的西方机构,经常来自政府组织,正日益主导人工智能研究领域。这种“默认”使用高度流行的开源数据集(例如
ImageNet
)的趋势带来了许多令人担忧的实际、道德甚至政治原因。
全球数据集使用的不平等越来越严重,在调查的 43,140 个样本中,超过 50% 的数据集使用由十二个精英机构(主要是西方机构)引入的数据集。占主导地位的机构包括斯坦福大学、微软、普林斯顿、Facebook、谷歌、马克斯普朗克研究所和 AT&T。排名前十的数据集来源中有四个是企业机构。
机器学习
数据科学