Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
分布式架构
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
ChatGPT
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
GitHub工具
更多话题
认知谬论:什么是维度诅咒
22-02-14
banq
你的数据越详细,它就越缺乏洞察力。仅向图形添加 1 个额外参数会导致图形的体积呈指数增长,分散包含的数据点并删除它们之间的有意义的关联。
维度诅咒现象出现在数值分析、采样、组合学、机器学习、数据挖掘和数据库等领域。这些问题的共同主题是,当维度增加时,体积空间的增长如此之快,以至于可用数据变得稀疏。为了获得可靠的结果,所需的数据量通常会随着维度呈指数增长。
这个短语,归因于 Richard Bellman,是为了表达使用蛮力(又名网格搜索)来优化具有太多输入变量的函数的困难。
在今天的大数据世界里,它也可以指当你的数据有大量维度时出现的其他几个潜在问题。
如果我们的特征比观测值多,我们就会有大规模过度拟合模型的风险--这通常会导致糟糕的样本外表现。
当我们有太多的特征时,观测值就会变得更难聚类--信不信由你,太多的维度会导致你的数据集中的每一个观测值与其他的观测值出现等距离。因为聚类使用了诸如欧几里得距离这样的距离测量方法来量化观察结果之间的相似性,所以这是一个大问题。如果距离都是近似相等的,那么所有的观测值看起来都是一样的(也是一样的不同),就不能形成有意义的聚类。
可参考机器学习中
PCIA
认知偏差与谬论
数据科学
数据分析
机器学习