Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
分布式架构
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
人工智能
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
更多话题
神经网络为何如此独特有效? -Reddit
22-03-29
banq
神经网络不是唯一的通用逼近器,将神经网络的成功归因于它们作为通用逼近器的地位,但也有许多算法是通用逼近器。例如,决策树也可以是通用逼近器,但它们似乎没有那么成功。为什么是这样?神经网络除了作为使它们与众不同的通用逼近器之外还有什么?
首先,诸如决策树之类的算法没有那么成功,这根本不是事实。
如果你处理的是,比如说表格数据,决策树的表现远远超过神经网络。
那么,神经网络什么时候会超过其他经典的ML算法?
似乎是当特征空间的相关性极其复杂,并且特征需要在神经网络中被 "重新设计 "时。
你可以在两个特定领域看到这种重新设计:
第一个是计算机视觉及其对卷积的使用,
第二个是自然语言处理,以及它是如何利用注意力机制的。
能够通过使用梯度下降的反向传播来完成这一任务,是使神经网络在这两个特定领域中如此占主导地位的原因。
正是随机梯度衰减(和关系)有效和高效地训练网络的能力,推动了成功。
这种能力开启了大数据集的优化,这反过来又开启了高性能。
深度网提供了复杂的表征和所有的连续参数,这使得SGD方法是可行的。
SGD能够如此好地训练问题是核心的开放性科学问题。
毫无疑问,有一些可构建的反例是不容易被SGD训练的,但经验问题是,现实世界中感兴趣的问题是否就是这些。
可以说,研究的很大一部分是关于如何将问题转化为SGD可优化的东西的人类实验和直觉。
目前的主要假设是
彩票假设
,简单地说(我在这里省略了很多警告),一个足够大的随机初始化的深度神经网络几乎总是包含一个已经完成我们想要的子网络。我们可以称这个子网络为“中奖券”。当我们训练时,我们只是将无用的权重归零并调整这个“中奖彩票”网络。
大多数关于 LTH 的领先研究都集中在减少过度参数化和修剪等实际用途上。但它也可以解释为什么修剪如此有效,例如。修剪大型网络比未经修剪训练的相同大小的小型网络具有更好的性能,因为较小的网络获得好的中奖彩票的机会更少。
机器学习
AI神经网络
NLP自然语言处理