神经网络不是唯一的通用逼近器,将神经网络的成功归因于它们作为通用逼近器的地位,但也有许多算法是通用逼近器。例如,决策树也可以是通用逼近器,但它们似乎没有那幺成功。为什幺是这样?神经网络除了作为使它们与众不同的通用逼近器之外还有什幺?
首先,诸如决策树之类的算法没有那幺成功,这根本不是事实。
如果你处理的是,比如说表格数据,决策树的表现远远超过神经网络。
那幺,神经网络什幺时候会超过其他经典的ML算法?
似乎是当特征空间的相关性极其复杂,并且特征需要在神经网络中被 “重新设计 “时。
你可以在两个特定领域看到这种重新设计:
- 第一个是计算机视觉及其对卷积的使用,
- 第二个是自然语言处理,以及它是如何利用注意力机制的。
能够通过使用梯度下降的反向传播来完成这一任务,是使神经网络在这两个特定领域中如此占主导地位的原因。
正是随机梯度衰减(和关系)有效和高效地训练网络的能力,推动了成功。
这种能力开启了大数据集的优化,这反过来又开启了高性能。
深度网提供了复杂的表征和所有的连续参数,这使得SGD方法是可行的。
SGD能够如此好地训练问题是核心的开放性科学问题。
毫无疑问,有一些可构建的反例是不容易被SGD训练的,但经验问题是,现实世界中感兴趣的问题是否就是这些。
可以说,研究的很大一部分是关于如何将问题转化为SGD可优化的东西的人类实验和直觉。
目前的主要假设是彩票假设
,简单地说(我在这里省略了很多警告),一个足够大的随机初始化的深度神经网络几乎总是包含一个已经完成我们想要的子网络。我们可以称这个子网络为“中奖券”。当我们训练时,我们只是将无用的权重归零并调整这个“中奖彩票”网络。
大多数关于 LTH 的领先研究都集中在减少过度参数化和修剪等实际用途上。但它也可以解释为什幺修剪如此有效,例如。修剪大型网络比未经修剪训练的相同大小的小型网络具有更好的性能,因为较小的网络获得好的中奖彩票的机会更少。
Be First to Comment