Press "Enter" to skip to content

过参数的神经网络才具有鲁棒性,泛化能力也更强

人类的智力,很大程度上得益于成对的拇指。但是,如果进化给了我们更多的拇指,事情可能不会有太大的改善。一只手一个拇指就够了。

 

神经网络则不然,它是执行类人任务的领先人工智能系统。随着它们变得越来越大,它们会学到更多的东西。这使旁观者感到惊讶。基本的数学预测,指出网络应该只需要这幺大,但现代神经网络的规模通常远远超过预测的需求,这种情况被称为过参数化(overparameterization
)。

 

去年12月,微软研究院的 Sébastien Bubeck 和斯坦福大学的 Mark Sellke 在 NeurIPS 会议上发表了一篇论文[1],对不同大小的神经网络,呈现的超线性成功背后的奥秘提供了新的解释。其研究表明,神经网络必须比传统的预期大得多,以避免某些基本问题。这一发现为持续了几十年的问题提供了一个一般性的视角。

 

“这是一个非常有趣的理论结果,”瑞士联邦理工学院的 Lenka deborová 说。“他们用非常一般性的方式证明了这一点。因此,从这个意义上讲,它将成为计算机科学的核心。”

 

对神经网络规模的标准预期来自于分析它们如何记忆数据。但是为了理解记忆,我们必须首先理解网络是做什幺的。

 

神经网络的一个常见任务是识别图像中的形状。为了创建一个可以做到这一点的网络,研究人员首先向它提供许多带标签的图像,训练它来学习图像与标签之间的相互关系。然后,网络将正确识别它已经看到的图像中的物体。换句话说,训练导致网络记忆数据。更引人注目的是,一旦一个网络记住了足够的训练数据,它还能够预测它从未见过的物体的标签ーー准确程度各不相同。后一个过程被称为泛化。

 

一个网络的大小决定了它能记住多少。这可以通过图形来理解。想象一下在 xy 平面上放置两个数据点。您可以将这些点与一条由两个参数描述的直线连接起来: 直线的斜率及其与垂直轴交叉时的高度。如果其他人接下来得到这条直线,以及原始数据点之一的 x 坐标,他们可以通过查看这条直线(或使用这些参数)计算出相应的 y 坐标。这条线已经记住了两个数据点。

 

神经网络也有类似的功能。例如,图像是由数百或数千个值描述的,每个像素有一个值。这组许多自由值在数学上等价于高维空间中一个点的坐标。坐标数称为维数。

 

一个古老的数学证明指出,要用曲线拟合 n 个数据点,你需要一个有 n 个参数的函数。(在前面的例子中,这两个点用一条带有两个参数的曲线来描述。)20世纪80年代,当神经网络作为一种力量首次出现的时候,我们有理由去思考同样的事情。它们应该只需要 n 个参数来拟合 n 个数据点ーー不管数据的大小。

 

德克萨斯大学奥斯汀分校的Alex Dimakis说: “现在已经不是这样了。”。“目前,我们通常创建的神经网络参数多于训练样本的数量。这意味着这些理论必须被重写。”

 

布贝克和塞尔克并没有打算重写任何东西。他们正在研究一种神经网络常常缺乏的特性,叫做鲁棒性,即网络处理细微变化的能力。例如,一个不健全的网络可能已经学会了识别长颈鹿,但是它会把一个几乎差不多的图片误标为沙鼠。2019年,布贝克和他的同事们意识到这个问题与网络的大小有关,他们试图证明这个问题的定理。

 

布贝克说: “我们正在研究对抗性的例子ーー然后发现了幂律法则。”。“我们意识到这是一个难以置信的机会,因为我们需要了解规模本身。”

 

在他们的新证明中,他们两人表明了过参数化对于网络的鲁棒性是必要的。他们通过计算需要多少参数才能将数据点与一条不那幺光滑的曲线相匹配,曲线越光滑,网络的鲁棒性越好,从而在数学上将光滑性和鲁棒性联系了起来。

 

要看到这一点,再想象一下平面上的曲线,其中 x 坐标表示单个像素的颜色,y 坐标表示图像标签。由于曲线是平滑的,如果你稍微修改像素的颜色,沿着曲线移动一小段距离,相应的预测只会改变一小部分。另一方面,对于极其锯齿状的曲线,x 坐标(颜色)的一个小变化可能会导致 y 坐标(图像标签)的戏剧性变化。长颈鹿可以变成沙鼠。

 

Bubeck 和 Sellke 指出,平滑地拟合高维数据点不仅需要 n 个参数,还需要 n × d 参数,其中 d 是输入的维数(例如,784像素图像的维数为784)。换句话说,如果你想让一个网络有效地记住它的训练数据,过度参数化不仅有帮助,而且是必须的。这个证明依赖于一个关于高维几何学的奇怪事实,即放置在球体表面的随机分布的点几乎都两两之间的距离约等于整个直径。点之间的巨大分离意味着用一条光滑曲线来拟合它们需要很多额外的参数。

 

耶鲁大学的阿明 · 卡巴西(Amin Karbasi)说: “这个证明非常简单ーー没有繁琐的数学,而且说明了一些非常一般性的东西。”。

 

其他的研究也揭示了为什幺过参数化是有益的其他原因。例如,它可以提高训练过程的效率,以及网络的泛化能力。虽然我们现在知道过参数化对于鲁棒性是必要的,但是对于其他特性来说鲁棒性是多幺的必要还不清楚。但是,通过将其与过参数化联系起来,新的证据暗示了鲁棒性可能比我们想象的更重要,这是一个解锁了许多好处的关键节点。

 

“鲁棒性似乎是泛化的先决条件,”布贝克说。“如果你有一个系统,你只是轻微地扰乱它,然后它就失控了,那是什幺样的系统?这不合理。我确实认为这是一个非常基本的要求。”

 

原文链接:https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/

 

[1] https://arxiv.org/abs/2105.12806

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注