Press "Enter" to skip to content

理解神经网络函数高频成分的收敛率界限

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

©作者 | 王志伟、罗涛、许志钦

 

单位 | 上海交通大学

 

神经网络的频率原则

 

深度神经网络(DNN)在监督学习问题上展现出了其广泛的应用前景。近期的一系列的研究表明,神经网络的输出关于频率存在一种隐式偏差,即神经网络在训练过程中,往往会从低频到高频拟合目标函数的训练集,如下图所示。我们将这一现象称为 频率原则 (更加详细的介绍请参考 F-Principle:初探深度学习在计算数学的应用F-Principle:初探理解深度学习不能做什幺 )。

▲ 红色为目标函数的傅里叶变换,蓝色为 DNN 输出的傅里叶变换,每一帧表示一个训练步,横坐标是频率,纵坐标是振幅。

在测试集上,从众多满足训练误差最小的解中,过参数化的神经网络由于频率原则会倾向于选择低频成分占主导的函数,即经过 Fourier 变换后,较大的系数主要集中在低频项。由于真实数据往往是低频占主导的,因此神经网络在真实数据上往往具有不错的泛化性。

 

一个自然的问题是,神经网络输出函数的 Fourier 变换关于频率的衰减具有什幺样的特性?能否设计算法来加速神经网络输出函数与目标函数的 Fourier 系数误差随频率增大而衰减的速度?如果可以,最多能加速到多少?研究这样的问题可以使我们更好地了解神经网络在拟合高频函数(即 Fourier 变换后,较大的系数主要集中在高频项的函数)时的表现,从而设计更加有效的算法加速高频函数收敛,扩大神经网络的应用范围。

论文标题:

 

An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network

 

论文作者:

 

Tao Luo, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang

 

论文链接:

 

https:// arxiv.org/abs/2105.1167 5

 

Fourier域变分问题与其适定性条件

 

为回答上述一系列问题,我们设想能否从神经网络出发,抽象出一个监督学习的算法框架,通过研究该框架中输出函数的性质来推导神经网络的相关性质。

 

有关研究表明,一个以ReLU为激活函数的两层的无穷宽神经网络(为方便,设置初始网络输出函数为0),其训练终止时的输出函数 满足以下变分问题:

其中 d 是数据的输入维度, 为依赖网络的初始化参数的常量, 表示的Fourier变换, 表示频率。从上式可以看出,从Fourier域观察神经网络的输出,其主要影响因素是前置的复杂权重。对于高频成分,权重很大,对 施加了更大的惩罚,因此高频项的Fourier系数较小,从而导致输出函数 低频占优。我们将以上公式称之为线性频率原则公式,其更详细介绍可以参考 F-Principle:初探理解深度学习不能做什幺

 

我们所考虑的是Fourier变换随频率增大而衰减的性质,受上述线性频率原理公式的启发,我们可以将指数设为一个待定的常数 ,由此我们得到以下变分问题:

其中 。但实际上,上述问题的意义是不明确的,因为我们无法在空间 逐点定义函数值。为解决这一困难,我们定义了一个类似于Fourier逆算子的线性算子,具体而言,令:

因此原本的限制条件用该算子表达应该是: ,这里 ,而 的计算事实上用的是Fourier域空间上的全局信息,因此,通过定义该算子,我们将原x-y空间上的逐点信息转化为Fourier域空间上的全局信息,从而避免了之前无法逐点定义具体函数值的困难。

 

在该定义之下,可行的函数空间转化为:

因此,最后我们得到以下Fourier域变分问题:

这里我们用Sobolev范数简化了一开始的表达式,其中 ,且:

进一步我们研究了其适定性条件,可以证明当 时,该问题没有解;当 时,该问题的解有一定的光滑性。具体可以分为如下两个定理:

因此,我们可以发现,Fourier域变分问题这一框架下所有的算法(即取不同的 得到的算法,这里 )输出函数的Fourier变换取值量级均为 ,于是, 是神经网络输出函数的Fourier变换取值的一个上界。

 

数值实验

 

为验证上述适定性条件,我们将连续的变分问题离散化,得到以下离散变分问题:

下图所示的数值模拟结果分别是在不同的 取值下,用上述离散化方法拟合1维空间中2个点(左图)和2维空间中4个点(右图)得到的最终输出图像。其中,在2维情形下,为更好地观察输出,我们的4个数据点选在了2维空间的同一个截面上。

通过数值模拟,我们可以看到,当 时,输出函数(图中的红线)为一个光滑输出;而当 时,输出函数(图中的绿线)退化十分严重,即十分接近平凡解,这里平凡解指的是仅在训练点处非零,而在其他点函数值均为零的解。可以想象,随着网格进一步加密,2维情形(图b)下的输出函数也将退化为类似于1维情形(图a)中的平凡解。

 

总结

 

本文旨在从 Fourier域的角度提出一套全新的、包含神经网络在内的、更加一般的、适用于监督学习问题的 Fourier域变分问题框架,并且分析其适定性条件。利用该框架,我们研究了神经网络函数的Fourier变换关于频率的衰减性态,从理论角度揭示了神经网络最终输出函数,经过Fourier变换后,得到的频率函数图像,随着频率的增大,该函数衰减率存在最小值。因此可以推断,神经网络在逐渐学习高频的过程中有效率上限。为了加快高频的收敛,可以先对训练数据做一定的处理将其变为较低频的函数。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注