本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
在论文中,我们经常地需要使用一些数学公式来对网络结构进行描述,这算是一种对模型结构的解释,不过本质上还是一种趋近性描述(Model Approximation).
对于一个典型的两层神经网络来说,我们经常看到的数学描述方式为:
, (1)
以及对应的经验风险: .
其中 , 表示所有的参数。这是一种连续函数表示。对应地,我们可以把它转换成积分形式:
(2)
其中 , 是定义在 上的概率分布函数, 是 上的Borel 代数, 为ReLU激活函数,也可以定义为其他形式。
在此基础上可以定义巴伦范数(Barron norm) , 其中巴伦空间(Barron Space) 为满足(2)式的连续函数的集合。在该定义下,我看可以计算出对应的神经网络的拟合能力,以及最大泛化误差(以Rademacher complexity的形式表示). 使用该框架亦可证明巴伦空间中函数的数据驱动学习能力.
在经验风险 的基础之上,我们通常还希望 的复杂性尽可能小。如果以 来描述 的复杂性,我们可以定义正则风险(Regularized Risk):
.
对于 的假设空间 来说,我们希望它是一个线性函数空间,也就是 . 另外,我们还希望 跟正则 有关。比如我们在 上定义范数 , .
定义了线性内积的空间是希尔伯特空间,它具有自对偶性(self-dual). 一般来说,我们使用神经网络是希望把低维维空间的线性不可分问题转化为高维空间的线性可分问题。假设 , 存在一个 到希尔伯特空间 的映射 (高维可分化)使得对所有 , . 那幺 即为核函数。这就把高维可分空间的内积转换为了核函数求值。
对应地,从自对偶性有 . 从而,正则风险最小化问题(优化问题)可定义为
. (3)
对于核 来说,它必须可以用在内积中,因此必须是一个对称函数 , 对于任何有限数量的 和对应的实数系数 有 , 从而使得 . 也就是说 是正定的。
我们可以逆向上面的过程,从 开始构建 :给定一个定义在 上的正定函数 ,我们定义 为包含所有 并且有以上内积定义的最小完备空间。也就是说, 是一个关于 的 再生核希尔伯特空间(Reproducing Kernel Hilbert Space, RKHS).
从而,学习问题简化为损失函数 的定义(一般是容易的)和核 的定义问题。式(3)中,损失函数计算的是 跟 的内积,而正则项(惩罚项)在所有维度上都约束 . 如果 的某些元素/维度跟由 张成的空间正交,正则项仍然会限制它。所以, 在由训练数据 的表示(Reprensers) 张成的空间中,这被称为表示定理(representer theorem).
这意味着, 可以写成以下形式:
也就是说,高维函数 的优化问题可以简化为对标量系数 和 的优化问题。
参考
- Caragea, A., Petersen, P., & Voigtlaender, F. (2020). Neural network approximation and estimation of classifiers with classification boundary in a Barron class. arXiv preprint arXiv:2011.09363.
- Barron, A. R. (1993). Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information theory, 39(3), 930-945.
- Gnecco, G., & Sanguineti, M. (2008). Approximation error bounds via Rademacher complexity.
- Ma, C., & Wu, L. (2021). The Barron space and the flow-induced function spaces for neural network models. Constructive Approximation, 1-38.
- Xu, J. W., Paiva, A. R., Park, I., & Principe, J. C. (2008). A reproducing kernel Hilbert space framework for information-theoretic learning. IEEE Transactions on Signal Processing, 56(12), 5891-5902.
- Bietti, A., Mialon, G., Chen, D., & Mairal, J. (2019, May). A kernel perspective for regularizing deep neural networks. In International Conference on Machine Learning (pp. 664-674). PMLR.
- Schölkopf, B., Herbrich, R., & Smola, A. J. (2001, July). A generalized representer theorem. In International conference on computational learning theory (pp. 416-426). Springer, Berlin, Heidelberg.
Be First to Comment