Press "Enter" to skip to content

模型复杂度与泛化能力

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

想象一下天气,当要下雨时,通常会有什幺前兆呢?刮风、乌云、突然降温?如果要设计一个模型,进行下雨预测,那幺这些特征都可以作为输入。当我们给模型输入的特征越多时,模型自然越复杂,在训练中的偏差(Bias)就越小。这自然是容易理解的:如果仅考虑刮风,那从我们的经验来看,这就很不准确,如果我们综合考虑多个因素,那在经验中就很难找到反例。但是,如果我们引入的特征过多,比如掷硬币出现正面,这虽然对模型的训练偏差没什幺坏处,但是会导致另一个问题:泛化性变差。在未来场景中的预测中,如果我们把掷硬币出现正面作为一个关键的话,那预测的效果自然会变差。这就是典型的bias-variance trade-off:

 

bias-variance trade-off意味着,一方面,我们不可能同时在bias和variance上取得最好,也就是说,超过一定复杂度之后,训练效果好的模型,在测试时候一般会更差,因为模型会更关注训练集中引入的噪声,也就是出现了过拟合。另一方面,存在一个最优的模型复杂度,在bias和variance上取得相对最佳。

 

这个假设非常经典,并且符合一般经验。但如果这个概念完全成立的话,那幺我们就完全没有做复杂模型的必要了。但是,复杂的深度神经网络明显不符合这一假设. 深度神经网络能非常好的拟合数据,甚至于内插化(interpolate). 如果按照一般原则,这样的模型应该是过拟合的,但它们能取得显着更好的效果。

 

对于一般性机器学习任务来说,可以描述为给定 的数据样本 , 以学出预测函数 , 对于新的数据点 给出预测标签 .预测函数 来自于函数集 . 一般性地,这类函数优化过程中使用 经验风险最小化(empirical risk minimization, ERM) 及其变种。损失函数 , 对应的经验风险为 . 机器学习的目的是找到能在训练未见数据上表现好的 .

 

通常地,我幺可以假定训练数据和测试数据来源于 的分布 的随机采样,这种采样意味着,我们不大可能从训练数据或测试数据 中还原出分布 的无偏估计 . 训练目标中的最小化经验风险 跟 实际风险 之间因此产生了错配。也就是我们常说的训练数据的分布跟实际数据的分布之间存在错配。

 

如果根据bias-variance trade-off假设,我们控制 的拟合能力,就可能在过拟合与欠拟合之间取得最佳平衡。如果 的拟合能力过低,那幺 中的所有预测函数都会在训练数据上欠拟合。而如果 的拟合能力过高,则经验风险最小化的优化会让预测函数过拟合训练数据中的伪模式(spurious patterns), 从而在测试数据上表现差。

 

控制 的能力的方式有两种:1)通过选择模型的结构来控制模型的复杂性,2)通过约束限制(比如 early stopping, L2正则). 当达到合适的平衡时,我们认为 在训练数据上的表现可以泛化到分布 上(上图的sweet point).

 

但是,深度学习和一些复杂核方法出现后,我们在其中获取的经验完全低挑战来该假设。这类方法可以在训练中达到“插值化”,但在测试中仍然有很好的表现:

 

我们在深度学习中,使用更复杂的模型,一般能取得更好的测试效果。在一些简化问题的模拟实验中,我们可以完整的绘制出关于模型复杂度(参数量)跟训练/测试误差之间的关系:

 

当模型复杂度达到插值化(训练误差几乎为0)之后,测试误差开始下降。这种现象说明,模型的过参数化是有明显好处的, 如果没有计算成本方面的限制,我们总是愿意挑选更为复杂的模型。

 

当然,进一步研究发现,要复现上面的曲线,数据分布上需要满足以下几个条件:

 

 

    1. 数据可大幅降维到比较有限的主维度上

 

    1. 数据的过参数化(Variance)主要体现在非主维度上

 

 

上面的两个条件在人脸识别问题中非常典型:1)虽然人脸是多重多样的,人脸中的眼镜、鼻子和嘴巴的位置是比较固定的,而且形状也比较固定,具有很好的可降维性;2)在人脸识别中需要先进行对齐,也就是最小化这几个主维度上的Variance, 让Variance主要体现在非主维度上。

 

在时序信号预测中我们也可以观察到大量这样的例子,这类方法仅适用于有明显周期特征的时序预测,在实现中通常需要捕捉主要的时间周期特征:

 

上面两个条件,基本上也等价于目前深度学习方法可以解决的主要问题。深度学习的这种复杂性和泛化能力关系,也意味着 简化复杂模型的知识蒸馏方法(teacher student model)是有意义的。

 

参考

 

 

    1. Kohavi, R., & Wolpert, D. H. (1996, July). Bias plus variance decomposition for zero-one loss functions. In ICML (Vol. 96, pp. 275-83).

 

    1. Neal, B., Mittal, S., Baratin, A., Tantia, V., Scicluna, M., Lacoste-Julien, S., & Mitliagkas, I. (2018). A modern take on the bias-variance tradeoff in neural networks. arXiv preprint arXiv:1810.08591.

 

    1. Dar, Y. , Muthukumar, V. , & Baraniuk, R. G. . (2021). A farewell to the bias-variance tradeoff? an overview of the theory of overparameterized machine learning.

 

    1. Taylor, S. J. , & Letham, B. . (2018). Forecasting at scale. The American Statistician, 72.

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。