Press "Enter" to skip to content

你究竟需要多少训练数据?

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

导读

 

对标注数据的收益递减效应进行量化的预测。

 

 

深度学习模型对训练数据的需求是无止境的。获取高质量标注数据的过程需要消耗多种类型的资源 —— 大部分是现金。随着机器学习项目的进展,不断增长的数据量会导致其他不希望看到的结果,比如放慢研发的速度。因此,经验丰富的项目领导者总是关注他们的数据集的额外增量带来的总体性能收益。通常情况下,特别是当新数据与现有数据相对相似时,人们会遇到“收益递减”的现象。

 

收益递减定律指出,当你在一个生产过程中不断地增加投入时,产出的实际增长会逐渐变小。这个现象是由18世纪的经济学家提到的。当处理训练数据量对模型性能的影响时,收益递减定律表明,训练集大小的每一增量对预先确定的成功指标的贡献都较小。

 

当项目负责人能够监控,甚至量化机器学习项目中的收益递减效应时,他们就能够在整个项目生命周期中获得更精细的控制。例如:估计达到项目目标需要多少数据,避免不必要的训练类别,或者甚至预测当前的模型架构是否能够实现目标。这一知识有效地为时间、人力和计算资源的优化管理提供了工具。

 

监控目标检测的收益递减

 

收益递减是否也适用于目标检测任务?我们决定通过在两个代表性数据集的增量上训练检测器来探索这个问题的答案:(1) Common Objects in Context (COCO)和(2)Berkeley Deep Drive (BDD)。每个模型的评估是通过观察相应的验证集来对比的。COCO数据集包含80个目标类别,其中一些是稀缺的。当抽样这个数据集的子集时,罕见的类别严重不足,有些东西甚至根本没有出现。

 

因此,我们只在VOC数据集上出现的20个标签上训练和评估模型。这些类别是COCO中最常见的相对没有错误标签。从COCO训练集中得到的标注图像的类别和样本如图所示。

 

 

来自COCO训练数据集的标注数据

 

 

COCO数据集中带有VOC同样类别的数据的分布情况

 

在BDD数据集上,stuff类别、“drivable area”和“lane”,它们具有非固定的空间范围或形状,被忽略。“rider”类别被映射到“person”类别。BDD训练集的类别分布和标注图像样本见下图2。

 

 

BDD训练数据集上的标注图

 

 

BDD数据集上的类别分布

 

我们使用SSD在两种流行的骨干上:MobileNet-v2和ResNet101,对训练集的样本进行训练。每个数据集的验证集对结果进行评估。为了模拟迁移学习的常见情况,在TensorFlow ‘s detection model zoo中找到的open images dataset (v4)上预先训练了这两个模型。基于mobilenet的模型使用RMSProp进行了20万个训练步骤,batch size大小为12。使用momentum 优化器,对具有ResNet-101骨干的模型进行了30万个batch size为4的训练步骤的训练。

 

下图中,我们可以看到模型达到的mAP的值。

 

 

mAP作为COCO数据集训练数据量的函数。图上的每个点都是验证集评估的mAP,在各自的训练子集上训练一个模型。

 

 

mAP作为BDD数据集训练数据量的函数。图上的每个点都是验证集评估的mAP,在各自的训练子集上训练一个模型。

 

上图显示了mAP的缓慢增长,显示了增加标注数据的收益递减。在这两种模型的数据集上,我们观察到随着数据量的增加,mAP快速增加然后mAP的增速减少。常识表明,收益递减效应出现在大多数数据集和模型中。

 

预测递减效应

 

预测收益递减效应的能力对于任何深度学习经理来说都是一个很有价值的工具。它在项目的整个生命周期中提供了更好的决策,节省了宝贵的资源。一般来说,每个项目的收益递减取决于数据复杂性和模型架构,然而,如上所述,收益递减效应在不同任务之间的作用是相似的。

 

事实上,收益递减模型是普遍存在的。问题在于,普遍存在的收益递减模型是后验的 —— 它们适合观察到的数据,但很难预测收益递减动态的升级。

 

考虑描述收益递减动态的经典模型——渐近回归模型 (ARM):

 

f(x) =a1-a2 * et * a3

 

其中 t 为数据集的容量,ai为可学习的参数。当提供所有的经验数据时,这个渐近模型非常适合收益递减曲线。尽管如此,当预测mAP的演进时,ARM很难预测基于小规模实验得到的mAP的后期实验。当没有给出渐近线时,所学习的模型不能正确地逼近渐近线。显然,这是因为在这个模型中,渐近线是由参数 a1 直接描述的。一般来说,当不知道一个函数的渐近线时,很难预测它的趋势。

 

为了克服这个问题,我们选择了非渐近的对数回归模型:

 

f(x)=x・log(a1) +a2

 

这个函数很好地预测了正在进行的mAP曲线,如下图所示,并被证明是一个相当有用的经验工具。这个模型既近似于渐近模型,又根据一些早期实验预测收益递减动态。尽管如此,执行一个log转换表明,mAP开始时是一个对数函数,随着数据量的扩大,这种增加变成了次对数。因此,对数回归可能是递减收益预测的有效工具,但其准确性有限。有趣的是,之前提到的深度学习项目中数据量的收益递减被描述为对数或次对数。

 

 

mAP是训练数据容量的函数,x轴是对数尺度

 

 

mAP是训练数据容量的函数,x轴是对数尺度

 

对数回归,即f =x·log(log(t)) + a,尽管代表一个渐近模型,但并不是成功的预测。尽管对数回归适合相对较好收益递减经验数据,在只有较少的观察值的时候,帕累托CDF 可能会产生更好的预测。当预测收益递减时,由于获取它们所涉及的成本,可用的经验数据(集量,结果mAP通常是和很少的。这通常会导致预测参数的过拟合。仅包含单个可学习参数的 Pareto CDF 对这种现象的弹性是模型能力范围内的:

 

f(x)=1 — (1/t)x

 

不幸的是,单参数函数除了具有过拟合弹性外,还太过刚性。的确,如表1所述,帕累托CDF不能像对数回归那样提供准确的预测。

 

 

利用对数回归模型和渐近回归模型(ARM),对COCO(图2 A-B)和BDD(图2 C-D)数据集进行mAP预测。GT上的点代表拟合模型已有的mAP/数据集容量

 

 

表1:收益递减动态预测,仅给出数据集5%的各种模型的观察值。

 

总结

 

从上面的实验中可以清楚地看出,收益递减法则适用于任何深度学习项目,并可能对其产生不利影响。然而,它不可避免的存在也可能被用作预测工具。至少,监控其效果提供了一种方法,可以评估项目生命周期的不同阶段(从超参数搜索到模型微调)需要多少数据。最终,很明显,预期的最终模型性能的先验知识可以帮助任何架构搜索工作。预测你的项目收益递减将有助于节省大量的时间和金钱。

 

英文原文: towardsdatascience.com/how-much-da…

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。