Press "Enter" to skip to content

了解受控噪声标签的深度学习

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

深度神经网络的成功取决于对高质量标记训练数据的访问,因为训练数据中标签错误(标签噪声)的存在会大大降低模型在干净测试数据上的准确性。不幸的是,大型训练数据集几乎总是包含标签不准确或不正确的示例。这导致了一个悖论:一方面,需要大数据集来训练更好的深度网络,而另一方面,深度网络往往会记住训练标签噪声,导致模型在实践中的性能较差。

 

研究界已经认识到这个问题的重要性,引入了试图理解嘈杂训练标签的工作,例如,Arpit 等人。,以及缓解策略,例如MentorNet或共同教学,以克服它们。通过研究噪声水平(数据集中带有错误标签的示例的百分比)对模型性能的影响,受控实验在理解噪声标签方面发挥着至关重要的作用。然而,目前的实验只在合成标签上进行,其中嘈杂的例子随机分配了标签,而不是真实世界标签噪声,它遵循不同的噪声分布。与实际经验相比,此类研究可能会导致关于嘈杂标签的非常不同甚至矛盾的发现。此外,在合成噪声上表现良好的方法在现实世界的噪声标签上可能效果不佳。

 

在ICML 2020发表的“ Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels ”中,我们为更好地理解非合成噪声标签的深度学习做出了三项贡献。首先,我们建立了第一个受控数据集和来自网络的真实真实标签噪声(即网络标签噪声)的基准。其次,我们提出了一种简单但高效的方法来克服合成和现实世界的噪声标签。最后,我们进行了迄今为止最大规模的研究,比较了各种设置中的合成噪声和网络标签噪声。

 

合成与真实世界 (Web) 标签噪声的特性

 

具有合成标签噪声与真实世界(网络)标签噪声的图像分布之间存在许多差异。首先,带有网络标签噪声的图像在视觉或语义上往往与真正的正面图像更加一致。其次,合成标签噪声是在类级别(同一类中的所有示例都同样嘈杂),而现实世界的标签噪声是在实例级别(某些图像比其他图像更容易被错误标记,无论关联的类如何)。例如,“Honda Civic”和“Honda Accord”的图像从侧面拍摄时比从正面拍摄时更容易混淆。第三,具有真实标签噪声的图像来自一个开放类词汇表,该词汇表可能与特定数据集的类词汇表不重叠。例如,“ladybug”的网络噪声图像包括诸如“fly”之类的类以及未包含在所使用数据集的类列表中的其他错误。受控标签噪声的基准将有助于更好地定量理解合成和真实网络标签噪声之间的差异。

 

来自 Web

 

的受控标签噪声基准 本工作中的基准建立在两个公共数据集上:用于粗粒度图像分类的Mini-ImageNet和用于细粒度图像分类的斯坦福汽车。我们遵循构建合成数据集的标准方法,逐渐用从网络收集的错误标记的图像替换这些数据集中的干净图像。

 

为此,我们使用类名(例如“ladybug”)作为关键字从网络上收集图像——这是一种无需手动注释即可从网络上收集嘈杂标记图像的自动方法。然后由 3-5 名使用Google Cloud Labeling Service 的注释者检查每个检索到的图像,这些注释者识别给定的网络标签是否正确,产生近 213k 个带注释的图像。我们使用这些带有错误标签的网络图像来替换原始 Mini-ImageNet 和 Stanford Cars 数据集中的一部分干净的训练图像。我们创建了 10 个不同的数据集,它们的标签噪声水平越来越高(从 0% 的干净数据到 80% 带有错误标签的数据)。这些数据集已在我们的Controlled Noisy Web Labels 网站上开源。

 

 

MentorMix:一种简单的鲁棒学习方法

 

给定一些未知噪声水平的数据集,我们的目标是训练一个鲁棒模型,该模型可以在干净的测试数据上很好地泛化。我们介绍了一种简单而有效的方法来处理合成和现实世界的噪声标签,称为 MentorMix,我们在受控噪声 Web 标签数据集上开发了该方法。

 

MentorMix 是一种基于两种现有技术MentorNet和Mixup的迭代方法,包括四个步骤:权重、样本、混合和再次权重。在第一步中,MentorNet 网络为小批量中的每个示例计算权重,该网络可以根据手头的任务进行定制,并将权重归一化为分布。在实践中,目标是为正确标记的示例分配高权重,为错误标记的示例分配零权重。实际上,我们不知道哪些是正确的,哪些是不正确的,因此 MentorNet 权重基于近似值。在这里的示例中,MentorNet 使用 StudentNet 训练损失来确定分布中的权重。

 

接下来,对于每个示例,我们使用重要性抽样根据分布选择同一小批量中的另一个示例。由于权重较高的示例往往具有正确的标签,因此它们在采样过程中受到青睐。然后我们使用 Mixup 来混合原始示例和采样示例,以便模型在两者之间进行插值并避免过度拟合嘈杂的训练示例。最后,我们可以为混合示例计算另一个权重以缩放最终损失。对于高噪声水平,第二个加权策略的影响变得更加明显。

 

从概念上讲,上述步骤实现了新的鲁棒损失,结果证明它对嘈杂的训练标签更具弹性。关于这个话题的更多讨论可以在我们的论文中找到。下面的动画说明了 MentorMix 中的四个关键步骤,其中 StudentNet 是要在嘈杂的标记数据上训练的模型。我们采用了一个非常简单的 MentorNet 版本,如Jiang 等人所述。,计算每个示例的权重。

 

 

评估

 

我们在五个数据集上评估 MentorMix,包括带有合成标签噪声的CIFAR 10/100和WebVision 1.0,一个包含 220 万张带有真实世界噪声标签的图像的大型数据集。MentorMix 始终在 CIFAR 10 ⁄ 100 数据集上产生改进的结果,并在 WebVision 数据集上获得最佳发布结果,就ImageNet ILSVRC12验证集的 top-1 分类精度而言,将之前的最佳方法提高了约 3% 。

 

 

来自网络的噪声标签的新发现

 

这项工作代表了迄今为止最大的研究,以了解在噪声标签上训练的深度神经网络。我们提出了三个关于网络标签噪声的新发现:

 

深度神经网络在网络标签噪声上的泛化能力要好得多

 

虽然众所周知,深度神经网络在合成标签噪声上的泛化能力很差,但我们的结果表明,深度神经网络在网络标签噪声上的泛化能力要好得多。例如,使用 60% 网络标签噪声级别在斯坦福汽车数据集上训练的网络的分类准确度为 0.66,远高于在相同 60% 合成噪声级别下训练的同一网络的分类准确率,后者仅达到 0.09。这种模式在我们使用微调和从头开始训练的两个数据集上是一致的。

 

在接受网络标签噪声训练时,深度神经网络可能不会首先学习模式

 

我们的共同理解是,深度神经网络首先学习模式——这是一个有趣的特性,其中 DNN 能够在早期训练阶段自动捕获可泛化的“模式”,然后再记住嘈杂的训练标签。因此,提前停止通常用于训练噪声数据。然而,我们的结果表明,在使用具有网络标签噪声的数据集进行训练时,深度神经网络可能不会首先学习模式,至少对于细粒度分类任务而言,这表明早期停止可能对来自网络的真实世界标签噪声无效。

 

当网络被微调时,ImageNet 架构在嘈杂的训练标签上泛化

 

科恩布里斯等人。(2019)发现在 ImageNet 上训练的更高级架构的微调往往在具有干净训练标签的下游任务上表现更好。我们的结果将这一发现扩展到嘈杂的训练数据,表明在 ImageNet 上进行预训练时表现出更好性能的更好的预训练架构可能会表现得更好,即使它在嘈杂的训练标签上进行了微调。

 

总结

 

根据我们的发现,我们有以下实用建议,用于在噪声数据上训练深度神经网络。

 

1.处理嘈杂标签的一种简单方法是微调在干净的数据集(如 ImageNet)上预训练的模型。预训练模型越好,它在下游嘈杂的训练任务上的泛化能力就越好。

 

2.提前停止可能对来自网络的真实标签噪声无效。

 

3.在合成噪声上表现良好的方法在来自网络的真实世界噪声标签上可能效果不佳。

 

4.来自网络的标签噪声似乎危害较小,但我们目前的稳健学习方法更难以解决。这鼓励对受控的现实世界标签噪声进行更多的未来研究。

 

5.提议的 MentorMix 可以更好地克服合成和现实世界的嘈杂标签。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注