Press "Enter" to skip to content

实现快速准确的图像识别神经网络

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

随着神经网络模型和训练数据规模的增长,训练效率正成为深度学习的一个重要关注点。例如,GPT-3在小样本学习方面表现出非凡的能力,但它需要使用数千个 GPU 进行数周的训练,因此很难重新训练或改进。相反,如果人们可以设计出更小、更快、但更准确的神经网络会怎样?

 

在这篇文章中,我们介绍了两个利用神经架构搜索的图像识别模型系列,以及基于模型容量和泛化的原则性设计方法。第一个是EfficientNetV2(被ICML 2021接受),它由卷积神经网络组成,旨在为相对小规模的数据集提供快速的训练速度,例如ImageNet1k(有 128 万张图像)。第二个家族是CoAtNet,它们是结合了卷积和自注意力的混合模型,目标是在大规模数据集上实现更高的准确性,例如ImageNet21(拥有 1300 万张图像)和JFT(拥有数十亿张图像)。与之前的结果相比,我们的模型速度提高了 4-10 倍,同时在完善的ImageNet数据集上实现了最新的 90.88% top-1 准确率。我们还在Google AutoML github上发布源代码和预训练模型。

 

EfficientNetV2:更小的模型和更快的训练

 

EfficientNetV2 基于之前的EfficientNet架构。为了改进原始版本,我们系统地研究了现代 TPU/GPU 上的训练速度瓶颈,并发现:(1) 使用非常大的图像尺寸进行训练会导致更高的内存使用率,因此在 TPU/GPU 上通常会更慢;(2) 广泛使用的深度卷积在 TPU/GPU 上效率低下,因为它们的硬件利用率低;(3) 常用的统一复合缩放方法,即对卷积网络的每个阶段均等地缩放,是次优的。为了解决这些问题,我们提出了一种训练感知神经架构搜索 (NAS),其中训练速度包含在优化目标中,以及一种以非均匀方式缩放不同阶段的缩放方法。

 

训练感知 NAS 基于之前的平台感知 NAS,但与原始方法主要关注推理速度不同,这里我们共同优化模型精度、模型大小和训练速度。我们还扩展了原始搜索空间以包含更多加速器友好的操作,例如FusedMBConv,并通过删除不必要的操作来简化搜索空间,例如平均池化和最大池化NAS 从不选择这些操作。由此产生的 EfficientNetV2 网络在所有以前的模型上都实现了更高的准确性,同时速度更快,体积缩小了 6.8 倍。

 

为了进一步加快训练过程,我们还提出了一种增强的渐进学习方法,在训练过程中逐渐改变图像大小和正则化幅度。渐进式训练已用于图像分类、GAN和语言模型。这种方法侧重于图像分类,但与以前的方法通常以准确性为代价来提高训练速度不同,这种方法可以稍微提高准确性,同时还可以显着减少训练时间。我们改进方法的关键思想是自适应地改变正则化强度,例如丢弃率或数据增强大小,根据图像大小。对于同一个网络,较小的图像尺寸导致网络容量较低,因此需要弱正则化;反之亦然,大图像尺寸需要更强的正则化来对抗过拟合。

 

 

我们在ImageNet和一些迁移学习数据集上评估 EfficientNetV2 模型,例如CIFAR-10/100、Flowers和Cars。在 ImageNet 上,EfficientNetV2 显着优于以前的模型,训练速度提高了约 5-11 倍,模型尺寸缩小了 6.8 倍,准确率没有任何下降。

 

 

CoAtNet:快速准确的大规模图像识别模型

 

虽然 EfficientNetV2 仍然是典型的卷积神经网络,但最近对Vision Transformer (ViT) 的研究表明,基于注意力的 Transformer 模型在大规模数据集上的表现优于卷积神经网络像JFT-300M。受这一观察的启发,我们进一步将我们的研究扩展到卷积神经网络之外,目的是找到更快、更准确的视觉模型。

 

在“ CoAtNet: Marrying Convolution and Attention for All Data Sizes ”中,我们系统地研究了如何结合卷积和自注意力来开发快速准确的神经网络,用于大规模图像识别。我们的工作基于一个观察,即卷积由于其归纳偏差通常具有更好的泛化能力(即训练和评估之间的性能差距),而自注意力往往具有更大的能力(即适应大规模训练的能力)数据)由于其全球接受域。通过结合卷积和自注意力,我们的混合模型可以实现更好的泛化和更大的容量。

 

 

我们从我们的研究中观察到两个关键见解:(1)深度卷积和自注意力可以通过简单的相对注意力自然地统一起来,(2)垂直堆叠卷积层和注意力层的方式考虑它们的容量和计算所需的每个stage(分辨率)在提高泛化、容量和效率方面出奇地有效。基于这些见解,我们开发了一系列具有卷积和注意力的混合模型,命名为 CoAtNets(发音为“coat”nets)。下图展示了整体的 CoAtNet 网络架构:

 

 

CoAtNet 模型在许多数据集(例如 ImageNet1K、ImageNet21K 和 JFT)中始终优于 ViT 模型及其变体。与卷积网络相比,CoAtNet 在小规模数据集 (ImageNet1K) 上表现出相当的性能,并且随着数据大小的增加(例如在 ImageNet21K 和 JFT 上)获得了可观的收益。

 

 

我们还在大规模JFT数据集上评估了 CoAtNets 。为了达到类似的准确度目标,CoAtNet 的训练速度比之前的 ViT 模型快 4 倍,更重要的是,在 ImageNet 上实现了 90.88% 的新的最先进的 top-1 准确度。

 

 

结论和未来工作

 

在这篇文章中,我们介绍了两个神经网络系列,名为 EfficientNetV2 和 CoAtNet,它们在图像识别方面实现了最先进的性能。所有 EfficientNetV2 模型都是开源的,预训练模型也可在 TFhub 上获得。CoAtNet 模型也将很快开源。我们希望这些新的神经网络能够使研究界和行业受益。未来我们计划进一步优化这些模型并将它们应用于新任务,例如零样本学习和自监督学习,这通常需要具有高容量的快速模型。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。