Press "Enter" to skip to content

CVPR 2022 | LEWEL UP↑:探索自监督学习中的空间对齐

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

自监督学习,特别是对比学习的核心思想之一是让预训练模型学会对由数据增强生成的不同视图具有不变性。而这一思想反过来为主流的自监督学习方法引入无关的噪声以及空间上的不对齐,限制了其迁移到下游任务的表现。 针对目前存在的问题,商汤科技联合东京大学和悉尼大学,提出了一种动态地进行空间对齐的自监督学习方法,Learning Where to Learn (LEWEL),大幅提升了算法迁移到在图像级预测任务和密集预测任务上的性能。

 

 

论文地址:

 

https://arxiv.org/abs/2203.14898

 

代码&预训练 模型地址:

 

https://github.com/LayneH/LEWEL

 

一、问题背景

 

近年来,自监督学习(特别是对比学习)由于其从海量无标注数据中学习到强大的特征表示而收到越来越多研究者的关注。许多研究证明自监督预训练模型在迁移到下游任务上时具有优异的性能表现。对比学习方法的核心思想在于让深度网络学到对数据增强(如随机裁剪和色彩扰乱等操作)具有不变性的全局特征表达(即全局池化后的特征)。

 

然而,随机裁剪操作实际上是一把双刃剑:一方面,随即裁剪可能是对于对比学习最重要的数据增强操作 [CKN+ 2020];另一方面,它会给训练引入与物体无关的噪声以及增强后的图像之间的空间不对齐。其中,前者会损害学到的特征的判别性,后者会使得特征缺乏空间信息。

 

目前的一些研究 [WZS+ 2021, XLZ+ 2021] 通过引入下游任务的先验知识,虽然在一定程度上缓解了空间不对齐问题、提高了自监督预训练模型迁移到密集预测任务上的性能,但却使得模型在图像级别的预测任务上表现下降。 因此,如何解决上述的两个问题并同时地提升自监督预训练模型在图像级别预测和密集预测等任务上的性能仍亟待解决。

 

二、方法介绍

 

1. 泛化空间聚合

 

我们首先将之前自监督学习方法中的空间聚合操作统一的形式化为以下形式:

 

 

其中, 是骨干网络提取具有空间维度的特征; W′ 是一个对齐矩阵, 是对齐后的特征。不难看到,通常对比学习方法里采用的全局平均池化(GAP)是上式的一个特例,即 。进一步地,公式(1)指出,我们可以使用不同的 W′ 来操控空间对齐的过程。

 

2. 重新解释以及复用全局映射头

 

在实际情况下,由于没有任何监督信号,直接去预测对齐矩阵 W′ 是非常困难的事情。针对这一点,本文提出重新解释以及服用全局映射头来预测对齐矩阵 W′ 。如下图 a 所示,我们可以将自监督学习中的映射头当作一个‘分类器’,此时其输出的每一维的标量可以看作该分类器对于图像上是否存在某一特定的‘语义’的响应。这里,‘语义’的定义很宽泛,可以代表物体、模式或者任何被模型所编码的东西。

 

在这样的视角之下,我们受到语义分割的经典范式的启发,将这一全局映射头复用为一个逐像素的预测器,预测每一个像素对于每一个语义的响应,如下图 b 所示。这一重解释策略将学习全局特征和预测对齐矩阵 W′ 耦合在一起,让模型能够同时关注于全局特征以及空间对齐后的特征。

 

 

3. 通道分组

 

由于全局映射头预测的语义数量可能比较多,我们设计了一个通道分组策略,使用多个对齐矩阵来生成一个对齐特征。该操作流程图如下:

 

 

这一分组策略让我们可以显式地控制对齐特征的数量并让每一个对齐特征包含更多语义信息。

 

4. 目标函数

 

我们使用全局特征的损失 和对齐特征的损失 之和作为最终的目标函数:

 

具体的损失函数可以是 InfoNCE、均方误差(MSE)或者其他任何损失函数。这里,我们将使用 InfoNCE 的变体命名为 ,将使用 MSE 的变体命名为 。

 

5. 算法流程

 

前面三小节所述内容可归纳为下图所示:

 

 

三、实验结果

 

1. 线性分类

 

我们首先固定住与训练模型的权重,然后在其上使用 ImageNet 的标注数据训练一个线性分类器来评估预训练模型的性能。下表显示了 LEWEL 与之前方法的比较。可以看到,LEWEL 在不同的训练长度下都明显地超越了之前的自监督学习方法。

 

 

2. 半监督分类

 

我们接着在 ImageNet 半监督分类任务上验证 LEWEL 的有效性。如下表所示,LEWEL 在所有设置下展现了优于其他方法的性能。此外,我们发现使用 400 个训练时期的 LEWEL 甚至表现得比其他使用 2 倍或者更多训练时期的方法更好。这一试验进一步验证了 LEWEL 可以持续地、大幅地提升与训练模型迁移到图像级别预测任务上的性能。

 

 

3. 目标检测与实例分割

 

我们在常用的 Pascal VOC 目标检测、语义分割数据集和 MS-COCO 目标检测、实例分割数据集上进行了进一步试验。结果如下所示。可以看到,LEWEL 相比于基于全局特征学习的 MoCo[HFW+ 2020]、BYOL[GSA+ 2020] 等方法在 4 个不同的密集预测任务上都有着巨大的提升。相比较于之前使用手工设计对齐策略的方法,LEWEL 也取得了更好的结果。这些实验验证了 LEWEL 可以在提升图像级别预测任务的性能的同时提升预训练模型迁移到密集预测任务上的性能。

 

 

 

4. 与手工设计对齐策略的方法的比较

 

我们进一步在图像级别预测任务和密集预测任务上与手工设计对齐策略的方法的进行详细的比较。如下表所示,LEWEL 在取得更好的密集预测性能的同时,在图像级别预测任务上大大优于这些方法(例如,LEWEL 在 ImageNet 线性分类的 Top1 准确率比 PixPro 的准确率要高 13.6%)。这也说明了 LEWEL 使用的动态预测对齐矩阵的有效性。

 

 

5. 消融实验

 

5.1 不同模块的作用

 

通过下表,我们可以看出动态地预测对齐矩阵以及复用全局映射头对于 LEWEL 的作用都很大。而二者的结合效果最好。

 

 

5.2 对齐特征的数量的影响

 

对齐特征的数量由全局映射头的输出维度 (d) 以及分组的数量 (h) 决定。如下表所示,不同任务对于对齐特征的数量有不同的倾向性。而 h=4 则在所有设置下表现出色。出于简洁性的考虑,我们在实验中模型使用 h=4,d=256。

 

 

四、总结

 

在这项工作中,我们提出了 一种新自监督学习方法,Learning Where to Learn (LEWEL) 。与现有的自监督学习方法基于固定的对齐策略在全局或者固定的局部区域进行学习不同,LEWEL 将自监督学习中的全局映射头重解释成逐像素的预测器来动态地预测对齐矩阵,进而动态地在空间维度进行特征聚合、对齐。正是由于这种动态对齐和重解释的方案,我们观察到 LEWEL 在包括线性/半监督分类等图像级别预测任务以及目标检测和实例分割等密集预测任务上大幅地超越了之前的方法 。

 

References

 

[1] [CKN+ 2020] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In International Conference on Machine Learning, 2020.

 

[2] [WZS+ 2021] Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, and Lei Li. Dense contrastive learning for self-supervised visual pre-training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3024–3033, 2021.

 

[3] [XLZ+ 2021] Zhenda Xie, Yutong Lin, Zheng Zhang, Yue Cao, Stephen Lin, and Han Hu. Propagate yourself: Exploring pixel-level consistency for unsupervised visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16684–16693, 2021.

 

[4] [GSA+ 2020] Jean-Bastien Grill, Florian Strub, Florent Altch´e, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, et al. Bootstrap your own latent: A new approach to self-supervised learning. Advances in Neural Information Processing Systems, 33, 2020.

 

[5] [HFW+ 2020] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In IEEE Conference on Computer Vision and Pattern Recognition, pages 9729–9738, 2020.

 

本文来自:公众号【商汤学术】

 

作者:黄浪

 

Illustration  b y Pablo from icon s8

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。