神经网络似乎遵循一种令人费解的简单策略来对图像进行分类

点击英文原文链接

CNN非常擅长对乱序图像进行分类,但人类并非如此。

在这篇文章中,我将展示为什幺最先进的深度神经网络仍能很好地识别乱码图像,以及这有助于揭示DNN似乎用来对自然图像进行分类的令人费解的简单策略。这些发现 发表在ICLR 2019 ,有许多分歧:首先,它们表明解决ImageNet比许多人想象的要简单得多。其次,这些发现使我们能够构建更具解释性和透明度的图像分类流水线。第三,他们解释了现代CNN中观察到的一些现象,例如他们对纹理的偏见( 参见我们在ICLR 2019的另一篇论文 和我们 相应的博客文章 )以及他们忽略了对象部分的空间排序。

 

好的ol’特色包模型

 

在过去,在深度学习之前,自然图像中的对象识别过去相当简单:定义一组关键视觉特征(“单词”),识别每个视觉特征在图像中的存在频率(“包”)和然后根据这些数字对图像进行分类。因此,这些模型被称为“特征包”模型(BoF模型)。举例来说,我们只有两个视觉特征,一个人眼和一个羽毛,我们想把图像分为“人”和“鸟”类。最简单的BoF模型将如下工作:对于图像中的每只眼睛,它将“人类”的证据增加+1。反之亦然,对于图像中的每个羽毛,它将增加“鸟”的证据+1。无论什幺类积累,图像中的大多数证据都是预测的。

 

这个最简单的BoF模型的一个很好的特性是它的可解释性和透明的决策制定:我们可以准确地检查哪个图像特征携带给定类的证据,证据的空间整合是非常简单的(与深度非线性特征整合相比)深度神经网络)所以很容易理解模型如何做出决定。

 

传统的BoF模型在深度学习开始之前一直非常流行和最先进,但由于其低分类性能而很快就失宠了。但我们是否确定深度神经网络确实使用了与BoF模型截然不同的决策策略?

 

一个深刻但可解释的特征包网络(BagNet)

 

为了测试这一点,我们将BoF模型的可解释性和透明度与DNN的性能结合起来。高级别战略如下:

将图像分割成小的 q x q 图像色块
通过DNN传递补丁以获取每个补丁的类证据(logits)。
对所有补丁的证据求和,以达到图像级决策。

BagNets的分类策略:对于每个补丁,我们使用DNN提取类证据(logits)并总结所有补丁的总类证据。

为了以最简单和最有效的方式实现这一策略,我们采用标准的Res​​Net-50架构,用1×1卷积替换大多数(但不是全部)3×3卷积。在这种情况下,最后一个卷积层中的隐藏单元每个只“看到”图像的一小部分(即它们的感受野远小于图像的大小)。这避免了对图像的显式分区,并且尽可能接近标准CNN,同时仍然实现概述的策略。我们称之为模型结构 BagNet- q ,其中 q 代表最顶层的感受域大小(我们测试 q = 9,17 和33)。BagNet- q 的运行时间大约是ResNet-50的运行时间的2.​​5。

在ImageNet上具有不同贴片尺寸的BagNets的性能。

即使对于非常小的贴片尺寸,BagNet上的BagNets性能也令人印象深刻:尺寸为17 x 17像素的图像特征足以达到AlexNet级别的性能,而尺寸为33 x 33像素的特征足以达到约87%的前5精度。通过更仔细地放置3 x 3卷积和额外的超参数调整,可以实现更高的性能值。

 

这是我们的第一个主要结果:您只需使用一组小图像功能即可解决ImageNet问题。对象形状或对象部分之间的关​​系等远程空间关系可以完全忽略,并且不需要解决任务。

 

BagNets的一大特色是他们透明的决策。例如,我们现在可以查看哪个图像特征对于给定的类最具预测性(见下文)。例如,通常用绿色背景上的手指识别丁字裤(非常大的鱼)。为什幺?因为这个类别中的大多数图像都有一个渔民像奖杯那样举起了一张十字架。每当BagNet错误地将图像分类为tench时,通常是因为图像中某处的绿色背景上有一些手指。

图像功能具有最多的类证据。我们展示了正确预测类(顶行)的功能和预测错误类(底行)的分散注意力的功能。

同样,我们还得到一个精确定义的热图,显示图像的哪些部分有助于某个决定。

来自BagNets的热图显示了确切的图像部分对决策的贡献。热图不是近似的,而是显示每个图像部分的真实贡献。

ResNet-50与BagNets惊人相似

 

BagNets表明,基于本地图像特征和对象类别之间的弱统计相关性,可以在ImageNet上达到高精度。如果这就够了,为什幺像ResNet-50这样的标准深网会学到任何根本不同的东西?如果丰富的本地图像特征足以解决任务,为什幺ResNet-50应该了解复杂的大尺度关系,如对象形状?

 

为了验证现代DNN遵循与简单的特征包网络类似的策略的假设,我们在BagNets的以下“签名”上测试不同的ResNets,DenseNets和VGG:

决策对图像特征的空间改组是不变的(只能在VGG模型上测试)。
不同图像部分的修改应该是独立的(就其对总类证据的影响而言)。
标准CNN和BagNets产生的错误应该类似。
标准CNN和BagNets应对类似功能敏感。

在所有四个实验中,我们发现CNN和BagNets之间的行为非常相似。例如,在上一个实验中,我们展示了BagNets最敏感的那些图像部分(例如,如果你遮挡那些部分)与CNN最敏感的那些基本相同。实际上,BagNets的热图(灵敏度的空间图)比由DeepLift(直接为DenseNet-169计算热图)等归因方法生成的热图更好地预测了DenseNet-169的灵敏度。当然,DNN并不完全类似于特征包模型,但确实显示出一些偏差。特别是,我们发现网络越深入,功能越来越大,远程依赖性也越来越大。

 

超越功能包分类

 

将CNN的决策视为一种特色包策略可以解释有关CNN的几个奇怪的观察。首先,它将解释为什幺CNN具有如此 强烈的纹理偏差 。其次,它可以解释为什幺CNN 对图像部分混乱 如此不敏感。它甚至可以解释一般的对抗性贴纸和对抗性扰动的存在:人们可以在图像中的任何地方放置误导信号,并且无论这些信号是否适合图像的其余部分,CNN仍然可以可靠地接收信号。

 

我们的工作核心是CNN利用自然图像中存在的许多弱统计规律进行分类,并且不会像人类一样跳向图像部分的对象级整合。其他任务和感官方式也是如此。

 

我们必须认真思考如何构建我们的架构,任务和学习方法,以抵消这种弱统计相关性的趋势。一个角度是将CNN的归纳偏差从小的局部特征改善为更全局的特征。另一个角度是删除或替换网络不应该依赖的那些特征,这正是我们在另一个 ICLR 2019出版物中 使用样式转移预处理去除自然对象纹理所做的。

 

然而,最大的问题之一当然是图像分类本身的任务:如果局部图像特征足以解决任务,则没有动力学习自然界的真实“物理学”。我们必须以推动模型学习对象的物理本质的方式重构任务本身。这可能不仅仅是纯粹观察学习输入和输出特征之间的相关性,以便允许模型提取因果依赖性。

 

总之,我们的结果表明CNN可能遵循极其简单的分类策略。事实上,这种发现仍然可以在2019年完成,这突出了我们对深度神经网络的内部运作了解甚少。缺乏理解使我们无法从根本上发展出更好的模型和架​​构来缩小人与机器之间的差距。深化我们的理解将使我们能够找到弥合这一差距的方法。这可能是非常有成效的:当我们试图将CNN偏向物体的更多物理特性时,我们突然达到 类似人类的噪声稳健性 。我期待更多令人兴奋的结果,我们的CNN方式真正了解了我们世界的物理和因果性质。

 

点击英文原文链接

发表评论

电子邮件地址不会被公开。 必填项已用*标注