Press "Enter" to skip to content

CV领域,Transformer在未来有可能替代CNN吗?

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

Transformer在CV领域得到广泛关注,从Vision Transformer到层出不穷的变种,不断地刷新了各项任务地榜单。 在CV领域的应用,Transformer在未来有可能替代CNN吗?

 

在这个大火的阶段,确实值得我们反思一下,self-attention和CNN结构相比,到底有什幺联系与区别,两者在相同配置下有什幺样的差距?

 

尤其近期一些工作在Transformer结构中引入locality特性来进一步提升性能。

 

我们来自南开,北大,MSRA的团队试图回答这个问题,探究Transformer (尤其是local vision transformer)与CNN (depth-wise 卷积)之间的区别与联系:

 

相关论文: Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

 

论文地址: https://arxiv.org/abs/2106.04263

 

 

为了回答这个问题,我们从稀疏链接,,以及动态权重三个方面对Local ViT进行了分析,同时与热门的MLP方法,depth-wise卷积方法,以及广泛应用的CNN进行了对比与分析。

 

实验结果表明在网络结构设计中,稀疏性能够很好的帮助网络优化,同时减少计算量与参数量,而直接以Swin Transformer为baseline,把局部attention模块换成局部depth-wise卷积模块,能够保持性能不变,同时计算量和参数量更少,在ImageNet, COCO, ADE20K上表现相当。

 

而实际上这些发现,正指引着我们用不同的正则化方式 (稀疏连接,权重共享)设计网络,值得对下一步的网络结构设计进行深思。

 

近些年来所提出的各种基于CNN的模型,和基于MLP, Transformer的模型,其设计准则及关联,可以总结为下图所示:

 

 

从全连接形式的MLP出发,最新的一些MLP工作将channel和spatial维度分离,做了空间或通道上的稀疏连接,如MLP Mixer, ResMLP等,再此基础上,Vision Transformer (ViT)将连接的权重动态化。

 

进一步,为了引入局部性的人工先验,Local ViT将全局的attention变成局部操作,如Swin, HolaNet等,与此同时,PVT利用金字塔结构同样引入了多尺度级联结构。

 

随着这些稀疏性质与多尺度等低秩正则化的不断引入,网络变得更容易优化,且能够得到较好的性能。

 

同样,depth-wise卷积在稀疏链接上也具有相同的性质,在关系图种表现为普通卷积在通道上的稀疏,或分离MLP在空间上的稀疏。

 

这种结构与Local ViT体现相同,为了公平对比,我们在Swin Transformer中,保持完全相同的训练策略和结构,将local attention替换为depth-wise卷积进行对比,发现两者表现相当。这说明Local ViT的有效性来自于这种稀疏连接的正则化网络设计。

 

进一步对比两者,其在权重共享上是有差异的,depth-wise卷积在空间位置上共享权重,而Local ViT在不同channel之间共享权重,在论文中,我们分析了两种权重共享的不同方式,发现这两种共享方式均能够有效的减少参数量,同时表现相当。

 

而在权重形式上,depth-wise卷积利用静态的网络参数进行信息提取,而local ViT利用特征相似度动态生成权重。为了进一步对比两者差异,我们构建了动态的depth-wise卷积,发现其在小模型上能够表现优于local ViT。

 

以上对比说明,Local ViT的有效性, 实际上是使用了稀疏的连接关系,权重共享,以及动态地生成自适应权重 ,这种方式同样有益于卷积神经网络,而 不是一种替代关系 。

 

ViT实际上是和CNN开辟了两条不同的道路 ,使用着不同的稀疏性和共享关系,而现有的很多工作也在尝试将两者结合到一起,能够探究ViT的工作原理,揭开其神秘面纱,将这种优质的特性带入卷积网络中,同样也能设计出表现很好的网络结构,值得我们进一步深思。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注