Press "Enter" to skip to content

不使用标签数据! 自动搜索Transformer混合结构,同速度超过EfficientNet 2.1%!

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

来自蒙纳士大学、中山大学和暗物智能研究院等研究机构的研究人员提出了一种 分块自监督神经网络结构搜索方法  (Bl ock-wisely Self-supervised Neural Architecture Search, BossNAS ) 来探索 CNN-Transformer混合网络 (H ybrid CNN-transformers)。

 

BossNAS成功解决了以往神经网络结构搜索 (NAS) 算法中庞大权重共享空间造成的评价不准问题以及有监督分块NAS中结构偏见的问题 ,在所提出的HyTra搜索空间中,它自动搜索出的CNN-Transformer混合网络,在ImageNet达到了 82.2% 的精度,在相同计算时间 (compute time) 下,超越了ViT,DeiT,BoTNet,T2T,TnT等人工设计的Transformer和混合Transformer,同时 以2.1%的优势超越了自动搜索的网络EfficientNet。

 

 

论文链接:

 

https://arxiv.org/abs/2103.12424

 

代码:

 

https://github.com/changlin31/BossNAS

 

一、分块自监督NAS方法

 

1. NAS的困境以及分块解决方法

 

 

虽然经典的基于采样重训练的NAS方法可以准确的评价网络结构,但它们的搜索成本非常高昂。One-shot NAS方法中的权重共享极大地降低了搜索成本,但网络结构评价精度较低 (上图 a) 。

 

分块NAS (block-wise NAS) 方法在One-shot NAS方法的基础上,将 搜索空间在深度上分块 ,成功的 降低了权重共享导致的结构评价偏差 。但分块NAS方法引入教师结构作为中间层监督,不可避免的产生了 结构偏好 ,导致其在使用不同教师结构或应用于多样搜索空间时会产生 不公平的候选网络结构评价 (上 图b) 。为解决上述问题,本文舍弃教师结构,提出一种 无监督NAS方法 ,BossNAS (上图 c) 。

 

2. 循环集成自监督 (ensemble bootstrapping) 训练

 

 

首先,作者提出 以超网络 (supernet) 本身替换原本的分块NAS方法中的教师网络 ,由此构造出 孪生超网络  (Siamese supernets) 。之前的双生网络训练使用对比学习以及bootstrapping方法。

 

本文中,作者为保证权重共享supernet中各路径的训练公平性和一致性,提出一种 ensemble bootstrapping训练方法 ,通过生成共同的目标来优化孪生超网络中权重共享的各个路径:

 

1. 取一个训练样本,并产生此样本多个不同的随机数据增强视角 (augmented  view);

 

2. 训练时,在线超网络 (Online supernet) 中每一条采样路径都通过此训练样本的一个视角来预测教师超网络中此训练样本的其他视角经过多条采样路径的概率集成 (probability ensemble) (见上图) ;

 

3. 使用在线超网络权重当前的滑动平均 (EMA) 值作为孪生超网络中教师超网络的权重;

 

迭代1,2,3步骤,以ensemble bootstrapping不断更新孪生超网络,完成训练。整个训练过程不使用标签数据。

 

在消融实验中, 作者证明此无监督训练方法优于单纯的bootstrapping以及有监督的标签训练和蒸馏训练 。

 

3. 以种群中心为目标的无监督评价和搜索

 

之前的自监督训练方法使用有监督方法来评价 (evaluate) 训练的模型,如linear evaluation、 classification等。而 构建无监督NAS方法需要避免使用这种依赖标签的有监督评价指标 。 本文的训练过程中使用的损失函数 不能 作为公平的评价指标,由于其中数据增强视角 (augmented view) 以及作为目标的采样路径都具有随机性。

 

为此, 作者提出一种公平且有效的无监督评价指标用于结构搜索 。首先,每个样本都产生一对固定的数据增强视角 (augmented view) 用于评价。其次,以进化算法为例,种群中所有的结构都做为目标结构来产生不具有随机性的概率集成 (probability ensemble) 作为评价的目标。在实际使用时,由于分块,每一块的总搜索空间大小适中,使得遍历评价的成本可以承受,种群可扩展为一个分块的整个搜索空间,使得搜索过程可在一代进化中完成。

 

在消融实验中, 作者证明此无监督评价方法优于有监督的linear evaluation。

 

 

与行业领先企业创新官探讨应用场景的机会来咯

 

点击上图了解详情, 4月5日截止报名 ,赶快上车啦!

 

二、CNN-Transformer混合搜索空间

 

 

 

作者提出了一个纺织状 (fabric-like) 的CNN-Transformer混合搜索空间,HyTra。

 

1. 候选算子 (building blocks)

 

首先,作者采用ResNet中的residual bottleneck 为 卷积候选building b lock,ResConv 。其次,作者为了降低 transformer候选building block ,ResAtt 的计算复杂度,使用一种 类似CPVT中隐式位置编码的模块 来替换BoTNet building block中的相对位置编码分支。 隐式位置编码模块也被加到ResConv中 ,同时负责下采样,使得纺织状空间中不同尺度的输入得以权重共享 (见上图右侧) 。

 

2. 纺织状 (Fabric-like) 空间

 

除基础模块外,CNN和Transformer在宏观网络结构上也有很大不同,CNN一般使用不同尺度的多个阶段来处理图片数据,而典型的Transformer自始至终不改变数据的空间维度大小(序列长度)。为涵盖CNN和Transformer, 作者提出了纺织状宏观结构的搜索空间 ,具有灵活、可搜索的下采样位置(见上图左侧)。此搜索空间涵盖了类似于ResNet,BoTNet,ViT,DeiT,T2T-ViT等模型的候选结构。

 

三、

 

1. HyTra搜索空间

 

 

在作者提出的HyTra搜索空间中,BossNAS搜索出的 BossNet-T模型在ImageNet达到了最高82.2%的精度 ,在相近的计算时间 (compute steptime) 下, 优于现有的手工设计或自动搜索的模型 ,如SENet,EfficientNet,DeiT,BoTNet,T2T-ViT等等;同时 优于搜索空间中的其他手动或随机选择的模型 (以深蓝色标出) ;也 优于其他NAS方 法 (DNA,UnNAS) 在此搜索空间中搜出的模型。

 

2. MBConv搜索空间和NATS-Bench size搜索空间

 

 

在 MBConv搜索空间 中,搜索出的模型BossNet-M, 超越 了其他NAS方法搜索的模型 (Table2) 。在 模型排序相关性指标 上,BossNAS达到了0.78 Spearman rho, 超过了 包括MnasNet和DNA的其他NAS方法 (Table 3和右上图) 。

 

在 NATS-Bench size搜索空间和CIFAR数据集 上,搜索出的模型 超越 了FBNetv2,TuNAS,CE等NAS方法 (Table 4) 。在 模型排序相关性指标 上,BossNAS达到了 0.76 Spearman rho, 超过了 predictorbased NAS方法CE (Table 4和Figure 8) 。

 

3. 收敛表现

 

 

最后,作者还展示了 自监督训练过程中模型评分的相关性变化 ,如上图, BossNAS的评分的相关性在多个搜索空间和数据集都随训练过程逐渐上升并趋于稳定 (左:NATS-Benchsize搜索空间和CIFAR数据集,右:MBConv搜索空间和ImageNet数据集)。

 

消融实验和更多细节请参照文章。

 

Illustrastion by Oleg Shcherba from Icons8

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注