Press "Enter" to skip to content

模型压缩 | 无需”精雕细琢”,”随机剪枝”足矣!(ICLR 2022)

本文是由 京东探索研究院联合荷兰埃因霍温理工大学和德州大学奥斯汀分校 完成,探索了随机化剪枝在稀疏训练中不可思议的表现。我们注意到,每当有新的剪枝方法提出来的时候,随机剪枝就会默认的被视为表现最差的方法,其所取得的精度理所当然的会被任何先进的剪枝算法超过。果真如此吗?

 

在本文中,我们发现了一个有悖常理的现象:不依赖任何先进的剪枝技术,不需要特殊设计的模型结构和任何预训练,从头训练一个完全随机剪枝的稀疏网络,也可以出人意料的达到和稠密网络一样的精度。

 

 

01

 

摘要

 

随机剪枝可以说是在神经网络中获得稀疏性的最简单的方法。但无论是训练后剪枝还是训练前剪枝都被认为是最没有竞争力的。在本文中,我们想告诉大家一个可能违反直觉的发现,即训练前的随机剪枝可以取得很不可思议的表现。在没有任何精细的剪枝标准或精雕细琢的稀疏结构的情况下,我们凭经验证明,从头开始稀疏训练一个随机剪枝的网络可以匹配相同模型结构的稠密网络的性能。有两个关键因素促成了这种现象:

 

i) 网络规模很重要:随着网络变得越来越宽和越来越深,一个随机剪枝的稀疏网络的性能将迅速提高到与其等效的稠密网络的水平。在高稀疏率情况下这种现象依然存在;

 

ii) 为稀疏训练预先选择适当的层间稀疏率。

 

实验发现,同时满足这两个条件下,随机修剪得到的稀疏Wide ResNet-50可以取得和稠密Wide ResNet-50一样的在ImageNet数据集上的分类精度。

 

我们还观察到,这种随机修剪的网络在某些方面甚至优于原先的稠密网络,例如OoD detection(分布外检测)、不确定性预测和对抗鲁棒性。简而言之,本文用大量的实验结果说明了大规模稀疏训练的潜力可能比预期的要大得多,并且稀疏训练不仅使得模型更高效,还有其他附赠的好处。

 

02

 

研究方法

 

稀疏训练 [1] 和稠密训练的最大的不同点是所训练的网络从头到尾都是稀疏的,并且不借助任何预训练和迁移学习的帮助。一般认为,即使利用先进的剪枝技术挑选的稀疏网络也会经常是欠参数化的,会导致模型很难充分模拟一个数据集。本文却发现只要满足了两个条件即使是随机剪枝的稀疏网络也可以取得和稠密网络一样的精度。这两个条件分别是:

 

(1)模型的大小:我们通过在在CIFAR-10和ImageNet上的实验,对比了不同深度和宽度的ResNet和VGG的表现。

 

(2)层间稀疏度:我们预先选好了层间稀疏度,然后对每一层中稀疏链接进行随机采样。我们分别测试了六种层间稀疏度计算方法。包括了ER [2],ERK [3],uniform [4],uniform+ [5],SNIP ratio [6],GraSP ratio [7]。uniform和uniform+层间稀疏度均匀的给让每一层稀疏度相等。ER和ERK给宽层分配大的稀疏度,窄的层分配小的稀疏度。SNIP ratio和GraSP ratio是我们从训练前剪枝借用的两种层间稀疏度,即采用和SNIP,GraSP学到的层间稀疏度,但是层与层之间的连接是随机选择的。

 

03

 

实验结果

 

我们全面的分析了随机剪枝的网络在分类精度、分布检测、不确定性预测和对抗鲁棒性上的表现,我们的实验结果总结如下:

 

CIFAR-10

 

1.随机剪枝的性能随着网络的增大而提高。我们改变了 ResNet 的深度和宽度,并在图 1 和图2中报告了其在CIFAR上的测试精度。在小型网络上运行时,例如,ResNet-20 和 ResNet-32,即使在轻度稀疏(10%、20%)的情况下,我们也很难找到匹配的子网络。对于更大的网络,例如 ResNet-56 和 ResNet-110,随机剪枝可以在 60% ∼ 70% 稀疏度下达到稠密网络的性能。当我们增加宽度时也可以观察到类似的现象。

 

2.随着模型增大,不同剪枝方法之间的性能差异变得不明显。均匀稀疏度无法与非均匀稀疏度(ERK 和 SNIP)在小型模型中实现的准确度相匹配。但在大模型ResNet-110 和 ResNet-20-56上,均匀稀疏度的测试精度也会提高到和精心挑选的稀疏度(SNIP和GraSP)一样的水平 。

 

3.在不使用任何信息(例如梯度和幅度)的情况下,训练一个随机剪枝的具有 ERK 稀疏度的子网络甚至比精心设计的稀疏比率,即 SNIP 和 GraSP更好。

 

 

图1 模型从浅到深的测试精度

 

 

图2 模型从窄到宽的测试精度

 

ImageNet

 

接下来,我们在非饱和数据ImageNet上进行了测试。对应的模型大小包括ResNet-18,ResNet-34,ResNet-50,ResNet-101,  Wide ResNet-50。总的来说,我们观察到一个与之前CIFAR 数据集上非常相似的结论。在小模型ResNet-18和 ResNet-34上,随机剪枝难以找到和稠密网络一样的子网络。当模型变得相当大的时候(ResNet-101 和 Wide ResNet-50),随机剪枝的网络用 50% 参数取得和稠密网络一样的精度。

 

如图 3 的其余部分所示,在ImageNet上更广泛性能评估上, 随机剪枝无法发现能够匹配的小模型的自网络。但是,随着模型大小增加,随机剪枝在其他重要评估方面获得了巨大的性能提升,并逐渐能够匹配稠密的网络的表现。这些重要性评估包括不确定性估计、OoD 检测性能和对抗鲁棒性。

 

 

图3 随着模型大小改变, ImageNet的测试精度

 

04

 

结论

 

在这项工作中,我们系统地重新审视被低估的稀疏训练基线——随机剪枝。实验结果告诉了我们一个违反直觉的发现,即在没有任何精细修剪标准的帮助下,训练一个随机剪枝的网络也可以非常高效。

 

具有适当的网络规模和逐层稀疏比,随机修剪可以匹配密集网络的性能,即使是在过度稀疏的情况下也成立。

 

令人印象深刻的是,可以训练一个随机修剪的 Wide ResNet-50 子网络在 ImageNet 上优于强大的基准、稠密的 Wide ResNet-50。

 

此外,随机剪枝也带来了显着的其他好处,例如分布外检测、不确定性估计和对抗鲁棒性。我们的论文表明,大模型不仅性能强,还具有很强的剪枝鲁棒性。即使我们具有完全随机性的剪枝,大型模型也可以很好地保持其性能。

 

Paper: https://openreview.net/forum?id=VBZJ_3tz-t

 

Code: https://github.com/VITA-Group/Random_Pruning

 

参考文献

 

[1]Shiwei Liu, Tianlong Chen, Xiaohan Chen, Li Shen, Decebal Constantin Mocanu, Zhangyang Wang, Mykola Pechenizkiy, The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training, ICLR, 2022

 

[2] Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, and Mykola Pechenizkiy. Do we actually need dense over-parameterization? in-time over-parameterization in sparse training. In Proceedings of the 39th International Conference on Machine Learning, pp. 6989–7000. PMLR, 2021b.

 

[3] Decebal Constantin Mocanu, Elena Mocanu, Peter Stone, Phuong H Nguyen, Madeleine Gibescu, and Antonio Liotta. Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science. Nature communications, 9(1):2383, 2018.

 

[4] Utku Evci, Trevor Gale, Jacob Menick, Pablo Samuel Castro, and Erich Elsen. Rigging the lottery: Making all tickets winners. In International Conference on Machine Learning, pp. 2943–2952. PMLR, 2020a

 

[5] Michael Zhu and Suyog Gupta. To prune, or not to prune: exploring the efficacy of pruning for model compression. arXiv preprint arXiv:1710.01878, 2017.

 

[6] Trevor Gale, Erich Elsen, and Sara Hooker. The state of sparsity in deep neural networks. arXiv preprint arXiv:1902.09574, 2019.

 

[7] Namhoon Lee, Thalaiyasingam Ajanthan, and Philip Torr. SNIP: SINGLE-SHOT NETWORK PRUNING BASED ON CONNECTION SENSITIVITY. In International Conference on Learning Representations, 2019. URL https://openreview.net/forum?id=B1VZqjAcYX.

 

[8] Chaoqi Wang, Guodong Zhang, and Roger Grosse. Picking winning tickets before training by preserving gradient flow. In International Conference on Learning Representations, 2020. URL https://openreview.net/forum?id=SkgsACVKPH.

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注