动态slimmable网络高性能的网络轻量化方法!对比slimmable涨点5.9%

网友投稿 806 2022-05-29

动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%

论文链接:

https://arxiv.org/abs/2103.13258

代码:

https://github.com/changlin31/DS-Net

一、研究动机

动态剪枝算法及其问题

动态网络为每个输入自适应地配置不同的网络结构,而不是像神经网络搜索(NAS)或剪枝那样在整个数据集上优化网络结构,例如,根据每张输入图像的分类难度,将其路由到不同的计算复杂度的网络结构减少了在简单样本上的计算浪费,提高网络效率(见上图)。

二、动态宽度可变超网络

Dynamic Slimmable Supernet

动态宽度可变网络(DS-Net)通过学习一个宽度可变超网络和一个动态门控机制来实现不同样本的动态路由。如上图所示,DS-Net中的超网络(上图黄色框)是指承担主要任务的整个模块。相比之下,动态门控(上图蓝色框)是一系列预测模块,它们将输入样本路由到超网络的不同宽度的子网络。

之前的动态网络工作将门控和超网络一起训练,而本文为了提高超网络中每个子网络的泛化性,提出了解缠的两阶段训练方法:

在第一阶段,禁用门控并用IEB技术训练超网络;

在第二阶段,固定超级网的权重并用SGS技术训练动态门控。

1.动态超网络(supernet)和动态可切分(slice-able)卷积

通过堆叠动态可切分(slice-able)卷积并禁用动态门控,就形成了类似slimmablenetwork的动态超网络。

2.In-place Ensemble Bootstrapping(IEB)

动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%

之前的slimmable network训练使用in-place distillation方法:最宽的子网络学习预测真实标签,同时生成软标签,并通过知识蒸馏的方式来训练其他较窄的子网络。但in-place distillation训练很不稳定,权重在训练早期会大幅突变,并可能导致模型最终训练失败或性能损失。

三、动态宽度门控

(Dynamic Slimming Gate)

1.  双头门控设计

2. Sandwich Gate Sparsification(SGS)

四、实验

1. ImageNet结果

如Table 2和Figure 5所示,DS-Net超过了现有的模型压缩方法:DS-Net成功加速ResNet-50和MobileNetV1(2-4倍的计算量减少,和1.17倍、1.62倍的实际加速);优于静态剪枝方法,比EagleEye和Meta-Pruning分别高出1.9%和2.2%;优于其他强大的动态网络,比动态剪枝方法CGNet高出2.5%;也优于静态slimmable网络,比AutoSlim和US-Net分别高出2.2%和5.9%(Figure 1)。

2. CIFAR-10迁移结果和VOC目标检测结果

在CIFAR-10上,DS-ResNet可减少2.5倍计算量,并在精度上超过原ResNet50 0.6%和1.0%,甚至以五分之一的计算量,超过ResNet101。(Table 3)

在VOC目标检测任务,DS-MBNet相比原MobileNet达成了0.9和1.8的mAP提升,同时计算量分别减少1.59倍和1.34倍。(Table 4)

3. 消融实验

见上图左侧,使用IEB时,supernet避免了训练过程中的精度的波动,稳定的收敛到更高的精度(Figure 6),在最窄和最宽的子网络上比in-placedistillation分别提高了1.8%和0.6%。

见上图右侧,使用SGS时(红色线),优于不使用SGS的精度(紫色线);使用双头权重共享门控(红色线),优于不使用权重共享(绿色点);使用one-hot方式预测(红色线),优于直接预测标量剪枝率(橙色点)。

更多实验和细节请参照文章。

机器学习 深度学习

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:未来医院:全联接医疗服务
下一篇:Redis-11使用 watch 命令监控事务
相关文章