動態(tài)slimmable網(wǎng)絡(luò):高性能的網(wǎng)絡(luò)輕量化方法!對比slimmable漲點(diǎn)5.9%
動態(tài)slimmable網(wǎng)絡(luò):高性能的網(wǎng)絡(luò)輕量化方法!對比slimmable漲點(diǎn)5.9%
論文鏈接:
https://arxiv.org/abs/2103.13258
代碼:
https://github.com/changlin31/DS-Net
一、研究動機(jī)
動態(tài)剪枝算法及其問題
動態(tài)網(wǎng)絡(luò)為每個輸入自適應(yīng)地配置不同的網(wǎng)絡(luò)結(jié)構(gòu),而不是像神經(jīng)網(wǎng)絡(luò)搜索(NAS)或剪枝那樣在整個數(shù)據(jù)集上優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),例如,根據(jù)每張輸入圖像的分類難度,將其路由到不同的計(jì)算復(fù)雜度的網(wǎng)絡(luò)結(jié)構(gòu)減少了在簡單樣本上的計(jì)算浪費(fèi),提高網(wǎng)絡(luò)效率(見上圖)。
二、動態(tài)寬度可變超網(wǎng)絡(luò)
Dynamic Slimmable Supernet
動態(tài)寬度可變網(wǎng)絡(luò)(DS-Net)通過學(xué)習(xí)一個寬度可變超網(wǎng)絡(luò)和一個動態(tài)門控機(jī)制來實(shí)現(xiàn)不同樣本的動態(tài)路由。如上圖所示,DS-Net中的超網(wǎng)絡(luò)(上圖黃色框)是指承擔(dān)主要任務(wù)的整個模塊。相比之下,動態(tài)門控(上圖藍(lán)色框)是一系列預(yù)測模塊,它們將輸入樣本路由到超網(wǎng)絡(luò)的不同寬度的子網(wǎng)絡(luò)。
之前的動態(tài)網(wǎng)絡(luò)工作將門控和超網(wǎng)絡(luò)一起訓(xùn)練,而本文為了提高超網(wǎng)絡(luò)中每個子網(wǎng)絡(luò)的泛化性,提出了解纏的兩階段訓(xùn)練方法:
在第一階段,禁用門控并用IEB技術(shù)訓(xùn)練超網(wǎng)絡(luò);
在第二階段,固定超級網(wǎng)的權(quán)重并用SGS技術(shù)訓(xùn)練動態(tài)門控。
1.動態(tài)超網(wǎng)絡(luò)(supernet)和動態(tài)可切分(slice-able)卷積
通過堆疊動態(tài)可切分(slice-able)卷積并禁用動態(tài)門控,就形成了類似slimmablenetwork的動態(tài)超網(wǎng)絡(luò)。
2.In-place Ensemble Bootstrapping(IEB)
之前的slimmable network訓(xùn)練使用in-place distillation方法:最寬的子網(wǎng)絡(luò)學(xué)習(xí)預(yù)測真實(shí)標(biāo)簽,同時生成軟標(biāo)簽,并通過知識蒸餾的方式來訓(xùn)練其他較窄的子網(wǎng)絡(luò)。但in-place distillation訓(xùn)練很不穩(wěn)定,權(quán)重在訓(xùn)練早期會大幅突變,并可能導(dǎo)致模型最終訓(xùn)練失敗或性能損失。
三、動態(tài)寬度門控
(Dynamic Slimming Gate)
1.??雙頭門控設(shè)計(jì)
2.?Sandwich Gate Sparsification(SGS)
四、實(shí)驗(yàn)
1. ImageNet結(jié)果
如Table 2和Figure 5所示,DS-Net超過了現(xiàn)有的模型壓縮方法:DS-Net成功加速ResNet-50和MobileNetV1(2-4倍的計(jì)算量減少,和1.17倍、1.62倍的實(shí)際加速);優(yōu)于靜態(tài)剪枝方法,比EagleEye和Meta-Pruning分別高出1.9%和2.2%;優(yōu)于其他強(qiáng)大的動態(tài)網(wǎng)絡(luò),比動態(tài)剪枝方法CGNet高出2.5%;也優(yōu)于靜態(tài)slimmable網(wǎng)絡(luò),比AutoSlim和US-Net分別高出2.2%和5.9%(Figure 1)。
2. CIFAR-10遷移結(jié)果和VOC目標(biāo)檢測結(jié)果
在CIFAR-10上,DS-ResNet可減少2.5倍計(jì)算量,并在精度上超過原ResNet50 0.6%和1.0%,甚至以五分之一的計(jì)算量,超過ResNet101。(Table 3)
在VOC目標(biāo)檢測任務(wù),DS-MBNet相比原MobileNet達(dá)成了0.9和1.8的mAP提升,同時計(jì)算量分別減少1.59倍和1.34倍。(Table 4)
3. 消融實(shí)驗(yàn)
見上圖左側(cè),使用IEB時,supernet避免了訓(xùn)練過程中的精度的波動,穩(wěn)定的收斂到更高的精度(Figure 6),在最窄和最寬的子網(wǎng)絡(luò)上比in-placedistillation分別提高了1.8%和0.6%。
見上圖右側(cè),使用SGS時(紅色線),優(yōu)于不使用SGS的精度(紫色線);使用雙頭權(quán)重共享門控(紅色線),優(yōu)于不使用權(quán)重共享(綠色點(diǎn));使用one-hot方式預(yù)測(紅色線),優(yōu)于直接預(yù)測標(biāo)量剪枝率(橙色點(diǎn))。
更多實(shí)驗(yàn)和細(xì)節(jié)請參照文章。
機(jī)器學(xué)習(xí) 深度學(xué)習(xí)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。