CBNetV2北大提出的復(fù)合主干網(wǎng)絡(luò),COCO成績60.1%

      網(wǎng)友投稿 1192 2022-05-30

      CBNetV2: A Composite Backbone Network Architecture for Object Detection

      代碼:VDIGPKU/CBNetV2 (github.com)

      論文地址:2107.00420.pdf (arxiv.org)

      摘要

      現(xiàn)代性能最好的物體檢測器在很大程度上依賴于骨干網(wǎng)絡(luò),其進步通過探索更有效的網(wǎng)絡(luò)結(jié)構(gòu)帶來了一致的性能提升。在本文中,我們提出了一種新穎且靈活的主干框架,即 CBNetV2,以在預(yù)訓(xùn)練微調(diào)范式下使用現(xiàn)有的開源預(yù)訓(xùn)練主干構(gòu)建高性能檢測器。特別是,CBNetV2 架構(gòu)將多個相同的主干分組,這些主干通過復(fù)合連接連接。具體來說,它融合了多個骨干網(wǎng)絡(luò)的高低層特征,并逐漸擴大感受野以更高效地進行目標檢測。我們還為基于 CBNet 的檢測器提出了一種具有輔助監(jiān)督的更好的訓(xùn)練策略。CBNetV2 對檢測器架構(gòu)的不同主干和頭部設(shè)計具有很強的泛化能力。無需對復(fù)合主干進行額外的預(yù)訓(xùn)練,CBNetV2 可以適應(yīng)各種主干(即,基于 CNN 與Transformer-based)和大多數(shù)主流檢測器的頭部設(shè)計(即,一級與兩級,基于錨的與基于.基于anchorfree)。實驗提供了強有力的證據(jù),與簡單地增加網(wǎng)絡(luò)的深度和寬度相比,CBNetV2 引入了一種更高效、更有效和資源友好的方式來構(gòu)建高性能骨干網(wǎng)絡(luò)。特別是,我們的 DualSwin-L 在單模型和單尺度測試協(xié)議下在 COCO test-dev 上實現(xiàn)了 59.4% 的 box AP 和 51.6% 的 mask AP,這明顯優(yōu)于最先進的結(jié)果(即, Swin-L 實現(xiàn)了 57.7% 的 box AP 和 50.2% 的 mask AP),而訓(xùn)練計劃減少了 6 倍。通過多尺度測試,我們在不使用額外訓(xùn)練數(shù)據(jù)的情況下,將當前最好的單一模型結(jié)果推到了 60.1% 的 box AP 和 52.3% 的 mask AP 的新記錄。代碼可在 https://github.com/VDIGPKU/CBNetV2 獲得。

      1、引言

      物體檢測是計算機視覺的基礎(chǔ)問題之一,服務(wù)于自動駕駛、智能視頻監(jiān)控、遙感等廣泛應(yīng)用。近年來,由于物體檢測的蓬勃發(fā)展,物體檢測取得了很大進展 深度卷積網(wǎng)絡(luò) [2],并且已經(jīng)提出了優(yōu)秀的檢測器,例如 SSD [3]、YOLO [4]、Faster R-CNN [5]、RetinaNet [6]、ATSS [7]、Mask R-CNN [8] ]、Cascade R-CNN [9] 等。

      通常,在基于神經(jīng)網(wǎng)絡(luò) (NN) 的檢測器中,骨干網(wǎng)絡(luò)用于提取檢測對象的基本特征,通常最初設(shè)計用于圖像分類并在 ImageNet 數(shù)據(jù)集上進行預(yù)訓(xùn)練 [10]。直觀地說,主干提取的代表性特征越多,其宿主檢測器的性能就越好。為了獲得更高的準確度,主流檢測器(即從移動大小模型 [11]、[12] 和 ResNet [13],到 ResNeXt [14] 和 Res2Net [15])利用了更深、更寬的主干。最近,還探索了基于 Transformer [16] 的主干,并顯示出非常有希望的性能。總體而言,大型主干預(yù)訓(xùn)練的進展表明在對象檢測中更有效和高效的多尺度表示的趨勢 。

      受到預(yù)訓(xùn)練的大型基于主干的檢測器所取得的結(jié)果的鼓舞,我們尋求進一步改進,通過利用現(xiàn)有設(shè)計良好的主干架構(gòu)及其預(yù)訓(xùn)練權(quán)重來構(gòu)建高性能檢測器。雖然人們可以設(shè)計一種新的改進的主干,但專業(yè)知識和計算資源開銷可能是昂貴的。一方面,設(shè)計一個新的主干架構(gòu)需要專家經(jīng)驗和大量的試錯。另一方面,在 ImageNet 上預(yù)訓(xùn)練一個新的主干(特別是對于大型模型)需要大量的計算資源,這使得在預(yù)訓(xùn)練和微調(diào)范式之后獲得更好的檢測性能的成本很高。或者,從頭開始訓(xùn)練檢測器可以節(jié)省預(yù)訓(xùn)練的成本,但需要更多的計算資源和訓(xùn)練技能來訓(xùn)練檢測器 [17]。

      image-20210929125706697

      在本文中,我們提出了一種簡單而新穎的組合方法,可以在預(yù)訓(xùn)練微調(diào)范式下使用現(xiàn)有的預(yù)訓(xùn)練主干。與大多數(shù)以前專注于模塊化制作并需要在 ImageNet 上進行預(yù)訓(xùn)練以加強表示的方法不同,我們在沒有額外預(yù)訓(xùn)練的情況下提高了現(xiàn)有的主干表示能力。如圖 1 所示,我們的解決方案名為 Composite Backbone Network V2 (CBNetV2),將多個相同的主干組合在一起。具體來說,并行主干(稱為輔助主干和引導(dǎo)主干)通過復(fù)合連接連接。在圖 1 中從左到右,輔助主干中每個階段的輸出流向其后續(xù)兄弟的并行和較低級別的階段。最后,將主干的特征饋送到頸部和檢測頭,用于邊界框回歸和分類。與簡單的網(wǎng)絡(luò)深化或拓寬相反,CBNetV2 集成了多個骨干網(wǎng)絡(luò)的高低層特征,并逐步擴大感受野以實現(xiàn)更高效的目標檢測。值得注意的是,CBNetV2 的每個組裝主干都由現(xiàn)有開源預(yù)訓(xùn)練的單個主干的權(quán)重初始化(例如,Dual-ResNet50 1 由 ResNet50 [13] 的權(quán)重初始化,可在開源社區(qū)中獲得)。此外,為了進一步發(fā)揮 CBNetV2 的潛力,我們提出了一種有效的訓(xùn)練策略,具有輔助骨干的監(jiān)督,在不犧牲推理速度的情況下實現(xiàn)了比原始 CBNet [1] 更高的檢測精度。

      我們通過在具有挑戰(zhàn)性的 MS COCO 基準測試 [18] 上進行實驗來證明我們框架的有效性。實驗表明,CBNetV2 對檢測器架構(gòu)的不同主干和頭部設(shè)計具有很強的泛化能力,這使我們能夠訓(xùn)練出明顯優(yōu)于基于更大主干的檢測器的檢測器。具體來說,CBNetV2 可以應(yīng)用于各種主干(例如,從基于卷積的 [13]、[14]、[15] 到基于 Transformer 的 [19])。與原始主干相比,我們的 DualBackbone 將其性能提高了 3.4%~3.5% AP,證明了所提出的 CBNetV2 的有效性。在可比較的模型復(fù)雜度下,我們的 Dual-Backbone 仍然提高了 1.1% ~ 2.1% AP,表明組合骨干網(wǎng)比預(yù)訓(xùn)練的更寬更深的網(wǎng)絡(luò)更有效。此外,CBNetV2 可以靈活地插入主流檢測器(例如,RetinaNet [6]、ATSS [7]、Faster R-CNN [5]、Mask R-CNN [8]、Cascade R-CNN 和 Cascade Mask R-CNN [ 9]),并持續(xù)將這些檢測器的性能提高 3%~3.8% AP,證明其對各種檢測器頭部設(shè)計的適應(yīng)性很強。值得注意的是,我們的 CBNetV2 提出了一個通用且資源友好的框架來推動高性能檢測器的準確度上限。沒有花里胡哨,我們的 Dual-SwinL 在 COCO test-dev 上實現(xiàn)了無與倫比的單模型單尺度結(jié)果 59.4% box AP 和 51.6% mask AP,超過了最先進的結(jié)果(即 57.7% box AP 和 Swin-L 獲得的 50.2% mask AP),同時將訓(xùn)練計劃減少了 6 倍。通過多尺度測試,我們將當前最好的單模型結(jié)果推至 60.1% box AP 和 52.3% mask AP 的新記錄。

      本文的主要貢獻如下:

      ? 我們提出了一個通用、高效和有效的框架CBNetV2(復(fù)合骨干網(wǎng)絡(luò)V2),以構(gòu)建高性能骨干網(wǎng)絡(luò)用于對象檢測,無需額外的預(yù)訓(xùn)練。

      ? 我們提出密集高級組合 (DHLC) 風(fēng)格和輔助監(jiān)督,以在預(yù)訓(xùn)練微調(diào)范式下更有效地使用現(xiàn)有的預(yù)訓(xùn)練權(quán)重進行對象檢測。

      ? 我們的 Dual-Swin-L 在比 Swin-L 更短(6 倍)的訓(xùn)練計劃下,在 COCO 上實現(xiàn)了單模型單尺度結(jié)果的新記錄。通過多尺度測試,我們的方法無需額外的訓(xùn)練數(shù)據(jù)即可獲得最佳已知結(jié)果。

      2、相關(guān)工作

      **物體檢測。**物體檢測旨在從輸入圖像中的一組預(yù)定義類中定位每個對象實例。隨著卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的快速發(fā)展,基于深度學(xué)習(xí)的目標檢測器出現(xiàn)了一種流行的范式:骨干網(wǎng)絡(luò)(通常設(shè)計用于分類并在 ImageNet 上進行預(yù)訓(xùn)練)從輸入圖像中提取基本特征,然后頸部(例如,特征金字塔網(wǎng)絡(luò) [21])增強來自主干的多尺度特征,之后檢測頭使用位置和分類信息預(yù)測對象邊界框。基于檢測頭,通用對象檢測的前沿方法可以簡要分為兩個主要分支。第一個分支包含單級檢測器,例如 YOLO [4]、SSD [3]、RetinaNet [6]、NAS-FPN [22] 和 EfficientDet [23]。另一個分支包含兩階段方法,例如 Faster R-CNN [5]、FPN [21]、Mask RCNN [8]、Cascade R-CNN [9] 和 Libra R-CNN [24]。最近,學(xué)術(shù)界的注意力已經(jīng)轉(zhuǎn)向無錨檢測器,部分原因是 FPN [21] 和焦點損失 [6] 的出現(xiàn),其中提出了更優(yōu)雅的端到端檢測器。一方面,F(xiàn)SAF [25]、FCOS [26]、ATSS [7] 和 GFL [27] 使用基于中心的無錨方法改進了 RetinaNet。另一方面,CornerNet [28] 和 CenterNet [29] 使用基于關(guān)鍵點的方法檢測對象邊界框。

      最近,神經(jīng)架構(gòu)搜索 (NAS) 被應(yīng)用于自動搜索特定檢測器的架構(gòu)。NAS-FPN [22]、NAS-FCOS [30] 和 SpineNet [31] 使用強化學(xué)習(xí)來控制架構(gòu)采樣并獲得有希望的結(jié)果。SM-NAS [32] 使用進化算法和偏序剪枝方法來搜索檢測器不同部分的最佳組合。Auto-FPN [33] 使用基于梯度的方法來搜索最佳檢測器。DetNAS [34] 和 OPANAS [35] 分別使用一次性方法搜索有效的主干和頸部進行目標檢測。

      **物體檢測的主干。**從 AlexNet [2] 開始,主流檢測器已經(jīng)利用了更深更寬的主干網(wǎng)絡(luò),例如 VGG [37]、ResNet [13]、DenseNet [38]、ResNeXt [14] 和 Res2Net [15]。由于骨干網(wǎng)絡(luò)通常是為分類而設(shè)計的,無論是在 ImageNet 上預(yù)先訓(xùn)練并在給定的檢測數(shù)據(jù)集上進行微調(diào),還是在檢測數(shù)據(jù)集上從頭開始訓(xùn)練,都需要大量計算資源且難以優(yōu)化。最近,兩個非平凡設(shè)計的主干,即 DetNet [39] 和 FishNet [40],是專門為檢測任務(wù)設(shè)計的。但是,在對檢測任務(wù)進行微調(diào)之前,它們?nèi)匀恍枰獙Ψ诸惾蝿?wù)進行預(yù)訓(xùn)練。Res2Net [15] 通過在粒度級別表示多尺度特征并增加每個網(wǎng)絡(luò)層的感受野范圍,在目標檢測中取得了令人印象深刻的結(jié)果。除了手動設(shè)計主干架構(gòu)外,DetNAS [34] 還使用 NAS 尋找更好的主干進行目標檢測,從而降低了手動設(shè)計的成本。盡管需要昂貴的預(yù)訓(xùn)練,Swin Transformer [19] 利用 Transformer 模塊來構(gòu)建主干并取得了令人印象深刻的結(jié)果。

      眾所周知,設(shè)計和預(yù)訓(xùn)練一個新的、健壯的主干需要大量的計算成本。或者,我們提出了一種更經(jīng)濟、更有效的解決方案,通過組裝多個相同的現(xiàn)有主干(例如,ResNet [13]、ResNeXt[14]、Res2Net [15] 和 Swin Transformer [19])來構(gòu)建更強大的對象檢測主干 。

      image-20211002071717976

      循環(huán)卷積神經(jīng)網(wǎng)絡(luò)。?與 CNN 的前饋架構(gòu)不同,Recurrent CNN (RCNN) [20] 將循環(huán)連接合并到每個卷積層中。此屬性增強了模型整合上下文信息的能力,這對于對象識別很重要。如圖 3 所示,我們提出的復(fù)合骨干網(wǎng)絡(luò)與展開的 RCNN [20] 有一些相似之處,但它們非常不同。首先,如圖 3 所示,CBNet 中并行階段之間的連接是單向的,但它們在 RCNN 中是雙向的。其次,在 RCNN 中,不同時間步長的并行階段共享參數(shù)權(quán)重,而在提出的 CBNet 中,主干的并行階段彼此獨立。此外,如果我們將其用作檢測器的主干,我們需要在 ImageNet 上預(yù)訓(xùn)練 RCNN。相比之下,CBNet 不需要額外的預(yù)訓(xùn)練,因為它直接使用現(xiàn)有的預(yù)訓(xùn)練權(quán)重。

      3、本文方法

      本節(jié)詳細闡述了擬議的CBNetV2。在第3.1節(jié)和第3.2節(jié)中,我們分別描述了它的基本架構(gòu)和變體。在第3.3節(jié)中,我們提出了基于CBNet的探測器的培訓(xùn)策略。在第3.4節(jié)中,我們簡要介紹了修剪策略。在第3.5節(jié)中,我們總結(jié)了CBNetV2的檢測框架。

      3.1 CBNetV2的架構(gòu)

      提議的 CBNetV2 由 K 個相同的主干(K ≥2)組成。特別地,我們將 K = 2 的情況(如圖 3.a 所示)稱為 DualBackbone (DB),將 K=3 的情況稱為 Triple-Backbone (TB)。

      如圖1所示,CBNetV2體系結(jié)構(gòu)包括兩種類型的主干:引導(dǎo)主干和輔助主干.每個主干包含L個階段(通常為L=5),每個階段由幾個具有相同大小特征映射的卷積層組成。主干的第l級實現(xiàn)了非線性變換

      大多數(shù)傳統(tǒng)的卷積網(wǎng)絡(luò)都遵循將輸入圖像編碼為具有單調(diào)降低分辨率的中間特征的設(shè)計。特別地,第l級將前()級的輸出(記為)作為輸入,可以表示為:

      不同的是,我們采用輔助骨干?提高鉛骨干 BK 的代表能力。我們以分階段的方式將主干的特征迭代到其后繼者。因此,方程(1)可以改寫為:

      對于物體檢測任務(wù),只有主干{} 的輸出特征被送入頸部,然后是 RPN/檢測頭,而輔助主干的輸出被轉(zhuǎn)發(fā) 給其后繼的兄弟姐妹。值得注意的是,?可用于各種主干架構(gòu)(例如,ResNet [13]、ResNeXt [14]、Res2Net [15] 和 Swin Transformer [19])并初始化 直接來自單個主干的預(yù)訓(xùn)練權(quán)重。

      3.2 可能的復(fù)合樣式

      對于復(fù)合連接,它從輔助主干中獲取?作為輸入并輸出與??相同大小的特征(為簡單起見省略 k),我們提出了 以下五種不同的復(fù)合樣式。

      3.2.1 同級組合(SLC)

      image-20211002071612669

      一種直觀且簡單的合成方法是融合來自主干同一階段的輸出特征。如圖 2.a 所示,SLC 的操作可以表述為:

      其中 w 代表一個 1 × 1 的卷積層和一個批量歸一化層。

      3.2.2 相鄰高級組合(AHLC)

      受特征金字塔網(wǎng)絡(luò) [21] 的啟發(fā),自上而下的路徑引入了空間上更粗糙但語義上更強大的高級特征,以增強自下而上路徑的低級特征。在之前的 CBNet [1] 中,我們進行了 Adjacent Higher-Level Composition (AHLC),將前一主干的相鄰更高級別階段的輸出饋送到后續(xù)階段(圖 2.b 中從左到右) :

      其中??表示上采樣操作。

      3.2.3 相鄰低級組合(ALLC)

      與 AHLC 不同,我們引入了一種自下而上的路徑,將前一個主干的相鄰低級階段的輸出提供給下一個。Adjacent Lower-Level Composition (ALLC) 的這種操作如圖 2.c 所示,公式為:

      其中??表示下采樣操作。

      3.2.4 密集高層組合(DHLC)

      在 DenseNet [38] 中,每一層都連接到所有后續(xù)層以構(gòu)建綜合特征。受此啟發(fā),我們在 CBNet 架構(gòu)中利用密集復(fù)合連接。DHLC的操作表達如下:

      如圖 2.d 所示,當 K = 2 時,我們組合來自前一個主干中所有更高級別階段的特征,并將它們添加到后一個中的較低級別階段。

      3.2.5 全連接組合(FCC)

      如圖 2.e 所示,我們將之前主干中所有階段的特征組合起來,并將它們提供給下一個階段的每個階段。與 DHLC 相比,我們在lowhigh-level 的情況下添加了連接。FCC的操作可以表示為:

      其中??表示縮放比例,當?時,??=?D(·),當$i

      3.3 輔助監(jiān)督

      image-20211002071826505

      雖然增加深度通常會導(dǎo)致性能提升 [13],但它可能會引入額外的優(yōu)化困難,如圖像分類 [41] 的情況。[42]、[43] 中的研究引入了中間層的輔助分類器來提高非常深網(wǎng)絡(luò)的收斂性。在原始 CBNet 中,雖然復(fù)合主干是平行的,但后一個主干(例如,圖 4.a 中的引導(dǎo)主干)通過前一個主干(例如,圖 4.a 中的輔助主干)之間的相鄰連接加深了網(wǎng)絡(luò)。為了更好地訓(xùn)練基于 CBNet 的檢測器,我們建議通過輔助頸部和檢測頭的監(jiān)督來生成輔助骨干的初始結(jié)果,以提供額外的正則化 。

      當 K=2 時,我們的監(jiān)督 CBNetV2 示例如圖 4.b 所示。除了使用前導(dǎo)骨干特征訓(xùn)練檢測頭 1 的原始損失外,另一個檢測頭 2 以輔助骨干特征作為輸入,產(chǎn)生輔助監(jiān)督。請注意,檢測頭 1 和檢測頭 2 是權(quán)重共享的,兩個脖子也是如此。輔助監(jiān)督有助于優(yōu)化學(xué)習(xí)過程,而主干的原始損失承擔(dān)最大的責(zé)任。我們添加權(quán)重以平衡輔助監(jiān)督,其中總損失定義為:

      其中??是主干的損失,是輔助主干的損失,λ?是第 i 個輔助主干的損失權(quán)重 。

      在推理階段,我們放棄了輔助監(jiān)督分支,只利用了 CBNetV2 中主干的輸出特征(圖 4.b)。因此,輔助監(jiān)督不會影響推理速度。

      3.4 CBNetV2 的剪枝策略

      image-20211002071905919

      為了降低 CBNetV2 的模型復(fù)雜度,我們探索了第?t層主干中修剪不同階段數(shù)量的可能性,而不是以整體方式組合主干(即,向原始主干添加相同的主干)。為簡單起見,我們在圖 5 中展示了 K = 2 的情況。有五種方法可以修剪主干。?表示主干中有 i 個階段?,修剪后的階段由相同階段的特征填充 第一個骨干。詳細信息可在第 4.4.4 節(jié)中找到。

      3.5 CBNetV2檢測網(wǎng)絡(luò)架構(gòu)

      CBNetV2 可以應(yīng)用于各種現(xiàn)成的檢測器,而無需對網(wǎng)絡(luò)架構(gòu)進行額外修改。在實踐中,我們將主干與功能網(wǎng)絡(luò)連接起來,例如 FPN [21] 和檢測頭。用于物體檢測的 CBNetV2 推理階段如圖 1 所示。

      4、實驗

      在本節(jié)中,我們通過大量的實驗來評估我們提出的方法。在第4.1節(jié)中,我們詳細介紹了實驗裝置。在第4.2節(jié)中,我們將我們的方法與最先進的檢測方法進行比較。在第4.3節(jié)中,我們通過在不同的主干和檢測器上進行實驗來證明我們方法的通用性。在第4.4節(jié)中,我們進行了廣泛的消融研究和分析,以調(diào)查我們框架的各個組成部分。最后,我們在第4.5節(jié)中展示了我們提出的方法的一些定性結(jié)果。

      4.1 實現(xiàn)細節(jié)

      4.1.1 數(shù)據(jù)集和評估標準

      我們在 COCO [18] 基準上進行實驗。訓(xùn)練在 118k 訓(xùn)練圖像上進行,并在 5k 微型圖像上進行消融研究。我們還在 test-dev 中報告了 20k 圖像的結(jié)果,以與最先進的 (SOTA) 方法進行比較。對于評估,我們采用 COCO 檢測評估標準中的指標,包括不同尺度下 IoU 閾值范圍從 0.5 到 0.95 的平均精度 (AP)。

      4.1.2 訓(xùn)練和推理細節(jié)

      我們的實驗基于開源檢測工具箱 MMDetection [48]。對于消融研究和簡單比較,如果未指定,我們在訓(xùn)練和推理期間將輸入大小調(diào)整為 800 × 500。我們選擇以 FPN [21] 作為基線的 Faster R-CNN (ResNet50 [13])。我們使用 SGD 優(yōu)化器,初始學(xué)習(xí)率為 0.02,動量為 0.9,權(quán)重衰減為 10?4。我們訓(xùn)練了 12 個 epoch 的檢測器,在 epoch 8 和 11 學(xué)習(xí)率降低了 10 倍。我們僅使用隨機翻轉(zhuǎn)進行數(shù)據(jù)增強并將批量大小設(shè)置為 16。請注意,未突出顯示的與 Swin Transformer 相關(guān)的實驗專門遵循 hyper - [19] 的參數(shù)。檢測器的推理速度 FPS(每秒幀數(shù))是在1塊 V100 GPU 的機器上測量的。

      為了與最先進的檢測器進行比較,我們利用多尺度訓(xùn)練 [49](短邊調(diào)整為 400 ~ 1400,長邊最多為 1600)和更長的訓(xùn)練計劃(詳細信息可以在第 4.2 節(jié)中找到 )。在推理階段,我們使用 SoftNMS [50],閾值為 0.001,輸入大小設(shè)置為 1600 × 1400。如果未指定,本文中的所有其他超參數(shù)都遵循 MMDetection。

      4.2 與最先進技術(shù)的比較

      我們將我們的方法與最前沿的檢測器進行比較。我們根據(jù)在訓(xùn)練期間是否使用實例分割注釋將結(jié)果分為對象檢測(表 1)和實例分割(表 2)。繼 [19] 之后,我們通過在每個邊界框頭中添加四個卷積層 [54] 并使用 GIoU 損失 [55] 代替平滑來改進上述兩個表中的 Cascade R-CNN、Cascade Mask RCNN 和 HTC 的檢測器頭 L1 [56]。

      image-20210930213059452

      4.2.1 物體檢測

      對于僅使用邊界框注釋訓(xùn)練的檢測器,我們將它們歸納為兩類:基于錨點 和基于無錨在表1中。我們選擇ATSS [7]作為我們的無錨代表,Cascade R-CNN作為我們的基于錨點的代表 。

      無錨。?配備 ATSS 的 Dual-Res2Net101-DCN 訓(xùn)練了 20 個時期,其中學(xué)習(xí)率在第 16 和第 19 時期衰減了 10 倍。值得注意的是,我們的 Dual-Res2Net101-DCN 實現(xiàn)了 52.8% 的 AP,在單尺度下優(yōu)于以前的無錨方法 [7]、[25]、[26]、[27]、[30]、[36]、[44] 測試協(xié)議。

      基于錨點。?我們的 Dual-Res2Net101-DCN 實現(xiàn)了 55.6% 的 AP,超過了其他基于錨的檢測器 [22]、[23]、[31]、[32]、[33]、[35]、[46]、[57]。值得注意的是,我們的 CBNetV2 僅訓(xùn)練了 32 個 epoch(前 20 個 epoch 是常規(guī)訓(xùn)練,其余 12 個 epoch 使用隨機權(quán)重平均訓(xùn)練 [58]),分別比 EfficientDet 和 YOLOv4 短 16 倍和 12 倍。

      4.2.2 實例分割

      image-20211002072034035

      我們使用表 2 中的邊界框和實例分割注釋進一步將我們的方法與最先進的結(jié)果 [19]、[51]、[52]、[53] 進行比較。在 [19] 之后,我們提供了結(jié)果 在常規(guī) ImageNet-1K 和 ImageNet-22K 上預(yù)訓(xùn)練的主干以展示 CBNetV2 的高容量。

      常規(guī) ImageNet-1K 預(yù)訓(xùn)練的結(jié)果。?遵循 [19],3x 計劃(36 個時期,學(xué)習(xí)率在第 27 和 33 時期衰減 10 倍)用于 Dual-Swin-S。使用 Cascade Mask R-CNN,我們的 Dual-Swin-S 在 COCO minival 上在邊界框和實例分割方面實現(xiàn)了 56.3% 的 box AP 和 48.6% 的 mask AP,顯示了 +4.4% box AP 和 +3.6% mask 的顯著增益 具有相似模型大小和相同訓(xùn)練協(xié)議的 AP 到 Swin-B。此外,Dual-Swin-S 在 COCO dev 上實現(xiàn)了 56.9% 的 box AP 和 49.1% 的 mask AP,性能優(yōu)于其他 ImageNet-1K 預(yù)訓(xùn)練的基于主干的檢測器。

      ImageNet-22K 預(yù)訓(xùn)練的結(jié)果。?我們的 Dual-Swin-B 在 COCO minival 上實現(xiàn)了 58.4% box AP 和 50.7% mask AP 的單尺度結(jié)果,比 Swin-L (HTC++) [19] 高 1.3% box AP 和 1.2% mask AP,而 參數(shù)數(shù)量減少了 17%,訓(xùn)練計劃減少了 3.6 倍。特別是,僅用 12 個 epochs 訓(xùn)練(比 Swin-L 短 6 倍),我們的 Dual-Swin-L 在 COCO test-dev 上實現(xiàn)了 59.4% 的 box AP 和 51.6% 的 mask AP,優(yōu)于現(xiàn)有技術(shù)。我們可以通過多尺度測試將當前最好的結(jié)果推到60.1%的box AP和52.3%的mask AP的新記錄。這些結(jié)果表明,我們的 CBNetV2 提出了一個高效、有效且資源友好的框架來構(gòu)建高性能骨干網(wǎng)絡(luò)。

      4.3 CBNetV2的通用性

      CBNetV2 通過并行組合主干來擴展感受野,而不是簡單地增加網(wǎng)絡(luò)的深度。為了證明我們設(shè)計策略的有效性和通用性,我們對檢測器架構(gòu)的各種主干和不同頭部設(shè)計進行了實驗。

      4.3.1 主流骨干架構(gòu)的通用性

      image-20211002072053346

      有效性為了證明 CBNetV2 的有效性,我們對具有不同主干架構(gòu)的 Faster R-CNN 進行了實驗。如表 3 所示,對于基于 CNN 的主干(例如,ResNet、ResNeXt-32x4d 和 Res2Net),我們的方法可以提升 基線超過 3.4% AP。此外,CBNetV2 不僅兼容基于 CNN 的主干,還兼容基于 Transformer 的主干(詳見 4.3.2 節(jié))。

      image-20211002072127831

      效率?請注意,與基線相比,CBNetV2 中的參數(shù)數(shù)量有所增加。為了更好地展示復(fù)合架構(gòu)的效率,我們將 CBNetV2 與更深、更寬的主干網(wǎng)絡(luò)進行了比較。如表 4 所示,在 FLOP 數(shù)量和推理速度相當?shù)那闆r下,CBNetV2 分別將 ResNet101、ResNeXt101-32x4d、Res2Net101 的 AP 提高了 1.7%、2.1% 和 1.1%。此外,DualResNeXt50-32x4d 的 AP 比 ResNeXt101-64x4d 高 1.1%,而參數(shù)數(shù)量僅為 70%。結(jié)果表明,我們的復(fù)合骨干架構(gòu)比簡單地增加網(wǎng)絡(luò)的深度和寬度更有效。

      4.3.2 Swin Transformer的一般性

      Transformer 以使用注意力來模擬數(shù)據(jù)中的遠程依賴關(guān)系而著稱,Swin Transformer [19] 是最近最具代表性的藝術(shù)之一。具體來說,Swin Transformer 是一個通用的 Transformer 主干,它構(gòu)建分層特征圖,并且在圖像大小上具有線性計算復(fù)雜度。我們在 Swin Transformer 上進行實驗以展示 CBNetV2 的模型通用性。為了公平比較,我們遵循與 [19] 相同的訓(xùn)練策略,進行多尺度訓(xùn)練(短邊調(diào)整為 480 ~ 800,長邊最大為 1333),AdamW 優(yōu)化器(初始學(xué)習(xí)率為 0.0001,權(quán)重衰減為 0.05,批量大小為 16)和 3x 計劃(36 個時期)。

      image-20211002072150228

      如表 5 所示,模型的精度隨著 Swin Transformer 的加深和加寬而緩慢增加,并在 Swin-S 處飽和。Swin-B 僅比 Swin-S 高 0.1% AP,但參數(shù)量增加了 38M。在使用 Dual-Swin-T 時,我們通過改進 Swin-T 3.1% 的 box AP 和 2.5% 的 mask AP,實現(xiàn)了 53.6% 的 box AP 和 46.2% 的 mask AP。令人驚訝的是,我們的 Dual-Swin-T 比更深、更寬的 Swin-B 高 1.7% 的盒 AP 和 1.2% 的掩碼 AP,而模型復(fù)雜度更低(例如,F(xiàn)LOPs 836G vs. 975G,Params 113.8M vs. 145.0 米)。這些結(jié)果證明 CBNetV2 也可以改進非純卷積架構(gòu)。他們還證明了 CBNetV2 比簡單地增加網(wǎng)絡(luò)的深度和寬度更有效地推動了高性能檢測器的準確度上限。

      4.3.4 CBNetV2 與 Deformable Convolution 的兼容性

      image-20211002072252264

      可變形卷積 [59] 增強了 CNN 的變換建模能力,并廣泛用于精確的目標檢測器(例如,簡單地添加 DCN 將 Faster R-CNN ResNet50 從 34.6% 提高到 37.4% AP)。為了展示我們的 CBNetV2 架構(gòu)與可變形卷積的兼容性,我們在配備了 Faster R-CNN 的 ResNet 和 ResNeXt 上進行了實驗。如表 7 所示,DCN 對 Dual-Backbone 仍然有效,AP 提高了 2.3%~2.7%。這種改進大于 ResNet152 和 ResNeXt101-64x4d 上的 2.0% AP 和 1.3% AP 增量。另一方面,DualBackbone 將 ResNet50-DCN 提高了 3.0% AP,比更深的 ResNet152-DCN 提高了 0.6%。此外,DualBackbone 使 ResNet50-32x4d-DCN 增加了 3.7% AP,即 比更深更寬的 ResNeXt101-64x4d-DCN 高 1.3%。結(jié)果表明,CBNetV2和可變形卷積的效果可以疊加,互不沖突。

      image-20211002072316149

      4.4 消融研究

      我們?yōu)槲覀兲岢龅?CBNetV2 消除了各種設(shè)計選擇。為簡單起見,如果未指定,此處的所有準確度結(jié)果均在輸入大小為 800 × 500 的 COCO 驗證集上。

      4.4.1 不同復(fù)合風(fēng)格的有效性

      我們進行實驗以比較圖 2 中提出的復(fù)合樣式,包括 SLC、AHLC、ALLC、DHLC 和 FCC。所有這些實驗都是基于 Faster R-CNN DualResNet50 架構(gòu)進行的。結(jié)果如表 8 所示。

      SLC?比單骨干基線的結(jié)果略好。我們推測這是因為兩個主干的同一階段提取的特征相似,因此 SLC 只能比單個主干學(xué)習(xí)略多的語義信息。

      AHLC??將基線提高了 1.4% AP,這驗證了我們在第 3.2.2 節(jié)中的動機,即,如果輔助主干的更高級別特征被饋送到主主干的較低級別,則后者的語義信息 將得到增強。

      DHLC??基線的性能大幅提升(從 34.6% AP 到 37.3% AP 由 2.7% AP)。高低情況的更多復(fù)合連接在一定程度上豐富了特征的表示能力。

      FCC?全連接架構(gòu)實現(xiàn)了37.4% AP的最佳性能。

      綜上所述,F(xiàn)CC和DHLC達到了兩個最好的結(jié)果。考慮到計算的簡單性,我們建議對 CBNetV2 使用 DHLC。以上所有復(fù)合樣式的參數(shù)量都差不多,但準確率差別很大。這些結(jié)果證明,僅僅增加參數(shù)數(shù)量或增加骨干網(wǎng)絡(luò)并不能保證更好的結(jié)果。因此,復(fù)合連接是組成骨干網(wǎng)的關(guān)鍵。這些結(jié)果表明,建議的 DHLC 復(fù)合樣式是有效且重要的。

      4.4.2 輔助監(jiān)管權(quán)重不同

      與加權(quán)輔助監(jiān)督相關(guān)的實驗結(jié)果如表 9 所示。為簡單起見,我們在 CBNetV2 上執(zhí)行 DHLC 復(fù)合樣式。第一個設(shè)置是 Faster R-CNN Dual-ResNet50 基線,第二個設(shè)置是 Triple-ResNet50 基線,其中方程 (8) 中輔助主干的 λ 設(shè)置為零。對于雙主干 (DB) 結(jié)構(gòu),通過將 λ1 設(shè)置為 0.5,基線可以提高 0.8% AP。對于TripleBackbone(TB)結(jié)構(gòu),通過設(shè)置分別設(shè)置{λλ}的值為{0.5,1.0},baseline可以提高1.8% AP。實驗結(jié)果驗證了輔助監(jiān)督形成了一種有效的訓(xùn)練策略,可以提高 CBNetV2 的性能。

      4.4.3 各組成部分的有效性

      為了進一步分析CBNetV2中各個組件的重要性,將復(fù)合主干、DHLC復(fù)合樣式和輔助監(jiān)督逐步應(yīng)用于模型以驗證其有效性。我們在 CBNet [1] 中選擇 AHLC 作為默認復(fù)合樣式。

      image-20211002060412558

      結(jié)果總結(jié)在表 10 中。它表明 DualBackbone (DB) 和 Triple-Backbone (TB) 分別將基線提高了 1.4% 和 1.8% AP。它驗證了我們的復(fù)合骨干結(jié)構(gòu)(CBNet [1])的有效性。DHLC 復(fù)合樣式進一步將 DB 和 TB 的檢測性能提高了 1.0% 以上的 AP。結(jié)果證實,DHLC 實現(xiàn)了更大的感受野,每個級別的特征都從所有更高級別的特征中獲得了豐富的語義信息。輔助督導(dǎo)為DB和TB帶來1.0%的AP增量,得益于輔助骨干的監(jiān)督形成更好的訓(xùn)練策略,提高了牽頭骨干的代表能力。請注意,輔助監(jiān)督在推理階段不會引入額外的參數(shù)。將這三個組件組合在一起時,與基線相比有顯著的改進。具有輔助監(jiān)督的 DHLC 式 DB 和 TB 分別達到 37.9% AP 和 38.9% AP,AP 增量為 +3.3% 和 +4.3%。此外,CBNetV2 在 DB 和 TB 方面分別將 CBNet [1] 提高了 1.8% 和 1.7% AP。簡而言之,CBNetV2 中的每個組件都為檢測器帶來了改進,并且它們相互補充。

      4.4.4 剪枝策略的效率

      image-20211002060353953

      如圖 6 所示,使用 78 剪枝策略,我們的 DualResNet50 系列和 Triple-ResNet50 系列實現(xiàn)了比 ResNet 系列更好的 FLOPs 精度權(quán)衡。這也說明了我們修剪策略的效率。特別是s3中的FLOPs數(shù)相比s4減少了10%,但準確率只下降了0.1%。這是因為修剪階段的權(quán)重在檢測器訓(xùn)練期間是固定的 [48],所以修剪這個階段不會犧牲檢測精度。因此,當需要優(yōu)先考慮速度和內(nèi)存成本時,我們建議在 CBNetV2 中修剪第 2,3,……第 K 個主干中的固定階段。

      4.4.5 不同主干數(shù)量的有效性

      CBNetV2:北大提出的復(fù)合主干網(wǎng)絡(luò),COCO成績60.1%

      image-20211002060316781

      CBNetV2 為了進一步探索 CBNetV2 構(gòu)建高性能檢測器的能力,我們通過控制主干數(shù)量來評估 CBNetV2(s3 版本)的效率。如圖 7 所示,我們改變了主干的數(shù)量(例如,K = 1,2,3,4,5)并將它們的性能和計算成本 (GFLOP) 與 ResNet 系列進行比較。請注意,隨著模型復(fù)雜性的增加,準確率會繼續(xù)增加。與 ResNet152 相比,我們的方法在 K=2 時獲得更高的精度,同時計算成本更低。同時,對于K=3,4,5,精度可以進一步提高。CBNetV2 提供了一種有效且高效的替代方案來提高模型性能,而不是簡單地增加網(wǎng)絡(luò)的深度或?qū)挾取?/p>

      4.5 類激活圖

      為了更好地理解 CBNetV2 的代表性能力,我們使用 Grad-CAM[60] 可視化類激活圖(CAM),它通常用于定位圖像分類和對象檢測的判別區(qū)域。如圖 8 所示,較強的 CAM 區(qū)域被較淺/較暖的顏色覆蓋。為了更好地說明 CBNetV2 的多尺度檢測能力,我們將第 2 階段(用于檢測小物體)的大尺度特征圖和第 5 階段(用于檢測大物體)的小尺度特征圖由我們的 Dual- ResNet50 和 ResNet50。與 ResNet 相比,基于 Dual-ResNet 的 CAM 結(jié)果在第 5 階段特征的大對象上具有更集中的激活圖,例如圖 8 中的“人”、“狗”,而 ResNet 僅部分覆蓋對象或受到干擾背景。另一方面,Dual-ResNet 對具有階段 2 特征的小物體具有更強的區(qū)分能力,例如圖 8(a)中的“kite”,(b)中的“skateboard”,(c)中的“surfboard”,和 (d,e) 中的“網(wǎng)球拍”,而 ResNet 在這些部分幾乎沒有激活。

      5 結(jié)論

      在本文中,我們提出了一種新穎且靈活的主干框架,稱為復(fù)合主干網(wǎng)絡(luò) V2(CBNetV2),以提高尖端目標檢測器的性能。CBNetV2 由一系列具有相同網(wǎng)絡(luò)架構(gòu)的主干并行、Dense Higher-Level Composition 風(fēng)格和輔助監(jiān)督組成。他們共同構(gòu)建了一個強大的代表性骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)在預(yù)訓(xùn)練微調(diào)范式下使用現(xiàn)有的預(yù)訓(xùn)練骨干網(wǎng)絡(luò),這也為目標檢測提供了一種優(yōu)越的方法。CBNetV2 對檢測器架構(gòu)的不同主干和頭部設(shè)計具有很強的泛化能力。大量實驗結(jié)果表明,所提出的 CBNetV2 與各種骨干網(wǎng)絡(luò)兼容,包括基于 CNN(ResNet、ResNeXt、Res2Net)和基于 Transformer(SwinTransformer)的骨干網(wǎng)絡(luò)。同時,CBNetV2比簡單地增加網(wǎng)絡(luò)的深度和寬度更有效和高效。此外,CBNetV2 可以靈活地插入大多數(shù)主流檢測器,包括一級(例如 RetinaNet)和二級(Faster R-CNN、Mask R-CNN、Cascade R-CNN 和 Cascade Mask R-CNN)檢測器,以及基于錨的(例如,F(xiàn)aster R-CNN)和基于錨的(ATSS)的。具體來說,上述檢測器的性能提高了 3% 以上的 AP。特別是,我們的 Dual-Swin-L 在 COCO test-dev 上實現(xiàn)了 59.4% 的 box AP 和 51.6% 的 mask AP 的新記錄,優(yōu)于之前的單模型單尺度結(jié)果。通過多尺度測試,我們在沒有額外訓(xùn)練數(shù)據(jù)的情況下實現(xiàn)了 60.1% 的 box AP 和 52.3% 的 mask AP 的最新最新結(jié)果。

      機器學(xué)習(xí) 網(wǎng)絡(luò)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:想了解人臉識別算法訓(xùn)練,看這篇就夠了!(人臉識別 算法)
      下一篇:一文看懂人臉識別算法技術(shù)發(fā)展脈絡(luò)(人臉識別技術(shù)的算法)
      相關(guān)文章
      午夜亚洲av永久无码精品| 亚洲人成影院77777| 亚洲婷婷在线视频| 久久精品国产亚洲av麻| 亚洲av中文无码乱人伦在线咪咕| 亚洲免费在线播放| 亚洲精品国产国语| 亚洲热线99精品视频| 日韩亚洲综合精品国产| 亚洲AV综合色区无码一二三区 | 亚洲国产精品成人午夜在线观看 | 久久精品国产亚洲av麻豆色欲| 亚洲精品国产字幕久久不卡| 久久无码av亚洲精品色午夜| 亚洲AV无码一区二区三区网址 | 亚洲熟妇AV一区二区三区浪潮| 亚洲成a人在线看天堂无码| 亚洲一级在线观看| 国产亚洲精品AA片在线观看不加载| 亚洲狠狠婷婷综合久久| 亚洲AV无码不卡在线观看下载| 亚洲国产精品免费视频| 亚洲人成在线电影| 亚洲精品乱码久久久久久蜜桃不卡 | 亚洲狠狠爱综合影院婷婷| 1区1区3区4区产品亚洲| 亚洲V无码一区二区三区四区观看| 亚洲激情电影在线| 亚洲国产综合精品中文第一| 亚洲天堂一区二区三区四区| 亚洲日韩人妻第一页| 亚洲国产精品免费观看 | 久久亚洲精品无码播放| 久久久久久久久无码精品亚洲日韩 | 国产AV无码专区亚洲AV麻豆丫 | 亚洲综合免费视频| 久久99国产亚洲高清观看首页| 亚洲福利精品电影在线观看| 久久无码av亚洲精品色午夜| 国产成人亚洲精品91专区高清| 亚洲人成无码网WWW|