第31篇探索普通視覺(jué)Transformer Backbones用于物體檢測(cè)(《視覺(jué)新論》)

      網(wǎng)友投稿 986 2022-05-30

      摘要

      我們探索了普通的、非分層的視覺(jué)轉(zhuǎn)換器(ViT)作為目標(biāo)檢測(cè)的骨干網(wǎng)絡(luò)。這種設(shè)計(jì)使原始 ViT 架構(gòu)能夠針對(duì)對(duì)象檢測(cè)進(jìn)行微調(diào),而無(wú)需重新設(shè)計(jì)用于預(yù)訓(xùn)練的分層主干。通過(guò)對(duì)微調(diào)的最小調(diào)整,我們的普通骨干檢測(cè)器可以獲得具有競(jìng)爭(zhēng)力的結(jié)果。令人驚訝的是,我們觀察到:(i)從單尺度特征圖(沒(méi)有常見(jiàn)的 FPN 設(shè)計(jì))構(gòu)建一個(gè)簡(jiǎn)單的特征金字塔就足夠了;(ii)使用窗口注意力(沒(méi)有移位)就足夠了跨窗口傳播塊。通過(guò)將普通 ViT 主干預(yù)訓(xùn)練為 Masked Autoencoders (MAE),我們的檢測(cè)器 ViTDet 可以與之前所有基于分層主干的領(lǐng)先方法競(jìng)爭(zhēng),僅使用 ImageNet-1K pre 在 COCO 數(shù)據(jù)集上達(dá)到 61.3 APbox -訓(xùn)練。我們希望我們的研究能夠引起人們對(duì)普通骨干檢測(cè)器研究的關(guān)注。代碼即將公開。

      1、簡(jiǎn)介

      現(xiàn)代目標(biāo)檢測(cè)器通常由一個(gè)與檢測(cè)任務(wù)無(wú)關(guān)的主干特征提取器和一組包含特定檢測(cè)先驗(yàn)知識(shí)的頸部和頭部組成。 頸部/頭部中的常見(jiàn)組件可能包括感興趣區(qū)域 (RoI) 操作、區(qū)域建議網(wǎng)絡(luò) (RPN) 或錨點(diǎn)、特征金字塔網(wǎng)絡(luò) (FPN) 等。如果特定任務(wù)的頸部/頭部的設(shè)計(jì)是解耦的 從主干的設(shè)計(jì)來(lái)看,它們可能會(huì)并行發(fā)展。 根據(jù)經(jīng)驗(yàn),目標(biāo)檢測(cè)研究受益于對(duì)通用主干和檢測(cè)特定模塊的很大程度上獨(dú)立探索。 長(zhǎng)期以來(lái),由于卷積網(wǎng)絡(luò) (ConvNet) 的實(shí)際設(shè)計(jì),這些主干一直是多尺度、分層架構(gòu),這嚴(yán)重影響了用于檢測(cè)多尺度對(duì)象的頸部/頭部設(shè)計(jì)(例如 FPN)。

      在過(guò)去的一年中,Vision Transformers (ViT) 已成為視覺(jué)識(shí)別的強(qiáng)大支柱。 與典型的 ConvNet 不同,原始的 ViT 是一個(gè)普通的、非分層的架構(gòu),它始終保持單尺度特征圖。 它的“極簡(jiǎn)主義”追求在應(yīng)用于對(duì)象檢測(cè)時(shí)遇到了挑戰(zhàn)——例如,我們?nèi)绾瓮ㄟ^(guò)上游預(yù)訓(xùn)練的簡(jiǎn)單主干處理下游任務(wù)中的多尺度對(duì)象? 普通的 ViT 是否太低效而無(wú)法用于高分辨率檢測(cè)圖像? 放棄這種追求的一種解決方案是將分層設(shè)計(jì)重新引入主干。 該解決方案,例如 Swin Transformers 和相關(guān)作品 ,可以繼承基于 ConvNet 的檢測(cè)器設(shè)計(jì)并顯示出成功的結(jié)果。

      在這項(xiàng)工作中,我們追求不同的方向:我們探索僅使用普通、非分層主干的目標(biāo)檢測(cè)器。 如果這個(gè)方向成功,它將能夠使用原始的 ViT 主干進(jìn)行對(duì)象檢測(cè); 這將使預(yù)訓(xùn)練設(shè)計(jì)與微調(diào)需求脫鉤,保持上游與下游任務(wù)的獨(dú)立性,就像基于 ConvNet 的研究一樣。 這個(gè)方向也部分遵循了 ViT 在追求通用特征時(shí)“減少歸納偏差”的哲學(xué)。 由于非局部自注意力計(jì)算可以學(xué)習(xí)平移等變特征,它們還可以從某些形式的監(jiān)督或自監(jiān)督預(yù)訓(xùn)練中學(xué)習(xí)尺度等變特征。

      在我們的研究中,我們的目標(biāo)不是開發(fā)新組件。 相反,我們進(jìn)行了足以克服上述挑戰(zhàn)的最小調(diào)整。 特別是,我們的檢測(cè)器僅從普通 ViT 主干的最后一個(gè)特征圖構(gòu)建一個(gè)簡(jiǎn)單的特征金字塔(圖 1)。 這放棄了 FPN 設(shè)計(jì)并放棄了分層主干的要求。 為了有效地從高分辨率圖像中提取特征,我們的檢測(cè)器使用簡(jiǎn)單的非重疊窗口注意力(沒(méi)有“移位”,不像 )。 少數(shù)可能是全局注意力或卷積的跨窗口塊(例如,4 個(gè))用于傳播信息。 這些調(diào)整僅在微調(diào)期間進(jìn)行,不會(huì)改變預(yù)訓(xùn)練。

      事實(shí)證明,我們簡(jiǎn)單的設(shè)計(jì)取得了令人驚訝的結(jié)果。 我們發(fā)現(xiàn),在普通 ViT 主干的情況下,F(xiàn)PN 設(shè)計(jì)不是必需的,并且可以通過(guò)從大步幅 (16) 單比例地圖構(gòu)建的簡(jiǎn)單金字塔有效地獲得它的好處。 我們還發(fā)現(xiàn),只要信息在少量層的窗口中很好地傳播,窗口注意力就足夠了。

      更令人驚訝的是,在某些情況下,我們名為 ViTDet 的普通骨干檢測(cè)器可以與領(lǐng)先的分層骨干檢測(cè)器(例如 Swin 、 MViT )競(jìng)爭(zhēng)。通過(guò) Masked Autoencoder (MAE) [23] 預(yù)訓(xùn)練,我們的普通骨干檢測(cè)器可以優(yōu)于在 ImageNet-1K/21K [11] 上進(jìn)行監(jiān)督預(yù)訓(xùn)練的分層檢測(cè)器(圖 3)。對(duì)于較大的模型,收益更為突出尺寸。我們的檢測(cè)器的競(jìng)爭(zhēng)力是在不同的目標(biāo)檢測(cè)器框架下觀察到的,包括 Mask R-CNN、Cascade Mask R-CNN [4] 及其增強(qiáng)功能。我們?cè)?COCO 數(shù)據(jù)集 [37] 上報(bào)告了 61.3 APbox,具有普通的 ViT-Huge 主干,僅使用沒(méi)有標(biāo)簽的 ImageNet-1K 預(yù)訓(xùn)練。我們還在長(zhǎng)尾 LVIS 檢測(cè)數(shù)據(jù)集上展示了具有競(jìng)爭(zhēng)力的結(jié)果。雖然這些強(qiáng)有力的結(jié)果可能部分歸因于 MAE 預(yù)訓(xùn)練的有效性,但我們的研究表明,普通骨干檢測(cè)器可能是有前途的,它挑戰(zhàn)了用于對(duì)象檢測(cè)的分層骨干的根深蒂固的位置。

      除了這些結(jié)果之外,我們的方法還保留了將特定于檢測(cè)器的設(shè)計(jì)與與任務(wù)無(wú)關(guān)的主干分離的理念。 這種理念與重新設(shè)計(jì) Transformer 主干以支持多尺度層次結(jié)構(gòu)的趨勢(shì)形成鮮明對(duì)比。 在我們的案例中,檢測(cè)特定的先驗(yàn)知識(shí)僅在微調(diào)期間引入,無(wú)需在預(yù)訓(xùn)練中先驗(yàn)地調(diào)整主干設(shè)計(jì)。 這使得我們的檢測(cè)器與沿各個(gè)方向的 ViT 開發(fā)兼容,這些方向不一定受層次約束的限制,例如塊設(shè)計(jì)、自我監(jiān)督學(xué)習(xí)和縮放。 我們希望我們的研究能夠啟發(fā)未來(lái)對(duì)普通骨干目標(biāo)檢測(cè)的研究。

      2、相關(guān)工作

      **對(duì)象檢測(cè)器主干。 **在 R-CNN [20] 的工作的開創(chuàng)下,目標(biāo)檢測(cè)和許多其他視覺(jué)任務(wù)采用了預(yù)訓(xùn)練 + 微調(diào)范式: 通用的、與任務(wù)無(wú)關(guān)的主干通過(guò)監(jiān)督或自我監(jiān)督訓(xùn)練進(jìn)行預(yù)訓(xùn)練,其結(jié)構(gòu)隨后被修改并適應(yīng)下游任務(wù)。 計(jì)算機(jī)視覺(jué)中的主要主干是各種形式的 ConvNets 。

      早期的神經(jīng)網(wǎng)絡(luò)檢測(cè)器在最初呈現(xiàn)時(shí)基于單尺度特征圖。 雖然它們使用默認(rèn)分層的 ConvNet 主干,但原則上它們適用于任何普通主干。 SSD 是首批利用 ConvNet 骨干網(wǎng)的分層特性(例如,VGG 網(wǎng)絡(luò)的最后兩個(gè)階段)的作品之一。 FPN 通過(guò)使用分層主干的所有階段,通過(guò)橫向和自上而下的連接來(lái)進(jìn)一步推動(dòng)這個(gè)方向。 FPN 設(shè)計(jì)廣泛用于目標(biāo)檢測(cè)方法。

      ViT 是用于圖像分類的標(biāo)準(zhǔn) ConvNets 的強(qiáng)大替代方案。 最初的 ViT 是一個(gè)簡(jiǎn)單的、非分層的架構(gòu)。 已經(jīng)提出了各種分層 Transformer,例如 Swin、MViT、PVT和 PiT。這些方法繼承了 ConvNets 的一些設(shè)計(jì),包括層次結(jié)構(gòu)和平移等變先驗(yàn)(例如,卷積、池化、滑動(dòng)窗口)。 因此,用這些主干替換 ConvNet 來(lái)進(jìn)行目標(biāo)檢測(cè)相對(duì)簡(jiǎn)單。

      普通骨干檢測(cè)器。 ViT 的成功激發(fā)了人們推動(dòng)目標(biāo)檢測(cè)的普通骨干的前沿。 最近,UViT 被呈現(xiàn)為用于對(duì)象檢測(cè)的單尺度 Transformer。 UViT 在目標(biāo)檢測(cè)指標(biāo)下研究普通 ViT 主干的網(wǎng)絡(luò)寬度、深度和輸入分辨率。 提出了一種漸進(jìn)式窗口注意策略來(lái)解決高分辨率輸入問(wèn)題。 與在預(yù)訓(xùn)練期間修改架構(gòu)的 UViT 不同,我們的研究側(cè)重于沒(méi)有先驗(yàn)規(guī)范的原始 ViT 架構(gòu)進(jìn)行檢測(cè)。 我們的研究保持了主干的任務(wù)不可知性,因此它可以支持廣泛的可用 ViT 主干以及它們?cè)谖磥?lái)的改進(jìn)。 我們的方法將主干設(shè)計(jì)與檢測(cè)任務(wù)分離,這是追求普通主干的關(guān)鍵動(dòng)機(jī)。

      UViT 使用單尺度特征圖作為探測(cè)器頭,而我們的方法在單尺度主干上構(gòu)建了一個(gè)簡(jiǎn)單的金字塔。 在我們研究的背景下,整個(gè)檢測(cè)器必須是單尺度的,這是不必要的限制。 請(qǐng)注意,完整的 UViT 檢測(cè)器也有多種形式的多尺度先驗(yàn)(例如,RPN 和 RoIAlign),因?yàn)樗?Cascade Mask R-CNN [4]。 在我們的研究中,我們專注于利用預(yù)訓(xùn)練的普通骨干,我們不限制探測(cè)器頸部/頭部的設(shè)計(jì)。

      對(duì)象檢測(cè)方法。 對(duì)象檢測(cè)是一個(gè)蓬勃發(fā)展的研究領(lǐng)域,它采用了具有不同屬性的方法——例如,兩階段與單階段、基于錨點(diǎn)與無(wú)錨點(diǎn)、基于區(qū)域與基于查詢(DETR)。 對(duì)不同方法的研究不斷推進(jìn)對(duì)目標(biāo)檢測(cè)問(wèn)題的理解。 我們的研究表明,“普通與分層”主干的主題值得探索,并可能帶來(lái)新的見(jiàn)解。

      3、方法

      我們的目標(biāo)是消除對(duì)骨干網(wǎng)的分層約束,并啟用對(duì)普通骨干網(wǎng)目標(biāo)檢測(cè)的探索。 為此,我們的目標(biāo)是進(jìn)行最少的修改,以僅在微調(diào)期間使簡(jiǎn)單的主干適應(yīng)目標(biāo)檢測(cè)任務(wù)。 在這些適應(yīng)之后,原則上可以應(yīng)用任何檢測(cè)器頭,為此我們選擇使用 Mask R-CNN及其擴(kuò)展。 我們的目標(biāo)不是開發(fā)新組件; 相反,我們專注于在我們的探索中可以得出哪些新見(jiàn)解。

      簡(jiǎn)單的特征金字塔。 FPN 是構(gòu)建用于目標(biāo)檢測(cè)的網(wǎng)絡(luò)內(nèi)金字塔的常見(jiàn)解決方案。 如果主干是分層的,F(xiàn)PN 的動(dòng)機(jī)是結(jié)合早期階段的高分辨率特征和后期階段的更強(qiáng)特征。 這是在 FPN 中通過(guò)自上而下和橫向連接實(shí)現(xiàn)的 [35](圖 1 左)。

      如果主干是非分層的,那么 FPN 動(dòng)機(jī)的基礎(chǔ)就會(huì)丟失,因?yàn)橹鞲芍械乃刑卣鲌D都具有相同的分辨率。 在我們的場(chǎng)景中,我們僅使用主干中的最后一個(gè)特征圖,它應(yīng)該具有最強(qiáng)的特征。 在這張地圖上,我們并行應(yīng)用一組卷積或反卷積來(lái)生成多尺度特征圖。 具體來(lái)說(shuō),使用尺度為

      1

      16

      \frac{1}{16}

      161 (步幅 = 16)的默認(rèn) ViT 特征圖,我們使用步幅

      {

      2

      ,

      1

      ,

      【第31篇】探索普通視覺(jué)Transformer Backbones用于物體檢測(cè)(《視覺(jué)新論》)

      1

      2

      ,

      1

      4

      }

      \left\{2,1, \frac{1}{2}, \frac{1}{4}\right\}

      {2,1,21 ,41 },其中小數(shù)步幅表示反卷積,產(chǎn)生多種尺度

      {

      1

      32

      ,

      1

      16

      ,

      1

      8

      ,

      1

      4

      }

      \left\{\frac{1}{32}, \frac{1}{16}, \frac{1}{8}, \frac{1}{4}\right\}

      {321 ,161 ,81 ,41 }的特征。 我們將其稱為“簡(jiǎn)單特征金字塔”(圖 1 右)。

      從單個(gè)地圖構(gòu)建多尺度特征圖的策略與 SSD 的策略有關(guān)。 然而,我們的場(chǎng)景涉及從深度、低分辨率的特征圖進(jìn)行上采樣,這與 不同,它利用了較淺的特征圖。 在分層主干中,上采樣通常由橫向連接輔助; 在普通的 ViT 主干中,我們憑經(jīng)驗(yàn)發(fā)現(xiàn)這不是必需的(第 4 節(jié)),簡(jiǎn)單的反卷積就足夠了。 我們假設(shè)這是因?yàn)?ViT 可以依賴位置嵌入來(lái)編碼位置,并且還因?yàn)楦呔S ViT 補(bǔ)丁嵌入不一定會(huì)丟棄信息。

      我們將與同樣建立在普通主干上的兩個(gè) FPN 變體進(jìn)行比較(圖 2)。 在第一個(gè)變體中,主干被人為地分為多個(gè)階段,以模仿分層主干的各個(gè)階段,并應(yīng)用橫向和自上而下的連接(圖 2(a))。 第二個(gè)變體與第一個(gè)變體類似,但僅使用最后一個(gè)映射而不是劃分的階段(圖 2 (b))。 我們表明這些 FPN 變體不是必需的(第 4 節(jié))。

      骨干適應(yīng)。 目標(biāo)檢測(cè)器受益于高分辨率輸入圖像,但在整個(gè)主干中計(jì)算全局自注意力在內(nèi)存中是令人望而卻步的,而且速度很慢。 在這項(xiàng)研究中,我們關(guān)注預(yù)訓(xùn)練的主干執(zhí)行全局自我注意的場(chǎng)景,然后在微調(diào)期間適應(yīng)更高分辨率的輸入。 這與最近使用骨干預(yù)訓(xùn)練直接修改注意力計(jì)算的方法形成對(duì)比(例如,[40,16])。 我們的場(chǎng)景使我們能夠使用原始的 ViT 主干進(jìn)行檢測(cè),而無(wú)需重新設(shè)計(jì)預(yù)訓(xùn)練架構(gòu)。

      我們探索使用帶有幾個(gè)跨窗口塊的窗口注意力[52]。 在微調(diào)期間,給定一個(gè)高分辨率特征圖,我們將其劃分為規(guī)則的非重疊窗口。在每個(gè)窗口內(nèi)計(jì)算自注意力。 這在原始 Transformer [52] 中被稱為“受限”自注意力。

      與 Swin 不同,我們不會(huì)跨層“移動(dòng)”[40] 窗口。 為了允許信息傳播,我們使用了極少數(shù)(默認(rèn)情況下,4 個(gè))可以跨窗口的塊。 我們將預(yù)訓(xùn)練的主干平均分成 4 個(gè)塊子集(例如,對(duì)于 24 塊 ViT-L,每個(gè)子集中有 6 個(gè))。 我們?cè)诿總€(gè)子集的最后一個(gè)塊中應(yīng)用傳播策略。 我們研究這兩種策略:

      (i) 全局傳播。 我們?cè)诿總€(gè)子集的最后一個(gè)塊中執(zhí)行全局自我注意。 由于全局塊的數(shù)量很少,內(nèi)存和計(jì)算成本是可行的。 這類似于 [32] 中與 FPN 聯(lián)合使用的混合窗口注意力。

      (ii) 卷積傳播。 作為替代方案,我們?cè)诿總€(gè)子集之后添加一個(gè)額外的卷積塊。 卷積塊是一個(gè)殘差塊[26],由一個(gè)或多個(gè)卷積和一個(gè)恒等快捷方式組成。 該塊中的最后一層被初始化為零,因此該塊的初始狀態(tài)是一個(gè)身份[21]。 將塊初始化為身份允許我們將其插入到預(yù)訓(xùn)練主干中的任何位置,而不會(huì)破壞主干的初始狀態(tài)。

      我們的骨干適應(yīng)很簡(jiǎn)單,并且使檢測(cè)微調(diào)與全局自注意力預(yù)訓(xùn)練兼容。 如前所述,沒(méi)有必要重新設(shè)計(jì)預(yù)訓(xùn)練架構(gòu)。

      討論。 對(duì)象檢測(cè)器包含可以與任務(wù)無(wú)關(guān)的組件,例如主干,以及其他特定于任務(wù)的組件,例如 RoI 頭。 這種模型分解使與任務(wù)無(wú)關(guān)的組件能夠使用非檢測(cè)數(shù)據(jù)(例如 ImageNet)進(jìn)行預(yù)訓(xùn)練,這可能會(huì)提供一個(gè)優(yōu)勢(shì),因?yàn)闄z測(cè)訓(xùn)練數(shù)據(jù)相對(duì)稀缺。

      從這個(gè)角度來(lái)看,追求包含較少歸納偏差的主干變得合理,因?yàn)榭梢允褂么笠?guī)模數(shù)據(jù)和/或自我監(jiān)督來(lái)有效地訓(xùn)練主干。 相比之下,檢測(cè)任務(wù)特定組件的可用數(shù)據(jù)相對(duì)較少,并且仍可能受益于額外的歸納偏差。 雖然追求具有較少感應(yīng)偏差的檢測(cè)頭是一個(gè)活躍的工作領(lǐng)域,但像 DETR 這樣的領(lǐng)先方法難以訓(xùn)練并且仍然受益于特定于檢測(cè)的先驗(yàn)知識(shí) 。

      在這些觀察的推動(dòng)下,我們的工作在檢測(cè)器的主干方面遵循了原始普通 ViT 論文的精神。 雖然 ViT 論文的討論側(cè)重于減少平移等變的歸納偏差,但在我們的案例中,它是關(guān)于在主干中的尺度等變上減少甚至沒(méi)有歸納偏差。 我們假設(shè)普通主干實(shí)現(xiàn)尺度等方差的方法是從數(shù)據(jù)中學(xué)習(xí)先驗(yàn)知識(shí),類似于它如何在沒(méi)有卷積的情況下學(xué)習(xí)平移等方差和局部性。

      我們的目標(biāo)是證明這種方法的可行性。 因此,我們選擇使用標(biāo)準(zhǔn)檢測(cè)特定組件(即,Mask R-CNN 及其擴(kuò)展)來(lái)實(shí)現(xiàn)我們的方法。 在檢測(cè)頭中探索更少的感應(yīng)偏差是未來(lái)工作的一個(gè)開放且有趣的方向。 我們希望它可以從我們這里的工作中受益,并在此基礎(chǔ)上再接再厲。

      執(zhí)行。 我們使用 vanilla ViT-B、ViT-L、ViT-H [13] 作為預(yù)訓(xùn)練主干。 我們將塊大小設(shè)置為 16,因此特征圖比例為 1/16,即步幅 = 16。我們的檢測(cè)器頭遵循 Mask R-CNN [24] 或 Cascade Mask R-CNN [4],其架構(gòu)細(xì)節(jié)在 附錄。 輸入圖像為 1024×1024,在訓(xùn)練期間通過(guò)大規(guī)模抖動(dòng) [18] 進(jìn)行了增強(qiáng)。 由于這種重度正則化,我們?cè)?COCO 中微調(diào)了多達(dá) 100 個(gè) epoch。 我們使用 AdamW 優(yōu)化器 [41] 并使用基線版本搜索最佳超參數(shù)。 更多細(xì)節(jié)在附錄中。

      4、實(shí)驗(yàn)

      4.1 消融研究與分析

      我們?cè)?COCO 數(shù)據(jù)集 [37] 上進(jìn)行消融實(shí)驗(yàn)。 我們?cè)?train2017 split 上進(jìn)行訓(xùn)練并在 val2017 split 上進(jìn)行評(píng)估。 我們報(bào)告了邊界框?qū)ο髾z測(cè)(APbox)和實(shí)例分割(APmask)的結(jié)果。

      默認(rèn)情況下,我們使用第 3 節(jié)中描述的簡(jiǎn)單特征金字塔和全局傳播。 我們使用 4 個(gè)傳播塊,均勻地放置在主干中。 我們使用在不帶標(biāo)簽的 IN-1K 上預(yù)訓(xùn)練的 MAE [23] 初始化主干。 我們消除這些默認(rèn)值并討論我們的主要觀察結(jié)果如下。

      一個(gè)簡(jiǎn)單的特征金字塔就足夠了。 在表 1 中,我們比較了圖 2 所示的特征金字塔構(gòu)建策略。

      我們研究了沒(méi)有特征金字塔的基線:RPN 和 RoI 頭都應(yīng)用于主干的最終單尺度 (

      1

      16

      \frac{1}{16}

      161 ) 特征圖。 這種情況類似于 FPN 提出之前的原始 Faster R-CNN。 所有特征金字塔變體(表 1 a-c)都明顯優(yōu)于此基線,將 AP 提高多達(dá) 3.4 個(gè)點(diǎn)。 我們注意到,使用單尺度特征圖并不意味著檢測(cè)器是單尺度的:RPN 頭部具有多尺度錨點(diǎn),而 RoI 頭部在多尺度區(qū)域上運(yùn)行。 即便如此,特征金字塔還是有益的。 這一觀察結(jié)果與 FPN 論文中關(guān)于分層主干的觀察結(jié)果一致。

      但是,不需要 FPN 設(shè)計(jì),我們簡(jiǎn)單的特征金字塔足以讓普通的 ViT 主干享受金字塔的好處。 為了消除這種設(shè)計(jì),我們模仿 FPN 架構(gòu)(即自上而下和橫向連接),如圖 2(a,b)所示。 表 1 (a, b) 表明,雖然兩種 FPN 變體在沒(méi)有金字塔的情況下都在基線上實(shí)現(xiàn)了強(qiáng)大的增益(正如在分層主干上使用原始 FPN 廣泛觀察到的那樣),但它們并不比我們簡(jiǎn)單的特征金字塔好。 最初的 FPN [35] 是通過(guò)將低分辨率、更強(qiáng)的特征圖與更高分辨率、更弱的特征圖結(jié)合起來(lái)的。 當(dāng)主干很平坦并且沒(méi)有高分辨率地圖時(shí),這個(gè)基礎(chǔ)就失去了,這可以解釋為什么我們的簡(jiǎn)單金字塔就足夠了。

      我們的消融表明,金字塔特征圖集,而不是自上而下/橫向連接,是有效多尺度檢測(cè)的關(guān)鍵。 為了看到這一點(diǎn),我們研究了一個(gè)更加激進(jìn)的簡(jiǎn)單金字塔案例:我們通過(guò)反卷積僅生成最精細(xì)的尺度 (1 4) 特征圖,然后從這個(gè)最好的地圖中,我們通過(guò)跨步平均池化并行對(duì)其他尺度進(jìn)行子采樣。 此設(shè)計(jì)中沒(méi)有非共享的按比例參數(shù)。 這個(gè)非常簡(jiǎn)單的金字塔幾乎一樣好:它有 54.5 AP (ViT-L),比沒(méi)有金字塔的基線高 3.3。 這顯示了金字塔特征圖的重要性。 對(duì)于這些特征金字塔的任何變體,錨點(diǎn)(在 RPN 中)和區(qū)域(在 RoI 頭中)根據(jù)它們的尺度映射到金字塔中的相應(yīng)級(jí)別,如 [35] 中所示。 我們假設(shè)這種顯式的尺度等變映射,而不是自上而下/橫向連接,是特征金字塔可以極大地有益于多尺度目標(biāo)檢測(cè)的主要原因。

      在一些傳播塊的幫助下,窗口注意力就足夠了。 表 2 消除了我們的骨干適應(yīng)方法。 簡(jiǎn)而言之,在具有純窗口注意力且沒(méi)有跨窗口傳播塊(表 2,“無(wú)”)的基線之上,各種傳播方式都可以顯示出不錯(cuò)的收益。

      在表 2a 中,我們比較了我們的全局和卷積傳播策略與無(wú)傳播基線。 它們比基線有 1.7 和 1.9 的增益。 我們還與“移位窗口”(Swin [40])策略進(jìn)行了比較,其中窗口網(wǎng)格每隔一個(gè)塊移動(dòng)半個(gè)窗口大小。 移位窗口變體比基線有 1.1 的增益,但比我們的差。 請(qǐng)注意,這里我們只關(guān)注 Swin [40] 的“移位窗口”方面:主干仍然是一個(gè)普通的 ViT,僅在微調(diào)期間適應(yīng)移位窗口注意力; 它不是 Swin 架構(gòu),我們將在后面進(jìn)行比較。

      表 2b 比較了用于卷積傳播的不同類型的殘差塊。 我們研究了基本的(兩個(gè) 3×3)、瓶頸(1×1→3×3→1×1),以及一個(gè)具有一個(gè) 3×3 卷積的原始?jí)K。 它們都比基線有所改進(jìn),而特定的塊設(shè)計(jì)僅產(chǎn)生微小的差異。 有趣的是,即使卷積是一種局部操作,如果它的感受野覆蓋了兩個(gè)相鄰的窗口,原則上連接兩個(gè)窗口的所有像素就足夠了。 這種連接性要?dú)w功于后續(xù)塊中兩個(gè)窗口中的自我關(guān)注。 這可以解釋為什么它可以像全局傳播一樣執(zhí)行。

      在表 2c 中,我們研究了跨窗口傳播應(yīng)該位于主干的哪個(gè)位置。 默認(rèn)情況下,平均放置 4 個(gè)全局傳播塊。 我們將它們放在第一個(gè)或最后 4 個(gè)塊中進(jìn)行比較。 有趣的是,在最后 4 個(gè)塊中執(zhí)行傳播幾乎與均勻放置一樣好。 這與 [13] 中的觀察結(jié)果一致,即 ViT 在后面的塊中具有更長(zhǎng)的注意力距離,并且在早期的塊中更加本地化。 相反,僅在前 4 個(gè)塊中執(zhí)行傳播沒(méi)有顯示增益:在這種情況下,在這 4 個(gè)塊之后沒(méi)有跨主干窗口的傳播。 這再次表明跨窗口傳播是有幫助的。

      表 2d 比較了要使用的全局傳播塊的數(shù)量。 即使只使用 2 個(gè)塊也能達(dá)到很好的準(zhǔn)確性,并且明顯優(yōu)于基線。 為了全面起見(jiàn),我們還報(bào)告了一個(gè)變體,其中 ViT-L 中的所有 24 個(gè)塊都使用全局注意力。 這比我們的 4 塊默認(rèn)值有 0.5 個(gè)點(diǎn)的邊際增益,而它的訓(xùn)練需要特殊的內(nèi)存優(yōu)化(我們使用內(nèi)存檢查點(diǎn) [7])。 這一要求使得擴(kuò)展到更大的模型(如 ViT-H)變得不切實(shí)際。 我們的窗口注意力解決方案加上一些傳播塊提供了一個(gè)實(shí)用的、高性能的折衷方案。

      我們?cè)诒?3 中對(duì)這種權(quán)衡進(jìn)行了基準(zhǔn)測(cè)試。使用 4 個(gè)傳播塊可以進(jìn)行很好的權(quán)衡。 卷積傳播是最實(shí)用的,它只增加了 ≤5% 的內(nèi)存和時(shí)間,而代價(jià)是增加了 4% 的參數(shù)。 使用 4 個(gè)塊進(jìn)行全局傳播也是可行的,并且不會(huì)增加模型大小。 所有 24 個(gè)區(qū)塊的全局自注意力是不切實(shí)際的。

      總之,表 2 表明各種形式的傳播是有幫助的,而我們可以在大多數(shù)或所有塊中繼續(xù)使用窗口注意力。 重要的是,所有這些架構(gòu)調(diào)整僅在微調(diào)期間執(zhí)行; 他們不需要重新設(shè)計(jì)預(yù)訓(xùn)練架構(gòu)。

      Masked Autoencoders 提供了強(qiáng)大的預(yù)訓(xùn)練主干。 表 4 比較骨干預(yù)訓(xùn)練策略。 IN-1K 上的監(jiān)督預(yù)訓(xùn)練比沒(méi)有預(yù)訓(xùn)練稍差,類似于 [18] 中的觀察結(jié)果。 對(duì)于 ViT-L,IN-21K 的監(jiān)督預(yù)訓(xùn)練略好一些。

      相比之下,在 IN-1K(無(wú)標(biāo)簽)上的 MAE [23] 預(yù)訓(xùn)練顯示出巨大的收益,ViT-B 的 APbox 增加了 3.1,ViT-L 的 APbox 增加了 4.6。 我們假設(shè),具有較少歸納偏差的 vanilla ViT [13] 可能需要更高的容量來(lái)學(xué)習(xí)翻譯和縮放等變特征,而更高容量的模型容易出現(xiàn)嚴(yán)重的過(guò)度擬合。 MAE 預(yù)訓(xùn)練可以幫助緩解這個(gè)問(wèn)題。 接下來(lái),我們將在上下文中討論有關(guān) MAE 的更多信息。

      4.2 與分層骨干網(wǎng)的比較

      現(xiàn)代檢測(cè)系統(tǒng)涉及許多實(shí)現(xiàn)細(xì)節(jié)和微妙之處。 為了專注于在盡可能公平的條件下比較骨干網(wǎng),我們將 Swin [40] 和 MViTv2 [32] 骨干網(wǎng)合并到我們的實(shí)現(xiàn)中。

      設(shè)置。 我們對(duì)所有 ViT、Swin 和 MViTv2 主干使用相同的 Mask R-CNN 和 Cascade Mask R-CNN [4] 實(shí)現(xiàn)。 我們將 FPN 用于 Swin/MViTv2 的分層主干。 我們分別為每個(gè)主干搜索最佳超參數(shù)(見(jiàn)附錄)。 我們的 Swin 結(jié)果比原始論文中的同行要好; 我們的 MViTv2 結(jié)果優(yōu)于或與 [32]中報(bào)告的結(jié)果相當(dāng)。

      在原始論文 [40,32] 之后,Swin 和 MViTv2 都使用相對(duì)位置偏差 [44]。 為了更公平的比較,這里我們還根據(jù) [32] 在 ViT 主干中采用相對(duì)位置偏差,但僅在微調(diào)期間,不影響預(yù)訓(xùn)練。 這種添加將 AP 提高了 ~1 個(gè)點(diǎn)。 請(qǐng)注意,我們?cè)?4.1 節(jié)中的消融沒(méi)有相對(duì)位置偏差 。

      結(jié)果和分析。 表 5 顯示了比較。 圖 3 繪制了權(quán)衡。 這里的比較涉及兩個(gè)因素:主干和預(yù)訓(xùn)練策略。 我們的普通骨干檢測(cè)器與 MAE 預(yù)訓(xùn)練相結(jié)合,呈現(xiàn)出更好的縮放行為。 當(dāng)模型很大時(shí),我們的方法優(yōu)于 Swin/MViTv2 的分層模型,包括使用 IN-21K 監(jiān)督預(yù)訓(xùn)練的模型。 我們使用 ViT-H 的結(jié)果比使用 MViTv2-H 的結(jié)果好 2.6。此外,普通 ViT 具有更好的掛鐘性能(圖 3 右,參見(jiàn) ViT-H 與 MViTv2-H),因?yàn)楦?jiǎn)單的塊更多硬件友好。

      我們還注意到,分層主干通常涉及增強(qiáng)的自注意力塊設(shè)計(jì)。 示例包括 Swin [40] 中的移位窗口注意力和 MViT v1/v2 [16,32] 中的集中注意力。 如果將這些塊設(shè)計(jì)應(yīng)用于普通骨干網(wǎng),還可以提高準(zhǔn)確性和參數(shù)效率。 雖然這可能會(huì)使我們的競(jìng)爭(zhēng)對(duì)手處于優(yōu)勢(shì)地位,但如果沒(méi)有這些增強(qiáng)功能,我們的方法仍然具有競(jìng)爭(zhēng)力。

      4.3 與以前系統(tǒng)的比較

      接下來(lái),我們提供與之前論文中報(bào)告的領(lǐng)先結(jié)果的系統(tǒng)級(jí)比較。 我們將我們的系統(tǒng)稱為 ViTDet,即 ViT Detector,旨在使用 ViT 主干進(jìn)行檢測(cè)。 由于這些比較是系統(tǒng)級(jí)的,因此這些方法使用了各種不同的技術(shù)。 雖然我們努力平衡比較(如下所述),但一般來(lái)說(shuō),進(jìn)行完全可控的比較是不可行的; 相反,我們的目標(biāo)是將我們的方法置于當(dāng)前領(lǐng)先方法的背景下。

      COCO上的比較。 表 6 報(bào)告了 COCO 的系統(tǒng)級(jí)比較。 為了更公平的比較,我們?cè)诟?jìng)爭(zhēng)對(duì)手的基礎(chǔ)上進(jìn)行了兩項(xiàng)更改:我們采用了該表中所有競(jìng)爭(zhēng)對(duì)手 [40,32,34,39] 使用的 soft-nms [3],并增加了輸入大小(從 1024 到 1280 ) 在 [34,39] 之后。 我們注意到我們沒(méi)有在以前的消融中使用這些改進(jìn)。 與上一小節(jié)(第 4.3 節(jié))一樣,我們?cè)谶@里使用相對(duì)位置偏差。

      迄今為止,領(lǐng)先的系統(tǒng)都基于分層主干(表 6)。 我們首次展示了普通主干檢測(cè)器可以在 COCO 上獲得高度準(zhǔn)確的結(jié)果,并且可以與領(lǐng)先的系統(tǒng)競(jìng)爭(zhēng)。

      我們還與最近的普通骨干檢測(cè)方法 UViT [8] 進(jìn)行了比較。 正如第 2 節(jié)中所討論的,UViT 和我們的工作有不同的側(cè)重點(diǎn)。 UViT 旨在設(shè)計(jì)一個(gè)有利于檢測(cè)的新的普通骨干網(wǎng),而我們的目標(biāo)是支持通用的 ViT 骨干網(wǎng),包括 [13] 中的原始骨干網(wǎng)。 盡管關(guān)注點(diǎn)不同,UViT 和我們的工作都表明,plainbackbone 檢測(cè)是一個(gè)很有前途的方向,潛力巨大。

      LVIS 上的比較。 我們進(jìn)一步報(bào)告了 LVIS 數(shù)據(jù)集 [22] 上的系統(tǒng)級(jí)比較。 LVIS 包含 200 萬(wàn)個(gè)高質(zhì)量實(shí)例分割注釋,用于 1203 個(gè)類別,表現(xiàn)出自然的長(zhǎng)尾對(duì)象分布。 與 COCO 不同,類分布嚴(yán)重不平衡,許多類的訓(xùn)練示例很少(例如,<10)。

      我們遵循與 COCO 系統(tǒng)級(jí)比較相同的模型和訓(xùn)練細(xì)節(jié)以及兩個(gè)常見(jiàn)的 LVIS 實(shí)踐:我們使用來(lái)自 [57] 的聯(lián)合損失和具有重復(fù)因子采樣的樣本圖像 [22]。我們?cè)?v1 訓(xùn)練拆分上微調(diào)了 100 個(gè) epoch。

      表 7 顯示了 v1 val 拆分的結(jié)果。我們的普通骨干檢測(cè)器實(shí)現(xiàn)了與之前所有使用分層骨干的領(lǐng)先結(jié)果相比具有競(jìng)爭(zhēng)力的性能。我們的比 2021 年比賽獲勝者的“強(qiáng)基線”[17](48.1 vs. 43.1 APmask)高 5.0 分,后者使用 HTC 和結(jié)合了兩個(gè) Swin-L 主干的 CBNetV2 [34]。 LVIS 的一個(gè)特殊問(wèn)題是關(guān)于長(zhǎng)尾分布,這超出了我們的研究范圍。專門針對(duì)這個(gè)問(wèn)題的技術(shù),例如,使用 CLIP [42] 文本嵌入或 [17] 中的其他改進(jìn),可以在很大程度上增加稀有類的 AP(APmask 稀有),從而提高整體 AP。這些與我們的方法正交,可以互補(bǔ)。盡管如此,我們?cè)?LVIS 上的結(jié)果再次表明,plainbackbone 檢測(cè)器可以與分層檢測(cè)器競(jìng)爭(zhēng)。

      5 結(jié)論

      我們的探索表明,plain-backbone 檢測(cè)是一個(gè)很有前途的研究方向。 這種方法在很大程度上保持了通用主干和下游特定任務(wù)設(shè)計(jì)的獨(dú)立性——這在基于 ConvNet 的研究中是這種情況,但在基于 Transformer 的研究中卻不是。 我們希望將預(yù)訓(xùn)練與微調(diào)分離是一種普遍有益于社區(qū)的方法。 例如,在自然語(yǔ)言處理 (NLP) 中,通用預(yù)訓(xùn)練 (GPT [43]、BERT [12]) 極大地推動(dòng)了該領(lǐng)域的發(fā)展,并一直支持各種下游任務(wù)。 在這項(xiàng)研究中,我們的普通骨干檢測(cè)器受益于 MAE [23] 中現(xiàn)成的預(yù)訓(xùn)練模型。 我們希望這種方法也有助于拉近計(jì)算機(jī)視覺(jué)和 NLP 領(lǐng)域的距離。

      神經(jīng)網(wǎng)絡(luò)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:詳細(xì)介紹OAuth2.0及實(shí)現(xiàn)和SpringSecurity的整合應(yīng)用(springsecurity oauth2.0)
      下一篇:excel表格設(shè)置下拉選項(xiàng)的方法(excel表格中設(shè)置下拉選項(xiàng))
      相關(guān)文章
      中文国产成人精品久久亚洲精品AⅤ无码精品| 亚洲欧美日韩中文字幕在线一区| 亚洲AV无码成人网站在线观看| 亚洲国产成人久久77| 亚洲视频一区在线播放| 老司机亚洲精品影院无码 | 国产成人精品亚洲日本在线| 亚洲福利一区二区| 亚洲黄色网址大全| 亚洲综合激情九月婷婷| 亚洲天天做日日做天天看| 亚洲av综合avav中文| 亚洲AV成人一区二区三区AV| 亚洲色婷婷六月亚洲婷婷6月| 国产亚洲av片在线观看16女人| 亚洲国产美女精品久久久久∴| 亚洲精品乱码久久久久久蜜桃不卡 | 中文字幕亚洲综合久久| 亚洲五月激情综合图片区| 亚洲嫩草影院久久精品| 久久精品a亚洲国产v高清不卡| 久久综合亚洲鲁鲁五月天| 亚洲福利秒拍一区二区| 亚洲一区二区免费视频| 亚洲色最新高清av网站| 色欲aⅴ亚洲情无码AV蜜桃| 无码色偷偷亚洲国内自拍| 亚洲男人的天堂在线va拉文| 一本久久a久久精品亚洲| 亚洲VA中文字幕不卡无码| 亚洲第一精品在线视频| 亚洲欧洲精品久久| 一本色道久久综合亚洲精品蜜桃冫| 亚洲AV无码AV吞精久久| 亚洲 综合 国产 欧洲 丝袜 | 亚洲国产精品久久久久秋霞影院| 亚洲偷自精品三十六区| 亚洲精品宾馆在线精品酒店 | 亚洲精品在线视频| 国产亚洲成AV人片在线观黄桃| 亚洲一区二区三区日本久久九|