亚洲真人无码永久在线观看,亚洲AV日韩综合一区尤物,亚洲日韩精品无码专区加勒比

力壓Tramsformer，ConvNeXt成了CNN的希望

網友投稿 1341 2025-03-31

論文鏈接：https://arxiv.org/pdf/2201.03545.pdf

代碼鏈接：https://github.com/facebookresearch/ConvNeXt

視覺識別的“咆哮的 20 年代”始于 Vision Transformers (ViTs) 的引入，它迅速取代了 ConvNets，成為最先進的圖像分類模型。另一方面，普通的 ViT 在應用于目標檢測和語義分割等一般計算機視覺任務時面臨困難。正是分層 Transformers（例如，Swin Transformers）重新引入了幾個 ConvNet 先驗，使 Transformers 作為通用視覺骨干實際上可行，并在各種視覺任務上表現出卓越的性能。然而，這種混合方法的有效性在很大程度上仍歸功于 Transformer 的內在優勢，而不是卷積固有的歸納偏差。在這項工作中，我們重新檢查了設計空間并測試了純 ConvNet 所能達到的極限。我們逐漸將標準 ResNet “現代化”為視覺 Transformer 的設計，并在此過程中發現了導致性能差異的幾個關鍵組件。這一探索的結果是一系列純 ConvNet 模型，稱為 ConvNeXt。 ConvNeXts 完全由標準 ConvNet 模塊構建，在準確性和可擴展性方面與 Transformer 競爭，實現 87.8% ImageNet top-1 準確率，在 COCO 檢測和 ADE20K 分割方面優于 Swin Transformers，同時保持標準 ConvNet 的簡單性和效率。

1、簡介

回顧 2010 年代，這十年以深度學習的巨大進步和影響為標志。主要驅動力是神經網絡的復興，特別是卷積神經網絡 (ConvNets)。十年來，視覺識別領域成功地從工程特征轉向設計（ConvNet）架構。盡管反向傳播訓練的卷積神經網絡的發明可以追溯到 1980 年代 [39]，但直到 2012 年底我們才看到它在視覺特征學習方面的真正潛力。 AlexNet [37] 的引入沉淀了“ImageNet 時刻”[56]，開創了計算機視覺的新時代。此后，該領域迅速發展。 VGGNet [61]、Inceptions [64]、ResNe(X)t [26, 82]、DenseNet [33]、MobileNet [32]、EfficientNet [67] 和 RegNet [51] 等代表性 ConvNet 專注于準確性的不同方面，效率和可擴展性，并推廣了許多有用的設計原則。

ConvNets 在計算機視覺中的完全主導地位并非巧合：在許多應用場景中，“滑動窗口”策略是視覺處理所固有的，尤其是在處理高分辨率圖像時。 ConvNets 有幾個內置的歸納偏置，使它們非常適合各種計算機視覺應用。最重要的一個是平移等方差，這是對象檢測等任務的理想屬性。由于當以滑動窗口方式使用時，計算是共享的 [59]，因此 ConvNets 本質上也是高效的。幾十年來，這一直是 ConvNets 的默認用途，通常用于有限的對象類別，例如數字 [40]、人臉 [55,71] 和行人 [17,60]。進入 2010 年代，基于區域的檢測器 [21, 22, 25, 54] 進一步將 ConvNets 提升到成為視覺識別系統中基本構建塊的位置。

大約在同一時間，自然語言處理 (NLP) 的神經網絡設計之旅走上了一條截然不同的道路，因為 Transformers 取代了循環神經網絡成為主導的主干架構。盡管語言和視覺領域之間感興趣的任務存在差異，但隨著視覺轉換器 (ViT) 的引入徹底改變了網絡架構設計的格局，這兩個流在 2020 年令人驚訝地融合了。除了最初的“patchify”層將圖像分割成一系列補丁之外，ViT 沒有引入圖像特定的歸納偏差，并且對原始 NLP 變換器進行了最小的更改。 ViT 的一個主要關注點是縮放行為：借助更大的模型和數據集大小，Transformers 可以顯著優于標準 ResNet。這些圖像分類任務的結果令人鼓舞，但計算機視覺不僅限于圖像分類。如前所述，過去十年中眾多計算機視覺任務的解決方案在很大程度上依賴于滑動窗口、全卷積范式。在沒有 ConvNet 歸納偏差的情況下，普通 ViT 模型在被用作通用視覺主干時面臨許多挑戰。最大的挑戰是 ViT 的全局注意力設計，它在輸入大小方面具有二次復雜度。這對于 ImageNet 分類可能是可以接受的，但很快就會變得難以處理更高分辨率的輸入。

分層 Transformer 采用混合方法來彌補這一差距。例如，“滑動窗口”策略（例如局部窗口內的注意力）被重新引入 Transformer，使它們的行為更類似于 ConvNets。 Swin Transformer [42] 是朝這個方向發展的里程碑式的工作，它首次證明了 Transformer 可以被用作通用視覺骨干，并在圖像分類之外的一系列計算機視覺任務中實現最先進的性能。 Swin Transformer 的成功和迅速采用也揭示了一件事：卷積的本質并沒有變得無關緊要；相反，它仍然很受歡迎，并且從未褪色。

從這個角度來看，Transformers 在計算機視覺方面的許多進步都旨在恢復卷積。然而，這些嘗試是有代價的：滑動窗口自注意力的幼稚實現可能會很昂貴 [52]；使用循環移位等先進方法[42]，可以優化速度，但系統在設計上變得更加復雜。另一方面，具有諷刺意味的是，ConvNet 已經滿足了許多所需的屬性，盡管是以一種直接、簡潔的方式。 ConvNets 似乎失去動力的唯一原因是（分層的）Transformers 在許多視覺任務中超過了它們，而性能差異通常歸因于 Transformers 的卓越縮放行為，其中多頭自注意力是關鍵組成部分。

為此，我們從經過改進程序訓練的標準 ResNet（例如 ResNet-50）開始。我們逐漸將架構“現代化”為構建分層視覺 Transformer（例如 Swin-T）。我們的探索是由一個關鍵問題引導的：Transformers 中的設計決策如何影響 ConvNets 的性能？我們發現了幾個導致性能差異的關鍵組件。因此，我們提出了一個名為 ConvNeXt 的純 ConvNet 家族。我們在各種視覺任務上評估 ConvNeXts，例如 ImageNet 分類 [15]、COCO [41] 上的對象檢測/分割和 ADE20K [87] 上的語義分割。令人驚訝的是，完全由標準 ConvNet 模塊構建的 ConvNeXts 在所有主要基準測試中的準確性、可擴展性和魯棒性方面都與 Transformers 競爭。 ConvNeXt 保持了標準 ConvNets 的效率，訓練和測試的完全卷積特性使其實施起來非常簡單。我們希望新的觀察和討論能夠挑戰一些共同的信念，并鼓勵人們重新思考卷積在計算機視覺中的重要性。

2、ConvNet 現代化：路線圖

在本節中，我們提供了從 ResNet 到類似于 Transformer 的 ConvNet 的軌跡。我們根據 FLOPs 考慮兩種模型大小，一種是 ResNet-50 / Swin-T 機制，FLOPs 約為 4:5×109，另一種是 ResNet-200 / Swin-B 機制，FLOPs 約為 15:0×109 . 為簡單起見，我們將使用 ResNet-50 / Swin-T 復雜度模型呈現結果。更高容量模型的結論是一致的，結果可以在附錄 C 中找到。

在高層次上，我們的探索旨在調查和遵循 Swin Transformer 的不同設計級別，同時保持網絡作為標準 ConvNet 的簡單性。我們的探索路線圖如下。我們的起點是 ResNet-50 模型。我們首先使用用于訓練視覺 Transformer 的類似訓練技術對其進行訓練，并與原始 ResNet-50 相比獲得了很大改進的結果。這將是我們的基線。然后我們研究了一系列設計決策，我們總結為 1) 宏觀設計，2) ResNeXt，3) 倒置瓶頸，4) 大內核大小，以及 5) 各種分層微設計。在圖 2 中，我們展示了“網絡現代化”的每一步我們能夠實現的過程和結果。由于網絡復雜性與最終性能密切相關，因此在探索過程中對 FLOPs 進行了粗略的控制，盡管在中間步驟中，FLOPs 可能高于或低于參考模型。所有模型都在 ImageNet-1K 上進行訓練和評估

2.1、訓練技巧

除了網絡架構的設計，訓練過程也會影響最終的性能。視覺變形金剛不僅帶來了一組新的模塊和架構設計決策，而且還為視覺引入了不同的訓練技術（例如 AdamW 優化器）。這主要與優化策略和相關的超參數設置有關。因此，我們探索的第一步是使用視覺 Transformer 訓練程序訓練基線模型，在本例中為 ResNet-50/200。最近的一篇論文 [76] 展示了一組現代訓練技術如何顯著提高簡單 ResNet-50 模型的性能。在我們的研究中，我們使用了一個接近 DeiT 的 [68] 和 Swin Transformer 的 [42] 的訓練方法。訓練從 ResNets 的原始 90 個 epoch 擴展到 300 個 epoch。我們使用 AdamW 優化器 [43]、Mixup [85]、Cutmix [84]、RandAugment [12]、隨機擦除 [86] 等數據增強技術，以及隨機深度 [33] 和標簽平滑 [65] 等正則化方案。我們使用的完整超參數集可以在附錄 A.1 中找到。就其本身而言，這種增強的訓練方案將 ResNet-50 模型的性能從 76.1% [1] 提高到 78.8% (+2.7%)，這意味著傳統 ConvNet 和視覺 Transformer 之間的很大一部分性能差異可能是由于訓練技巧。我們將在整個“現代化”過程中使用具有相同超參數的固定訓練配方。 ResNet-50 機制上報告的每個準確度都是通過使用三種不同的隨機種子進行訓練獲得的平均值。

2.2、宏觀設計

我們現在分析 Swin Transformers 的宏網絡設計。 Swin Transformers 遵循 ConvNets [26,62] 使用多階段設計，其中每個階段具有不同的特征圖分辨率。有兩個有趣的設計考慮：階段計算比率和“干細胞”結構。

改變階段計算比率。 ResNet 中跨階段計算分布的原始設計很大程度上是經驗性的。重型“res4”階段旨在與目標檢測等下游任務兼容，其中探測器頭在 14×14 特征平面上運行。另一方面，Swin-T 遵循相同的原則，但階段計算比例略有不同，為 1:1:3:1。對于較大的 Swin Transformers，比例為 1:1:9:1。按照設計，我們將每個階段的塊數從 ResNet-50 中的 (3, 4, 6, 3) 調整為 (3, 3, 9, s3)，這也對齊

Swin-T 的 FLOPs。這將模型準確率從 78.8% 提高到 79.4%。值得注意的是，研究人員已經徹底研究了計算的分布 [50,51]，并且可能存在更優化的設計。從現在開始，我們將使用這個階段的計算比率。

**將詞干更改為“Patchify”。**通常，干細胞設計關注的是在網絡開始時如何處理輸入圖像。由于自然圖像中固有的冗余性，普通干細胞會在標準 ConvNets 和視覺 Transformer 中積極地將輸入圖像下采樣到適當的特征圖大小。標準 ResNet 中的干細胞包含一個步長為 2 的 7×7 卷積層，然后是一個最大池，這導致輸入圖像的 4 倍下采樣。在視覺變形金剛中，干細胞使用了更激進的“patchify”策略，這對應于較大的內核大小（例如內核大小 = 14 或 16）和非重疊卷積。 Swin Transformer 使用類似的“patchify”層，但使用更小的 4 補丁大小來適應架構的多階段設計。我們將 ResNet 風格的干細胞替換為使用 4×4、步幅為 4 的卷積層實現的補丁化層。準確率從 79.4% 變為 79.5%。這表明 ResNet 中的干細胞可以用更簡單的“patchify”層 à la ViT 代替，這將產生類似的性能。我們將在網絡中使用“patchify stem”（4×4 非重疊卷積）。

2.3、ResNeXtify

在這一部分中，我們嘗試采用 ResNeXt [82] 的思想，它比普通的 ResNet 具有更好的 FLOPs/accuracy 權衡。核心組件是分組卷積，其中卷積濾波器被分成不同的組。在較高的層面上，ResNeXt 的指導原則是“使用更多的組，擴大寬度”。更準確地說，ResNeXt 對瓶頸塊中的 3×3 卷積層采用分組卷積。由于這顯著減少了 FLOP，因此網絡

寬度被擴大以補償容量損失。在我們的例子中，我們使用深度卷積，這是分組卷積的一種特殊情況，其中組數等于通道數。深度卷積已被 MobileNet [32] 和 Xception [9] 推廣。我們注意到，depthwise convolution 類似于 self-attention 中的加權求和操作，它在每個通道的基礎上進行操作，即僅在空間維度上混合信息。深度卷積的使用有效地降低了網絡 FLOPs，并且正如預期的那樣，準確度。按照 ResNeXt 中提出的策略，我們將網絡寬度增加到與 Swin-T 相同的通道數（從 64 到 96）。隨著 FLOPs (5.3G) 的增加，這使網絡性能達到 80.5%。

我們現在將采用 ResNeXt 設計。

2.4、倒置瓶頸

每個 Transformer 塊中的一個重要設計是它創建了一個倒置瓶頸，即 MLP 塊的隱藏維度是輸入維度的四倍（參見圖 4）。有趣的是，這種 Transformer 設計與 ConvNets 中使用的擴展比為 4 的倒置瓶頸設計相連。這個想法被 MobileNetV2 [58] 推廣，隨后在幾個先進的 ConvNet 架構 [66,67] 中獲得了關注。

在這里，我們探索倒置瓶頸設計。圖 3 (a) 至 (b) 說明了這些配置。盡管深度卷積層的 FLOPs 增加了，但由于下采樣殘差塊的快捷 1×1 卷積層的 FLOPs 顯著減少，這種變化將整個網絡的 FLOPs 減少到 4.6G。有趣的是，這會稍微提高性能（從 80.5% 提高到 80.6%）。在 ResNet-200/Swin-B 方案中，這一步帶來了更多的收益（81.9% 到 82.6%），同時也減少了 FLOP。

我們現在將使用倒置瓶頸。

2.5、大內核大小

在這部分探索中，我們關注大型卷積核的行為。視覺變形金剛最顯著的方面之一是它們的非局部自注意力，它使每一層都具有全局感受野。雖然過去在 ConvNets [37,64] 中使用了大內核大小，但黃金標準（由 VGGNet [62] 普及）是堆疊小內核大小（3×3）的卷積層，它們在現代 GPU [38]。盡管 Swin Transformers 將局部窗口重新引入了 self-attention block，但窗口大小至少為 7×7，明顯大于 3×3 的 ResNe(X)t 內核大小。在這里，我們重新審視了在 ConvNets 中使用大內核大小的卷積。向上移動深度卷積層。要探索大內核，一個先決條件是向上移動深度卷積層的位置（圖 3 (b) 到 ?）。這在變形金剛中也很明顯：MSA 塊放置在 MLP 層之前。由于我們有一個倒置的瓶頸塊，這是一個自然的設計選擇——復雜/低效的模塊（MSA、大內核卷積）將具有更少的通道，而高效、密集的 1×1 層將完成繁重的工作。這個中間步驟將 FLOP 減少到 4.1G，導致性能暫時下降到 79.9%。

增加內核大小。通過所有這些準備工作，采用更大的內核大小的卷積的好處是顯著的。我們嘗試了幾種內核大小，包括 3、5、7、9 和 11。網絡的性能從 79.9% (3×3) 提高到 80.6% (7×7)，而網絡的 FLOPs 大致保持不變。此外，我們觀察到較大內核大小的好處在 7×7 處達到飽和點。我們也在大容量模型中驗證了這種行為：當我們將內核大小增加到 7×7 以上時，ResNet-200 機制模型沒有表現出進一步的增益。

我們將在每個塊中使用 7×7 深度卷積。

至此，我們已經完成了對宏觀尺度網絡架構的檢查。有趣的是，視覺 Transformer 中的很大一部分設計選擇可能會映射到 ConvNet 實例化。

2.6、微設計

在本節中，我們在微觀尺度上研究其他幾個架構差異——這里的大部分探索都是在層級完成的，重點是激活函數和歸一化層的具體選擇。

力壓Tramsformer，ConvNeXt成了CNN的希望

用 GELU 代替 ReLU NLP 和視覺架構之間的一個差異是使用哪些激活函數的細節。隨著時間的推移，已經開發了許多激活函數，但整流線性單元 (ReLU) [46] 由于其簡單性和效率，仍然廣泛用于 ConvNets。 ReLU 也被用作原始 Transformer 論文 [72] 中的激活函數。高斯誤差線性單元，或 GELU [30]，可以被認為是 ReLU 的更平滑變體，被用于最先進的 Transformer，包括 Google 的 BERT [16] 和 OpenAI 的 GPT-2 [49]，并且，大多數最近，ViTs。我們發現 ReLU 在我們的 ConvNet 中也可以用 GELU 代替，盡管準確率保持不變（80.6%）。

更少的激活函數。 Transformer 和 ResNet 塊之間的一個小區別是 Transformer 的激活函數較少。考慮一個帶有鍵/查詢/值線性嵌入層、投影層和 MLP 塊中的兩個線性層的 Transformer 塊。 MLP 塊中只有一個激活函數。相比之下，通常的做法是在每個卷積層（包括 1×1 卷積）上附加一個激活函數。在這里，我們研究了當我們堅持相同的策略時性能如何變化。如圖 4 所示，我們從殘差塊中消除了所有 GELU 層，除了兩個 1×1 層之間的一個，復制了 Transformer 塊的樣式。這個過程將結果提高了 0.7% 到 81.3%，實際上與 Swin-T 的性能相當。

我們現在將在每個塊中使用單個 GELU 激活。

更少的歸一化層。 Transformer 塊通常也具有較少的歸一化層。在這里，我們刪除了兩個 BatchNorm (BN) 層，在 conv 1 × 1 層之前只留下一個 BN 層。這進一步將性能提升至 81.4%，已經超過了 Swin-T 的結果。請注意，我們每個塊的歸一化層比 Transformer 還要少，因為根據經驗，我們發現在塊的開頭添加一個額外的 BN 層并不能提高性能。

為它提高了收斂性并減少了過擬合。然而，BN 也有許多錯綜復雜的東西，可能會對模型的性能產生不利影響 [79]。在開發替代標準化 [57,70,78] 技術方面已經進行了許多嘗試，但 BN 仍然是大多數視覺任務中的首選方案。另一方面，Transformers 中使用了更簡單的層規范化 [5] (LN)，從而在不同的應用場景中實現了良好的性能。在原始 ResNet 中直接用 LN 代替 BN 將導致性能欠佳 [78]。隨著網絡架構和訓練技術的所有修改，我們在這里重新審視使用 LN 代替 BN 的影響。我們觀察到我們的 ConvNet 模型在使用 LN 訓練時沒有任何困難；實際上，性能稍好一些，獲得了 81.5% 的準確率。從現在開始，我們將使用一個 LayerNorm 作為我們在每個殘差塊中的歸一化選擇。分離下采樣層。在 ResNet 中，空間下采樣是通過每個階段開始時的殘差塊來實現的，使用步長為 2 的 3×3 卷積（在快捷連接處使用步長為 2 的 1×1 卷積）。在 Swin Transformers 中，在各個階段之間添加了一個單獨的下采樣層。我們探索了一個類似的策略，我們使用 2×2 卷積層

步幅 2 用于空間下采樣。這種修改出人意料地導致了不同的訓練。進一步的調查表明，在空間分辨率發生變化的地方添加歸一化層有助于穩定訓練。其中包括 Swin Transformers 中也使用的幾個 LN 層：每個下采樣層之前的一個，莖之后的一個，以及最終全局平均池化之后的一個。我們可以將準確率提高到 82.0%，大大超過 Swin-T 的 81.3%。

我們將使用單獨的下采樣層。這將我們帶到了我們稱之為 ConvNeXt 的最終模型。

ResNet、Swin 和 ConvNeXt 塊結構的比較可以在圖 4 中找到。ResNet-50、Swin-T 和 ConvNeXt-T 的詳細架構規范的比較可以在表 9 中找到。

**結束語。**我們已經完成了我們的第一次“演練”，并發現了 ConvNeXt，一個純 ConvNet，它在這個計算機制中的 ImageNet-1K 分類性能優于 Swin Transformer。還值得注意的是，到目前為止討論的設計選項都不是新穎的——在過去十年中，它們都是單獨研究的，但不是集體研究的。我們的 ConvNeXt 模型具有與 Swin Transformer 大致相同的 FLOP、#params.、吞吐量和內存使用，但不需要專門的模塊，例如移位窗口注意力或相對位置偏差。這些發現令人鼓舞，但尚未完全令人信服——迄今為止，我們的探索僅限于小規模，但視覺變形金剛的縮放行為才是真正讓它們與眾不同的地方。此外，ConvNet 能否在對象檢測和語義分割等下游任務上與 Swin Transformers 競爭的問題是計算機視覺從業者關注的核心問題。在下一節中，我們將在數據和模型大小方面擴展我們的 ConvNeXt 模型，并在一組不同的視覺識別任務上評估它們。

3、ImageNet 上的實證評估

我們構建了不同的 ConvNeXt 變體，ConvNeXtT/S/B/L，與 Swin-T/S/B/L [42] 具有相似的復雜性。 ConvNeXt-T/B 分別是 ResNet-50/200 機制上“現代化”程序的最終產品。此外，我們構建了一個更大的 ConvNeXt-XL 來進一步測試 ConvNeXt 的可擴展性。變體僅在通道數量 C 和每個階段中的塊 B 數量上有所不同。在 ResNets 和 Swin Transformers 之后，每個新階段的通道數量都會翻倍。我們總結了以下配置：

? ConvNeXt-T：C = (96; 192; 384; 768)，B = (3; 3; 9; 3)

? ConvNeXt-S：C = (96; 192; 384; 768)，B = (3; 3; 27; 3)

? ConvNeXt-B：C = (128; 256; 512; 1024)，B = (3; 3; 27; 3)

? ConvNeXt-L：C = (192；384；768；1536)，B = (3；3；27；3)

? ConvNeXt-XL：C = (256; 512; 1024; 2048)，B = (3; 3; 27; 3)

3.1、設置

ImageNet-1K 數據集由 1000 個對象類和 120 萬張訓練圖像組成。我們在驗證集上報告 ImageNet-1K top-1 準確度。我們還對 ImageNet-22K 進行預訓練，這是一個包含 21841 個類（1000 個 ImageNet-1K 類的超集）的更大數據集，有 1400 萬張圖像進行預訓練，然后在 ImageNet- 上微調預訓練模型1K 用于評估。我們在下面總結了我們的訓練設置。更多細節可以在附錄 A.ImageNet-1K 訓練中找到。我們使用 AdamW [43] 訓練 ConvNeXts 300 個 epoch，學習率為 4e-3。之后有一個 20 epoch 的線性預熱和一個余弦衰減時間表。我們使用 4096 的批量大小和 0.05 的權重衰減。對于數據增強，我們采用常見的方案，包括 Mixup [85]、Cutmix [84]、RandAugment [12] 和 Random Erasing [86]。我們使用隨機深度 [34] 和標簽平滑 [65] 對網絡進行正則化。應用初始值 1e-6 的層尺度 [69]。我們使用指數移動平均線 (EMA) [48]，因為我們發現它可以緩解較大模型的過度擬合。 ImageNet-22K 上的預訓練。我們在 ImageNet-22K 上預訓練 ConvNeXts 90 個 epoch，預熱 5 個 epoch。我們不使用 EMA。其他設置遵循 ImageNet-1K。在 ImageNet-1K 上進行微調。我們在 ImageNet-1K 上對 ImageNet-22K 預訓練模型進行了 30 個 epoch 的微調。我們使用 AdamW，學習率為 5e-5，余弦學習率計劃，逐層學習率衰減 [6, 10]，無預熱，批量大小為 512，權重衰減為 1e-8。默認的預訓練、微調和測試分辨率為 2242。此外，對于 ImageNet-22K 和 ImageNet-1K 預訓練模型，我們以 3842 的更大分辨率進行微調。與 ViTs/Swin Transformers 相比，ConvNeXts 更容易在不同分辨率下進行微調，因為網絡是全卷積的，無需調整輸入塊大小或插入絕對/相對位置偏差。

3.2、結果

ImageNet-1K。表 1（上）顯示了與最近的兩個 Transformer 變體 DeiT [68] 和 Swin Transformers [42] 以及來自架構搜索的兩個 ConvNet - RegNets [51] 和 EfficientNets [67] 的結果比較。 ConvNeXt 在準確度計算權衡以及推理吞吐量方面與兩個強大的 ConvNet 基線（RegNet [51] 和 EfficientNet [67]）具有競爭力。 ConvNeXt 的性能也全面優于具有類似復雜性的 Swin Transformer，有時具有可觀的利潤率（例如，ConvNeXt-T 的利潤率為 0.8%）。與 Swin Transformers 相比，ConvNeXts 在沒有諸如移位窗口或相對位置偏差等專門模塊的情況下也享有更高的吞吐量。結果的一個亮點是 ConvNeXt-B 為 384：它比 Swin-B 高 0.6%（85.1% 對 84.5%），但推理吞吐量提高了 12.5%（95.7 對 85.1 圖像/秒）。我們注意到，當分辨率從 224 增加到 384 時，ConvNeXtB 相對于 Swin-B 的 FLOPs/吞吐量優勢變得更大。此外，當進一步擴展到 ConvNeXt-L 時，我們觀察到 85.5% 的改進結果。 ImageNet-22K。我們在表 1（下）中展示了從 ImageNet-22K 預訓練中微調的模型的結果。這些實驗很重要，因為普遍持有的觀點是

視覺 Transformer 具有較少的歸納偏差，因此在大規模預訓練時可以比 ConvNets 表現更好。我們的結果表明，在使用大型數據集進行預訓練時，正確設計的 ConvNets 并不遜于視覺 Transformer——ConvNeXts 的性能仍然與類似大小的 Swin Transformers 相當或更好，吞吐量略高。此外，我們的 ConvNeXt-XL 模型達到了 87.8% 的準確度——在 3842 處比 ConvNeXt-L 有了相當大的改進，證明了 ConvNeXts 是可擴展的架構。在附錄 B 中，我們討論了 ConvNeXt 的魯棒性和域外泛化結果。

3.3、各向同性 ConvNeXt 與 ViT

在這個消融中，我們檢查我們的 ConvNeXt 塊設計是否可推廣到沒有下采樣層并在所有深度保持相同特征分辨率（例如 14×14）的 ViT 風格 [18] 各向同性架構。我們使用與 ViT-S/B/L (384/768/1024) 相同的特征尺寸構建各向同性 ConvNeXt-S/B/L。深度設置為 18/18/36 以匹配參數和 FLOP 的數量。塊結構保持不變（圖 4）。我們將 DeiT [68] 的監督訓練結果用于 ViT-S/B 和 MAE [24] 用于 ViT-L，因為它們采用了比原始 ViT [18] 改進的訓練程序。 ConvNeXt 模型使用與以前相同的設置進行訓練，但預熱時間更長。 ImageNet-1K 在 224 分辨率下的結果如表 2 所示。我們觀察到 ConvNeXt 的性能通常與 ViT 相當，這表明我們的 ConvNeXt 塊設計在用于非分層模型時具有競爭力。

4、下游任務的實證評估

COCO 上的對象檢測和分割。我們使用 ConvNeXt 主干在 COCO 數據集上微調 Mask R-CNN [25] 和 Cascade Mask R-CNN [7]。在 Swin Transformer [42] 之后，我們使用多尺度訓練、AdamW 優化器和 3x 調度。更多細節和超參數設置可以在附錄 A.3 中找到。表 3 顯示了比較 Swin Transformer、ConvNeXt 和傳統 ConvNet（如 ResNeXt）的對象檢測和實例分割結果。在不同的模型復雜性中，ConvNeXt 的性能與 Swin Transformer 相當或更好。當放大到在 ImageNet-22K 上預訓練的更大模型 (ConvNeXt-B/L/XL) 時，在許多情況下，ConvNeXt 在 box 和 mask AP 方面明顯優于 Swin Transformers（例如 +1.0 AP）。

ADE20K 上的語義分割。我們還使用 UperNet [80] 在 ADE20K 語義分割任務上評估 ConvNeXt 主干。所有模型變體都經過 16 萬次迭代訓練，批量大小為 16。其他實驗設置遵循 [6]（有關更多詳細信息，請參見附錄 A.3）。在表 4 中，我們報告了具有多尺度測試的驗證 mIoU。 ConvNeXt 模型可以在不同的模型容量上實現具有競爭力的性能，進一步驗證了我們架構設計的有效性。

關于模型效率的評論。在類似的 FLOPs 下，深度卷積的模型比只有密集卷積的 ConvNets 更慢并且消耗更多的內存。很自然地要問 ConvNeXt 的設計是否會使其實際上效率低下。正如整篇論文所展示的，ConvNeXts 的推理吞吐量與 Swin Transformers 相當或超過。對于分類和其他任務都是如此

需要更高分辨率的輸入（有關吞吐量/FPS 的比較，請參見表 1,3）。此外，我們注意到訓練 ConvNeXts 比訓練 Swin Transformers 需要更少的內存。例如，使用 ConvNeXt-B 主干訓練 Cascade Mask-RCNN 消耗 17.4GB 的峰值內存，每 GPU 批量大小為 2，而 Swin-B 的參考數為 18.5GB。與 vanilla ViT 相比，ConvNeXt 和 Swin Transformer 由于本地計算而表現出更有利的準確性 - FLOPs 權衡。值得注意的是，這種效率的提高是 ConvNet 歸納偏差的結果，與視覺 Transformers 中的自注意力機制沒有直接關系。

5、相關工作

混合模型。在 ViT 之前和之后的時代，結合卷積和自注意力的混合模型都得到了積極的研究。在 ViT 之前，重點是使用自我注意/非本地模塊 [52、63、74] 來增強 ConvNet 以捕獲遠程依賴關系。最初的 ViT [18] 首先研究了一種混合配置，并且大量后續工作側重于將卷積先驗重新引入 ViT，無論是顯式 [13、14、19、77、81、83] 還是隱式 [42 ] 方法。

最近基于卷積的方法。韓等人。 [23]表明局部Transformer注意力等效于非均勻動態深度卷積。然后將 Swin 中的 MSA 塊替換為動態或常規深度卷積，實現與 Swin 相當的性能。并發工作 ConvMixer [4] 表明，在小規模設置中，深度卷積可以用作一種有前途的混合策略。 ConvMixer 使用更小的補丁大小來獲得最佳結果，使得吞吐量遠低于其他基線。 GFNet [53] 采用快速傅里葉變換 (FFT) 進行標記混合。 FFT 也是卷積的一種形式，但具有全局內核大小和循環填充。與許多最近的 Transformer 或 ConvNet 設計不同，我們研究的一個主要目標是深入了解標準 ResNet 的現代化過程并實現最先進的性能。

6、結論

在 2020 年代，視覺變形金剛，尤其是 Swin Transformers 等分層變形金剛開始取代 ConvNets，成為通用視覺骨干網的首選。人們普遍認為，視覺 Transformer 比 ConvNets 更準確、更高效、更可擴展。我們提出了 ConvNeXts，這是一種純 ConvNet 模型，可以在多個計算機視覺基準上與最先進的分層視覺 Transformer 競爭，同時保持標準 ConvNet 的簡單性和效率。在某些方面，我們的觀察結果令人驚訝，而我們的 ConvNeXt 模型本身并不是全新的——在過去十年中，許多設計選擇都被單獨研究過，但沒有被集體研究過。我們希望本研究報告的新結果能夠挑戰幾種廣泛持有的觀點，并促使人們重新思考卷積在計算機中的重要性

想象。

神經網絡

idou 老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）">idou 老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）

1341 2025-03-31

Scrum與OKR融合實踐經驗分享

1341 2025-03-31

Kotlin 1.2 新特性">Kotlin 1.2 新特性

1341 2025-03-31

力壓Tramsformer，ConvNeXt成了CNN的希望

idou 老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）">idou 老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）

Scrum與OKR融合實踐經驗分享

Kotlin 1.2 新特性">Kotlin 1.2 新特性

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

力壓Tramsformer，ConvNeXt成了CNN的希望

idou老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）">idou老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）

Kotlin 1.2 新特性">Kotlin 1.2 新特性

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

idou 老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）">idou 老師教你學Istio 08: 調用鏈埋點是否真的“零修改”？（id自學教程）