国产精品亚洲精品日韩已方,久久亚洲精品中文字幕无码 ,国产精品成人亚洲

【圖像分類】論文翻譯——CoAtNet：結(jié)合卷積和注意力適用于所有數(shù)據(jù)大小

網(wǎng)友投稿 1374 2022-05-30

摘要

Transformers 在計算機(jī)視覺方面吸引了越來越多的興趣，但它們?nèi)匀宦浜笥谧钕冗M(jìn)的卷積網(wǎng)絡(luò)。在這項工作中，我們表明雖然 Transformer 往往具有更大的模型容量，但由于缺乏正確的歸納偏差，它們的泛化可能比卷積網(wǎng)絡(luò)更差。為了有效地結(jié)合兩種架構(gòu)的優(yōu)勢，我們提出了 CoAtNets（發(fā)音為“coat”nets），這是一個基于兩個關(guān)鍵見解構(gòu)建的混合模型系列： (1)depthwise Convolution和self-Attention可以通過簡單的相對注意力自然地統(tǒng)一起來； (2) 以有原則的方式垂直堆疊卷積層和注意力層在提高泛化、容量和效率方面非常有效。實驗表明，我們的 CoAtNets 在各種數(shù)據(jù)集的不同資源限制下實現(xiàn)了最先進(jìn)的性能。例如，CoAtNet 在沒有額外數(shù)據(jù)的情況下實現(xiàn)了 86.0% 的 ImageNet top-1 準(zhǔn)確率，在額外的 JFT 數(shù)據(jù)下達(dá)到了 89.77%，優(yōu)于卷積網(wǎng)絡(luò)和 Transformer 的現(xiàn)有技術(shù)。值得注意的是，當(dāng)使用來自 ImageNet-21K 的 1300 萬張圖像進(jìn)行預(yù)訓(xùn)練時，我們的 CoAtNet 達(dá)到了 88.56% 的 top-1 準(zhǔn)確率，與使用來自 JFT 的 300M 圖像預(yù)訓(xùn)練的 ViT-huge 相匹配，同時使用的數(shù)據(jù)減少了 23 倍。

1 簡介

自 AlexNet [1] 取得突破以來，卷積神經(jīng)網(wǎng)絡(luò) (ConvNets) 一直是計算機(jī)視覺的主要模型架構(gòu) [2, 3, 4, 5]。同時，隨著 Transformers [6] 等自注意力模型在自然語言處理 [7, 8] 中的成功，之前的許多工作都試圖將注意力的力量引入計算機(jī)視覺 [9, 10, 11, 12]。最近，Vision Transformer (ViT) [13] 表明，僅使用幾乎 1 個普通的 Transformer 層，就可以單獨在 ImageNet-1K [14] 上獲得合理的性能。更重要的是，當(dāng)在大規(guī)模弱標(biāo)記 JFT-300M 數(shù)據(jù)集 [15] 上進(jìn)行預(yù)訓(xùn)練時，ViT 獲得了與最先進(jìn) (SOTA) ConvNets 相當(dāng)?shù)慕Y(jié)果，表明 Transformer 模型在規(guī)模上可能比 ConvNets 具有更高的容量。

雖然 ViT 用巨大的 JFT 300M 訓(xùn)練圖像顯示了令人印象深刻的結(jié)果，但它的性能在低數(shù)據(jù)情況下仍然落后于 ConvNets。例如，在沒有額外的 JFT-300M 預(yù)訓(xùn)練的情況下，ViT 的 ImageNet 精度仍然明顯低于具有可比模型大小的 ConvNets [5]（見表 12）。隨后的工作使用特殊的正則化和更強(qiáng)的數(shù)據(jù)增強(qiáng)來改進(jìn) vanilla ViT [16, 17, 18]，但鑒于相同數(shù)量的數(shù)據(jù)和計算，這些 ViT 變體都無法在 ImageNet 分類上優(yōu)于僅 SOTA 卷積模型 [19， 20]。這表明普通的 Transformer 層可能缺乏 ConvNets 擁有的某些理想的歸納偏差，因此需要大量的數(shù)據(jù)和計算資源來補償。毫不奇怪，最近的許多工作一直試圖將 ConvNets 的歸納偏差納入 Transformer 模型，通過為注意力層施加局部感受野 [21, 22] 或使用隱式或顯式卷積操作來增強(qiáng)注意力和 FFN 層 [23, 24] , 25]。然而，這些方法要么是臨時的，要么專注于注入特定的屬性，缺乏對卷積和結(jié)合時注意。

在這項工作中，我們從機(jī)器學(xué)習(xí)的兩個基本方面——泛化和模型容量，系統(tǒng)地研究了卷積和注意力的混合問題。我們的研究表明，卷積層往往具有更好的泛化能力和更快的收斂速度，這要歸功于它們強(qiáng)大的歸納偏差先驗，而注意力層具有更高的模型容量，可以從更大的數(shù)據(jù)集中受益。結(jié)合卷積層和注意力層可以實現(xiàn)更好的泛化和容量；然而，這里的一個關(guān)鍵挑戰(zhàn)是如何有效地組合它們以在準(zhǔn)確性和效率之間實現(xiàn)更好的權(quán)衡。在本文中，我們研究了兩個關(guān)鍵見解：首先，我們觀察到常用的深度卷積可以有效地合并到具有簡單相對注意力的注意力層中；其次，以適當(dāng)?shù)姆绞胶唵蔚囟询B卷積層和注意力層對于實現(xiàn)更好的泛化和容量可能會非常有效。基于這些見解，我們提出了一種名為 CoAtNet 的簡單而有效的網(wǎng)絡(luò)架構(gòu)，它兼有 ConvNets 和 Transformers 的優(yōu)勢。

我們的 CoAtNet 在不同數(shù)據(jù)大小的可比資源限制下實現(xiàn)了 SOTA 性能。具體來說，在低數(shù)據(jù)機(jī)制下，由于有利的歸納偏差，CoAtNet 繼承了 ConvNets 的強(qiáng)大泛化特性。此外，在大量數(shù)據(jù)的情況下，CoAtNet 不僅享有 Transformer 模型優(yōu)越的可擴(kuò)展性，還能實現(xiàn)更快的收斂，從而提高效率。當(dāng)僅使用 ImageNet-1K 進(jìn)行訓(xùn)練時，CoAtNet 達(dá)到了 86.0% 的 top-1 準(zhǔn)確率，匹配了 ConvNet 變體 NFNet 設(shè)置的最佳公共記錄集。此外，當(dāng)在 ImageNet-21K 上用大約 1000 萬張圖像進(jìn)行預(yù)訓(xùn)練時，CoAtNet 在 ImageNet-1K 上進(jìn)行微調(diào)時達(dá)到 88.56% 的 top-1 準(zhǔn)確率，與在 JFT-300M（一個 23 倍大的數(shù)據(jù)集）上預(yù)訓(xùn)練的 ViT-Huge 相匹配。最后，當(dāng)使用 JFT 進(jìn)行預(yù)訓(xùn)練時，與 ViT 相比，CoAtNet 表現(xiàn)出更好的效率，以更少的計算量將 ImageNet-1K top-1 精度提高到 89.77%。

2 模型

在本節(jié)中，我們重點討論如何“最優(yōu)”結(jié)合卷積和變換器的問題。粗略地說，我們將問題分解為兩部分： 1. 如何在一個基本計算塊內(nèi)結(jié)合卷積和自注意力？ 2、如何將不同類型的計算塊垂直堆疊在一起，形成一個完整的網(wǎng)絡(luò)？隨著我們逐漸揭示我們的設(shè)計選擇，分解的基本原理將變得更加清晰。

2.1 合并卷積和自注意力

對于卷積，我們主要關(guān)注 MBConv 塊 [26]，它采用深度卷積 [27] 來捕獲空間交互。這種選擇的一個關(guān)鍵原因是 Transformer 和 MBConv 中的 FFN 模塊都采用了“反向瓶頸”的設(shè)計，首先將輸入的通道大小擴(kuò)展了 4 倍，然后將 4 倍寬的隱藏狀態(tài)投影回原始狀態(tài) 通道大小以啟用殘差連接。除了倒置瓶頸的相似性之外，我們還注意到深度卷積和自注意力都可以表示為預(yù)定義感受野中值的加權(quán)和。具體來說，卷積依賴于一個固定的內(nèi)核來從局部感受野收集信息

其中?，?分別是位置 i 的輸入和輸出，(i) 表示 i 的局部鄰域，例如圖像處理中以 i 為中心的 3x3 網(wǎng)格。相比之下，self-attention 允許感受野是整個空間位置，并根據(jù)對 (; xj) 之間重新歸一化的成對相似度計算權(quán)重：

其中 G 表示全局空間空間。在討論如何最好地組合它們之前，值得比較它們的相對優(yōu)勢和劣勢，這有助于找出我們希望保留的優(yōu)良特性。

? 首先，depthwise 卷積核? 是一個靜態(tài)值的輸入獨立參數(shù)，而注意力權(quán)重動態(tài)地取決于輸入的表示。因此，它是自注意力更容易捕捉不同空間位置之間復(fù)雜的關(guān)系交互，這是我們在處理高級概念時最想要的屬性。然而，靈活性伴隨著更容易過度擬合的風(fēng)險，尤其是在數(shù)據(jù)有限的情況下。

? 其次，注意給定任何位置對(i; j)，對應(yīng)的卷積權(quán)重只關(guān)心它們之間的相對位移，即i-j，而不是i 或j 的具體值。這個屬性通常被稱為翻譯等效性，已經(jīng)發(fā)現(xiàn)它可以提高有限大小數(shù)據(jù)集下的泛化能力 [28]。由于使用絕對位置嵌入，標(biāo)準(zhǔn) Transformer (ViT) 缺少此屬性。這部分解釋了為什么當(dāng)數(shù)據(jù)集不是很大時，ConvNets 通常比 Transformers 更好。

? 最后，感受野的大小是自注意力和卷積之間最重要的區(qū)別之一。一般來說，更大的感受野提供更多的上下文信息，這可能導(dǎo)致更高的模型容量。因此，全局感受野一直是在視覺中使用自注意力的關(guān)鍵動機(jī)。然而，一個大的感受野需要更多的計算。在全局注意力的情況下，復(fù)雜性是二次方 w.r.t.空間大小，這是應(yīng)用自注意力模型的基本權(quán)衡。

鑒于上述比較，理想模型應(yīng)該能夠結(jié)合表 1 中的 3 個理想屬性。 (1) 和 Eqn 中的 self-attention。（2），可以實現(xiàn)這一點的一個簡單的想法是簡單地將全局靜態(tài)卷積核與自適應(yīng)注意矩陣相加，無論是在 Softmax 歸一化之后還是之前，即，

有趣的是，雖然這個想法似乎過于簡化，但預(yù)規(guī)范化版本? 對應(yīng)于相對自我注意的特定變體 [29, 30]。在這種情況下，注意力權(quán)重? 由平移等方差的和輸入自適應(yīng) x?共同決定，根據(jù)它們的相對大小可以同時享受這兩種效果。重要的是，請注意，為了在不增加參數(shù)數(shù)量的情況下啟用全局卷積核，我們將? 的符號重新加載為標(biāo)量（即 w）而不是方程中的向量。 (1). w 的標(biāo)量公式的另一個優(yōu)點是，為所有 (i; j) 檢索顯然是通過計算成對點積注意力來包含的，因此導(dǎo)致最小的額外成本（參見附錄 A.1）。考慮到好處，我們將使用 Transformer 塊和 Eqn 中的預(yù)歸一化相對注意變量。 (3) 作為所提出的 CoAtNet 模型的關(guān)鍵組件。

2.2 縱向布局設(shè)計

在找出將卷積和注意力結(jié)合起來的巧妙方法之后，我們接下來考慮如何利用它來堆疊整個網(wǎng)絡(luò)。正如我們上面討論的，全局上下文具有二次復(fù)雜性 w.r.t.空間大小。因此，如果我們直接應(yīng)用方程中的相對注意力。對于原始圖像輸入，由于在任何常見尺寸的圖像中都有大量像素，因此計算會過慢。因此，要構(gòu)建一個在實踐中可行的網(wǎng)絡(luò)，我們主要有三種選擇：

(A) 在特征圖達(dá)到可管理的水平后，執(zhí)行一些下采樣以減小空間大小并使用全局相對注意力。

(B) 強(qiáng)制局部注意力，就像在卷積中一樣，將全局感受野 G 限制在局部場上 [22, 21]。

我們對選項 (C) 進(jìn)行了簡短的試驗，但沒有得到相當(dāng)好的結(jié)果。對于選項 (B)，我們發(fā)現(xiàn)實現(xiàn)局部注意力涉及許多需要密集內(nèi)存訪問的非平凡形狀格式化操作。在我們選擇的加速器（TPU）上，這種操作被證明是極其緩慢的[33]，這不僅違背了加速全局注意力的初衷，而且損害了模型容量。因此，由于最近的一些工作已經(jīng)研究了這種變體 [22, 21]，我們將重點關(guān)注選項 (A)，并將我們的結(jié)果與我們的實證研究（第 4 節(jié)）中的結(jié)果進(jìn)行比較。對于選項 (A)，下采樣可以通過 (1) 具有侵略性的卷積莖來實現(xiàn) 步幅（例如，步幅 16x16）如 ViT 或（2）多階段網(wǎng)絡(luò)，如 ConvNets 中的漸進(jìn)池化。通過這些選擇，我們推導(dǎo)出 5 個變體的搜索空間，并在對照實驗中對它們進(jìn)行比較。

? 當(dāng)使用 ViT Stem 時，我們直接將 L 個 Transformer 塊相對注意力堆疊起來，這我們表示為 VITREL。

? 當(dāng)使用多階段布局時，我們模仿 ConvNets 構(gòu)建 5 個階段的網(wǎng)絡(luò)（S0、 S1、S2、S3 和 S4)，空間分辨率從 S0 到 S4 逐漸降低。在每個階段的開始，我們總是將空間大小減少 2 倍并增加通道數(shù)。第一階段 S0 是一個簡單的 2 層卷積 Stem，S1 總是使用帶有擠壓激勵 (SE) 的 MBConv 塊，因為空間大小對于全局注意力來說太大了。從 S2 到 S4，我們考慮 MBConv 或 Transformer 塊，約束條件是卷積階段必須出現(xiàn)在 Transformer 階段之前。該約束基于卷積更擅長處理早期階段更常見的局部模式的先驗。這導(dǎo)致 4 個變體具有越來越多的 Transformer 階段，C-C-C-C、C-C-C-T、C-C-T-T 和 C-T-T-T，其中 C 和 T 分別表示卷積和Transformer。

為了系統(tǒng)地研究設(shè)計選擇，我們考慮了泛化能力和模型能力兩個基本方面：對于泛化，我們對訓(xùn)練損失和評估精度之間的差距感興趣。如果兩個模型具有相同的訓(xùn)練損失，那么評估精度較高的模型具有更好的泛化能力，因為它可以更好地泛化到看不見的評估數(shù)據(jù)集。當(dāng)訓(xùn)練數(shù)據(jù)量有限時，泛化能力對數(shù)據(jù)效率尤為重要。對于模型容量，我們測量擬合大型訓(xùn)練數(shù)據(jù)集的能力。當(dāng)訓(xùn)練數(shù)據(jù)豐富且過擬合不成問題時，具有較高容量的模型在經(jīng)過合理的訓(xùn)練步驟后將獲得更好的最終性能。請注意，由于簡單地增加模型大小可以導(dǎo)致更高的模型容量，為了進(jìn)行有意義的比較，我們確保 5 個變體的模型大小具有可比性。為了比較泛化和模型容量，我們在 ImageNet-1K (1.3M) 和 JFT (>300M) 數(shù)據(jù)集上分別訓(xùn)練了 300 和 3 個時期的混合模型的不同變體，兩者都沒有任何正則化或增強(qiáng)。圖 1 總結(jié)了兩個數(shù)據(jù)集上的訓(xùn)練損失和評估準(zhǔn)確度。

? 從 ImageNet-1K 結(jié)果來看，一個關(guān)鍵觀察是，就泛化能力（即訓(xùn)練和評估指標(biāo)之間的差距）而言，我們有 C-C-C-C ≈ C-C-C-T ≥ C-C-T-T > C-T-T-T >>：

特別是，VITREL 明顯比其他變體差很多，我們推測與在其激進(jìn)的下采樣 Stem 中缺乏適當(dāng)?shù)牡图壭畔⑻幚碛嘘P(guān)。在多階段變體中，總體趨勢是模型的卷積階段越多，泛化差距越小。

? 至于模型容量，從 JFT 比較來看，訓(xùn)練結(jié)束時的訓(xùn)練和評估指標(biāo)都表明以下排名：

C-C-T-T ≈ C-T-T-T > ?> C-C-C-T > C-C-C-C：

重要的是，這表明僅僅擁有更多的 Transformer 塊并不一定意味著更高的視覺處理能力。一方面，雖然最初更糟，但 ?最終趕上了兩個具有更多 MBConv 階段的變體，表明 Transformer 塊的容量優(yōu)勢。另一方面，C-C-T-T 和 C-T-T-T 明顯優(yōu)于，這表明具有激進(jìn)步幅的 ViT 詞干可能丟失了太多信息，因此限制了模型容量。更有趣的是，C-C-T-T ≈ C-T-T-T 的事實表明，為了處理低級信息，像卷積這樣的靜態(tài)局部操作可以與自適應(yīng)全局注意力機(jī)制一樣強(qiáng)大，同時大大節(jié)省計算和內(nèi)存使用。

最后，為了在 C-C-T-T 和 C-T-T-T 之間做出決定，我們進(jìn)行了另一個可轉(zhuǎn)移性測試3——我們在 ImageNet-1K 上對上述兩個 JFT 預(yù)訓(xùn)練模型進(jìn)行了 30 次微調(diào)，并比較了它們的轉(zhuǎn)移性能。從表 2 中可以看出，盡管具有相同的預(yù)訓(xùn)練性能，但 C-C-T-T 的傳輸精度明顯優(yōu)于 C-T-T-T。

考慮到泛化性、模型容量、可轉(zhuǎn)移性和效率，我們?yōu)?CoAtNet 調(diào)整了 C-C-T-T 多階段布局。更多模型細(xì)節(jié)包含在附錄 A.1 中。

3 相關(guān)工作

卷積網(wǎng)絡(luò)構(gòu)建塊。卷積網(wǎng)絡(luò) (ConvNets) 一直是許多計算機(jī)視覺任務(wù)的主要神經(jīng)架構(gòu)。傳統(tǒng)上，常規(guī)卷積，例如 ResNet 塊 [3]，在大規(guī)模 ConvNet 中很流行；相比之下，深度卷積 [27] 因其較低的計算成本和較小的參數(shù)大小而在移動平臺中很受歡迎 [26]。最近的工作表明，基于深度卷積的改進(jìn)的反向殘差瓶頸（MBConv [26, 34]）可以實現(xiàn)高精度和更好的效率 [5, 19]。如第 2 節(jié)所述，由于 MBConv 和 Transformer blocks 之間的強(qiáng)連接，本文主要采用 MBConv 作為卷積構(gòu)建塊。

自注意力和Transformers。由于具有自我注意的關(guān)鍵成分，Transformer 已被廣泛用于神經(jīng)語言處理和語音理解。作為一項早期工作，獨立的自注意力網(wǎng)絡(luò) [33] 表明，單獨的自注意力可以很好地處理不同的視覺任務(wù)，盡管存在一些實際困難。最近，ViT [13] 將 vanilla Transformer 應(yīng)用于 ImageNet 分類，并在大規(guī)模 JFT 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練后取得了令人印象深刻的結(jié)果。然而，當(dāng)訓(xùn)練數(shù)據(jù)有限時，ViT 在很大程度上仍然落后于最先進(jìn)的 ConvNets。此后，許多最近的工作都集中在改進(jìn)視覺 Transformer 以提高數(shù)據(jù)效率和模型效率。為了更全面地回顧 Vision Transformers，我們建議讀者參考專門的調(diào)查 [35, 36]。

Relative attention.。在相對關(guān)注的總稱下，出現(xiàn)了各種變種在文獻(xiàn)中 [29, 37, 38, 33, 39, 30]。一般來說，我們可以將它們分為兩類： (a) 依賴于輸入的版本，其中額外的相對注意力分?jǐn)?shù)是輸入狀態(tài) f(xi; xj; i ? j) 的函數(shù)，以及 (b) 獨立于輸入的版本 f(i ? j)。 CoAtNet 中的變體屬于與輸入無關(guān)的版本，類似于 T5 [30] 中使用的變體，但與 T5 不同的是，我們既不共享跨層的相對注意力參數(shù)，也不使用分桶機(jī)制。作為輸入獨立性的一個好處，為所有 (i; j) 對獲得 f(i ? j) 在計算上比在 TPU 上依賴于輸入的版本便宜得多。此外，在推理時，這只需要計算一次并緩存以備將來使用。最近的一項工作 [22] 也利用了這種與輸入無關(guān)的參數(shù)化，但它將感受野限制為局部窗口。結(jié)合卷積和自注意力。將卷積和自注意力相結(jié)合進(jìn)行視覺識別的想法并不新鮮。一種常見的方法是使用顯式自注意力或非局部模塊 [9, 10, 11, 12] 來增強(qiáng) ConvNet 主干，或者用標(biāo)準(zhǔn)自注意力 [11] 或更靈活的線性組合替換某些卷積層注意和卷積 [40]。雖然自注意力通常會提高準(zhǔn)確性，但它們通常會帶來額外的計算成本，因此通常被視為 ConvNet 的附加組件，類似于擠壓和激勵 [41] 模塊。相比之下，在 ViT 和 ResNet-ViT [13] 取得成功之后，另一個流行的研究路線從 Transformer 主干開始，并試圖將顯式卷積或卷積的一些理想特性合并到 Transformer 主干中 [25, 24, 23, 22 , 21, 42, 43]。

【圖像分類】論文翻譯——CoAtNet：結(jié)合卷積和注意力適用于所有數(shù)據(jù)大小

雖然我們的工作也屬于這一類，但我們表明我們的相對注意力實例是深度卷積和基于內(nèi)容的注意力的自然混合，附加成本最低。更重要的是，從泛化和模型容量的角度出發(fā)，我們采用系統(tǒng)的方法進(jìn)行垂直布局設(shè)計，并展示不同的網(wǎng)絡(luò)階段如何以及為什么喜歡不同類型的層。因此，與簡單地使用現(xiàn)成的 ConvNet 作為莖層的模型相比，例如 ResNet-ViT [13]，CoAtNet 在整體尺寸增加時也會縮放卷積階段（S2）。另一方面，與采用局部注意力[22, 21] 的模型相比，CoAtNet 始終對 S3 和 S4 使用完全注意力來確保模型容量，因為 S3 占據(jù)了大部分計算和參數(shù)。

4 實驗

在本節(jié)中，我們將 CoAtNet 與之前在可比設(shè)置下的結(jié)果進(jìn)行比較。為完整起見，此處未提及的所有超參數(shù)都包含在附錄 A.2 中。

4.1 實驗設(shè)置

CoAtNet 模型族。為了與現(xiàn)有不同大小的模型進(jìn)行比較，我們還設(shè)計了一系列 CoAtNet 模型，如表 3 所示。總體而言，我們始終將 S1 到 S4 的通道數(shù)量加倍，同時確保 Stem S0 的寬度更小或相等到S1。此外，為簡單起見，當(dāng)增加網(wǎng)絡(luò)深度時，我們只縮放 S2 和 S3 中的塊數(shù)。

評估協(xié)議。我們的實驗側(cè)重于圖像分類。評估性能在不同數(shù)據(jù)大小的模型中，我們使用三個越來越大的數(shù)據(jù)集，即 ImageNet-1K（1.28M 圖像）、ImageNet-21K（12.7M 圖像）和 JFT（300M 圖像）。繼之前的工作之后，我們首先在分辨率為 224 的三個數(shù)據(jù)集上分別對模型進(jìn)行 300、90 和 14 個時期的預(yù)訓(xùn)練。然后，我們以所需的分辨率對 ImageNet-1K 上的預(yù)訓(xùn)練模型進(jìn)行 30 次微調(diào)，并獲得相應(yīng)的評估精度。一個例外是 ImageNet-1K 在 224 分辨率下的表現(xiàn)，可以在預(yù)訓(xùn)練結(jié)束時直接獲得。請注意，與使用 Transformer 模塊的其他模型類似，直接評估在 ImageNet-1K 上以更大分辨率預(yù)訓(xùn)練的模型而不進(jìn)行微調(diào)通常會導(dǎo)致性能下降。因此，每當(dāng)輸入分辨率發(fā)生變化時，總是采用微調(diào)。

數(shù)據(jù)增強(qiáng)和正則化。在這項工作中，我們只考慮兩種廣泛使用的數(shù)據(jù)增強(qiáng)，即 RandAugment [44] 和 MixUp [45]，以及三種常用技術(shù)，包括隨機(jī)深度 [46]、標(biāo)簽平滑 [47] 和權(quán)重衰減 [48]，來正則化該模型。直觀上，增強(qiáng)和正則化方法的特定超參數(shù)取決于模型大小和數(shù)據(jù)規(guī)模，其中強(qiáng)正則化通常應(yīng)用于較大的模型和較小的數(shù)據(jù)集。在一般原則下，當(dāng)前范式下的一個復(fù)雜問題是如何隨著數(shù)據(jù)大小的變化調(diào)整預(yù)訓(xùn)練和微調(diào)的正則化。具體來說，我們有一個有趣的觀察結(jié)果，如果某種類型的增強(qiáng)在預(yù)訓(xùn)練期間完全被禁用，那么在微調(diào)期間簡單地打開它很可能會損害性能而不是改進(jìn)。我們推測這可能與數(shù)據(jù)分布偏移有關(guān)。因此，對于所提出模型的某些運行，我們在兩個較大的數(shù)據(jù)集 ImageNet21-K 和 JFT 上進(jìn)行預(yù)訓(xùn)練時，特意應(yīng)用了 RandAugment 和小程度的隨機(jī)深度。盡管這種正則化可能會損害預(yù)訓(xùn)練指標(biāo)，但這允許在微調(diào)期間進(jìn)行更通用的正則化和增強(qiáng)，從而提高下游性能。

4.2 主要結(jié)果

ImageNet-1K 僅使用 ImageNet-1K 數(shù)據(jù)集的實驗結(jié)果如表 4 所示。在類似條件下，所提出的 CoAtNet 模型不僅優(yōu)于 ViT 變體，而且匹配最好的僅卷積架構(gòu)，即 EfficientNet-V2 和 NFNet。此外，我們還在圖 2 中對分辨率為 224x224 的所有結(jié)果進(jìn)行了可視化。正如我們所見，CoAtNet 的擴(kuò)展性比之前帶有注意力模塊的模型要好得多。

ImageNet-21K 從表 4 和圖 3 中我們可以看出，當(dāng)使用 ImageNet-21K 進(jìn)行預(yù)訓(xùn)練時，CoAtNet 的優(yōu)勢變得更加明顯，明顯優(yōu)于之前所有的模型。值得注意的是，最好的 CoAtNet 變體實現(xiàn)了 88.56% 的 top-1 準(zhǔn)確率，與 88.55% 的 ViTH/14 性能相匹配，這需要在 23 倍大的專有弱標(biāo)記數(shù)據(jù)集 (JFT) 上對 2.3 倍大的 ViT 模型進(jìn)行預(yù)訓(xùn)練 2.2 x 更多步驟。這標(biāo)志著數(shù)據(jù)效率和計算效率的顯著提高。 JFT 最后，在表 5 中，我們使用 JFT 在大規(guī)模數(shù)據(jù)機(jī)制下進(jìn)一步評估了 CoAtNet。令人鼓舞的是，我們的 CoAtNet-4 幾乎可以與 NFNet-F4+ 設(shè)置的 JFT 相媲美，同時在 TPU 訓(xùn)練時間和參數(shù)數(shù)量方面效率提高 2 倍。當(dāng)我們擴(kuò)大模型以消耗與 NFNet-F4+ 類似的訓(xùn)練資源時，CoAtNet 在 top-1 準(zhǔn)確率上達(dá)到 89.77%，在可比設(shè)置下優(yōu)于之前的結(jié)果。

4.3 消融研究

在本節(jié)中，我們將消除我們對 CoAtNet 的設(shè)計選擇。

首先，我們研究了將卷積和注意力結(jié)合到單個計算單元中的相對注意力的重要性。具體來說，我們比較了兩種模型，一種具有相對注意力另一個沒有，在單獨的 ImageNet-1K 和 ImageNet-21K 傳輸設(shè)置下。從表 6 可以看出，當(dāng)僅使用 ImageNet-1K 時，相對注意力明顯優(yōu)于標(biāo)準(zhǔn)注意力，表明具有更好的泛化能力。此外，在 ImageNet-21K 傳輸設(shè)置下，相對注意力變量實現(xiàn)了明顯更好的傳輸精度，盡管它們非常接近的訓(xùn)練前表現(xiàn)。這表明視覺處理中相對注意力的主要優(yōu)勢不是更高的容量，而是更好的概括。

其次，由于帶有 MBConv 塊的 S2 和帶有相關(guān) Transformer 塊的 S3 占據(jù)了 CoAtNet 的大部分計算，所以要問的問題是如何拆分 S2（MBConv）和 S3（Transformer）之間的計算以獲得良好的性能。在實踐中，它歸結(jié)為決定每個階段的塊數(shù)，我們將其稱為“布局”設(shè)計。為此，我們比較了我們在表 7 中試驗過的幾種不同布局。

? 如果我們保持 S2 和 S3 中的區(qū)塊總數(shù)固定并改變每個階段的數(shù)量，我們會觀察到 V0 是 V1 和 V2 之間的最佳點。基本上，在 S3 中擁有更多 Transformer 塊通常會帶來更好的性能，直到 S2 中 MBConv 塊的數(shù)量太小而無法很好地泛化。

? 為了進(jìn)一步評估最佳點是否也適用于轉(zhuǎn)移設(shè)置，其中更高的容量通常被認(rèn)為更重要，我們進(jìn)一步比較了在 ImageNet-21K 轉(zhuǎn)移到 ImageNet-1K 設(shè)置下的 V0 和 V1。有趣的是，盡管 V1 在 ImageNet-21K 預(yù)訓(xùn)練期間的性能略好于 V0，但 V1 的傳輸精度明顯落后于 V0。同樣，這表明卷積在實現(xiàn)良好泛化方面的重要性。

最后，我們研究了模型細(xì)節(jié)的兩種選擇，即每個注意力（默認(rèn)為 32）頭部的維度以及 MBConv 塊中使用的歸一化類型（默認(rèn)為 BatchNorm）。從表 8 中，我們可以看到將頭部大小從 32 增加到 64 會略微影響性能，盡管它實際上可以顯著提高 TPU 速度。在實踐中，這將是一種可以做出的質(zhì)量與速度的權(quán)衡。另一方面，BatchNorm 和 LayerNorm 的性能幾乎相同，而 BatchNorm 在 TPU 上快 10 - 20%，具體取決于每核批量大小。

5 結(jié)論

在本文中，我們系統(tǒng)地研究了卷積和 Transformer 的特性，這導(dǎo)致了一種將它們組合成名為 CoAtNet 的新模型系列的原則方法。大量實驗表明，CoAtNet 兼具 ConvNets 等良好的泛化能力和 Transformers 等卓越的模型容量，在不同的數(shù)據(jù)大小和計算預(yù)算下實現(xiàn)了最先進(jìn)的性能。請注意，本文目前專注于用于模型開發(fā)的 ImageNet 分類。然而，我們相信我們的方法適用于更廣泛的應(yīng)用，如對象檢測和語義分割。我們將把它們留給以后的工作。

機(jī)器翻譯神經(jīng)網(wǎng)絡(luò)

版權(quán)聲明：本文內(nèi)容由網(wǎng)絡(luò)用戶投稿，版權(quán)歸原作者所有，本站不擁有其著作權(quán)，亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容，請聯(lián)系我們jiasou666@gmail.com 處理，核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

匯總（分支歷史表）">分支匯總（分支歷史表）

1374 2022-05-30

論文 降重在哪里（論文降重在哪里降）">論文 降重在哪里（論文降重在哪里降）

1374 2022-05-30

分類 匯總，顯示文字怎樣操作（怎么用分類匯總）">分類 匯總，顯示文字怎樣操作（怎么用分類匯總）

1374 2022-05-30

【圖像 分類】論文翻譯——CoAtNet：結(jié)合卷積和注意力適用于所有數(shù)據(jù)大小

匯總（分支歷史表）">分支匯總（分支歷史表）

論文 降重在哪里（論文降重在哪里降）">論文 降重在哪里（論文降重在哪里降）

分類 匯總，顯示文字怎樣操作（怎么用分類匯總）">分類 匯總，顯示文字怎樣操作（怎么用分類匯總）

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進(jìn)盤點進(jìn)銷存軟件排行榜前十名

進(jìn)銷存系統(tǒng)哪個簡單好用？進(jìn)銷存系統(tǒng)優(yōu)點

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機(jī)械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進(jìn)銷存軟件和ERP有什么區(qū)別？進(jìn)銷存與erp軟件理解

進(jìn)銷存如何進(jìn)行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設(shè)計？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進(jìn)銷存庫存管理 系統(tǒng)（智慧進(jìn)銷存）">智能進(jìn)銷存庫存管理系統(tǒng)（智慧進(jìn)銷存）

在線文檔哪家強(qiáng)？8款在線文檔編輯軟件推薦">在線文檔哪家強(qiáng)？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統(tǒng)的功能有哪些？餐飲服務(wù)系統(tǒng)的構(gòu)成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務(wù)系統(tǒng)的構(gòu)成及工

進(jìn)銷存庫存管理盤點">簡單進(jìn)銷存庫存管理盤點

友情鏈接

【圖像分類】論文翻譯——CoAtNet：結(jié)合卷積和注意力 適用于所有數(shù)據(jù)大小

匯總（分支歷史表）">分支匯總（分支歷史表）

論文降重在哪里（論文降重在哪里降）">論文降重在哪里（論文降重在哪里降）

分類匯總，顯示文字怎樣操作（怎么用分類匯總）">分類匯總，顯示文字怎樣操作（怎么用分類匯總）

推薦文章

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進(jìn)銷存庫存管理系統(tǒng)（智慧進(jìn)銷存）">智能進(jìn)銷存庫存管理系統(tǒng)（智慧進(jìn)銷存）

在線文檔哪家強(qiáng)？8款在線文檔編輯軟件推薦">在線文檔哪家強(qiáng)？8款在線文檔編輯軟件推薦

系統(tǒng)的功能有哪些？餐飲服務(wù)系統(tǒng)的構(gòu)成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務(wù)系統(tǒng)的構(gòu)成及工

進(jìn)銷存庫存管理盤點">簡單進(jìn)銷存庫存管理盤點

友情鏈接

【圖像分類】論文翻譯——CoAtNet：結(jié)合卷積和注意力適用于所有數(shù)據(jù)大小