第4篇Inception V3(2013第四篇)

      網友投稿 986 2025-04-04

      Inception-V3


      Rethinking the Inception Architecture for Computer Vision

      -:https://arxiv.org/pdf/1512.00567.pdf

      摘要

      對許多任務而言,卷積網絡是目前最新的計算機視覺解決方案的核心。從2014年開始,深度卷積網絡開始變成主流,在各種基準數據集上都取得了實質性成果。對于大多數任務而言,雖然增加的模型大小和計算成本都趨向于轉化為直接的質量收益(只要提供足夠的標注數據去訓練),但計算效率和低參數計數仍是各種應用場景的限制因素,例如移動視覺和大數據場景。目前,我們正在探索增大網絡的方法,目標是通過適當的分解卷積和積極的正則化來盡可能地有效利用增加的計算。我們在ILSVRC 2012分類挑戰賽的驗證集上評估了我們的方法,結果證明我們的方法超過了目前最先進的方法并取得了實質性收益:對于單一框架評估錯誤率為:1.2% top-1和5.6% top-5,使用的網絡計算代價為每次推斷需要進行50億次乘加運算并使用不到2500萬的參數。通過四個模型組合和多次評估,我們報告了3.5% top-5和17.3% top-1的錯誤率。

      1 引言

      從2012年Krizhevsky等人贏得了ImageNet競賽起,他們的網絡“AlexNet”已經成功了應用到了許多計算機視覺任務中,例如目標檢測,分割,行人姿勢評估,視頻分類,目標跟蹤和超分辨率[3]。

      這些成功推動了一個新研究領域,這個領域主要專注于尋找更高效運行的卷積神經網絡。從2014年開始,通過利用更深更寬的網絡,網絡架構的質量得到了明顯改善。VGGNet和GoogLeNet在2014 ILSVRC分類挑戰上取得了類似的高性能。一個有趣的發現是在分類性能上的收益趨向于轉換成各種應用領域上的顯著質量收益。這意味著深度卷積架構上的架構改進可以用來改善大多數越來越多地依賴于高質量、可學習視覺特征的其它計算機視覺任務的性能。網絡質量的改善也導致了卷積網絡在新領域的應用,在AlexNet特征不能與手工精心設計的解決方案競爭的情況下,例如,檢測時的候選區域生成。

      盡管VGGNet具有架構簡潔的強有力特性,但它的成本很高:評估網絡需要大量的計算。另一方面,GoogLeNet[20]的Inception架構也被設計為在內存和計算預算嚴格限制的情況下也能表現良好。例如,GoogleNet只使用了500萬參數,與其前身AlexNet相比減少了12倍,AlexNet使用了6000萬參數。此外,VGGNet使用了比AlexNet大約多3倍的參數。

      Inception的計算成本也遠低于VGGNet或其更高性能的后繼者[6]。這使得可以在大數據場景中,在大量數據需要以合理成本處理的情況下或在內存或計算能力固有地受限情況下,利用Inception網絡變得可行,例如在移動視覺設定中。通過應用針對內存使用的專門解決方案[2],[15]或通過計算技巧優化某些操作的執行[10],可以減輕部分這些問題。但是這些方法增加了額外的復雜性。此外,這些方法也可以應用于優化Inception架構,再次擴大效率差距。

      然而,Inception架構的復雜性使得更難以對網絡進行更改。如果單純地放大架構,大部分的計算收益可能會立即丟失。此外,[20]并沒有提供關于導致GoogLeNet架構的各種設計決策的貢獻因素的明確描述。這使得它更難以在適應新用例的同時保持其效率。例如,如果認為有必要增加一些Inception模型的能力,將濾波器組大小的數量加倍的簡單變換將導致計算成本和參數數量增加4倍。這在許多實際情況下可能會被證明是禁止或不合理的,尤其是在相關收益適中的情況下。在本文中,我們從描述一些一般原則和優化思想開始,對于以有效的方式擴展卷積網絡來說,這被證實是有用的。雖然我們的原則不局限于Inception類型的網絡,但是在這種情況下,它們更容易觀察,因為Inception類型構建塊的通用結構足夠靈活,可以自然地合并這些約束。這通過大量使用降維和Inception模塊的并行結構來實現,這允許減輕結構變化對鄰近組件的影響。但是,對于這樣做需要謹慎,因為應該遵守一些指導原則來保持模型的高質量。

      2 通用設計原則

      這里我們將介紹一些具有卷積網絡的、具有各種架構選擇的、基于大規模實驗的設計原則。在這一點上,以下原則的效用是推測性的,另外將來的實驗證據將對于評估其準確性和有效領域是必要的。然而,嚴重偏移這些原則往往會導致網絡質量的惡化,修正檢測到的這些偏差狀況通常會導致改進的架構。

      避免表征瓶頸,尤其是在網絡的前面。前饋網絡可以由從輸入層到分類器或回歸器的非循環圖表示。這為信息流定義了一個明確的方向。對于分離輸入輸出的任何切口,可以訪問通過切口的信息量。應該避免極端壓縮的瓶頸。一般來說,在達到用于著手任務的最終表示之前,表示大小應該從輸入到輸出緩慢減小。理論上,信息內容不能僅通過表示的維度來評估,因為它丟棄了諸如相關結構的重要因素;維度僅提供信息內容的粗略估計。

      更高維度的表示在網絡中更容易局部處理。在卷積網絡中增加每個圖塊的激活允許更多解耦的特征。所產生的網絡將訓練更快。

      空間聚合可以在較低維度嵌入上完成,而不會在表示能力上造成許多或任何損失。例如,在執行更多展開(例如3×3)卷積之前,可以在空間聚合之前減小輸入表示的維度,沒有預期的嚴重不利影響。我們假設,如果在空間聚合上下文中使用輸出,則相鄰單元之間的強相關性會導致維度縮減期間的信息損失少得多。鑒于這些信號應該易于壓縮,因此尺寸減小甚至會促進更快的學習。

      平衡網絡的寬度和深度。通過平衡每個階段的濾波器數量和網絡的深度可以達到網絡的最佳性能。增加網絡的寬度和深度可以有助于更高質量的網絡。然而,如果兩者并行增加,則可以達到恒定計算量的最佳改進。因此,計算預算應該在網絡的深度和寬度之間以平衡方式進行分配。

      雖然這些原則可能是有意義的,但并不是開箱即用的直接使用它們來提高網絡質量。我們的想法是僅在不明確的情況下才明智地使用它們。

      3 基于大濾波器尺寸分解卷積

      GoogLeNet網絡的大部分初始收益來源于大量地使用降維。這可以被視為以計算有效的方式分解卷積的特例??紤]例如1×1卷積層之后接一個3×3卷積層的情況。在視覺網絡中,預期相近激活的輸出是高度相關的。因此,我們可以預期,它們的激活可以在聚合之前被減少,并且這應該會導致類似的富有表現力的局部表示。

      在這里,我們將在各種設定中探索卷積分解的其它方法,特別是為了提高解決方案的計算效率。由于Inception網絡是全卷積的,每個權重對應每個激活的一次乘法。因此,任何計算成本的降低會導致參數數量減少。這意味著,通過適當的分解,我們可以得到更多的解耦參數,從而加快訓練。此外,我們可以使用計算和內存節省來增加我們網絡的濾波器組的大小,同時保持我們在單個計算機上訓練每個模型副本的能力。

      3.1 分解到更小的卷積

      具有較大空間濾波器(例如5×5或7×7)的卷積在計算方面往往不成比例地昂貴。例如,具有n個濾波器的5×5卷積在具有m個濾波器的網格上比具有相同數量的濾波器的3×3卷積的計算量高

      25

      /

      9

      =

      2.78

      25/9=2.78

      25/9=2.78倍。當然,5×5濾波器在更前面的層可以捕獲更遠的單元激活之間、信號之間的依賴關系,因此濾波器幾何尺寸的減小帶來了很大的表現力。然而,我們可以詢問5×5卷積是否可以被具有相同輸入尺寸和輸出深度的參數較小的多層網絡所取代。如果我們放大5×5卷積的計算圖,我們看到每個輸出看起來像一個小的完全連接的網絡,在其輸入上滑過5×5的塊(見圖1)。由于我們正在構建視覺網絡,所以通過兩層的卷積結構再次利用平移不變性來代替全連接的組件似乎是很自然的:第一層是3×3卷積,第二層是在第一層的3×3輸出網格之上的一個全連接層(見圖1)。通過在輸入激活網格上滑動這個小網絡,用兩層3×3卷積來替換5×5卷積(比較圖4和5)。

      該設定通過相鄰塊之間共享權重明顯減少了參數數量。為了分析預期的計算成本節省,我們將對典型的情況進行一些簡單的假設:我們可以假設

      n

      =

      α

      m

      n=\alpha m

      n=αm,也就是我們想通過常數

      α

      \alpha

      α因子來改變激活/單元的數量。由于5×5卷積是聚合的,

      α

      \alpha

      α通常比1略大(在GoogLeNet中大約是1.5)。用兩個層替換5×5層,似乎可以通過兩個步驟來實現擴展:在兩個步驟中通過

      α

      \sqrt \alpha

      α

      增加濾波器數量。為了簡化我們的估計,通過選擇

      α

      =

      1

      \alpha=1

      α=1(無擴展),如果我們單純地滑動網絡而不重新使用相鄰網格圖塊之間的計算,我們將增加計算成本?;瑒釉摼W絡可以由兩個3×3的卷積層表示,其重用相鄰圖塊之間的激活。這樣,我們最終得到一個計算量減少到

      9

      +

      9

      25

      ×

      \frac {9+9} {25} ×

      259+9 ×的網絡,通過這種分解導致了28%的相對增益。每個參數在每個單元的激活計算中只使用一次,所以參數計數具有完全相同的節約。不過,這個設置提出了兩個一般性的問題:這種替換是否會導致任何表征力的喪失?如果我們的主要目標是對計算的線性部分進行分解,是不是建議在第一層保持線性激活?我們已經進行了幾個控制實驗(例如參見圖2),并且在分解的所有階段中使用線性激活總是遜于使用修正線性單元。我們將這個收益歸因于網絡可以學習的增強的空間變化,特別是如果我們對輸出激活進行批標準化[7]。當對維度減小組件使用線性激活時,可以看到類似的效果。

      3.2 空間分解為不對稱卷積

      上述結果表明,大于3×3的卷積濾波器可能不是通常有用的,因為它們總是可以簡化為3×3卷積層序列。我們仍然可以問這個問題,是否應該把它們分解成更小的,例如2×2的卷積。然而,通過使用非對稱卷積,可以做出甚至比2×2更好的效果,即n×1。例如使用3×1卷積后接一個1×3卷積,相當于以與3×3卷積相同的感受野滑動兩層網絡(參見圖3)。如果輸入和輸出濾波器的數量相等,那么對于相同數量的輸出濾波器,兩層解決方案便宜33%。相比之下,將3×3卷積分解為兩個2×2卷積表示僅節省了11%的計算量。

      在理論上,我們可以進一步論證,可以通過1×n卷積和后面接一個n×1卷積替換任何n×n卷積,并且隨著n增長,計算成本節省顯著增加(見圖6)。實際上,我們發現,采用這種分解在前面的層次上不能很好地工作,但是對于中等網格尺寸(在m×m特征圖上,其中m范圍在12到20之間),其給出了非常好的結果。在這個水平上,通過使用1×7卷積,然后是7×1卷積可以獲得非常好的結果。

      4 利用輔助分類器

      引入了輔助分類器的概念,以改善非常深的網絡的收斂。最初的動機是將有用的梯度推向較低層,使其立即有用,并通過抵抗非常深的網絡中的消失梯度問題來提高訓練過程中的收斂。Lee等人也認為輔助分類器促進了更穩定的學習和更好的收斂。有趣的是,我們發現輔助分類器在訓練早期并沒有導致改善收斂:在兩個模型達到高精度之前,有無側邊網絡的訓練進度看起來幾乎相同。接近訓練結束,輔助分支網絡開始超越沒有任何分支的網絡的準確性,達到了更高的穩定水平。

      另外,在網絡的不同階段使用了兩個側分支。移除更下面的輔助分支對網絡的最終質量沒有任何不利影響。再加上前一段的觀察結果,這意味著最初的假設,這些分支有助于演變低級特征很可能是不適當的。相反,我們認為輔助分類器起著正則化項的作用。這是由于如果側分支是批標準化的[7]或具有丟棄層,則網絡的主分類器性能更好。這也為推測批標準化作為正則化項給出了一個弱支持證據。

      5 有效的網格尺寸減少

      傳統上,卷積網絡使用一些池化操作來縮減特征圖的網格大小。為了避免表示瓶頸,在應用最大池化或平均池化之前,需要擴展網絡濾波器的激活維度。例如,開始有一個帶有

      k

      k

      k個濾波器的

      d

      ×

      d

      d \times d

      d×d網格,如果我們想要達到一個帶有

      2

      k

      2k

      2k個濾波器的

      d

      2

      ×

      d

      2

      \fraca20ooum{2}\times \fraciok2kcw{2}

      2d ×2d 網格,我們首先需要用

      2

      k

      2k

      2k個濾波器計算步長為1的卷積,然后應用一個額外的池化步驟。這意味著總體計算成本由在較大的網格上使用

      2

      d

      2

      k

      2

      2d^2k^2

      2d2k2次運算的昂貴卷積支配。一種可能性是轉換為帶有卷積的池化,因此導致

      2

      (

      d

      2

      )

      2

      k

      2

      2(\fracaooayci{2})^2k^2

      2(2d )2k2次運算,將計算成本降低為原來的四分之一。然而,由于表示的整體維度下降到

      (

      d

      2

      )

      2

      k

      (\fracg2myiou{2})^2k

      (2d )2k,會導致表示能力較弱的網絡(參見圖9),這會產生一個表示瓶頸。我們建議另一種變體,其甚至進一步降低了計算成本,同時消除了表示瓶頸(見圖10),而不是這樣做。我們可以使用兩個平行的步長為2的塊:

      P

      P

      P和

      C

      C

      C。

      P

      P

      P是一個池化層(平均池化或最大池化)的激活,兩者都是步長為

      2

      2

      2,其濾波器組連接如圖10所示。

      6 Inception-v2

      在這里,我們連接上面的點,并提出了一個新的架構,在ILSVRC 2012分類基準數據集上提高了性能。我們的網絡布局在表1中給出。注意,基于與3.1節中描述的同樣想法,我們將傳統的

      7

      ×

      7

      【第4篇】Inception V3(2013第四篇)

      7 \times 7

      7×7卷積分解為3個

      3

      ×

      3

      3\times 3

      3×3卷積。對于網絡的Inception部分,我們在$ 35 \times 35$處有

      3

      3

      3個傳統的Inception模塊,每個模塊有

      288

      288

      288個濾波器。使用第5節中描述的網格縮減技術,這將縮減為

      17

      ×

      17

      17\times 17

      17×17的網格,具有

      768

      768

      768個濾波器。這之后是圖5所示的

      5

      5

      5個分解的Inception模塊實例。使用圖10所示的網格縮減技術,這被縮減為

      8

      ×

      8

      ×

      1280

      8 \times 8 \times 1280

      8×8×1280的網格。在最粗糙的

      8

      ×

      8

      8 \times 8

      8×8級別,我們有兩個如圖6所示的Inception模塊,每個塊連接的輸出濾波器組的大小為2048。網絡的詳細結構,包括Inception模塊內濾波器組的大小,在補充材料中給出,在提交的tar文件中的model.txt中給出。然而,我們已經觀察到,只要遵守第2節的原則,對于各種變化網絡的質量就相對穩定。雖然我們的網絡深度是

      42

      42

      42層,但我們的計算成本僅比GoogLeNet高出約

      2.5

      2.5

      2.5倍,它仍比VGGNet要高效的多。

      7 通過標簽平滑進行模型正則化

      我們提出了一種通過估計訓練期間標簽丟棄的邊緣化效應來對分類器層進行正則化的機制。

      對于每個訓練樣本

      x

      x

      x,我們的模型計算每個標簽的概率

      k

      {

      1

      K

      }

      k\in \lbrace 1\ldots K \rbrace

      k∈{1…K}:

      p

      (

      k

      x

      )

      =

      exp

      ?

      (

      z

      k

      )

      i

      =

      1

      K

      exp

      ?

      (

      z

      i

      )

      p(k|x) = \frac{\exp(z_k)}{\sum_{i=1}^K \exp(z_i)}

      p(k∣x)=∑i=1K exp(zi )exp(zk ) 。這里,

      z

      i

      z_i

      zi 是對數單位或未歸一化的對數概率。考慮這個訓練樣本在標簽上的實際分布

      q

      (

      k

      x

      )

      q(k|x)

      q(k∣x),因此歸一化后

      k

      q

      (

      k

      x

      )

      =

      1

      \sum_k q(k|x) = 1

      ∑k q(k∣x)=1。為了簡潔,我們省略

      p

      p

      p和

      q

      q

      q對樣本

      x

      x

      x的依賴。我們將樣本損失定義為交叉熵:

      ?

      =

      ?

      k

      =

      1

      K

      log

      ?

      (

      p

      (

      k

      )

      )

      q

      (

      k

      )

      \ell = -\sum_{k=1}^K \log(p(k)) q(k)

      ?=?∑k=1K log(p(k))q(k)。最小化交叉熵等價于最大化標簽對數似然期望,其中標簽是根據它的實際分布

      q

      (

      k

      )

      q(k)

      q(k)選擇的。交叉熵損失對于

      z

      k

      z_k

      zk 是可微的,因此可以用來進行深度模型的梯度訓練。其梯度有一個更簡單的形式:

      ?

      ?

      ?

      z

      k

      =

      p

      (

      k

      )

      ?

      q

      (

      k

      )

      \frac{\partial\ell}{\partial z_k} = p(k) - q(k)

      ?zk ?? =p(k)?q(k),它的范圍在

      ?

      1

      -1

      ?1到

      1

      1

      1之間。

      考慮單個真實標簽

      y

      y

      y的例子,對于所有

      k

      y

      k\neq y

      k=y,有

      q

      (

      y

      )

      =

      1

      q(y)=1

      q(y)=1,

      q

      (

      k

      )

      =

      0

      q(k)=0

      q(k)=0。在這種情況下,最小化交叉熵等價于最大化正確標簽的對數似然。對于一個特定的樣本

      x

      x

      x,其標簽為

      y

      y

      y,對于

      q

      (

      k

      )

      =

      δ

      k

      ,

      y

      q(k)= \delta_{k,y}

      q(k)=δk,y ,最大化其對數概率,

      δ

      k

      ,

      y

      \delta_{k,y}

      δk,y 為狄拉克δ函數,當且僅當

      k

      =

      y

      k=y

      k=y時,δ函數值為1,否則為0。對于有限的

      z

      k

      z_k

      zk ,不能取得最大值,但對于所有

      k

      y

      k\neq y

      k=y,如果

      z

      y

      ?

      z

      k

      z_y\gg z_k

      zy ?zk ——也就是說,如果對應實際標簽的邏輯單元遠大于其它的邏輯單元,那么對數概率會接近最大值。然而這可能會引起兩個問題。首先,它可能導致過擬合:如果模型學習到對于每一個訓練樣本,分配所有概率到實際標簽上,那么它不能保證泛化能力。第二,它鼓勵最大的邏輯單元與所有其它邏輯單元之間的差距變大,與有界限的梯度

      ?

      ?

      ?

      z

      k

      \frac{\partial\ell}{\partial z_k}

      ?zk ?? 相結合,這會降低模型的適應能力。直觀上講這會發生,因為模型變得對它的預測過于自信。

      我們提出了一個鼓勵模型不那么自信的機制。如果目標是最大化訓練標簽的對數似然,這可能不是想要的,但它確實使模型正規化并使其更具適應性。這個方法很簡單。考慮標簽

      u

      (

      k

      )

      u(k)

      u(k)的分布和平滑參數

      ?

      \epsilon

      ?,與訓練樣本

      x

      x

      x相互獨立。對于一個真實標簽為

      y

      y

      y的訓練樣本,我們用

      q

      (

      k

      x

      )

      =

      (

      1

      ?

      ?

      )

      δ

      k

      ,

      y

      +

      ?

      u

      (

      k

      )

      q’(k|x) = (1-\epsilon) \delta_{k,y} + \epsilon u(k)

      q’(k∣x)=(1??)δk,y +?u(k)

      代替標簽分布

      q

      (

      k

      x

      )

      =

      δ

      k

      ,

      y

      q(k|x)=\delta_{k,y}

      q(k∣x)=δk,y ,其由最初的實際分布

      q

      (

      k

      x

      )

      q(k|x)

      q(k∣x)和固定分布

      u

      (

      k

      )

      u(k)

      u(k)混合得到,它們的權重分別為

      1

      ?

      ?

      1-\epsilon

      1??和

      ?

      \epsilon

      ?。這可以看作獲得標簽

      k

      k

      k的分布如下:首先,將其設置為真實標簽

      k

      =

      y

      k=y

      k=y;其次,用分布

      u

      (

      k

      )

      u(k)

      u(k)中的采樣和概率

      ?

      \epsilon

      ?替代

      k

      k

      k。我們建議使用標簽上的先驗分布作為

      u

      (

      k

      )

      u(k)

      u(k)。在我們的實驗中,我們使用了均勻分布

      u

      (

      k

      )

      =

      1

      /

      K

      u(k) = 1/K

      u(k)=1/K,以便使得

      q

      (

      k

      )

      =

      (

      1

      ?

      ?

      )

      δ

      k

      ,

      y

      +

      ?

      K

      .

      q’(k) = (1-\epsilon) \delta_{k,y} + \frac{\epsilon}{K}.

      q’(k)=(1??)δk,y +K? .

      我們將真實標簽分布中的這種變化稱為標簽平滑正則化,或LSR。

      注意,LSR實現了期望的目標,阻止了最大的邏輯單元變得比其它的邏輯單元更大。實際上,如果發生這種情況,則一個

      q

      (

      k

      )

      q(k)

      q(k)將接近

      1

      1

      1,而所有其它的將會接近

      0

      0

      0。這會導致

      q

      (

      k

      )

      q’(k)

      q’(k)有一個大的交叉熵,因為不同于

      q

      (

      k

      )

      =

      δ

      k

      ,

      y

      q(k)=\delta_{k,y}

      q(k)=δk,y ,所有的

      q

      (

      k

      )

      q’(k)

      q’(k)都有一個正的下界。

      LSR的另一種解釋可以通過考慮交叉熵來獲得:

      H

      (

      q

      ,

      p

      )

      =

      ?

      k

      =

      1

      K

      log

      ?

      p

      (

      k

      )

      q

      (

      k

      )

      =

      (

      1

      ?

      ?

      )

      H

      (

      q

      ,

      p

      )

      +

      ?

      H

      (

      u

      ,

      p

      )

      H(q’,p) = -\sum_{k=1}^K \log p(k) q’(k) = (1-\epsilon)H(q, p) + \epsilon H(u, p)

      H(q’,p)=?k=1∑K logp(k)q’(k)=(1??)H(q,p)+?H(u,p)

      因此,LSR等價于用一對這樣的損失

      H

      (

      q

      ,

      p

      )

      H(q,p)

      H(q,p)和

      H

      (

      u

      ,

      p

      )

      H(u,p)

      H(u,p)來替換單個交叉熵損失

      H

      (

      q

      ,

      p

      )

      H(q,p)

      H(q,p)。第二個損失懲罰預測的標簽分布

      p

      p

      p與先驗

      u

      u

      u之間的偏差,其中相對權重為

      ?

      1

      ?

      ?

      \frac{\epsilon}{1-\epsilon}

      1??? 。注意,由于

      H

      (

      u

      ,

      p

      )

      =

      D

      K

      L

      (

      u

      p

      )

      +

      H

      (

      u

      )

      H(u,p) = D_{KL}(u|p) + H(u)

      H(u,p)=DKL (u∣p)+H(u)和

      H

      (

      u

      )

      H(u)

      H(u)是固定的,因此這個偏差可以等價地被KL散度捕獲。當

      u

      u

      u是均勻分布時,

      H

      (

      u

      ,

      p

      )

      H(u,p)

      H(u,p)是度量預測分布

      p

      p

      p與均勻分布不同的程度,也可以通過負熵

      ?

      H

      (

      p

      )

      -H(p)

      ?H(p)來度量(但不等價);我們還沒有實驗過這種方法。

      在我們的

      K

      =

      1000

      K=1000

      K=1000類的ImageNet實驗中,我們使用了

      u

      (

      k

      )

      =

      1

      /

      1000

      u(k) = 1/1000

      u(k)=1/1000和

      ?

      =

      0.1

      \epsilon=0.1

      ?=0.1。對于ILSVRC 2012,我們發現對于top-1錯誤率和top-5錯誤率,持續提高了大約

      0.2

      %

      0.2\%

      0.2%(參見表3)。

      8 訓練方法

      我們在TensorFlow[1]分布式機器學習系統上使用隨機梯度方法訓練了我們的網絡,使用了

      50

      50

      50個副本,每個副本在一個NVidia Kepler GPU上運行,批處理大小為

      32

      32

      32,

      100

      100

      100個epoch。我們之前的實驗使用動量方法[19],衰減值為

      0.9

      0.9

      0.9,而我們最好的模型是用RMSProp [21]實現的,衰減值為

      0.9

      0.9

      0.9,

      ?

      =

      1.0

      \epsilon=1.0

      ?=1.0。我們使用

      0.045

      0.045

      0.045的學習率,每兩個epoch以

      0.94

      0.94

      0.94的指數速率衰減。此外,閾值為

      2.0

      2.0

      2.0的梯度裁剪[14]被發現對于穩定訓練是有用的。使用隨時間計算的運行參數的平均值來執行模型評估。

      9 低分辨率輸入上的性能

      視覺網絡的典型用例是用于檢測的后期分類,例如在Multibox [4]上下文中。這包括分析在某個上下文中包含單個對象的相對較小的圖像塊。任務是確定圖像塊的中心部分是否對應某個對象,如果是,則確定該對象的類別。這個挑戰的是對象往往比較小,分辨率低。這就提出了如何正確處理低分辨率輸入的問題。

      普遍的看法是,使用更高分辨率感受野的模型傾向于導致顯著改進的識別性能。然而,區分第一層感受野分辨率增加的效果和較大的模型容量、計算量的效果是很重要的。如果我們只是改變輸入的分辨率而不進一步調整模型,那么我們最終將使用計算上更便宜的模型來解決更困難的任務。當然,由于減少了計算量,這些解決方案很自然就出來了。為了做出準確的評估,模型需要分析模糊的提示,以便能夠“幻化”細節。這在計算上是昂貴的。因此問題依然存在:如果計算量保持不變,更高的輸入分辨率會有多少幫助。確保不斷努力的一個簡單方法是在較低分辨率輸入的情況下減少前兩層的步長,或者簡單地移除網絡的第一個池化層。

      為了這個目的我們進行了以下三個實驗:

      步長為

      2

      2

      2,大小為

      299

      ×

      299

      299\times 299

      299×299的感受野和最大池化。

      步長為

      1

      1

      1,大小為

      151

      ×

      151

      151\times 151

      151×151的感受野和最大池化。

      步長為

      1

      1

      1,大小為

      79

      ×

      79

      79\times 79

      79×79的感受野和第一層之后沒有池化。

      所有三個網絡具有幾乎相同的計算成本。雖然第三個網絡稍微便宜一些,但是池化層的成本是無足輕重的(在總成本的

      1

      1%

      1%以內)。在每種情況下,網絡都進行了訓練,直到收斂,并在ImageNet ILSVRC 2012分類基準數據集的驗證集上衡量其質量。結果如表2所示。雖然分辨率較低的網絡需要更長時間去訓練,但最終結果卻與較高分辨率網絡的質量相當接近。

      但是,如果只是單純地按照輸入分辨率減少網絡尺寸,那么網絡的性能就會差得多。然而,這將是一個不公平的比較,因為我們將在比較困難的任務上比較一個便宜16倍的模型。

      表2的這些結果也表明,有人可能會考慮在R-CNN [5]的上下文中對更小的對象使用專用的高成本低分辨率網絡。

      10 實驗結果和比較

      表3顯示了我們提出的體系結構(Inception-v2)識別性能的實驗結果,架構如第6節所述。每個Inception-v2行顯示了累積變化的結果,包括突出顯示的新修改加上所有先前修改的結果。標簽平滑是指在第7節中描述的方法。分解的

      7

      ×

      7

      7\times 7

      7×7包括將第一個

      7

      ×

      7

      7\times 7

      7×7卷積層分解成

      3

      ×

      3

      3\times 3

      3×3卷積層序列的改變。BN-auxiliary是指輔助分類器的全連接層也批標準化的版本,而不僅僅是卷積。我們將表3最后一行的模型稱為Inception-v3,并在多裁剪圖像和組合設置中評估其性能。

      我們所有的評估都在ILSVRC-2012驗證集上的48238個非黑名單樣本中完成,如[16]所示。我們也對所有50000個樣本進行了評估,結果在top-5錯誤率中大約為

      0.1

      %

      0.1\%

      0.1%,在top-1錯誤率中大約為

      0.2

      %

      0.2\%

      0.2%。在本文即將出版的版本中,我們將在測試集上驗證我們的組合結果,但是我們上一次對BN-Inception的春季測試[7]表明測試集和驗證集錯誤趨于相關性很好。

      11 結論

      我們提供了幾個設計原則來擴展卷積網絡,并在Inception體系結構的背景下進行研究。這個指導可以導致高性能的視覺網絡,與更簡單、更單一的體系結構相比,它具有相對適中的計算成本。Inception-v3的最高質量版本在ILSVR 2012分類上的單裁剪圖像評估中達到了

      21.2

      21.2%

      21.2%的top-1錯誤率和

      5.6

      5.6%

      5.6%的top-5錯誤率,達到了新的水平。與Ioffe等[7]中描述的網絡相比,這是通過增加相對適中(

      2.5

      /

      t

      i

      m

      e

      s

      2.5/times

      2.5/times)的計算成本來實現的。盡管如此,我們的解決方案所使用的計算量比基于更密集網絡公布的最佳結果要少得多:我們的模型比He等[6]的結果更好——將top-5(top-1)的錯誤率相對分別減少了

      25

      %

      25\%

      25% (

      14

      %

      14\%

      14%),然而在計算代價上便宜了六倍,并且使用了至少減少了五倍的參數(估計值)。我們的四個Inception-v3模型的組合效果達到了

      3.5

      3.5%

      3.5%,多裁剪圖像評估達到了

      3.5

      3.5%

      3.5%的top-5的錯誤率,這相當于比最佳發布的結果減少了

      25

      25%

      25%以上,幾乎是ILSVRC 2014的冠軍GoogLeNet組合錯誤率的一半。

      ),然而在計算代價上便宜了六倍,并且使用了至少減少了五倍的參數(估計值)。我們的四個Inception-v3模型的組合效果達到了

      3.5

      3.5%

      3.5%,多裁剪圖像評估達到了

      3.5

      3.5%

      3.5%的top-5的錯誤率,這相當于比最佳發布的結果減少了

      25

      25%

      25%以上,幾乎是ILSVRC 2014的冠軍GoogLeNet組合錯誤率的一半。

      我們還表明,可以通過感受野分辨率為

      79

      ×

      79

      79\times 79

      79×79的感受野取得高質量的結果。這可能證明在檢測相對較小物體的系統中是有用的。我們已經研究了在神經網絡中如何分解卷積和積極降維可以導致計算成本相對較低的網絡,同時保持高質量。較低的參數數量、額外的正則化、批標準化的輔助分類器和標簽平滑的組合允許在相對適中大小的訓練集上訓練高質量的網絡。

      卷積神經網絡 機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Windows系統和Ubuntu雙系統下怎么不借助第三方軟件刪除Ubuntu分區
      下一篇:電子商務行業的挑戰以及企業解決方案如何提供幫助
      相關文章
      亚洲老熟女五十路老熟女bbw| 欧洲 亚洲 国产图片综合| 久久亚洲精品成人无码| 激情亚洲一区国产精品| 久久亚洲sm情趣捆绑调教| 亚洲第一精品在线视频| 亚洲第一精品福利| 久久亚洲私人国产精品| 亚洲天堂中文资源| 伊人久久综在合线亚洲2019| 337p日本欧洲亚洲大胆色噜噜| 亚洲精品私拍国产福利在线| 亚洲免费视频网站| 亚洲综合无码一区二区三区| 亚洲精品国产第1页| 亚洲国产精品xo在线观看| 亚洲一区二区三区亚瑟| 亚洲欧洲日韩极速播放| 中文字幕在线观看亚洲日韩| 亚洲综合av一区二区三区不卡| 亚洲国产欧洲综合997久久| 亚洲av永久中文无码精品| 亚洲av永久中文无码精品| yy6080亚洲一级理论| 亚洲国产精品自产在线播放| 精品国产香蕉伊思人在线在线亚洲一区二区 | 日本亚洲高清乱码中文在线观看| 久久精品国产亚洲AV电影网| 亚洲日韩在线中文字幕综合 | 亚洲电影在线免费观看| 亚洲一区二区三区无码国产 | 亚洲男人的天堂久久精品 | 亚洲人成人无码网www电影首页| 国产∨亚洲V天堂无码久久久| 日韩精品一区二区亚洲AV观看| 亚洲一区中文字幕在线观看| 亚洲欧美自偷自拍另类视| 亚洲成?Ⅴ人在线观看无码| 亚洲日本va中文字幕久久| 久久久久亚洲Av片无码v| 亚洲网站视频在线观看|