亚洲国产精品成人久久 ,亚洲美免无码中文字幕在线,亚洲视频一区二区

深度學習最全優(yōu)化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

網(wǎng)友投稿 1485 2022-05-30

深度學習最全優(yōu)化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

前言

（標題不能再中二了）本文僅對一些常見的優(yōu)化方法進行直觀介紹和簡單的比較，各種優(yōu)化方法的詳細內容及公式只好去認真啃論文了，在此我就不贅述了。

SGD

此處的SGD指mini-batch gradient descent，關于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具體區(qū)別就不細說了?，F(xiàn)在的SGD一般都指mini-batch gradient descent。

SGD就是每一次迭代計算mini-batch的梯度，然后對參數(shù)進行更新，是最常見的優(yōu)化方法了。即：

SGD完全依賴于當前batch的梯度，所以可理解為允許當前batch的梯度多大程度影響參數(shù)更新

缺點：（正因為有這些缺點才讓這么多大神發(fā)展出了后續(xù)的各種算法）

選擇合適的learning rate比較困難

對所有的參數(shù)更新使用同樣的learning rate。對于稀疏數(shù)據(jù)或者特征，有時我們可能想更新快一些對于不經(jīng)常出現(xiàn)的特征，對于常出現(xiàn)的特征更新慢一些，這時候SGD就不太能滿足要求了

SGD容易收斂到局部最優(yōu)，在某些情況下可能被困在鞍點【但是在合適的初始化和學習率設置下，鞍點的影響其實沒這么大】

Momentum

momentum是模擬物理里動量的概念，積累之前的動量來替代真正的梯度。公式如下：

特點：

下降初期時，使用上一次參數(shù)更新，下降方向一致，乘上較大的能夠進行很好的加速

下降中后期時，在局部最小值來回震蕩的時候，，使得更新幅度增大，跳出陷阱

在梯度改變方向的時候，能夠減少更新

總而言之，momentum項能夠在相關方向加速SGD，抑制振蕩，從而加快收斂

Nesterov

nesterov項在梯度更新時做一個校正，避免前進太快，同時提高靈敏度。

將上一節(jié)中的公式展開可得：

momentum首先計算一個梯度(短的藍色向量)，然后在加速更新梯度的方向進行一個大的跳躍(長的藍色向量)，nesterov項首先在之前加速的梯度方向進行一個大的跳躍(棕色向量)，計算梯度然后進行校正(綠色梯向量)

其實，momentum項和nesterov項都是為了使梯度更新更加靈活，對不同情況有針對性。但是，人工設置一些學習率總還是有些生硬，接下來介紹幾種自適應學習率的方法

Adagrad

Adagrad其實是對學習率進行了一個約束。即：

特點：

前期較小的時候， regularizer較大，能夠放大梯度

后期較大的時候，regularizer較小，能夠約束梯度

適合處理稀疏梯度

缺點：

由公式可以看出，仍依賴于人工設置一個全局學習率

設置過大的話，會使regularizer過于敏感，對梯度的調節(jié)太大

中后期，分母上梯度平方的累加將會越來越大，使，使得訓練提前結束

Adadelta

Adadelta是對Adagrad的擴展，最初方案依然是對學習率進行自適應約束，但是進行了計算上的簡化。

Adagrad會累加之前所有的梯度平方，而Adadelta只累加固定大小的項，并且也不直接存儲這些項，僅僅是近似計算對應的平均值。即：

特點：

訓練初中期，加速效果不錯，很快

訓練后期，反復在局部最小值附近抖動

RMSprop

RMSprop可以算作Adadelta的一個特例：

當時，就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù)。

如果再求根的話，就變成了RMS(均方根)：

特點：

其實RMSprop依然依賴于全局學習率

RMSprop算是Adagrad的一種發(fā)展，和Adadelta的變體，效果趨于二者之間

適合處理非平穩(wěn)目標

對于RNN效果很好

Adam

Adam(Adaptive Moment Estimation)本質上是帶有動量項的RMSprop，它利用梯度的一階矩估計和二階矩估計動態(tài)調整每個參數(shù)的學習率。Adam的優(yōu)點主要在于經(jīng)過偏置校正后，每一次迭代學習率都有個確定范圍，使得參數(shù)比較平穩(wěn)。公式如下：

特點：

結合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標的優(yōu)點

對內存需求較小

為不同的參數(shù)計算不同的自適應學習率

也適用于大多非凸優(yōu)化

適用于大數(shù)據(jù)集和高維空間

Adamax

Adamax是Adam的一種變體，此方法對學習率的上限提供了一個更簡單的范圍。公式上的變化如下：

Nadam

Nadam類似于帶有Nesterov動量項的Adam。公式如下：

經(jīng)驗之談

對于稀疏數(shù)據(jù)，盡量使用學習率可自適應的優(yōu)化方法，不用手動調節(jié)，而且最好采用默認值

SGD通常訓練時間更長，容易陷入鞍點，但是在好的初始化和學習率調度方案的情況下，結果更可靠

如果在意更快的收斂，并且需要訓練較深較復雜的網(wǎng)絡時，推薦使用學習率自適應的優(yōu)化方法。

Adadelta，RMSprop，Adam是比較相近的算法，在相似的情況下表現(xiàn)差不多。

在想使用帶動量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果

最后展示兩張可厲害的圖，一切盡在圖中啊，上面的都沒啥用了… …

損失平面等高線

在鞍點處的比較

引用

[1]Adagrad

[2]RMSprop[Lecture 6e]

[3]Adadelta

[4]Adam

[5]Nadam

[6]On the importance of initialization and momentum in deep learning

[7]Keras?中文文檔

[8]Alec Radford(圖)

[9]An overview of gradient descent optimization algorithms

深度學習最全優(yōu)化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

[10]Gradient Descent Only Converges to Minimizers

[11]Deep Learning:Nature

機器學習深度學習

BI報表實現(xiàn)，提升業(yè)績破題的關鍵!">BI報表實現(xiàn)，提升業(yè)績破題的關鍵!

1485 2022-05-30

學習 筆記20170601">【PMP】學習 筆記20170601

1485 2022-05-30

BI報表可視化，提升業(yè)務決策效率">BI報表可視化，提升業(yè)務決策效率

1485 2022-05-30

深度 學習 最全 優(yōu)化 方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

BI報表實現(xiàn)，提升業(yè)績破題的關鍵!">BI報表實現(xiàn)，提升業(yè)績破題的關鍵!

學習 筆記20170601">【PMP】學習 筆記20170601

BI報表可視化，提升業(yè)務決策效率">BI報表可視化，提升業(yè)務決策效率

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統(tǒng)哪個簡單好用？進銷存系統(tǒng)優(yōu)點

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進銷存軟件和ERP有什么區(qū)別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設計？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數(shù)字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統(tǒng)：重新定義家庭生活方式

友情鏈接

深度學習最全優(yōu)化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

BI報表實現(xiàn)，提升業(yè)績破題的關鍵!">BI報表實現(xiàn)，提升業(yè)績破題的關鍵!

學習筆記20170601">【PMP】學習筆記20170601

BI報表可視化，提升業(yè)務決策效率">BI報表可視化，提升業(yè)務決策效率

推薦文章

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

深度學習最全優(yōu)化方法總結比較（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

BI報表實現(xiàn)，提升業(yè)績破題的關鍵!">BI報表實現(xiàn)，提升業(yè)績破題的關鍵!

BI報表可視化，提升業(yè)務決策效率">BI報表可視化，提升業(yè)務決策效率

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦