《Python大規模機器學習》 —2.3.2隨機梯度下降
2.3.2隨機梯度下降
到目前為止看到的梯度下降版本稱為全批梯度下降,它通過優化整個數據集誤差來工作,因此需要占用內存。非核心版是隨機梯度下降(SGD)和最小批梯度下降(SGD)。
在這里,公式完全相同,但更新時每次只對一個實例更新,這樣允許我們將核心數據保留在其存儲區中,在內存中只進行單個處理:
其核心思想是,如果實例是隨機選擇,沒有特定偏差,則優化將朝著目標成本最小化的方向移動。這就解釋了為什么我們要討論如何從數據流中刪除任何順序,讓其盡可能隨機。例如,共享單車示例中,如果隨機梯度下降首先學習早期賽季的模式,然后關注夏天,接著關注秋天等等,受制于優化停止的季節,那么,模型將被調整以便能更好預測某個賽季,因為最近實例都來自那個季節。在隨機梯度下降算法中,數據獨立同分布(IID)會保證收斂于全局最優點。實際上,獨立意味著實例無順序分布。
TensorFlow python 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。