Python數(shù)據(jù)挖掘與機器學習實戰(zhàn)》—3.5.2 數(shù)據(jù)預處理">《Python數(shù)據(jù)挖掘與機器學習實戰(zhàn)》—3.5.2 數(shù)據(jù)預處理
698
2025-04-01
1.3.3? 強化學習
強化學習(Reinforcement Learning)是帶有激勵機制的,具體來說,如果機器行動正確,將施予一定的“正激勵”;如果行動錯誤,同樣會給出一個懲罰(也可稱為“負激勵”)。因此在這種情況下,機器將會考慮如何在一個環(huán)境中行動才能達到激勵的最大化,具有一定的動態(tài)規(guī)劃思想。例如在貪吃蛇游戲中,貪吃蛇需要通過不斷吃到“食物”來加分。為了不斷提高分數(shù),貪吃蛇需要考慮在自身位置上如何轉向才能吃到“食物”,這種學習過程便可理解為一種強化學習。強化學習最為火熱的一個應用就是谷歌AlphaGo的升級品——AlphaGo Zero。相較于AlphaGo,AlphaGo Zero舍棄了先驗知識,不再需要人為設計特征,直接將棋盤上黑、白棋子的擺放情況作為原始數(shù)據(jù)輸入到模型中,機器使用強化學習來自我博弈,不斷提升自己從而最終出色完成下棋任務。AlphaGo Zero的成功,證明了在沒有人類的經驗和指導下,深度強化學習依然能夠出色地完成指定任務。
數(shù)據(jù)挖掘 Python 機器學習
版權聲明:本文內容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內刪除侵權內容。
版權聲明:本文內容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內刪除侵權內容。