《強(qiáng)化學(xué)習(xí):原理與Python實(shí)現(xiàn) 》 —1.2 強(qiáng)化學(xué)習(xí)的應(yīng)用
1.2 強(qiáng)化學(xué)習(xí)的應(yīng)用
基于強(qiáng)化學(xué)習(xí)的人工智能已經(jīng)有了許多成功的應(yīng)用。本節(jié)將介紹強(qiáng)化學(xué)習(xí)的一些成功案例,讓你更直觀地理解強(qiáng)化學(xué)習(xí),感受強(qiáng)化學(xué)習(xí)的強(qiáng)大。
電動(dòng)游戲:電動(dòng)游戲,主要指玩家需要根據(jù)屏幕畫面的內(nèi)容進(jìn)行操作的游戲,包括主機(jī)游戲吃豆人(PacMan,見圖1-2)、PC游戲星際爭(zhēng)霸(StarCraft)、手機(jī)游戲Flappy Bird等。很多游戲需要得到盡可能高的分?jǐn)?shù),或是要在多方對(duì)抗中獲得勝利。同時(shí),對(duì)于這些游戲,很難獲得在每一步應(yīng)該如何操作的標(biāo)準(zhǔn)答案。從這個(gè)角度看,這些游戲的游戲AI需要使用強(qiáng)化學(xué)習(xí)。基于強(qiáng)化學(xué)習(xí),研發(fā)人員已經(jīng)開發(fā)出了許多強(qiáng)大的游戲AI,能夠超越人類能夠得到的最佳結(jié)果。例如,在主機(jī)Atari 2600的數(shù)十個(gè)經(jīng)典游戲中,基于強(qiáng)化學(xué)習(xí)的游戲AI已經(jīng)在將近一半的游戲中超過人類的歷史最佳結(jié)果。
圖1-2 街機(jī)游戲吃豆人(本圖片改編自https://en.wikipedia.org/wiki/Pac-Man#Gameplay)
棋盤游戲:棋盤游戲是圍棋(見圖1-3)、黑白翻轉(zhuǎn)棋、五子棋等桌上游戲的統(tǒng)稱。通過強(qiáng)化學(xué)習(xí)可以實(shí)現(xiàn)各種棋盤運(yùn)動(dòng)的AI。棋盤AI有著明確的目標(biāo)—提高勝率,但是每一步往往沒有絕對(duì)正確的答案,這正是強(qiáng)化學(xué)習(xí)所針對(duì)的場(chǎng)景。Deepmind公司使用強(qiáng)化學(xué)習(xí)研發(fā)出圍棋AI AlphaGo,于2016年3月戰(zhàn)勝圍棋頂尖選手李世石,于2017年5月戰(zhàn)勝排名世界第一的圍棋選手柯潔,引起了全社會(huì)的關(guān)注。截至目前,最強(qiáng)的棋盤游戲AI是DeepMind在2018年12月發(fā)表的AlphaZero,它可以在圍棋、日本將棋、國(guó)際象棋等多個(gè)棋盤游戲上達(dá)到最高水平,并遠(yuǎn)遠(yuǎn)超出人類的最高水平。
圖1-3 一局圍棋棋譜(圖中實(shí)心圓表示黑棋的棋子,空心圓表示白棋的棋子,圓里的數(shù)字記錄棋子是在第幾步被放在棋盤上,本圖片改編自論文D. Silver, et al. Mastering the game of Go without human knowledge, Nature, 2017)
自動(dòng)駕駛:自動(dòng)駕駛問題通過控制方向盤、油門、剎車等設(shè)備完成各種運(yùn)輸目標(biāo)(見圖1-4)。自動(dòng)駕駛問題既可以在虛擬環(huán)境中仿真(比如在電腦里仿真),也可能在現(xiàn)實(shí)世界中出現(xiàn)。有些任務(wù)往往有著明確的目標(biāo)(比如從一個(gè)指定地點(diǎn)到達(dá)另外一個(gè)指定地點(diǎn)),但是每一個(gè)具體的動(dòng)作卻沒有正確答案作為參考。這正是強(qiáng)化學(xué)習(xí)所針對(duì)的任務(wù)。基于強(qiáng)化學(xué)習(xí)的控制策略可以幫助開發(fā)自動(dòng)駕駛的算法。
圖1-4 自動(dòng)駕駛(本圖截取自仿真平臺(tái)AirSimNH)
Python AI 5G游戲
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。