《強化學習:原理與Python實現(xiàn) 》 —1.4 強化學習的分類
1.4 強化學習的分類

強化學習的任務和算法多種多樣,本節(jié)介紹一些常見的分類(見圖1-6)。
圖1-6 強化學習的分類
1.4.1 按任務分類
根據(jù)強化學習的任務和環(huán)境,可以將強化學習任務作以下分類。
單智能體任務(single agent task)和多智能體任務(multi-agent task):顧名思義,根據(jù)系統(tǒng)中的智能體數(shù)量,可以將任務劃分為單智能體任務和多智能體任務。單智能體任務中只有一個決策者,它能得到所有可以觀察到的觀測,并能感知全局的獎勵值;多智能體任務中有多個決策者,它們只能知道自己的觀測,感受到環(huán)境給它的獎勵。當然,在有需要的情況下,多個智能體間可以交換信息。在多智能體任務中,不同智能體獎勵函數(shù)的不同會導致它們有不同的學習目標(甚至是互相對抗的)。在本書沒有特別說明的情況下,一般都是指單智能體任務。
回合制任務(episodic task)和連續(xù)性任務(sequential task):對于回合制任務,可以有明確的開始狀態(tài)和結束狀態(tài)。例如在下圍棋的時候,剛開始棋盤空空如也,最后棋盤都擺滿了,一局棋就可以看作是一個回合。下一個回合開始時,一切重新開始。也有一些問題沒有明確的開始和結束,比如機房的資源調(diào)度。機房從啟用起就要不間斷地處理各種信息,沒有明確的結束又重新開始的時間點。
離散時間環(huán)境(discrete time environment)和連續(xù)時間環(huán)境(continuous time environment):如果智能體和環(huán)境的交互是分步進行的,那么就是離散時間環(huán)境。如果智能體和環(huán)境的交互是在連續(xù)的時間中進行的,那么就是連續(xù)時間環(huán)境。
離散動作空間(discrete action space)和連續(xù)動作空間(continuous action space):這是根據(jù)決策者可以做出的動作數(shù)量來劃分的。如果決策得到的動作數(shù)量是有限的,則為離散動作空間,否則為連續(xù)動作空間。例如,走迷宮機器人如果只有東南西北這4種移動方式,則其為離散動作空間;如果機器人向360°中的任意角度都可以移動,則為連續(xù)動作空間。
確定性環(huán)境任務(deterministic environment)和非確定性環(huán)境(stochastic environ-ment):按照環(huán)境是否具有隨機性,可以將強化學習的環(huán)境分為確定性環(huán)境和非確定性環(huán)境。例如,對于機器人走固定的某個迷宮的問題,只要機器人確定了移動方案,那么結果就總是一成不變的。這樣的環(huán)境就是確定性的。但是,如果迷宮會時刻隨機變化,那么機器人面對的環(huán)境就是非確定性的。
完全可觀測環(huán)境(fully observable environment)和非完全可觀測環(huán)境(partially observable environment):如果智能體可以觀測到環(huán)境的全部知識,則環(huán)境是完全可觀測的;如果智能體只能觀測到環(huán)境的部分知識,則環(huán)境是非完全可觀測的。例如,圍棋問題就可以看作是一個完全可觀測的環(huán)境,因為我們可以看到棋盤的所有內(nèi)容,并且假設對手總是用最優(yōu)方法執(zhí)行;撲克則不是完全可觀測的,因為我們不知道對手手里有哪些牌。
機器人 Python
版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。
版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。