強化學習原理與Python實現(xiàn) 》 —1.4 強化學習的分類

      網(wǎng)友投稿 816 2025-03-31

      1.4 強化學習的分類


      強化學習的任務和算法多種多樣,本節(jié)介紹一些常見的分類(見圖1-6)。

      圖1-6 強化學習的分類

      1.4.1 按任務分類

      根據(jù)強化學習的任務和環(huán)境,可以將強化學習任務作以下分類。

      單智能體任務(single agent task)和多智能體任務(multi-agent task):顧名思義,根據(jù)系統(tǒng)中的智能體數(shù)量,可以將任務劃分為單智能體任務和多智能體任務。單智能體任務中只有一個決策者,它能得到所有可以觀察到的觀測,并能感知全局的獎勵值;多智能體任務中有多個決策者,它們只能知道自己的觀測,感受到環(huán)境給它的獎勵。當然,在有需要的情況下,多個智能體間可以交換信息。在多智能體任務中,不同智能體獎勵函數(shù)的不同會導致它們有不同的學習目標(甚至是互相對抗的)。在本書沒有特別說明的情況下,一般都是指單智能體任務。

      回合制任務(episodic task)和連續(xù)性任務(sequential task):對于回合制任務,可以有明確的開始狀態(tài)和結束狀態(tài)。例如在下圍棋的時候,剛開始棋盤空空如也,最后棋盤都擺滿了,一局棋就可以看作是一個回合。下一個回合開始時,一切重新開始。也有一些問題沒有明確的開始和結束,比如機房的資源調(diào)度。機房從啟用起就要不間斷地處理各種信息,沒有明確的結束又重新開始的時間點。

      《強化學習:原理與Python實現(xiàn) 》 —1.4 強化學習的分類

      離散時間環(huán)境(discrete time environment)和連續(xù)時間環(huán)境(continuous time environment):如果智能體和環(huán)境的交互是分步進行的,那么就是離散時間環(huán)境。如果智能體和環(huán)境的交互是在連續(xù)的時間中進行的,那么就是連續(xù)時間環(huán)境。

      離散動作空間(discrete action space)和連續(xù)動作空間(continuous action space):這是根據(jù)決策者可以做出的動作數(shù)量來劃分的。如果決策得到的動作數(shù)量是有限的,則為離散動作空間,否則為連續(xù)動作空間。例如,走迷宮機器人如果只有東南西北這4種移動方式,則其為離散動作空間;如果機器人向360°中的任意角度都可以移動,則為連續(xù)動作空間。

      確定性環(huán)境任務(deterministic environment)和非確定性環(huán)境(stochastic environ-ment):按照環(huán)境是否具有隨機性,可以將強化學習的環(huán)境分為確定性環(huán)境和非確定性環(huán)境。例如,對于機器人走固定的某個迷宮的問題,只要機器人確定了移動方案,那么結果就總是一成不變的。這樣的環(huán)境就是確定性的。但是,如果迷宮會時刻隨機變化,那么機器人面對的環(huán)境就是非確定性的。

      完全可觀測環(huán)境(fully observable environment)和非完全可觀測環(huán)境(partially observable environment):如果智能體可以觀測到環(huán)境的全部知識,則環(huán)境是完全可觀測的;如果智能體只能觀測到環(huán)境的部分知識,則環(huán)境是非完全可觀測的。例如,圍棋問題就可以看作是一個完全可觀測的環(huán)境,因為我們可以看到棋盤的所有內(nèi)容,并且假設對手總是用最優(yōu)方法執(zhí)行;撲克則不是完全可觀測的,因為我們不知道對手手里有哪些牌。

      機器人 Python

      版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。

      版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。

      上一篇:家具制造業(yè)生產(chǎn)管理制度大全(家具制造業(yè)生產(chǎn)管理制度大全圖片)
      下一篇:IT報表開發(fā)者必看:別加班了,真正解放雙手的低代碼開發(fā)神器來了
      相關文章
      综合亚洲伊人午夜网| 亚洲国产精品成人久久蜜臀 | 亚洲AV人无码综合在线观看| 日韩精品成人亚洲专区| 色窝窝亚洲av网| 亚洲另类无码专区丝袜| 亚洲一本一道一区二区三区| www.亚洲日本| 中文字幕亚洲综合久久综合| 中文字幕乱码亚洲精品一区| 亚洲小说图区综合在线| 亚洲综合激情五月丁香六月| 亚洲日本久久一区二区va| 亚洲一区中文字幕| 中文字幕在线观看亚洲视频| 国产AV旡码专区亚洲AV苍井空| 亚洲日韩av无码中文| 亚洲国产成人精品无码区花野真一 | 国产精品亚洲а∨无码播放不卡| 国产综合激情在线亚洲第一页| 午夜亚洲国产成人不卡在线| 亚洲AV无码一区二三区| 亚洲性日韩精品国产一区二区| 久久亚洲国产精品123区| 亚洲午夜久久久久久噜噜噜| 情人伊人久久综合亚洲| 久久久久亚洲AV无码专区首| 久久丫精品国产亚洲av| 亚洲av无码一区二区三区观看| 亚洲妇女熟BBW| 欧美亚洲国产SUV| 亚洲国产精品成人| 亚洲日韩av无码| 亚洲图片在线观看| 亚洲av无码国产综合专区| 亚洲JIZZJIZZ妇女| 亚洲日本中文字幕天堂网| 亚洲熟女少妇一区二区| 亚洲色欲色欲综合网站| 亚洲人成网站18禁止久久影院| 亚洲中文字幕无码mv|