深度學(xué)習(xí)+遷移學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的區(qū)別分享

      網(wǎng)友投稿 989 2022-05-29

      一. 深度學(xué)習(xí):

      深度學(xué)習(xí)的成功和發(fā)展,得益于算力的顯著提升和大數(shù)據(jù),數(shù)字化后產(chǎn)生大量的數(shù)據(jù),可通過(guò)大量的數(shù)據(jù)訓(xùn)練來(lái)發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,從而實(shí)現(xiàn)基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)。

      基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)主要應(yīng)用于圖像、文本、語(yǔ)音等領(lǐng)域。

      2016年的 NIPS 會(huì)議上,吳恩達(dá)給出了一個(gè)未來(lái)AI方向的技術(shù)發(fā)展圖:

      監(jiān)督學(xué)習(xí)(Supervised learning)是目前商用場(chǎng)景最多,成熟度最高的AI技術(shù),而下一個(gè)商用的AI技術(shù)將會(huì)是遷移學(xué)習(xí)(Transfer Learning),這也是 Andrew 預(yù)測(cè)未來(lái)五年最有可能走向商用的AI技術(shù)。

      二. 遷移學(xué)習(xí):

      遷移學(xué)習(xí):用相關(guān)的、類似數(shù)據(jù)來(lái)訓(xùn)練,通過(guò)遷移學(xué)習(xí)來(lái)實(shí)現(xiàn)模型本身的泛化能力,是如何將學(xué)習(xí)到知識(shí)從一個(gè)場(chǎng)景遷移到另一個(gè)場(chǎng)景。

      拿圖像識(shí)別來(lái)說(shuō),從白天到晚上,從冬天到夏天,從識(shí)別中國(guó)人到 識(shí)別外國(guó)人……

      借用一張示意圖(From:A Survey on Transfer Learning)來(lái)進(jìn)行說(shuō)明:

      遷移學(xué)習(xí)的價(jià)值體現(xiàn)在:

      1.一些場(chǎng)景的數(shù)據(jù)根本無(wú)法采集,這時(shí)遷移學(xué)習(xí)就很有價(jià)值;

      2.復(fù)用現(xiàn)有知識(shí)域數(shù)據(jù),已有的大量工作不至于完全丟棄;

      3.不需要再去花費(fèi)巨大代價(jià)去重新采集和標(biāo)定龐大的新數(shù)據(jù)集;

      4.對(duì)于快速出現(xiàn)的新領(lǐng)域,能夠快速遷移和應(yīng)用,體現(xiàn)時(shí)效性優(yōu)勢(shì);

      關(guān)于遷移學(xué)習(xí)算法的實(shí)踐總結(jié):

      深度學(xué)習(xí)+遷移學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的區(qū)別分享

      1. 通過(guò) 原有數(shù)據(jù) 和 少量新領(lǐng)域數(shù)據(jù)混淆訓(xùn)練;

      2. 將原訓(xùn)練模型進(jìn)行分割,保留基礎(chǔ)模型(數(shù)據(jù))部分作為新領(lǐng)域的遷移基礎(chǔ);

      3. 通過(guò)三維仿真來(lái)得到新的場(chǎng)景圖像(OpenAI的Universe平臺(tái)借助賽車游戲來(lái)訓(xùn)練);

      4. 借助對(duì)抗網(wǎng)絡(luò) GAN 進(jìn)行遷移學(xué)習(xí) 的方法;

      三. 強(qiáng)化學(xué)習(xí):

      強(qiáng)化學(xué)習(xí):全稱是 Deep Reinforcement Learning(DRL),讓機(jī)器有了自我學(xué)習(xí)、自我思考的能力。

      目前強(qiáng)化學(xué)習(xí)主要用在游戲 AI 領(lǐng)域,最出名的應(yīng)該算AlphaGo的圍棋大戰(zhàn)。強(qiáng)化學(xué)習(xí)是個(gè)復(fù)雜的命題,Deepmind 大神 David Silver 將其理解為這樣一種交叉學(xué)科:

      實(shí)際上,強(qiáng)化學(xué)習(xí)是一種探索式的學(xué)習(xí)方法,通過(guò)不斷 “試錯(cuò)” 來(lái)得到改進(jìn),不同于監(jiān)督學(xué)習(xí)的地方是 強(qiáng)化學(xué)習(xí)本身沒(méi)有 Label,每一步的 Action 之后它無(wú)法得到明確的反饋(在這一點(diǎn)上,監(jiān)督學(xué)習(xí)每一步都能進(jìn)行 Label 比對(duì),得到 True or False)。

      強(qiáng)化學(xué)習(xí)是通過(guò)以下幾個(gè)元素來(lái)進(jìn)行組合描述的:

      對(duì)象(Agent)

      也就是我們的智能主題,比如 AlphaGo。

      環(huán)境(Environment)

      Agent 所處的場(chǎng)景-比如下圍棋的棋盤(pán),以及其所對(duì)應(yīng)的狀態(tài)(State)-比如當(dāng)前所對(duì)應(yīng)的棋局。

      Agent 需要從 Environment 感知來(lái)獲取反饋(當(dāng)前局勢(shì)對(duì)我是否更有利)。

      動(dòng)作 (Actions)

      在每個(gè)State下,可以采取什么行動(dòng),針對(duì)每一個(gè) Action 分析其影響。

      獎(jiǎng)勵(lì) (Rewards)

      執(zhí)行 Action 之后,得到的獎(jiǎng)勵(lì)或懲罰,Reward 是通過(guò)對(duì) 環(huán)境的觀察得到。

      說(shuō)明:此文章為AI學(xué)習(xí)筆記,部分內(nèi)容參考/轉(zhuǎn)載于互聯(lián)網(wǎng)。

      AI開(kāi)發(fā)平臺(tái)ModelArts EI企業(yè)智能 AI

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:mysql show profiles 性能跟蹤診斷工具
      下一篇:在Google使用Borg進(jìn)行大規(guī)模集群的管理 1-2
      相關(guān)文章
      水蜜桃亚洲一二三四在线| 久久精品蜜芽亚洲国产AV| 亚洲国产综合精品中文第一区| 国产精品亚洲色图| 亚洲人成网男女大片在线播放| 91精品国产亚洲爽啪在线观看| 亚洲国产精品成人精品无码区 | 亚洲日本VA中文字幕久久道具| 亚洲图片一区二区| 久久国产亚洲精品麻豆| 亚洲色偷拍另类无码专区| 亚洲中文字幕在线第六区| 亚洲熟妇无码八AV在线播放| 国产成人A亚洲精V品无码| 亚洲精品视频免费| 亚洲视频在线一区二区| 亚洲 国产 图片| 噜噜噜亚洲色成人网站| 国内成人精品亚洲日本语音| 久久无码av亚洲精品色午夜| 亚洲大码熟女在线观看| 亚洲男同gay片| 老牛精品亚洲成av人片| 在线观看亚洲精品专区| 亚洲成aⅴ人片久青草影院| 亚洲一级Av无码毛片久久精品| 亚洲综合无码AV一区二区| 亚洲AV无码码潮喷在线观看| 亚洲国产成人精品不卡青青草原| 久久精品国产亚洲AV电影| 亚洲欧洲日本国产| 伊人久久五月丁香综合中文亚洲 | 亚洲乱码日产精品BD在线观看| 亚洲一卡2卡3卡4卡国产网站| 亚洲天堂男人影院| 亚洲成AV人片在WWW| 亚洲黄片毛片在线观看| 亚洲精品夜夜夜妓女网| 伊人久久综在合线亚洲2019| 亚洲精品中文字幕麻豆 | 亚洲 国产 图片|