《數字化轉型之路》 —2.3.6 在技術驅動下,人工智能技術創新產生了空前的影響力
2.3.6 在技術驅動下,人工智能技術創新產生了空前的影響力

上一小節中,我們談到人工智能催生了新興的工業革命,而促使這一輪人工智能產業快速發展的根本推動力是技術。
當前,人工智能正在多個專業領域超過人類專家的最高水平,如圍棋、德州撲克、計算機視覺、自然語言處理等領域。也就是說,在這些領域,AI不再僅僅作為一個輔助,而是幾乎已經上升到了主角的地位。我們經常會提到“人機協同”這個概念,但未來的人機協同將與我們以前所理解的大不相同。以前,人機協同的作用是通過計算機輔助人類工作,而在今后,計算機和人類的位置將完全相反,即在未來世界里,人類將通過輔助計算機進行高效工作。
舉一個我們所熟知的棋類世界的例子。
在AlphaGo推出之前,IBM的超級計算機“深藍”就曾戰勝過國際象棋的世界冠軍,那時候的計算機更多的是使用一種叫作“暴力搜索”的技術。所謂下棋,特別是信息完全的棋類游戲,本質上其實可以看作一種搜索——搜索一個巨大可行性空間里最可能獲勝的一條路徑。國際象棋的搜索空間相對比較有限,所以那個年代的計算機可以采用一種類似于暴力搜索的方式去找到一個最優解。但這種方法卻不適用于圍棋,因為圍棋中有19×19的數量位置,窮盡所有可能性要比宇宙上所有原子的數量還要多,這意味著,再強大的計算機也不可能去把它所有的空間進行一個完全的搜索。而技術發展到今天,我們可以通過智能化方案來解決這個的問題。AlphaGo也因此應勢而生。
那么AlphaGo到底是如何下棋的呢?
AlphaGo實際上選擇了一種新的下棋方式。促使AlphaGo提高棋力、打敗人類選手的秘訣主要有三個:深度神經網絡、監督/強化學習以及蒙特卡洛樹搜索。
深度神經網絡指包含超過一個認知層的計算機神經網絡。人們設計出不同的神經網絡“層”,來解決不同層級的認知任務。這種具備許多“層”的神經網絡,被稱為深度神經網絡。AlphaGo的核心算法***包含兩種深度神經網絡:價值網絡和策略網絡。價值網絡負責嘗試每一手棋中的每一種可能性,然后在下一手棋的各個位置去標注勝率。實際上這個勝率是通過大量的模擬下棋操作后得到的一個綜合勝率。通過綜合勝率的集中,可以判斷下一手應該走到哪,然后反復重復此過程。最終,價值網絡能夠輔助AlphaGo拋棄不合適的路線。策略網絡輔助AlphaGo對每一手棋的落子進行優化,左右局部“戰術”,以減少失誤。兩種神經網絡結合在一起,使得AlphaGo不需要過于龐大的計算也能夠走出精妙的棋局,就像最頂尖的人類棋手一樣。在研發的初始階段,AlphaGo需要收集大量的圍棋對弈數據,通過大量的人類棋局數據來訓練神經網絡模型,形成自己獨特的判斷方式。但實驗證明,通過大量的棋局訓練出來的神經網絡也只能讓AlphaGo達到業余的水平,僅有深度學習網絡還不足以打造專業水準的下棋機器人,去與人類的頂級專家進行對戰。
故此,除了深度學習技術加持外,AlphaGo還需要大量的監督學習和強化學習技術輔助。監督學習和強化學習是機器學習的不同分支。監督學習是指機器通過人類輸入的信息進行學習,而加強學習是指機器自主收集環境中的相關信息以做出判斷,并形成自己的“經驗”,從而增強對整個棋局的判斷。
最后,蒙特卡洛樹是一種搜索算法。在進行決策判斷時,它會從根節點開始不斷選擇分支子節點,通過不斷的決策使得游戲局勢向AI所預測的最優點移動,直到模擬游戲勝利。每一次的選擇都會同時產生多個可能性,通過蒙特卡洛樹算法,AlphaGo可以先進行仿真運算,推斷出可能的結果再做出決定。也就是說,在引入強化學習與蒙特卡洛樹之后,AlphaGo能夠在與自己做模擬對戰,以及每一次與人類棋手進行對弈時,將對戰中的結果反過來再作為新的棋譜重新輸入到神經網絡中去做訓練,得到一個更新的神經網絡,然后再把這個過程不斷循環,從而通過互相的對戰提高棋譜質量,以生成新范式,實現棋譜質量的提升。因此,AlphaGo最終能夠打敗人類頂尖棋手,不僅僅是一個單純的深度學習訓練所造就的,而是因為它綜合應用了深度學習、監督/強化學習和蒙特卡洛搜索這三種技術。在AlphaGo誕生之后,DeepMind團隊又于2017年10月重磅發布了AlphaGo Zero,再次震驚世人。
之前AlphaGo系列的第一步都是用人類的棋譜來做訓練,即利用人類的棋譜訓練出最開始的神經網絡。而AlphaGo Zero卻實現了AI發展史中非常有意義的一步——“無師自通”,即AlphaGo Zero可以不借助于人類棋譜的指引,更不需要參考任何人類的先驗知識,完全讓機器自己通過強化學習從零開始探索。AlphaGo Zero只用了一套策略與價值合體的神經網絡來下棋,從隨機走子開始自我對弈學習,通過左右互搏來增長棋藝,最終達到百戰百勝。新的強化學習策略極為高效,只用3天,AlphaGo Zero就以100:0完全擊敗了2016年3月轟動世界的AlphaGo Lee。經過21天的學習,它達到了Master的實力(而Master在2017年5月以3:0戰勝世界圍棋第一人柯潔)。在圖2-16中展示了AlphaGo Zero的進步速度曲線,可以看到在40天后它能以90%的勝率戰勝Master,成為目前最強的圍棋程序。此外,值得一提的是AlphaGo Zero在計算過程中直接由神經網絡給出葉子節點勝率,不需要快速走子至終局,計算資源得以大大節省,只需要4個TPU即可實現(AlphaGo Lee需要48個)。
圖2-16 AlphaGo Zero進步速度示意圖
可以說,人工智能已經在圍棋領域創造了一定程度的輝煌,那么在其他博弈游戲中它的表現如何呢?
從游戲規則來看,圍棋游戲是一種信息完全公開的博弈,玩家可以看到棋盤上的棋子,并預測落子可能性;而另外一種廣為流行的博弈游戲——德州撲克則不同,玩家手中的底牌是其他玩家看不到的,它是一種不完整信息博弈,對人工智能技術而言更具挑戰。稱霸德州撲克賽場的賭神Libratus嘗試利用強化學習來做玩轉撲克的AI程序,但其并沒有用到深度學習,它選擇的是反事實遺憾最小化、殘局計算、策略剔除技術。Libratus所用到的技術既不需要領域專家知識,也沒有使用人類數據,甚至不是專門為撲克設計的。但是,這些技術可以完美適用于多種不完整信息博弈。
“不完整信息”是德撲的一個主要特征。圍棋、國際象棋、跳棋等棋類游戲,都屬于完美信息博弈,對戰的雙方,清楚每一時刻局面上的全部情況。相比之下,德州撲克存在大量的隱藏信息,包括對手持有什么牌、對手是否在佯裝詐唬等。故此,Libratus所設計的這個AI程序的強大之處主要體現在:第一,它可以觀察對手的套路;第二,它可以觀察自己的套路。隨后再通過策略剔除,使得對手完全摸不著它的套路,但它卻能夠對對手的套路了然于胸,而這個時候,程序的勝率就被極大地提高了。
除了圍棋、撲克等博弈游戲領域,人工智能在計算機視覺方面也有諸多成功的應用,包括人臉識別、語音識別、聲紋識別甚至唇語識別等,在這些為人熟知的應用領域中,人工智能取得的最新技術進展包括:遷移學習和對抗網絡。
前面我們提到過,人工智能模型的訓練和學習依賴于大量的數據樣本作為支撐,例如,要進行語言聽力的學習就需要大量的聲音數據。但是,這一學習過程其實存在一個很大的問題:如果在某一領域中,沒有這樣的海量數據作為輸入,那么該怎么辦?在視覺領域,有一種遷移學習的技術可以很好地解決數據的問題。
遷移學習的核心思想是對其他領域中訓練的結果進行重用,具體來說,即在一個領域里面用深度的方式訓練出一組神經網絡之后,將這個神經網絡用在另外一個新的領域。那么在這個新的領域里,可能只用少量的數據就可以獲得比較好的學習結果。
至于GAN(生成式對抗網絡)技術,它為更大范圍的無監督任務打開了深度學習的大門。在這些任務中,標簽數據并不存在,或者獲取起來太昂貴,而對抗網絡技術則可以減少深層神經網絡所需要的負載。GAN由兩個相互競爭的神經網絡組成,其邏輯關系如圖2-17所示。第一個網絡即生成器,創建了與真實數據集完全相同的假數據。第二個網絡即判別器,接收真實和綜合的數據。隨著時間的推移,每個網絡都在改進,使這對網絡能夠學習給定數據集的整個分布。
圖2-17 GAN生成對抗網絡組成示意圖
數字化營銷 數字化辦公
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。