華為云首次亮相煤炭展,攜三大方案助力煤炭兩化發(fā)展
682
2022-05-30
11 月 7 日,Yoshua Bengio 受邀來到北京參加第二十屆「二十一世紀的計算」國際學術研討會。會上以及隨后受邀前往清華時,他給出了題為「深度學習通往人類水平 AI 的挑戰(zhàn)」(Challenges for Deep Learning towards Human-Level AI)的演講。機器之心在 Yoshua Bengio 的授權下介紹了整篇演講,讀者可點擊「閱讀原文」下載 PPT。
演講中,Bengio 以去年發(fā)布在 arXiv 的研究計劃論文「有意識先驗」(The consciousness prior)為主旨,重申了他與 Yann Lecun 十年前提出的解糾纏(disentangle)觀念:我們應該以「關鍵要素需要彼此解糾纏」為約束,學習用于描述整個世界的高維表征(unconscious state)、用于推理的低維特征(conscious state),以及從高維到低維的注意力機制——這正是深度學習通往人類水平 AI 的挑戰(zhàn)。
雖然主題看起來比較廣大,但實際上,Bengio 討論了非常多的技術細節(jié)內容。
圖:Bengio在清華。
Bengio 認為,直觀上而言,目前的深度神經網絡非常擅長于從文字圖像等原始數據抽取高層語義信息,它們會直接在隱藏空間做預測,這就類似于在無意識空間做預測。但是實際上每一次預測所需要的具體信息都非常精簡,因此實際上我們可以使用注意力機制挑選具體的信息,并在這種有意識空間進行預測,這種模型和建模方法才能真正理解最初的輸入樣本。
演講
在此之前,我想先糾正一個目前看來非常普遍的誤解,即「深度學習沒有理論依據,我們不知道深度學習是如何工作的。」
我的很多工作都圍繞深度學習理論展開。這也是為什么我在大約 12 年前開始研究深度學習的原因。雖然深度學習仍然有諸多未解之謎,但現在我們已經對它的很多重要方面有了更好的理解。
我們更好地理解了為什么優(yōu)化問題并不像人們想象中那樣棘手,或者說局部極小值問題并不像 90 年代的研究者認為的那樣是一個巨大障礙。我們更好地理解了為什么像隨機梯度下降這樣看起來非常「腦殘」的方法實際上在優(yōu)化和泛化方面都非常高效。
這只是我們在過去十年中學到的一小部分,而它們有助于我們理解為什么深度學習真正好用。數學家和理論研究者仍然對此展現出了極大的興趣,因為深度學習開始在諸多領域變得極為重要。
從人類的兩種認知類型解釋經典 AI 與神經網絡的失敗
我今天演講的主題是「通往人類水平的 AI」:我們試圖讓計算機能夠進行人與動物所擅長的「決策」,為此,計算機需要掌握知識——這是幾乎全體 AI 研究者都同意的觀點。他們持有不同意見的部分是,我們應當如何把知識傳授給計算機。
經典 AI(符號主義)試圖將我們能夠用語言表達的那部分知識放入計算機中。但是除此之外,我們還有大量直觀的(intuitive)、 無法用語言描述的、不能通過「意識」獲得的知識,它們很難應用于計算機中,而這就是機器學習的用武之地——我們可以訓練機器去獲取那些我們無法以編程形式給予它們的知識。
深度學習和 AI 領域有很大進步、大量行業(yè)應用。但是它們使用的都是監(jiān)督學習,即計算機無需真正發(fā)掘底層概念、高級表征和數據中的因果關系。事實上,如果你用不同的方式攻擊這些模型,就像很多對抗方法所做的那樣,僅僅微調輸入,也會使模型變得非常愚蠢。
舉例來說,我們在一篇論文中改變圖像的傅立葉頻譜,變換后,圖像的類別對于人類來說仍然很明顯,但是在自然圖像上訓練的卷積網絡的識別率則變得非常糟糕。
我在大約十年前介紹過「解糾纏」(disentangle)這個概念,即在一個好的表征空間中,不同要素的變化應該可以彼此分離。(而在像素空間中,所有的變化都彼此糾纏著的。)十年之后,我們認為,除了解糾纏變量,我們還希望系統(tǒng)能解糾纏計算。解糾纏和因果的概念相關,而因果正是機器學習界需要重點關注的領域,我將在之后回到這個話題的討論。
五年前,我在一篇綜述論文提出,為了還原那些可以解釋數據的根本要素,我們需要引入知識。我們不能只是從零開始學習,還需要對世界作出一些可能比較溫和的假設。這對于解糾纏變量會有幫助。空間、時間以及邊際獨立性可能是一些過于強的假設,但也值得考慮。
一個先驗是某些要素對應于世界的某些「可控層面」(controllable aspect)。例如我手上這個翻頁器,它有一個三維坐標,而我可以通過移動它改變坐標。這種空間位置體系在我們的大腦中也明確存在,因為這是我們能控制的世界層面。
因此在世界的意圖、動作、策略和層面的表征之間有著很強的聯(lián)系。與其用最底層的像素表征關于世界的信息,對于智能體而言,用更高級的、可交互的、與控制相關的要素來表征信息會方便的多。
在談及具體的深度學習工作之前,讓我先介紹一下心理學家是如何劃分人類認知活動的,這有助于我們理解當前深度學習的優(yōu)勢以及我們應該如何走向人類水平的 AI。
人類的認知任務可以分為系統(tǒng) 1 認知(System 1 cognition)和系統(tǒng) 2 認知(System 2 cognition)。系統(tǒng) 1 認知任務是那些你可以在不到 1 秒時間內無意識完成的任務。例如你可以很快認出手上拿著的物體是一個瓶子,但是無法向其他人解釋如何完成這項任務。這也是當前深度學習擅長的事情,「感知」。系統(tǒng) 2 認知任務與系統(tǒng) 1 任務的方式完全相反,它們很「慢」。例如我要求你計算「23+56」,大多數人需要遵循一定的規(guī)則、按照步驟完成計算。這是有意識的行為,你可以向別人解釋你的做法,而那個人可以重現你的做法——這就是算法。計算機科學正是關于這項任務的學科。
而我對此的觀點是,AI 系統(tǒng)需要同時完成這兩類任務。經典 AI 試圖用符號的方法完成系統(tǒng) 2 任務,其失敗的原因很多,其中之一是我們擁有的很多知識并不在系統(tǒng) 2 層面,而是在系統(tǒng) 1 層面。所以當你只使用系統(tǒng) 2 知識,你的體系缺少了一部分重要的內容:那些自下而上的有根源知識(Grounded knowledge)。有根源自然語言學習(Ground language learning)是 NLP 的一個子領域,研究者試圖用除了文本之外的其他形式,例如圖像、視頻,去將語言與感知層面的知識聯(lián)系起來,構建一個世界模型。
意識先驗
我接下來將介紹意識先驗,意識領域的研究正逐漸變成主流。我在這里將聚焦于意識的最重要問題:當你注意某些東西,或者在你的意識中浮現了某些東西的時候,你意識到了它的某些現實層面情景。
深度學習的表征學習關注信息如何被表征,以及如何管理信息。因此對于意識先驗很基本的一個觀察是,在特定時刻處于你意識中的想法(thought)是非常低維的。其信息量可能不超過一句話、一張圖像,并且處于一個你可以進行推理的空間內。
你可以將一個「想法」看做是經典 AI 中的一條「規(guī)則」。每個想法只涉及很少的概念,就像一句話中只有幾個單詞。從機器學習的角度來看,你可以利用很少的變量進行預測,準確度還很高。這種具有良好性質的低維表征空間是非常罕見的,例如,嘗試通過給定的 3 到 4 個像素來預測 1 個像素是不可行的。但是人類可以通過自然語言做到這一點。例如,如果我說「下雨時,人們更可能會撐傘。」這里僅有兩個二值隨機變量,是否下雨和是否撐傘。并且這種語句具備很強的預測能力。即使它僅使用了很少的變量,也能給出很高概率的預測結果。也就是說,根據很少的信息來執(zhí)行預測。
因此,我將「意識」稱作一個「先驗」,是因為意識是一個約束條件、一個正則化項、一個假設:我們可以用非常少的變量進行大量的預測。
滿足這些條件意味著我們需要好的空間表征。好的表征的一個特性是當把數據映射到該空間時,變量之間的依賴關系只需要用很少的概念表達(例如規(guī)則),且涉及很少的維度。
學習好的表征意味著可以將知識用兩種方式表達:在編碼器中,將原始數據映射到高級空間;通過規(guī)則將變量關聯(lián)起來并執(zhí)行預測。
因此我們有兩種形式的解糾纏。我以前的論文僅考慮了解糾纏變量,現在我們還考慮了解糾纏規(guī)則。如果我們將這些變量看成是代表因果變量的因子,這對應著一種因果機制。因果變量是指在因果陳述中使用的變量,例如「下雨導致人們撐傘」。這些變量需要處在一個好的表征空間來作出因果陳述。像素空間并非能夠進行因果陳述的合適表征空間:我們無法說某些像素的改變導致了其它像素的改變,而在因果空間中推理是可行的。
那么要如何實現這種表征呢?對此,注意力機制是一種很重要的工具。注意力機制在過去幾年獲得了很大的成功,尤其是在機器翻譯中,它可以按順序選取重點關注的信息。
更棒的是你可以使用軟注意力來實現整個系統(tǒng)的端到端訓練。我們不需要設計一個獨立的系統(tǒng)來做這種選擇。你可以將注意力機制作為在某些全局目標下端到端訓練的更大系統(tǒng)的一部分。而這正是深度學習擅長的地方。
在架構方面,意識先驗在「原始輸入」和「某些更高級的表征」之外,還引入了第三個層次:這也就是有意識狀態(tài)(conscious state)。
如上所示無意識狀態(tài)通常是深度學習所考慮的表征,是模型將數據映射到的一些表示空間。這些隱藏表征通常有非常高的維度與稀疏性,因為任何時候都只有少數變量與輸入相關。在此之外,我們還會使用注意力機制選擇無意識狀態(tài)(高維隱藏表征)的幾個重要維度,并在有意識狀態(tài)下表示它們。進入有意識狀態(tài)的信息就像短期記憶,我們可以使用注意力機制選擇一些重要的信息,并通過某種交互表示它們。
這個理論框架還有非常多的細節(jié)需要完善,去年我們主要關注其中的一個方面:目標函數。機器學習和深度學習中的標準訓練目標函數都基于最大似然估計,而即使與最大似然無關的目標函數,例如 GAN 的一些目標函數,也是在像素級別進行構建的。然而,我們實際上想要在隱藏空間中表現出可預測性。
這很難做到,但我們其實可以訓練一些不需要返回到像素空間的機器學習算法,例如主成分分析(PCA)。我們可以像自編碼器那樣用最小化重構誤差訓練 PCA:這是在像素空間中構造目標函數,但同時我們也可以在隱藏空間中訓練它,例如我們希望降維后的表征每一個都有非常大的方差,從而捕捉到足夠多的輸入信息。
但我們不止想做 PCA,我們希望有更強大的模型。其中一個很好的擴展概念是互信息(mutual information),它允許我們在編碼器輸出的隱藏空間中定義目標函數。這個想法很早就已經提出來了,在聯(lián)接主義的早期,Suzanna Becker 就認為我們應該「尋找數據變換的方法,使空間中的近鄰特征擁有比較高的互信息水平」,以此進行無監(jiān)督圖像學習。我認為這是一個被遺忘的重要方向。
注:接下來 Bengio 沿著互信息這個方向介紹了很多研究論文,包括它們的基本過程、核心思想和技術等,這里只給出了研究論文列表,感興趣的讀者可以查看原論文。
Learning Independent Features with Adversarial Nets for Non-linear ICA,ArXiv:1710.05050
MINE: Mutual Information Neural Estimation,ArXiv:1801.04062
意識先驗的現實意義:世界模型實現人類水平的語言模型
回到系統(tǒng) 1 和系統(tǒng) 2 認知任務,以及意識先驗。這些概念的實際意義是什么?
首先,為了真正理解語言,我們要構建同時具有系統(tǒng) 1 和系統(tǒng) 2 能力的系統(tǒng)。當下的 NLP 算法與 NLP 產品,無論是機器翻譯、語音識別、問答系統(tǒng),還是根本不能理解任何東西的閱讀理解,所有這些系統(tǒng)都僅僅是在大型文本語料庫和標簽上做訓練而已。
我認為這樣是不夠的,你可以從它們犯的錯誤中發(fā)現這一點。舉個例子,你可以對系統(tǒng)做個測試,看他們能否消除這些 Winograd 模式歧義句:「The women stopped taking pills because they were pregnant(懷孕).」這里的「they」指什么?是 women 還是 pills?「The women stopped taking pills because they were carcinogenic(致癌)」這句中的「they」又指代什么?事實證明,機器僅僅通過研究樣本的使用模式是不足以回答這個問題的,機器需要真正理解「女性」和「藥」是什么,因為如果我把「懷孕」換成「致癌」,答案就從「女性」變成了「藥」。在人類看來這個問題非常簡單,但是現有的機器系統(tǒng)回答起來比隨機猜測好不了多少。
當我們想要構建能理解語言的系統(tǒng)時,我們必須問問自己,對于機器而言理解問題或文檔意味著什么。如果它們需要相關知識,那么從哪里獲取這些知識呢?我們又該如何訓練那些具備特定知識的系統(tǒng)?
有一個個思想實驗可以幫助我們看清僅在文本上訓練模型的局限。想象一下你乘坐宇宙飛船到達另一個星球。外星人說著你聽不懂的語言,這時如果你能夠捕捉到他們在交流中傳達的信息,或許你可以訓練語言模型以理解外星語言。而那個星球與地球有一個區(qū)別:那里的通信通道不帶噪聲(地球上的通信通道是有噪聲的,因此,人類語音為了在噪聲中保持魯棒性,包含了大量信息冗余。)
由于外星的通信通道沒有噪聲,因此傳輸信息的最佳方式是壓縮信息。而信息被壓縮后,看起來和噪聲沒什么區(qū)別:在你看來,它們交換的都是一些獨立同分布的比特信息,語言建模和 NLP 工具也無法幫到你。
這個時候我們該怎么辦呢?我們需要做更多工作。僅觀察信息本身是不夠的,你必須找出它們的意圖,理解它們的語境和行為的原因。因此,在語言建模之外,你必須建模環(huán)境并理解原因,這意味著大量額外工作。AI 領域研究者「懶惰」又「貪婪」,他們不想進行額外工作,因此他們嘗試僅通過觀察文本來解決語言理解問題。然而很不幸,這并不會給出有效解決方案。
一種可行方法是先學習一個不錯的世界模型,然后基于該模型解決語言問題,就像根據語言模型弄清楚某個單詞的意義一樣。我認為嬰兒在一定程度上就是這么做的,因為嬰兒并非一開始就使用語言進行學習,最初它們只是嘗試理解環(huán)境。但是在某個時間點,將「學習語言模型」和「學習世界模型」兩種學習模式結合起來是有益的。
語言可以提供良好表征。因為如果想弄懂這些語義變量,深度學習應該從感知器中提取出語義。比如你媽媽說「狗」,恰好這時你看到了一只狗,這就很有幫助,因為當你在不同語境中使用這個詞時你的感官感知是不同的。這就是監(jiān)督學習性能好的原因。
事實上,以監(jiān)督學習方式訓練出的深層網絡的表征比無監(jiān)督模型好很多,最起碼對于目前的無監(jiān)督學習來說。我認為應該將二者結合起來,不過你必須理解世界的運行方式。世界運行方式的一個方面是因果關系,機器學習目前對此缺乏關注。
具體而言,我們的學習理論在這方面仍然很匱乏。目前的學習理論假設測試分布與訓練分布相同,但是該假設并不成立。你在訓練集上構建的系統(tǒng)在現實世界中可能效果并不好,因為測試分布與訓練分布不同。
因此我認為我們應該創(chuàng)建新的學習理論,它應該不會基于「測試分布與訓練分布相同」這樣生硬的假設。我們可以采用物理學家的方式,假設訓練分布和測試分布的底層因果機制相同。這樣即使動態(tài)系統(tǒng)的初始條件不同,底層物理機制仍然不會改變。
那么如何去做呢?事實上,構建好的世界模型令人望而生畏,我沒有足夠的計算能力對真實世界建模,因此我認為更合理的方法是利用機器學習,機器學習研究不是關于 AI 應該具備哪些知識的研究,而是提出優(yōu)秀的學習算法的研究。優(yōu)秀的機器學習算法理應在任何分布中都可以良好運行。
近年來深度學習社區(qū)涌現了大量關于搭建虛擬環(huán)境的研究,如在深度強化學習體系下,人們構建虛擬環(huán)境并在其中測試不同的智能體學習步驟。深度強化學習最酷的一點是便于做科學實驗,我們可以借助虛擬環(huán)境測試理論,更快速地獲取反饋。
在我實驗室開始的一個項目,是 1971 年 Winograd 用 SHRDLU 系統(tǒng)進行 blocks world 實驗的延伸。他們當初試圖建立一個能夠用自然語言執(zhí)行任務的系統(tǒng),比如「拿起一個紅色的木塊」,但他們試圖用基于規(guī)則的經典 AI 來實現目標。這在某種程度上起作用了,但它和大多數規(guī)則系統(tǒng)一樣非常脆弱。它無法擴展,因為你需要手動設計大量知識,像當前大多數脆弱且無法擴展的對話系統(tǒng)一樣。我認為,除非我們真正做更多的基礎研究,否則這種情況不會改善。
BabyAI?平臺:模擬世界模型
所以我們構建了一個叫做 BabyAI(或 BabyAI game)的平臺,其中設置了有一個「學習者」和一個「人類」的游戲或場景。
學習者就是「baby AI」,我們要為學習者設計學習算法,而其中的人類與學習者互動,并使用自然語言幫助它理解周圍的環(huán)境。人類可以通過課程學習(curriculum learning)、為學習者設計正確的問題以及考慮學習者知道什么和不知道什么等等來幫助它。當然了,課程學習本身就是一個有趣的研究領域,因為如果我們能夠構建出計算機與人類互動的更好系統(tǒng),那也會非常有用。
所以我們在 2D 網格世界中構建了一個非常簡單的環(huán)境,并能在其中使用類似「把藍色鑰匙放在綠色的球旁邊」這種簡單的自然語言表述。
在這個階段,我們有 19 個學習者應該能夠學習的難度級別和任務類型。我們還設計和訓練了一個知道如何解決任務的啟發(fā)式專家。當然,這個專家扮演的是人類的角色,因為在這個階段,我們實際上還不想讓人類參與進來。所以我們希望能夠模擬人類,然后查看和測試不同的學習者表現如何。
我們有更大的版本,不同級別有不同的房間數量和不同類別的任務。我們定義了一系列的概念,比如房間和迷宮,也定義了一系列動作,如去某個地方、打開、撿、放等等,以及使用這些概念的不同任務。當你進階學習更加復雜的任務,需要的概念也越來越多。
但是,我們目前嘗試過的機器學習方法還做不到這一點。如果我們有真正的人類來教 baby,他們就不需要給 baby 提供成百上千的軌跡示例。
我們嘗試了模仿學習和強化學習。在強化學習中,人類會提供獎勵。在學習者收斂之前,他需要在數百萬軌跡上提供數百萬條獎勵。但即使是效率更高的模仿學習(類似監(jiān)督學習),如果要從模仿示例中學習,對于一個人來說,花時間訓練這些系統(tǒng)還是遠遠超出了我們認為的合理范圍。
我們還發(fā)現當前的系統(tǒng)可以非常快速地學習來做這樣的工作,但要達到 99% 的正確回答率還需要大量訓練。因此我們認為可以用這些基準來研究簡單效率數據、不同學習程序效率。
EI 人工智能 深度學習 AI
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。