2020HDC.Cloud硬核技術解讀:基因組自動AI建模工具-AutoGenome
目前,AI技術已經廣泛應用在圖像、語音等領域,然而在生物醫學領域,尤其是基因組學數據領域,AI的應用仍處于初期階段。主要原因是由于基因組數據的復雜性,導致主流的基于圖像和文本的模型不能很好地對基因組數據進行建模;同時,由于AI模型的搭建開發門檻較高,需要開發者有比較多的經驗。
2020年3月27日,在華為開發者大會2020(Cloud)期間,華為云發布全新AutoML工具AutoGenome用于基因組數據的建模。AutoGenome采用了超參數自動搜索、神經網絡架構自動搜索和模型自動解釋器等最新的AutoML技術,并且提出了全新的更加適用于基因組數據建模的殘差全連接網絡,在多項不同的基因組數據建模任務中,AutoGenome的準確性都超出傳統模型5個百分點以上。
下文主要從技術角度講述AutoGenome中涉及到的黑科技,讓我們先睹為快。
1 自動機器學習技術
1.1 自動機器學習背景
盡管AI已經應用于各行各業,并且在圖像和語音等領域已經取得了讓人矚目的成績。但是構建一個性能優異的深度學習模型仍然需要研究者投入大量的時間和資源,并且模型的性能在很大程度上也依賴于研究者的調參經驗。這種現象已經嚴重的阻礙了AI在科研和產業界的廣泛應用。
為了解決這個問題,研究人員提出了自動機器學習(AutoML)方法。AutoML目前是深度學習領域最為熱門的一個話題。針對特定的機器學習任務,AutoML能夠端到端的完成數據處理,特征提取,模型選擇以及模型評估,節省人力和資源的消耗。在本節,我們將重點介紹超參自動搜索和神經網絡結構搜索(Neural Architecture Search,NAS),其中NAS已經成為了AutoML領域最為流行的一種方法,并且取得了非常好的性能。
1.2 超參自動搜索
模型的參數主要分為參數和超參數,其中參數是通過模型的自身訓練得到的,而超參數需要通過開發者自身的經驗進行設置,以提高模型的訓練效果。在實際的開發過程中,訓練的數據量通常會比較大,模型結構復雜,計算成本也會比較高,同時每種類型的超參數都有比較多的選擇,這都會導致超參搜索的計算成本高昂。目前業界比較常用的超參搜索方法主要是網格搜索,隨機搜索和貝葉斯優化等。
AutoGenome在構建AI模型的時候,通過超參自動搜索的算法,能夠自動的針對給定的超參數空間,無需用戶的干涉,即可給出最優的參數組合。
1.3 神經網絡結構搜索
網絡結構搜索(NAS)是AutoML搜索中關鍵的一環。NAS的核心是RNN控制器,控制器針對給定的搜索空間的候選神經網絡結構集合,從中產生“子網絡”;接下來訓練該“子網絡”并評估其性能;最后逐步優化“子網絡”結構,通過不斷的重復上述過程,并讓控制器進行學習生成更好的模型結構,最終找到一個最優的網絡結構。
網絡結構作為一種特殊的超參數,在機器學習整個環節中扮演著舉足輕重的作用。但是傳統的NAS搜索可能會消耗比較長的時間,一種非常有效的提高搜索效率的解決方式是ENAS搜索。ENAS是一種通過子網絡之間參數共享的方式,實現高效的神經網絡結構搜索的方法,ENAS相比于其他的NAS搜索算法,能夠實現提速10倍以上的效果,同時達到和傳統NAS搜索相似的結果準確度。AutoGenome采用了改進的ENAS算法,方便用戶能夠快速的得到最優的神經網絡結構。
圖1 ENAS搜索過程
2 適用于基因組數據的神經網絡結構模型-RFCN
2.1 基因組數據的特點
目前最流行的CNN網絡中的卷積操作能夠抽提底層次特征(例如邊緣特征),并進而組合低層次特征形成高層次的特征,對數據進行建模。RNN雖然在結構上和CNN有比較大的區別,但其本質也是通過整合序列上前后特征,來實現提取信息的功能。CNN和RNN非常適合從圖片數據,文本數據和語音數據中提取特征。這些數據之間存在有局部相關性,即輸入的特征值和周圍的特征值存在有相關性,如果特征輸入順序打亂,則圖片或文本的意義會完全改變。
然而通過高通量測序技術對不同分子系統水平的組學定量,得到的數據都是非序列數據,如基因突變、全基因組的基因拷貝數變異、RNA表達值、蛋白質表達量,這些數據具有以下特征:
1. 原始數據的為幾千或者幾萬個特征(如人類兩萬個基因的表達量),特征之間相互獨立;
2. 特征點的數目比較多,一般和樣本的數目處在同一個數量級;
3. 原始數據的特征之間沒有明顯的時間維度和空間維度相關性(例如基因之間沒有嚴格的先后關系和前后左右關系);
4. 原始數據的特征之間存在層次性的相互作用網絡(基因調控通路/網絡);
圖2 基因組數據結構
同時基因組數據中存在更加復雜的,非時空關聯的,層次性的連接關系。并且存在有跨層或者跳躍的連接。針對這種非歐式空間數據的建模,前饋神經網絡的結構中的每一層都只會接收上一層的信息,無法反映跨層次的調控。
2.2 殘差全連接神經網絡的提出(RFCN)
由于定量組學數據的特殊性,開發人員提出了殘差結構的變體-殘差全連接神經網絡(residual fully-connected neural network, RFCN)。與使用卷積作為基礎算子的常規殘差網絡不同,殘差全連接神經網絡使用全連接層作為連接方式,每一層既可通過全連接層與后一層進行連接(Path 1),也可以通過跳躍連接與其他層進行相連 (Path 2),還可以連接分支網絡(Path 3)。
圖3 殘差全連接神經網絡結構
基于RFCN,并且參考ResNet/DenseNet的結構,開發人員提出RFCN的變體:RFCN-ResNet和RFCN-DenseNet。在RFCN-ResNet中, 在中間的每層,以前一層的輸出和輸入之和作為當前層的輸入。在RFCN-DenseNet中, 在中間的每層,把前面所有層的輸出串聯起來作為當前層的輸入。
圖4 RFCN-ResNet和RFCN-DenseNet神經網絡結構
2.3 隨機連接殘差全連接網絡的提出
根據ResNet 和DenseNet的定義,跳躍連接的方式都是相對固定的。對于一個新數據而言,依然需要大量人工設定網絡結構,對算法研究者的算法能力和經驗要求更高;并且依靠人工設定的結構往往并不是最適合新數據的結構,解決實際問題的能力和效率是值得懷疑的。因為我開發人員提出另一種RFCN的變體——隨機連接殘差全連接網絡(randomly-wired residual fully-connected neural network (RRFCN))。這種網絡架構是采用了神經網絡搜索技術(Neural Architecture Search, NAS),針對不同的基因組學數據任務,搜索和生成最優的殘差全連接層網絡結構。通過與神經網絡搜索技術的結合,生信研究者可以非常方便地搜索到適合當前研究問題的殘差全連接網絡結構。
圖5 隨機連接殘差全連接網絡結構
3 AutoGenome-專為基因組數據打造的AI建模框架
3.1 AutoGenome框架設計
對于非監督學習任務, AutoGenome可以根據所輸入的數據和搜索空間的設定,選出最優的Res-VAE網絡,并能方便地得到潛變量矩陣和重構矩陣。
圖6 AutoGenome建模流程圖
3.2 AutoGenome的調用方式
在使用過程中,開發人員對AutoGenome進行了很好的封裝。如下圖所示。使用者確定自己的輸入數據,并通過JSON文件配置自己的搜索空間等參數,只需要執行5條命令,用戶即能完成整個端到端分析。返回給用戶最優的AI模型,以及模型分類的混淆矩陣和模型可解釋性的圖譜。
圖7 AutoGenome命令行調用方式
3.3 AutoGenome的應用案例
在該案例中, 采用了小鼠的10000個單細胞測序數據,共包含10個不同時期。AutoGenome自動將數據分為訓練集,驗證集和測試集。自動進行訓練并得到最優模型。我們測試了不同工具在獨立測試集上的準確度如下圖所示。
圖8 AutoGenome在針對單細胞測序數據的AI建模性能
結果顯示AutoGenome得到的模型的性能均大幅度優于傳統的XGBoost和AutoKeras。說明AutoGenome用于基因組數據訓練的模型的性能普遍優于傳統的機器學習框架。
另外,AutoGenome內置了模型可解釋性的接口,能夠自動的針對最優AI模型進行分析,找出關鍵的特征來對模型進行解釋。結果顯示,針對單細胞的分類中,很多核糖體相關基因排在特征重要性的前列。同時這個結果是合理的,因為先前的很多研究均表明核糖體基因在胚胎發育和干細胞分化中發揮著重要作用。比如說Rpl35基因據報道在發育早期階段具有很重要,在逐漸發育過程中,Rpl35基因表達也隨之增加,因此在晚期E7.5階段,Rpl35基因的表達值很高,傾向于預測為該階段。
圖9 AutoGenome針對單細胞數據輸出的模型可解釋性圖譜
3.4 AutoGenome的使用
在開發過程上,AutoGenome對于AI的初學者非常友好,只需要五行代碼即可快速完成端到端的基因組數據建模、準確性評估和模型解釋。同時AutoGenome已經證明在多項任務上性能都達到了業內最優,自動生成的模型可解釋性譜圖可以直接用于生物標志物的發現或者論文初版。我們預計AutoGenome將能夠廣泛的支撐基因組領域的科研,藥物研發,個性化診斷等領域。
圖10 AutoGenome特性
目前,AutoGenome已經正式上線,官方使用文檔可以參考(https://autogenome.com.cn/)。同時AutoGenome也在華為云ModelArts上面作為免費Notebook使用,(https://www.huaweicloud.com/product/modelarts.html),具體方法和步驟如下:
Step 1. 創建GPU Notebook開發環境
用戶可以登錄華為云ModelArts平臺,并創建GPU的Notebook開發環境。
圖11 ModelArts平臺創建Notebook開發環境
Step?2. 選擇AutoGenome案例
在打開的環境中,選擇ModelArts Examples – EIHealth Labs,在該條目下,我們已經提供了多個AutoGenome的案例,用戶可以根據自己的項目目標打開對應的的案例,并點擊”use”。
圖12 在EIHealth Labs選擇對應的參考案例
3. 運行AutoGenome
使用JupyterLab,點擊 “File Browser”菜單欄,使用“Upload”按鈕上傳自己的數據。如果數據大于100Mb,建議使用OBS上傳 (https://support.huaweicloud.com/engineers-modelarts/modelarts_23_0105.html )。
圖13 在Notebook環境中進行AutoGenome代碼訓練
4 華為云醫療智能體平臺介紹
華為云EI醫療智能體(EIHealth)是華為云面向醫療行業提供的端到端的AI賦能平臺,在基因組,藥物研發和醫療影像領域可以極大的加速AI產品和服務的研發和應用。平臺提供大量相關流程,工具鏡像等資源,科研單位和企業可以基于EIHealth平臺快速的搭建數據分析流程。
面對當前疫情,醫療智能體聯合多家科研機構開發一系列抗疫平臺服務,包括新冠病毒自動化鑒定云平臺、大規模抗病毒藥物篩選平臺、新冠肺炎AI影像輔助診斷(https://www.huaweicloud.com/product/eihealth.html)。
圖14華為云醫療智能體平臺抗疫專題
醫療智能體 EIHealth HDC游記
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。