Bioinformatics| 生物醫學網絡中的圖嵌入方法
今天給大家介紹Bioinformatics期刊的一篇文章,“Graph embedding on biomedical networks: methods, applications and evaluations”。文章研究了圖嵌入方法在生物醫學網絡分析上的應用,來自美國俄亥俄州立大學、美國哥倫布國家兒童醫院、華中農業大學的研究者完成了該項工作。文章選取了11種具有代表性的圖嵌入方法,對3個重要的生物醫學鏈接預測任務:(1)藥物-疾病關聯(drug-disease association, DDA)預測,(2)藥物-藥物相互作用(drug- drug interaction, DDI)預測,(3)蛋白質-蛋白質相互作用(protein - protein interaction, PPI)預測; 以及2個節點分類任務:(1)醫學術語語義類型分類,(2)蛋白質功能預測進行了系統的比較。通過實驗結果證明了目前的圖嵌入方法取得了良好的效果,在生物醫學網絡分析方面具有很大的潛力。
1、研究背景
圖(又稱網絡)是一種非線性的數據結構,為了分析圖數據結構,研究者提出了大量的圖嵌入(又稱網絡嵌入或圖表示學習)的方法去自動學習圖中每個節點的低維特征表示。直觀上看,圖嵌入方法是通過學習低維表示來保留圖的結構信息,從而完成像鏈接預測,社區檢測,節點分類和聚類等相關任務。現在圖數據結構已經被廣泛用于表示生物醫學中的實體(節點)及其關系(邊)。分析生物醫學的圖結構對于像藥物重定位,非編碼RNA的功能檢測以及協助臨床的決策等重要的醫學任務都有重要的意義。到目前為止,大多數的圖嵌入方法都是在社會網絡和信息網絡上進行評價,而在生物醫學網絡上還沒有進行系統的實驗和分析。另一方面,各種生物醫學網絡分析任務,矩陣分解等傳統技術(可視為一種圖嵌入方法)取得了可喜的成果,因此有必要系統地評估最近的圖嵌入方法(如基于隨機游走和基于神經網絡)在生物醫學任務上的可用性和進一步發展為最先進技術的潛力。(圖1總結了將各種圖嵌入方法應用于生物醫學任務中的流程。)
圖1 各種圖嵌入方法應用于生物醫學任務中的流程
2、主要貢獻
(1)提供了現有圖嵌入方法的概述,及其在生物醫學上三個重要的鏈接預測任務(DDAs, DDIs和PPIs)和兩個節點分類任務(蛋白質功能預測與醫學術語語義類型分類)上的應用。
(2)對于以上5個任務,編制了7個基準數據集(這些數據集來源于常用的生物醫學數據庫或已有的研究),并使用它們來系統地評估11個不同類別中有代表性的圖形嵌入方法(其中5個基于矩陣分解(MF),3個基于隨機游走,3個基于神經網絡)。對來自大量實驗的結果進行了討論,并且提供了如何選擇嵌入方法(包括其超參數設置)的一些見解和指南。
(3)開發了易于使用的Python程序包,其中包含BioNEV(生物醫學網絡嵌入評估)的詳細說明,可見網站: https://github.com/xiangyue9607/BioNEV,包括所有源代碼和數據集,以方便研究各種生物醫學任務的圖形嵌入方法。
3、圖嵌入方法概述
在本節中,將圖嵌入方法分為三類,分別是基于MF的方法,基于隨機游走的方法和基于神經網絡的方法,并對這些方法進行了概述。
基于MF的方法:MF已經被廣泛用于數據分析,它的目的是將一個數據矩陣分解為低維矩陣,同時保留原數據矩陣中隱藏的流形結構和拓撲特性。傳統MF有許多變體,例如奇異值分解(SVD)和圖分解(GF)。近年來,研究人員專注于設計各種高階數據鄰近矩陣以保留圖結構,并提出了各種基于MF的圖嵌入學習方法。文中介紹了GraRep, HOPE,GraRep方法的特點和區別。
基于隨機游走的方法:受word2vec模型的啟發,針對圖數據結構開發了基于隨機游走的方法,即通過隨機游走生成“節點序列”來學習節點表示形式,然后再對生成的節點序列進行嵌入。DeepWalk是這種基于隨機游走進行圖嵌入最早的方法之一。與DeepWalk相比,node2vec采用了靈活的偏差隨機游走策略, struc2vec可以更好地識別結構標識。
基于神經網絡的方法:近年來神經網絡模型在許多領域成功應用,在圖形嵌入領域也引入了多種神經網絡,例如多層感知器(MLP),自編碼器,生成對抗網絡(GAN)和圖卷積網絡(GCN)。文中具體介紹了LINE,DNGR,SDNE,GAE,GraphGAN這些方法。
4.1 鏈接預測
鏈接預測任務可以表述為:給定一組生物醫學實體及其已知的相互作用,去預測實體之間潛在的相互作用。生物醫學領域的傳統方法主要是通過特征工程來開發生物學特征。之后,監督學習方法(例如支持向量機器(SVM),隨機森林)或半監督的圖推理模型(如標簽傳播)也被用于預測潛在的相互作用。這些方法背后的假設是,共享相似生物學特征或圖特征的實體可能具有相似的關聯。然而,基于生物學特征的方法通常面臨兩個問題:(i)生物學特征獲取困難,成本高且不一定能用。(ii)生物學特征以及手工制作的圖形特征(例如節點度),不足以精確的表示或描述生物醫學實體,并且可能無法為許多應用程序構建健壯和準確的模型。
自動學習節點表示的圖嵌入方法有望解決這兩個問題。比如針對三個重要的鏈接預測任務:1)DDA的預測:基于MF的技術用于DDA的預測,其本質上,是將DDA矩陣分解來學習藥物和疾病在潛在空間中的低維表示。在因子分解過程中,可以加入正則化項或約束來進一步提高潛在表示的質量。2)對于DDIs的預測,提出了多種正則化MF,利用Laplacian正則化來學習更好的藥物表征。此外,還引入了圖神經網絡用于DDI的預測。3)PPIs通常使用Laplacian和SVD技術進行預測。現在有研究提出了一種基于自動編碼器的模型來學習蛋白質的嵌入,其設計與SDNE相似。
4.2 節點分類
1)蛋白質功能預測
大規模的實驗對蛋白質的功能注釋非常昂貴,近年來提出了基于圖的計算方法廣泛地融合了圖嵌入的思想。例如,一種基于拉普拉斯核的正則化方法來學習蛋白質的低維嵌入;Mashup方法在PPI網絡上執行帶有重啟的隨機游走(RWR),通過低秩矩陣近似方法(可通過SVD優化)學習每個蛋白質的嵌入,再將這些特征向量輸入分類器以獲得關于基因或蛋白質的功能性信息;DeepGO通過卷積神經網絡和圖形嵌入方法學習基于蛋白序列的蛋白聯合表達和PPI網絡(類似于DeepWalk);node2vec嵌入方法在PPI網絡上進行蛋白質的節點分類也是非常有效的。OhmNet可以基于node2vec優化分層依賴目標,以學習多層組織網絡中的特征表示,用于功能預測;deepNF通過一個深度自編碼器來學習蛋白質的嵌入(類似于SDNE)。
2)醫學術語語義類型分類
圖2 (a)醫學術語-術語共現圖是如何構建的,(b)圖中節點類型的分類
4.3 實驗總結
表1
5、實驗
表2
表3
表4
表5
6 總結
參考資料
Yue X, Wang Z, Huang J, et al. Graph Embedding on Biomedical Networks: Methods, Applications, and Evaluations[J].Bioinformatics, 2019.
神經網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。