計算化學深度學習

      網友投稿 912 2022-05-29

      摘要

      人工神經網絡的興衰在計算機科學和計算化學的科學文獻中都有詳細記載。然而近二十年后,我們現(xiàn)在看到了對深度學習興趣的復興,這是一種基于多層神經網絡的機器學習算法。在過去的幾年里,我們看到了深度學習在許多領域的變革性影響,尤其是在語音識別和計算機視覺領域,在這些領域的大多數(shù)專家從業(yè)人員現(xiàn)在經常避開之前建立的有利于深度的模型學習模型。在這篇綜述中,我們對深層神經網絡理論及其獨特性質進行了介紹性概述,將它們與化學信息學中使用的傳統(tǒng)機器學習算法區(qū)分開來。通過概述深度神經網絡的各種新興應用,我們強調它的普遍性和廣泛的適用性,以應對該領域的各種挑戰(zhàn),包括定量結構活性關系,虛擬篩選,蛋白質結構預測,量子化學,材料設計和財產預測。在回顧深度神經網絡的表現(xiàn)時,我們觀察到在不同的研究課題中,針對非神經網絡最先進的模型的一致表現(xiàn)優(yōu)異,而基于深度神經網絡的模型通常超出了各自任務的“玻璃天花板”預期。加上用于訓練深度神經網絡的GPU加速計算的成熟度以及用于訓練這些網絡的化學數(shù)據(jù)的指數(shù)增長,我們預計深度學習算法將成為計算化學的寶貴工具。

      介紹

      深度學習是AlphaGo開發(fā)過程中使用的關鍵算法,AlphaGo是由Google開發(fā)的Go-playing程序,在2016年擊敗了頂級人類玩家。 在棋盤游戲中擊敗人類玩家的計算機程序的發(fā)展并不新鮮; IBM的棋牌電腦Deep Blue在二十年前的1996年擊敗了頂級棋手。不過,值得注意的是Go可以說是世界上最復雜的棋盤游戲之一。 在19 *19板上玩,大約有10170個法律職位可以玩。 與Go的復雜性相比,據(jù)估計Lipinski虛擬化學空間可能只包含1060個化合物。

      深度學習是一種機器學習算法,與計算化學中各種應用中已經使用的算法不同,從計算機輔助藥物設計到材料性質預測。其中一些更高調的成果包括2012年默克活動預測挑戰(zhàn),其中 一個深層的神經網絡不僅贏得了比賽,而且超越了默克的內部基線模型,但是在他們的團隊中沒有一名化學家或生物學家的情況下這樣做。 在一個不同的研究團隊的不斷取得的成功中,深度學習模型在2014年NIH發(fā)布的Tox21毒性預測挑戰(zhàn)中取得了最高的地位。在最近的這些例子中,深度學習模型在預測活性和毒性方面的異常出色的表現(xiàn)來源于獨特的特點,區(qū)別于傳統(tǒng)機器學習算法的深度學習。

      對于那些不熟悉機器學習算法復雜性的人,我們將重點介紹一些主要差異-傳統(tǒng)(淺層)機器學習和深度學習之間。機器學習算法最簡單的例子就是無所不在的最小二乘線性回歸。在線性回歸中,模型的基本性質是已知的(在這種情況下是線性的),而輸入(也稱為模型的特征)彼此是線性獨立的。通過變換原始數(shù)據(jù)(即平方,取對數(shù)等)可以將額外的復雜性添加到線性回歸中。隨著更多這些非線性項被添加,回歸模型的表現(xiàn)力增加。這個描述突出了傳統(tǒng)(淺)機器學習的三個特點。首先,這些功能由領域專家提供。在一個被稱為特征提取和/或工程的過程中,應用了各種變換和逼近,這可以從第一原理出發(fā),或者可能是眾所周知的近似,甚至是受過教育的猜測。其次,淺層學習是模板匹配。它不會學習問題的表示,它只會學習如何精確地平衡一組輸入要素以產生輸出。第三,它的表達能力隨著項的數(shù)量(即要擬合的參數(shù))而增長,但如果非線性變換選擇得不好,它可能需要指數(shù)多項。 例如,簡單的冪級數(shù)展開將需要大量的項(和參數(shù))來適應具有大量振蕩的函數(shù)。

      圖1. a)具有一個隱藏層的傳統(tǒng)前饋人工神經網絡(ANN)的示意圖。 每個表示為圓圈的神經元接受一系列n個輸入值,并將其映射到使用非線性函數(shù)的輸出,并將隱含層的所有神經元應用于偏置項(即輸入為零時的神經網絡輸出)。 b)深度神經網絡(DNN)與人工神經網絡的不同之處在于具有多個(n> 3)隱藏層,如示意圖所示,為簡單起見,這里省略了偏差項

      目前開發(fā)的絕大多數(shù)深度學習算法都是基于人工神經網絡的,為了本次審查的目的,我們將專注于深度神經網絡。在本綜述的前半部分,我們將提供深入學習的簡要非技術性介紹,從人工神經網絡的基本背景開始,并突出介紹在過去十年中使深度神經網絡成為可能的關鍵技術發(fā)展。此外,我們將重點關注深度學習與計算化學中使用的傳統(tǒng)機器學習算法的不同之處,以及深度學習正在進行的復興與20世紀80年代的人工神經網絡模型如何不同,后者可能被視為其“父”算法。在接下來的半年回顧中,我們將對計算化學領域的深度學習應用的最新發(fā)展進行調查,我們將根據(jù)現(xiàn)有的機器學習模型來檢驗其性能,以及為該領域做出貢獻的未來前景。這篇評論主要是為了作為計算化學家的介紹入口,這些計算化學家希望從應用的角度探索或整合深度學習模型在他們的研究中,并且將提供對現(xiàn)有文獻綜述的更多參考資料,以涵蓋更深層次的技術方面學習神經網絡結構和優(yōu)化。

      深度學習101

      人工神經網絡(ANN)是大多數(shù)深度學習算法的基礎,它是一類受生物神經網絡啟發(fā)的機器學習算法,用于通過將大量輸入轉換為目標輸出來估計或近似函數(shù)。?1a)中,人工神經網絡由一系列層構成,每層包含許多“神經元”。每個神經元接受來自前一層的輸入值,并將其映射到非線性函數(shù)上。該函數(shù)的輸出用作ANN中下一層的輸入,直到它到達最后一層,輸出對應于要預測的目標。此外,可調參數(shù),每個神經元函數(shù)的“權重”(或系數(shù))在構建該模型時進行調整,以最小化預測值的誤差,這一過程稱為“訓練”神經網絡。形象地說,人工神經網絡中的這些神經元的集合模仿神經元在生物系統(tǒng)中的工作方式,因此其名稱為人工神經網絡。

      在反向傳播過程中,使用稱為梯度下降的算法來在生成相應輸出時查找由各個神經元引起的誤差表面中的最小值。?從概念上講,梯度下降與經典分子動力學模擬中使用的最速下降算法沒有區(qū)別。 主要區(qū)別在于迭代地最小化能量函數(shù)并更新每個步驟的原子坐標,迭代地使ANN的目標輸出的誤差函數(shù)最小化并且每步更新神經元的權重,在ANN文獻中,這也被稱為“迭代”。 訓練集中的數(shù)據(jù)可以迭代多次,并將數(shù)據(jù)完整地傳遞為“epoch”。

      反向傳播的一個關鍵問題是隨著信號通過每個隱藏層,誤差信號逐漸變得更加分散。 這是因為信號發(fā)生了在模型更深處,越來越多的神經元和權重與給定的誤差相關聯(lián)。 直到最近,這使得很難有效地訓練許多層;?超過幾層的任何東西都需要很長時間才能收斂到過度擬合的高可能性,特別是對于最接近輸出的層。?此外,非線性變換函數(shù)(如S形)具有有限的動態(tài)范圍,因此誤差信號在通過多個層時趨于衰減,這通常稱為“消失梯度問題”。

      自1986年以來,已經開發(fā)了幾種關鍵算法,包括無監(jiān)督預訓練,糾正線性函數(shù)和dropout,以改進人工神經網絡的訓練過程,解決消失梯度問題,并減少過擬合人工神經網絡特別容易受到影響。也許是訓練深度神經網絡(DNN)的最大障礙,是漸近問題的消失,因為它實際上限制了神經網絡的深度。預訓練,由Hinton等人發(fā)現(xiàn)。在2006年是一種快速,貪婪的算法,它使用無監(jiān)督的分層方法一次訓練DNN一層。預訓練階段完成后,將使用更細微的微調過程(例如隨機梯度下降)來訓練模型。使用預訓練方法,模型在反向傳播開始之前就已經學會了這些特征,從而減輕了消失梯度問題。 2011年出現(xiàn)了另一種解決方案,Bengio及其同事證明整流線性激活(ReLU)函數(shù)完全避開了消失梯度問題。 ReLU的一階導數(shù)恰好為1或0,通常可以確保誤差信號能夠反向傳播而不會消失或爆炸。 (圖2)。

      圖2. a)S形和 b)整流線性(ReLU)函數(shù)(藍色)及其相應的一階導數(shù)(紅色)的圖。 與sigmoidal函數(shù)不同,其中的導數(shù)根據(jù)x的值而變化,在ReLU函數(shù)中,一階導數(shù)為0或1。[Color figure can be viewed at wileyonlinelibrary. com]

      總結了人工神經網絡及其相關算法的主要發(fā)展情況后,我們注意到它并不全面。除了迄今為止討論的傳統(tǒng)的前饋DNN(圖1b)之外,更近期的發(fā)展包括替代架構,特別是卷積神經網絡(圖3a),遞歸神經網絡(圖3b),和自動編碼器(圖3c),這些在計算機視覺和自然語言處理應用中都非常成功。關于各種DNN體系結構的技術討論,雖然對深入學習文獻有深刻理解,但超出了本文的討論范圍,因此,我們向讀者推薦以下出版物總結這一研究課題。現(xiàn)在,應該明顯看到,ANN本身不是一項新發(fā)明。事實上,人工神經網絡的數(shù)學算法是由McCulloch和Pitts在1943年開發(fā)的,實際上可訓練的人工神經網絡可追溯到1986年,與Rumelhart,Hinton和Williams等人發(fā)明神經網絡的后向傳播一致。更深層次的神經網絡超越了幾個隱藏層(圖1b),只有在最近幾年更新的算法發(fā)展才能實現(xiàn)。因此,DNN不僅僅是上個世紀人工神經網絡的重塑品牌,它又如何更好比已經成功用于各種化學信息學應用的傳統(tǒng)機器學習算法?

      圖3. a)卷積神經網絡(CNN)的示意圖。 CNN的設計明確假定輸入是以圖像數(shù)據(jù)的形式。 每個卷積層提取和保存空間信息并學習一個表示,然后典型地將其傳遞到輸出層之前的傳統(tǒng)完全連接的前饋神經網絡。 b)循環(huán)神經網絡(RNN)的示意圖。 最簡單實現(xiàn)的RNN是對標準前饋神經網絡的修改,其中隱藏層中的每個神經元從模型的前一次迭代的輸出接收附加輸入,表示為“t-1”圓形箭頭。 c)自編碼器的示意圖,它是用于無監(jiān)督學習的神經網絡。 在自動編碼器中,目標是學習輸入層的標識函數(shù),并且在該過程中,隱藏層中原始數(shù)據(jù)的壓縮表示被學習。

      數(shù)十年的化學研究已經導致了幾千種分子描述符的發(fā)展,這些描述符描述了可以想到的任何化合物的一系列性質。因此,分子描述符用作使用化學知識和直覺(即領域專業(yè)知識)構建的特征,其可用于傳統(tǒng)的機器學習模型,其已經在計算化學應用中取得了合理的成功。傳統(tǒng)的機器學習算法(如線性回歸和決策樹)非常直觀,可以創(chuàng)建人類可以理解的簡單模型。盡管如此,隨著我們對具有非線性關系的更復雜屬性(通常是與生物過程和材料工程相關的屬性)的預測進展,通常需要依賴更復雜且不太透明的算法,如支持向量機(SVM)和隨機森林 (RF)達到可接受的預測準確度。乍一看,深度學習算法屬于后一類,但它有一個主要區(qū)別。與SVM和RF不同,DNN轉換輸入并將其重構為跨隱藏層的神經元的分布式表示。通過適當?shù)挠柧毞椒ǎ到y(tǒng)隱藏層中的神經元將學習不同的特征;這被稱為自動特征提取。由于每個隱藏層都成為系統(tǒng)下一層的輸入,并且可以沿途應用非線性轉換,因此它會創(chuàng)建一個逐漸“學習”越來越抽象,層次和深度特征的模型。

      自動特征提取是一個不需要領域知識的過程,因此是深度學習算法最重要的優(yōu)點之一。這與傳統(tǒng)的機器學習算法不同,在這種算法中,模型必須用基于化學知識和直覺的“正確”特征仔細構建,以便其執(zhí)行和推廣。正因為如此,深度學習已成為語音識別和計算機視覺中的主流算法。 ImageNet是用于圖像分類的各種算法的年度評估和競爭。在進行深度學習之前,所采用的最先進的模型徘徊在25-30%的錯誤率,這與理想的匹配5.1%經過訓練的人為錯誤率的理想目標相距甚遠。 2012年,Hinton及其同事首次向這個社區(qū)介紹了深度學習算法,他們的基于DNN的模型實現(xiàn)了16.4%的錯誤率。這是當時計算機視覺中已建立的模型的顯著改進,而基于傳統(tǒng)機器學習算法的次高性能模型僅實現(xiàn)了26.2%的錯誤率。隨后在基于DNN的模型中的改進最終實現(xiàn)了5.0%以下的錯誤率,超過了2015年的人類表現(xiàn)(圖4),這是深度學習引入計算機視覺領域后僅3年對于這些領域的從業(yè)人員來說,深度學習和自動特征提取能力的影響已經發(fā)生了變革,不僅超越了該領域的“玻璃天花板”期望的超越能力,而且實現(xiàn)它的時間也顯著縮短。近年來,深度學習在計算機科學領域以外的其他學科中也有所表現(xiàn),包括高能粒子物理和生物信息學。

      圖4. 年度ImageNet競賽中表現(xiàn)最好的圖像分類算法的歷史錯誤率。已建立的計算機視覺模型停滯在25-30%。 2012年引入深度學習使得圖像分類的顯著改善達到了~15%,到2015年實現(xiàn)了圖像分類的人類精確度(~5%)。

      還沒有討論過的深度學習的一個同樣重要的方面是多年來非算法發(fā)展的作用。具體來說,由于上個世紀缺乏“大數(shù)據(jù)”的可行性和GPU硬件的技術進步,導致了DNN的出現(xiàn)不同于上個世紀的ANN。 2012年的開創(chuàng)性工作被廣泛認為是推動深入學習受到關注的文章,是Hinton的AlexNet論文。雖然算法的發(fā)展,尤其是dropout促成了它的成功,但可以獲得包含120萬張圖像的更大的數(shù)據(jù)集到圖像中使用的10,000幅圖像的數(shù)據(jù)集,也對其成功起到了關鍵作用。隨著更深更大的神經網絡的發(fā)展,訓練時間通常可能延長至數(shù)天或數(shù)周。然而,就像計算化學領域如何從GPU加速計算的興起中受益一樣,該技術也減輕了DNN的訓練速度問題。

      在更實際的考慮中,用于在GPU上訓練神經網絡的開源代碼和文檔的可用性也可以說是近年來深度學習快速擴散的另一個原因,包括其對學術研究的影響,這可以通過自2010年以來深度學習相關出版物指數(shù)級增長看出來(圖5a)。就像現(xiàn)代大多數(shù)計算化學家不再編寫他們自己的代碼來執(zhí)行分子動力學模擬或運行量子化學計算一樣,而是依賴于已建立的軟件包,深度學習研究團隊也已達到類似的成熟度水平,目前用于訓練神經網絡的主要軟件包,包括Torch,Theano,Caffe和Tensorflow。Torch也許這四者中最古老的一個,其作為一種機器學習科學計算框架于2002年首次在紐約大學發(fā)布,自那時起,深度學習庫被添加。 Theano是2008年由Benjio及其同事在蒙特利爾大學發(fā)布的第一個專門開發(fā)的深度學習框架,之后,該框架已發(fā)展成為一個由250多名貢獻者組成的社區(qū)團隊。 2014年由伯克利視覺與學習中心開發(fā)的Caffe的發(fā)布緊隨其后。最近,由谷歌開發(fā)的Tensorflow于2015年下半年發(fā)布,可以說在深度學習社區(qū)中的吸引力激增,從谷歌搜索排名的高峰(圖5b)可以看出,以及它的Github已經分別出演了33,000次和14,000次,盡管它僅僅在一年多的時間內發(fā)布了一次。此外,2015年發(fā)布的Keras等API大大簡化了神經網絡的構建和培訓,顯著降低了新的深度學習從業(yè)者的入門門檻。

      圖5. 來自ISI索引的 a)深度學習出版物的增長情況,以及 b)2010年以來主要深度學習軟件包的年度Google趨勢得分。

      毫無疑問,計算機科學領域一直是從互聯(lián)網上獲得的可挖掘數(shù)據(jù)激增的主要援助者(圖6a),毫不奇怪,深度學習的影響力也是最大的。在化學領域,我們也看到了可公開訪問的數(shù)據(jù)庫(如Protein Data Bank(圖6b)和PubChem(圖6c))中數(shù)據(jù)的相應增長,其中更多的數(shù)據(jù)來源于最新的高通量組學技術[53]。正是由于這些原因,我們對計算化學領域開始經歷同樣的事件匯合感到樂觀,這將極大地促進我們領域的深度學習應用。我們可以利用計算機科學領域的算法突破,化學數(shù)據(jù)的日益增加的可用性,以及現(xiàn)在成熟的GPU加速計算技術。[ 圖6d; GPU計算能力數(shù)據(jù)點來自所報道的雙精度(2010),M2090(2011),K20(2012),K40(2013),K80(2014),P100(2015)計算NVIDIA Tesla系列GPU的計算能力。]

      圖6. a)生成的全球數(shù)據(jù),b)保存在蛋白質數(shù)據(jù)庫中的結構數(shù)量,c)保存在Pub-Chem中的化合物數(shù)量,以及d)用于科學計算的GPU計算能力(GPU計算功率數(shù)據(jù)點 (2010年),M2090(2011年),K20(2012年),K40(2013年),K80(2014年),P100(2012年),P100(2011年),NVIDIA Tesla系列GPU的雙精度計算能力, 2015)),在它們向上的軌道上都有類似的相似之處

      計算機輔助藥物設計

      在計算機輔助藥物設計中,傳統(tǒng)的機器學習算法在化學信息學領域有著悠久的歷史,特別是它們對量化結構活性關系(QSAR)應用的貢獻。在QSAR中,要預測的輸出通常是化合物的生物活性。通常使用回歸模型,并且輸入數(shù)據(jù)是分子描述符,其是根據(jù)化學領域知識設計的分子的預先計算的物理化學性質。?QSAR應用的早期工作使用線性回歸模型,但這些模型很快被貝葉斯神經網絡所取代,隨后是RFs和SVMs 。該領域的從業(yè)者歷來喜歡允許可變選擇的模型,以便知情的化學家可以確定選定的特征是否有意義。此外,也允許評估輸出預測不確定性的模型。 QSAR領域非常廣泛,我們向讀者推薦以下關于歷史關鍵技術發(fā)展的評論列表[57-60]。為了進行本次審查,我們將討論的范圍限制在基于DNN的QSAR模型的性能和適當比較傳統(tǒng)的機器學習模型。

      深入學習QSAR的第一次嘗試是2012年的默克挑戰(zhàn)。 在這個公開的挑戰(zhàn)中,團隊提供了化合物的預計算分子描述符及其相應的實驗測量活動,共計15個藥物靶標。 提交的模型評估了他們根據(jù)沒有發(fā)布給參與者的測試集預測活動的能力。 獲勝組使用DNN模型,由達爾領導,他是Hinton研究團隊的一員。值得注意的是,應該強調的是,該團隊沒有受過正式訓練的計算化學家。 他們來自計算機科學系。

      圖7.深度神經網絡與幾種傳統(tǒng)機器學習算法的性能準確性(就AUC度量而言),包括:支持向量機(SVM),邏輯回歸(LR),k-最近鄰(k-NN)和商業(yè)實現(xiàn) 解決方案(Pipeline Pilot Bayesian分類器,分別基于Parzen-Rosenblatt KDE的方法和相似性集成方法),用于從ChEMBL獲得的策展數(shù)據(jù)庫的活動預測。

      圖8.當使用多任務深度神經網絡(MT-DNN)時,與邏輯回歸(LR)、隨機森林和單任務神經網絡(ST-NN)相比,在3個不同數(shù)據(jù)庫(PCBA,MUV,Tox21)中觀察到的準確性(以AUC度量指標) (RF)。

      迄今為止,至少有四個DNN報告應用于QSAR,一致的觀察結果表明深度學習優(yōu)于傳統(tǒng)的機器學習對手。然而,所有研究都主要集中在生物活性預測上。從概念上講,DNN在預測其他感興趣的性質(其可能包括ADMET性質)以及在計算機輔助藥物設計的其他部分中的應用(例如在虛擬篩選中)應該具有類似的性能。

      計算化學的深度學習

      根據(jù)QSAR和毒性預測的進展,深度學習算法也開始對計算機輔助藥物設計的其他方面產生影響。 2013年,Baldi和同事報告使用DNN模型預測分子溶解度[78]。 Pande及其同事還向arxiv提交了此方向最近的研究進展,他們開發(fā)了一個多任務DNN模型,用于預測不僅溶解度,而且預測ADMET性質的整個范圍。深度學習在虛擬篩選方面也可能具有未來作為現(xiàn)有對接方法的可行替代或補充。 2016年,AtomNet提交了一份arxiv論文,該公司開發(fā)了一種DNN模型來分類停靠在蛋白質結合口袋中的小分子的活性[87]。值得注意的是,AtomNet DNN模型能夠達到0.7到0.9之間的AUC指標,具體取決于所使用的測試集,它明顯優(yōu)于傳統(tǒng)的對接方法,特別是Smina,[88] AutoDock Vina [89]分叉0.1到0.2。 [87]關于與計算生物學更緊密結合的應用中的深度學習的其他近期發(fā)展,我們向讀者推薦以下關于該研究課題的評論。[90]

      計算結構生物學

      當?shù)鞍踪|序列折疊成其三維結構時,預測蛋白質序列的任何兩個殘基的空間接近性稱為蛋白質接觸預測。對順序不同殘基之間接觸的預測因此對其3D結構施加強約束,使其對從頭蛋白質結構預測或工程特別有用。雖然使用基于物理學的模擬方法,如長時間尺度分子動力學[91,92]可用于從頭算蛋白質結構預測,但計算需求是艱巨的。 Wolynes,Onuchic等人開發(fā)的互補方法,如基于知識的物理方法也是一種選擇[93,94],雖然它們的計算成本較低,但仍然要求足夠高,以至于不能用于大規(guī)模研究。因此,機器學習方法是可行的替代方案,包括基于人工神經網絡,[95-97] SVM,[27]和隱馬爾可夫模型[98]的方法。其他方法包括基于模板的方法,這些方法使用同源性或線程方法來識別結構相似的模板,以推斷蛋白質接觸預測。[99,100]接觸預測因子的這些不同模型的評估是蛋白質關鍵評估的亮點之一結構預測(CASP)的挑戰(zhàn)始于1996年。盡管多年來有所改進,但遠程接觸預測歷史上已經達到了精確度低于30%的玻璃上限。計算蛋白質結構預測的關鍵歷史發(fā)展是大量的,我們引用感興趣的讀者對這個主題的現(xiàn)有評論。[101-104]為了這次審查的目的,我們將討論范圍限制在最近的DNN-基于模型的模型,以及它們如何對突破玻璃天花板的歷史預期至關重要。

      2012年,Baldi和同事們開發(fā)了多階段機器學習方法CMAPpro,將接觸預測的準確性提高到36%[105]。 CMAPpro在早期模型中實現(xiàn)了三項具體的改進。首先是使用二維遞歸神經網絡來預測二級結構元素之間的粗糙接觸和取向。此外,一種新型的基于能量的神經網絡方法被用來改進來自第一網絡的預測,并用于預測殘留物接觸概率。最后,DNN架構被用來通過整合空間和時間信息來調整所有殘差 - 接觸概率的預測。 CMAPpro接受了來自ASTRAL數(shù)據(jù)庫的2356個成員訓練集的訓練。為了交叉驗證的目的,該組被分割成屬于不同SCOP折疊的10個不相交的組,這意味著無論是訓練還是驗證都設置共享序列或結構相似性。然后對所產生的模型性能進行測試,對照在ASTRAL數(shù)據(jù)庫版本1.73和1.75之間報告的364個成員的新蛋白質折疊測試集。將CMAPpro性能與多級機器學習模型的幾種排列進行比較,包括單隱層神經網絡(NN),單隱層神經網絡,其利用由2D遞歸神經生成的粗接觸/定向和對準預測器網絡和基于能量的神經網絡(NN1CA)以及深度神經網絡,但沒有CA特征(DNN)。基于相對性能,深度網絡架構和CA特性都需要達到36%的準確度; DNN和NN1CA各占32%,而代表先前技術水平的NN僅達到26%的精度。

      Eickholt和Cheng在2012年也報道了DNN用于蛋白質接觸預測的不同實施。[107]在他們的算法DNCON中,它將深度學習與用于開發(fā)集合預測器的提升技術相結合。使用來自蛋白質數(shù)據(jù)庫的1426個成員數(shù)據(jù)集來訓練DNCON,訓練(1230個成員)和確認(196個成員)組之間隨機分配。顯式設計的特征被用作DNN的輸入。具體而言,使用了三類特征:(i)來自以所討論的殘基對為中心的兩個窗口的特征(例如,預測的二級結構和溶劑可及性,來自PSSM的信息和可能性以及Acthley因子等),(ii) )成對特征(例如Levitt的接觸電位,Jernigan的配對潛能等)和(iii)全局特征(例如,蛋白質長度,預測的暴露的α螺旋和β片層殘基的百分比等)。使用這些工程功能,DNN模型的任務是預測是否有特定的殘基對接觸。此外,分類器的增強集合是通過使用從訓練集中獲得的較大池中的90,000個長程殘留 - 殘留對的樣本訓練幾個不同的DNN而創(chuàng)建的。在評估其性能時,DNCON的交叉驗證準確率為34.1%。該模型的性能可轉移性在其性能基準中與CASP9,[108] ProC_S3,[28]和SVMcon [27]中兩個分別基于RF和SVM算法的最佳預測指標進行了對比。在該評估中,每個軟件都使用了相應的測試集。雖然改進不如Baldi及其同事報道的那么戲劇化,但DNCON的性能比當時最先進的算法好3%; ProC_S3(32.6%比29.7%)和SVMcon(32.9%比28.5%)。

      隨著在其他領域重復出現(xiàn)深度學習優(yōu)于傳統(tǒng)機器學習算法[18,32-35]以及計算機輔助藥物設計本身[62,67,69],DNN在推動“玻璃”天花板“蛋白質接觸預測和二級結構預測的界限應該不令人意外。本次審查中顯然缺乏的是深度學習在RNA結構預測和建模中的應用,據(jù)我們所知盡管尚未報道。與蛋白質數(shù)據(jù)庫相比,RNA上的可用結構數(shù)據(jù)更小。此外,大多數(shù)RNA結構數(shù)據(jù)不是結晶學的,而是基于核磁共振的,由于NMR結構本身是用基于物理學的力場對抗實驗有界的約束來近似解決的事實,其自身受到較高的不確定性[121]。盡管如此,研究深度學習如何使RNA建模社區(qū)受益將會很有趣。

      最后,與計算機輔助藥物設計相比,在計算結構生物學應用中使用深度學習的一個有趣的對比是對工程特征的獨占使用,并且在一些情況下,多級機器學習算法本身的體系結構的工程設計。 雖然計算機輔助藥物設計領域的發(fā)現(xiàn)是初步的,但有一些跡象表明,明確設計的特征不一定能更好地對抗化學指紋,這可能需要較少的化學領域知識來構建。 盡管我們承認蛋白質比小分子復雜得多,但確定使用僅包含基本結構和連接性信息的輸入數(shù)據(jù)的DNN模型的性能(沒有任何特別設計的特征)是否能夠準確預測諸如 蛋白質二級結構和遠距離接觸。

      量子化學

      使用機器學習補充或取代傳統(tǒng)的量子力學(QM)計算已在過去幾年出現(xiàn)。在本節(jié)中,我們將研究一些機器學習應用到量子化學,并檢查類似的基于DNN的模型的相對性能。 2012年,von Lilienfeld和同事開發(fā)了一種基于非線性統(tǒng)計回歸的機器學習算法,以預測有機分子的霧化能量[29]。該模型使用分子生成數(shù)據(jù)庫(GDB)的7000個成員子集,該數(shù)據(jù)庫是109個穩(wěn)定且可合成處理的有機化合物庫。用于訓練的目標數(shù)據(jù)是使用PBE0雜種功能計算的7000種化合物的原子化能。沒有明確的分子描述符被用作輸入數(shù)據(jù),相反,只有笛卡爾坐標和核電荷用于“庫侖”矩陣表示。可以說,沒有明確設計的特征,輸入數(shù)據(jù)中的這種表示與傳統(tǒng)分子建模方法中使用的分子指紋所提供的表達水平相同。 von Lilienfeld及其同事使用的化合物只有1000種,平均絕對誤差(MAE)準確度為14.9 kcal / mol。進一步的外部6000化合物驗證組測試產生了15.3 kcal / mol的相似準確度,證明了該模型在“同類”化合物中的可轉移性。這項工作特別具有開創(chuàng)性意義的是合理概括QM計算能量的能力,平均絕對誤差為15千卡/摩爾,根本沒有在機器學習算法中實現(xiàn)薛定諤方程。更重要的是,考慮到這項工作使用了缺乏DNN優(yōu)勢的傳統(tǒng)機器學習算法,并且基于DNN的歷史性能,這表明基于DNN的模型應該表現(xiàn)得更好。

      2013年,馮·利林菲爾德報道了第一個多任務DNN模型的應用,該模型不僅可以預測原子化能,還可以預測其他幾種電子基態(tài)和激發(fā)態(tài)性質。在這項工作中,他們試圖利用多任務學習的優(yōu)勢,通過預測幾種電子屬性并潛在地捕捉看似無關的屬性和理論水平之間的相關性。數(shù)據(jù)用“庫倫矩陣”的隨機變量表示。[122]目標數(shù)據(jù)是使用幾種不同的理論水平計算的原子化能量,靜態(tài)極化率,前沿軌道特征值HOMO和LUMO,電離勢和電子親和力,例如PBE0,ZINDO,GW和SCS。原子化能量保持了0.16eV(?3.6kcal / mol)的相似MAE精度,并且對于其他能量預測(包括HOMO,LUMO,以及其他)的MAE的準確度為0.11至0.17eV(≥2.5至3.9kcal / mol)電離電位和電子親和力[123]。此外,這種精確度與用于構建訓練集的質量管理計算中使用的相應理論水平的誤差相似。

      計算材料設計

      量子化學領域的DNN應用的邏輯擴展是預測和設計與QM計算的特性相關或基于QM計算的特性的材料特性。定量結構特性關系(QSPR),是QSAR在非生物領域的類似版本,是預測物理性質的科學,其從更基本的物理化學特性出發(fā),在之前的出版物中得到了廣泛的綜述。[129,130 ]與現(xiàn)代藥物開發(fā)早期相似,物質發(fā)現(xiàn)主要是由偶然性和機構記憶驅動的[131]。這使得該領域成為探索性的試驗方法,而分子材料設計的關鍵瓶頸在于實驗的合成和表征。近年來,計算和合理材料設計的范例已被封裝在材料基因組計劃下[132,133]。由于這一領域的新穎性,在本節(jié)中,我們將研究使用計算材料的機器學習的一些關鍵成就設計并突出深度學習應用場景。

      雖然材料設計中的DNN應用仍處于起步階段,但看看它的應用如何應對傳統(tǒng)QSPR應用和即將進行的合理材料設計工作(如預測熒光團的光譜特性[135,136]、離子液體的特性[137]、和納米結構的活性[138]))將會很有趣。

      關于深度學習和黑盒子特性的保守看法

      機器學習算法雖然可能不是我們領域許多從業(yè)人員首選的工具,但無可否認在化學信息學領域以及QSAR和蛋白質結構預測等應用領域有著豐富的歷史。雖然有人可能認為深度學習在某種意義上是以前的人工神經網絡的復興,但過去十年的算法和技術突破使得開發(fā)出驚人復雜的深度神經網絡,允許訓練具有數(shù)億權重。加上數(shù)據(jù)和GPU加速科學計算的發(fā)展,深度學習推翻了計算機科學領域的許多應用,如語音識別和計算機視覺。鑒于化學領域中類似的相似之處,這表明深度學習可能是一個有價值的工具,可以添加到計算化學工具箱中。正如表1所總結的那樣,它提出了基于DNN模型的關鍵初步出版物,我們注意到深度學習在計算化學許多子領域的廣泛應用。此外,基于DNN的模型的性能幾乎總是等同于現(xiàn)有的最先進的非神經網絡模型,并且有時提供了優(yōu)異的性能。然而,我們注意到,如果要比較DNN為其語音識別和計算機視覺的“母體”領域帶來的改進,許多情況下的性能提升并不顯著。解釋化學領域缺乏革命性進展的一個緩解因素可能是數(shù)據(jù)的相對稀缺性。與數(shù)據(jù)便宜的計算機科學領域不同,尤其是從互聯(lián)網或社交媒體獲得的數(shù)據(jù)時,由于需要進行實際的實驗或計算以生成有用的數(shù)據(jù),所以化學中可用數(shù)據(jù)的數(shù)量可以理解為更小且更昂貴。此外,化學領域已經存在了幾個世紀,并且考慮到化學原理基于物理定律的事實,例如分子描述符等特征的發(fā)展來解釋化合物溶解度是不難想象的,例如,比開發(fā)功能來解釋狗和貓之間的差異更容易,這是計算機視覺中的一項常見任務。因此,在化學中具有更精確和更好的工程特征,我們也可能看不到如此大的初始性能改進,尤其是對于相對簡單的化學原理或概念。

      此外,作為計算化學家,與工程師或技術人員相比,更重視概念理解,這可以說是計算機科學領域中比較流行的思維模式。 在這方面,深度學習算法目前在兩個賬戶上不足。 首先,它缺乏基于實際物理定律的第一原理模型的概念優(yōu)雅,第二,DNN本質上是一個黑盒子; 很難理解神經網絡“已經學會”什么,或者它究竟如何預測感興趣的屬性。

      為了解決概念優(yōu)雅的第一個問題,從某種角度來看,這種反對可能更多地是科學偏好的哲學論證。在大多數(shù)計算化學應用中,除非人們精確地求解薛定諤方程,我們知道除了雙體系統(tǒng)外其他方法都不可能,我們必須對模型進行近似。從這個意義上說,幾乎所有的計算化學都是憑經驗確定的,有時甚至直觀地確定了薛定諤方程的“真實”第一性原理的近似值。為了說明這一點,讓我們來看看古典分子模型力場的歷史發(fā)展,如CHARMM [42]和AMBER。[43]例如,二面角力常數(shù)的參數(shù)化在歷史上一直針對QM計算值,即以經驗證的物理原理為基礎的“真實”值。然而,由于真實分子的動力學行為不具有疊加作用(這本身就是經典分子模型的另一種近似),最近的重新參數(shù)化已經開始修改二面角參數(shù),以經驗擬合實驗NMR分布,盡管這可能導致偏差[142,143]同樣,模擬靜電力的倫琴相互作用的選擇也只是近似正確的,模型帶電離子相互作用的最近參數(shù)開始已經開始擬合各種實驗觀察值,例如滲透壓值,以及在建模特定的靜電相互作用對時引入非物理修正項[144-146]在這些例子中,必須從第一原理進行逼近,而這個過程是一個基于經驗數(shù)據(jù)或有時“化學直覺“ - 就像Raccuglia等人。已經表明,不是絕對可靠的,并不總是更準確。[131]在計算化學家所做的工作過于簡單化的風險下,現(xiàn)有計算化學模型的發(fā)展可能被視為一種精細的曲線擬合練習。與其使用人類專家知識,可能的替代方案可能是使用深度學習算法來“建議”,或者甚至可能幫助我們“決定”應該做出什么樣的近似以達到期望的結果,以朝著未來的范式轉變基于DNN的人工智能(AI)輔助化學研究。這自然會導致深層學習的第二個缺點 - 不可避免的問題 - 我們如何知道深度學習模型正在學習正確的物理或化學?

      我們會承認,在目前的實施中,深度學習算法仍然是一個黑匣子,并且詢問它“學習”的內容是一項極具挑戰(zhàn)性的任務。盡管如此,諸如SVM和RF之類的黑盒算法也被用于幾種計算化學應用中,特別是在主要用作工具的示例中,和/或用于預測如此復雜的屬性,以至于即使對于問題不一定有助于其預測。我們承認,要推動深入學習不僅僅是化學家工具包中的另一個工具,并且為了獲得更廣泛的適用性和科學研究的采用,顯然DNN的可解釋性的提高是最重要的。雖然神經網絡的可解釋性歷來不是這一領域的從業(yè)人員強烈的研究焦點,但值得注意的是,近期有關提高可解釋性的一些發(fā)展已有報道[147,148]。其他可行的選擇包括使用不同的基于神經網絡的機器學習模型,如為解釋性而設計的影響相關性選民(IVR)。正如Baldi及其同事所做的一些計算化學應用所證明的,IRV是一種低參數(shù)神經網絡,通過非線性地結合化學鄰居在訓練集中的影響來改進k-最近鄰分類器。 IRV影響也被非線性地分解為相關成分和投票成分。因此,IRV的預測本質上是透明的,因為通過檢查每個預測的影響可以從網絡中提取用于進行預測的確切數(shù)據(jù),使其更接近“白盒”神經網絡方法[149,150]

      結論

      與目前計算化學中使用的傳統(tǒng)機器學習算法不同,深度學習在其使用非線性函數(shù)的層次級聯(lián)中有所區(qū)別。這使得它可以學習表示并從預測理想的物理化學性質所需的原始未處理數(shù)據(jù)中提取出必要的特征。正是這一特點使得深度學習在其語音識別和計算機視覺的“母體”領域中產生了重大影響和變革性影響。在計算化學中,其影響更近,更具初步性。盡管如此,根據(jù)近期一些研究的結果,我們注意到深度學習在許多計算化學領域的廣泛應用,包括計算機輔助藥物設計,計算結構生物學,量子化學和材料設計。在我們所研究的幾乎所有應用中,基于DNN的模型的性能常常優(yōu)于傳統(tǒng)的機器學習算法。

      隨著問題復雜性的增加,能夠應用多任務學習(即需要更多的不同屬性的預測),隨著數(shù)據(jù)集大小的增加,我們也看到了深入的學習從經常表現(xiàn)出色到始終優(yōu)于傳統(tǒng)機器學習模型。此外,一些初步研究結果表明,諸如分子描述符等明確設計的特征可能不需要構建高性能DNN模型,并且以分子指紋或庫侖矩陣形式的簡單表示可能就足夠了。這是因為DNN能夠通過隱藏層提取出自己的特征。甚至有跡象表明DNN“學習”的特征符合實際的化學概念,如毒素。加上最近關于提高神經網絡可解釋性的研究,它表明DNN在計算化學中的未來作用可能不僅僅是一種高性能的預測工具,而且可能也是一種假設生成裝置。

      參考文獻

      Goh G B, Hodas N O, Vishnu A. Deep learning for computational chemistry[J]. Journal of Computational Chemistry, 2017, 38(16):1291-1307.

      AI 深度學習 神經網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:利用華為ENSP模擬器分析和配置中小型企業(yè)網絡的綜合實驗
      下一篇:java單例模式-有用的模式
      相關文章
      亚洲中文无码永久免| 亚洲伊人久久综合影院| 亚洲狠狠ady亚洲精品大秀| 亚洲精品老司机在线观看| 久久精品国产亚洲麻豆| 国产亚洲成归v人片在线观看| 亚洲黄页网在线观看| 亚洲色四在线视频观看| 亚洲Av无码专区国产乱码DVD| 亚洲精品国产自在久久| 亚洲精品天堂成人片?V在线播放| jiz zz在亚洲| 亚洲午夜精品一区二区麻豆| 亚洲国产情侣一区二区三区| 亚洲成年人电影在线观看| 国产精品亚洲一区二区在线观看 | 色婷五月综激情亚洲综合| 亚洲国产成人精品不卡青青草原| 精品亚洲成A人在线观看青青| WWW国产亚洲精品久久麻豆| 亚洲国产91在线| 亚洲国产综合精品中文第一| 亚洲日本在线看片| 亚洲性在线看高清h片| 亚洲狠狠婷婷综合久久蜜芽| 亚洲国产精品国自产电影| 亚洲福利在线视频| 亚洲AV中文无码字幕色三| 亚洲精品无码不卡| 亚洲精品免费在线视频| 激情内射亚洲一区二区三区| 亚洲日韩小电影在线观看| 久久精品国产亚洲AV不卡| 国产亚洲精品成人AA片| 亚洲av无码片vr一区二区三区| 亚洲av无码乱码在线观看野外| 亚洲av一本岛在线播放| 亚洲精品av无码喷奶水糖心| 亚洲国产av无码精品| 亚洲av无码专区在线电影| 亚洲国产成人精品91久久久|