Nature評選改變科學的10個計算機代碼,arXiv、AlexNet等上榜
1031
2025-03-31
2019年7月,普林斯頓大學的Ian W. Davies學者在Nature上發表了一篇文章——有機合成的數字化。
1
摘要
有機合成基本上是由學術實驗室進行的,這些實驗室由專門研究某些特定化合物或合成步驟的資助。盡管現代合成方法可以幫助我們獲得相當復雜的分子,但是預測單個化學反應的結果依舊存在困難。只有通過智能決策幫我們選擇最優的合成步驟(包括效率、質量和產量在內的指標為指導),關于預測“箭頭上方”的反應條件的技術才能獲得進步。因此通信和數據共享的方法需要從傳統工具發展為機器可讀的方法和開放式協作框架。這將會加速創新并需要創建具有標準化數據處理,管理和指標的化學物質公共資源。
2
背景
20世紀60年代,關于計算機輔助設計化學合成這個想法已初見苗頭,但遭受到大多化學家的質疑,最終以失敗告終。而如今,計算機輔助設計有機合成變得十分普遍。
3
簡介
這篇文章從四個方面介紹了當前計算機輔助設計有機合成的情況。
面對傳統文化和數據收集的挑戰
有機化學合成的復雜性
新出現的利用強化數據的方法進行創新的例子
加速未來發展
4
面對傳統文化和數據收集的挑戰
4.1 深度學習算法概念
圖 1
每一位化學家都接受過良好的訓練,有著一定的知識儲備量,當他們面臨一個新的合成問題時,都會與自己之前所學習到的知識進行比較,這與深度學習算法概念類似。
在進行有機合成設計時,要考慮到很多因素,如:產率、選擇性、溫度、溶劑、配體等。如果只是人類依靠在筆記本上寫寫畫畫,很難進行順利。這時我們不得不依靠深度學習算法,讓計算機來幫助我們。
4.2 面臨的挑戰
(1)在沒有多種起始材料的情況下,數據通常是破碎的且很難整理。
(2)與人性有關的另一個障礙是,當反應失敗時,實驗者通常不關心完整的實驗記錄,而是選擇放棄,開始另一項任務。
4.3 解決方法
不得不進行統一收集、清理和標記數據,希望科學家們可以共享自己的實驗數據并呼吁政府和慈善機構調整獎勵機制,使數據廣泛可得。
5
執行有機合成的復雜性
5.1 有機合成反應復雜
圖 2 針對maoecrystal V化合物合成中某個步驟進行優化
上圖中是天然產物Maoecrystal V合成路線中第七個步驟所要考慮的因素,包括:溶劑、試劑、添加順序、溫度、反應時間等16個因素。該圖很好地說明了有機合成的復雜性。
5.2 文化影響
受過良好訓練的有機化學家會閱讀文獻,并生成最合理地滿足他們目標的反應步驟。但是,這些人為的預測通常會因為文化或公司以前的路線選擇而有偏差。
5.3 商業利益和監管壓力
商業和監管方面的壓力使得科學家在早期發現的一系列潛在途徑中,不得不采用單一方法進行驗證從而商業化。
6
新出現的利用強化數據的方法進行創新的例子
6.1 Merk公司
Merk公司使用高通量實驗和分析技術系統構建工具,以解決數據的空白。詳情:以普遍的鈀催化交叉偶聯反應為例,結合機器人技術和高通量分析技術,在室溫下進行自動化反應。使用這種裝置,每天可以進行1500個實驗,且每個反應只需要0.02mg的起始原料。為了減少分析時間,高通量實驗可以與先進的質譜方法聯用,在幾分鐘內對就可以對數千個實驗進行分類。
6.2 The Doyle laboratory
Doyle實驗室使用了一種機器人同時進行的評估方法,該方法具有三個1,536孔板,該板由芳基鹵化物,Buchwald配體,堿和添加劑的完整矩陣組成,總共進行了4,608個反應。這些反應的產量用作模型輸出,并提供了一個干凈,結構化的數據集,其中包含的反應維數大大超過了以前使用機器學習檢查的反應維數。大約30%的反應無法提供任何產物,其余的則在非零產量范圍內相對均勻地分布。使用Sigman小組推廣的概念,構建了腳本來計算和提取交叉耦合組件的原子,分子和振動描述符。使用這些描述符作為輸入,并以反應產率作為輸出,發現隨機森林算法可提供較高的預測性能。
為了訓練此反應的模型,對脫氧氟化反應的640個篩選反應中使用的底物和試劑制成表格。使用了隨機森林算法,并對70%的篩選條目進行了訓練。使用包含192個反應的測試集評估模型,并在訓練集之外的5種結構不同的底物上進行驗證。模型對這些反應的產率進行了合理的準確預測,可以讓化學家評價反應的可行性和選擇初始反應條件。與以前的研究相比,該訓練集小80%,涵蓋了更廣泛的底物多樣性,并納入了多種機制。若將該脫氧氟化反應的訓練集進行擴展,將其他變量(即化學計量,濃度,溶劑和溫度)也考慮進去,從可能會使復雜反應空間更準確、更全面。
圖 3 利用機器學習預測脫氧氟化反應
6.3 流體化學
流體化學為加速反應提供了另一個發展機會。輝瑞團隊最新推出的基于連續流體化學的自動化合成平臺,克服了一個常見的問題,即有限的材料量不允許應用流體化學篩選。該團隊使用喹啉(3a-g)和吲唑酸(4a-d)證明平臺具有制備有用數量材料的能力,該團隊根據篩選的最佳條件對100個連續片段的進樣進行了編程,從而每小時可制備約100 mg目標分子。
該團隊對反應條件涉及到的4種溶劑,11種催化劑,7種堿,以及兩個反應物可能帶的不同活性基團的總計5760種反應組合進行了評估。并利用其液質聯機實時分析的優勢得到了產率熱圖(圖4a)。
化學合成可能不再僅僅是人類活動。在一項Cronin實驗室最近的研究表明,由機器學習算法控制的機器人反應處理系統可能能夠比人工過程探索有機反應快一個數量級。機器人方法能夠以結構化的方式捕獲有關失敗或非反應性實驗的信息,使其可用于反應作圖。在考慮大約10%的數據集結果后,強大的機器學習算法能夠從上述輝瑞數據集中預測1,000種反應組合的反應性,且準確性高于80%。
圖 4 加速流體化學和反應預測的發展
7
加速未來發展
在有機合成的200年歷史中,還沒有開發出合適的收集、清理和標記數據的方法。在人類基因組中,所有的DNA序列信息都是免費的且公開的。研究者可以在政府和慈善機構的幫助下進行數據共享,采用現代化方法避免主數據重復。未來,有機合成的數字化會持續發展,計算機能力不再是問題。
參考資料
Davies I W. The digitization of organic synthesis[J]. Nature, 2019, 570(7760): 175.
張穩
機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。