“玩轉(zhuǎn)”17億個小分子,盤古大模型家族又添新成員
盤古大模型:給行業(yè)AI安上奔跑的“輪子”

AI正在成為千行百業(yè)智能化的新動能。但是在產(chǎn)業(yè)初期,不同行業(yè)、不同場景對AI的需求既復(fù)雜且碎片,同時AI人才也相對稀缺,所以很多企業(yè)靠人工去開發(fā)AI應(yīng)用,成本高、效率低、落地慢。
在這樣的背景下,解決AI的通用泛化、規(guī)模化復(fù)制等問題是AI快速落地行業(yè)應(yīng)用的一道關(guān)鍵門檻。今年4月華為云發(fā)布盤古預(yù)訓(xùn)練大模型,就是希望通過建立一套通用、易用的人工智能開發(fā)工作流,以賦能更多的行業(yè)和開發(fā)者。可以說,盤古將成為各行各業(yè)AI通用的“輪子”,助力各行各業(yè)加速智能化轉(zhuǎn)型。
在今年的華為全聯(lián)接2021上,盤古家族再添新成員,專門面向藥物研發(fā)領(lǐng)域推出的預(yù)訓(xùn)練大模型——華為云盤古藥物分子大模型,隨著該模型的落地,行業(yè)有望開啟AI輔助藥物研發(fā)的新模式,AI又將激活一個產(chǎn)業(yè)。
華為高級副總裁、華為云CEO、消費者云服務(wù)總裁張平安發(fā)布華為云盤古藥物分子大模型
加速新藥研發(fā),醫(yī)藥行業(yè)AI化再添一把火
“新藥研發(fā)通常投入超10億美元、周期超10年,同時成功率往往不足1/10。”華為高級副總裁、華為云CEO、消費者云服務(wù)總裁張平安表示,藥物分子的設(shè)計和芯片的設(shè)計一樣非常難,投資大、周期長,失敗率高。這些問題長期困擾制藥行業(yè),制藥業(yè)的發(fā)展速度無法滿足當(dāng)下人類的各種健康需求,特別是新冠這樣的突發(fā)疫情,以及癌癥、海默癥等一直沒有特效藥的頑癥等,都對新藥研發(fā)非常迫切。
傳統(tǒng)的制藥模式中,藥物結(jié)構(gòu)設(shè)計高度依賴專家經(jīng)驗、新藥篩選失敗率高、藥企的投資回報率不斷下降等情況使得行業(yè)迫切需要變革。而技術(shù)的進(jìn)步恰好賦予制藥業(yè)新的機遇:通過大數(shù)據(jù)、人工智能等科學(xué)技術(shù)加速新藥研發(fā)進(jìn)程、平衡研發(fā)投入與成果產(chǎn)出之間的關(guān)系,成為行業(yè)新的突破口。
華為云盤古藥物分子大模型是由華為云與中國科學(xué)院上海藥物研究所聯(lián)合訓(xùn)練的、依托華為云一站式醫(yī)療研發(fā)平臺EIHealth的面向藥物研發(fā)領(lǐng)域的AI大模型。“該大模型學(xué)習(xí)了17億個藥物小分子的化學(xué)結(jié)構(gòu)。在藥物生成方面,實現(xiàn)了對小分子化合物的獨特信息的深度表征、對靶點蛋白質(zhì)的計算與匹配,以及對新分子生化屬性的預(yù)測,從而高效生成藥物新分子;在藥物優(yōu)化方面,實現(xiàn)了對篩選后的先導(dǎo)藥進(jìn)行定向優(yōu)化。”華為云EI服務(wù)產(chǎn)品部總經(jīng)理賈永利表示,華為云盤古藥物分子大模型的落地有望革命性地提升新藥的研發(fā)效率。
廣譜抗菌藥目前也有很大的市場需求,但是研發(fā)中困難重重,進(jìn)度很慢。西安交通大學(xué)第一附屬醫(yī)院提出研發(fā)廣譜抗菌藥的新思路,通過華為云盤古藥物分子大模型,在數(shù)字世界里針對這個靶點利用大模型計算去找出可能的一系列的藥,然后再按照要求去做實驗驗證。這個項目進(jìn)展驗證了上述思路的可行性,先導(dǎo)藥研發(fā)周期從數(shù)年縮短到一個月。
賈永利表示,“醫(yī)療專家只需要有個idea,剩下的交給AI通過大規(guī)模的運算去匹配,這將給制藥行業(yè)帶來巨大的變化。” 據(jù)了解,華為云盤古藥物分子大模型具備四大技術(shù)和應(yīng)用創(chuàng)新能力:第一,提出了針對化合物表征學(xué)習(xí)的全新深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu);第二,進(jìn)行了超大規(guī)模化合物表征模型的訓(xùn)練;第三,生成了擁有1億個新化合物的數(shù)據(jù)庫;第四,在20余項藥物發(fā)現(xiàn)任務(wù)上實現(xiàn)性能最優(yōu)。
*
華為云盤古藥物分子大模型在20余項藥物發(fā)現(xiàn)任務(wù)上實現(xiàn)性能最優(yōu)*
IDC的報告顯示,過去三年,新藥研發(fā)創(chuàng)新企業(yè)利用大數(shù)據(jù)和AI等新興技術(shù)開展了大量的新藥研發(fā)探索工作,取得了顯著的收益,生物計算技術(shù)顯現(xiàn)出巨大的發(fā)展前景。AI在藥物研發(fā)的應(yīng)用已經(jīng)進(jìn)入指數(shù)增長區(qū),有數(shù)據(jù)顯示,到2021年,全球Top44家藥企中,有41家藥企與AI公司有合作關(guān)系,占比為93%。顯然,華為云盤古藥物分子大模型的落地將為制藥行業(yè)AI化再添一把火。
超強泛化能力,盤古推動AI行業(yè)落地
經(jīng)過幾年的高速發(fā)展,AI由虛入實,慢慢開始在越來越多的企業(yè)中落地,根據(jù)去年IDC的數(shù)據(jù)顯示:得益于安防、智慧城市等AI應(yīng)用場景的帶動,AI在行業(yè)滲透,推動了政府、交通、公共事業(yè)、健康等行業(yè)的智能化提速。同時,AI也開始逐漸走進(jìn)企業(yè)的核心生產(chǎn)系統(tǒng),預(yù)計2025年AI對企業(yè)的滲透率可以達(dá)到86%。
但是,AI應(yīng)用還面臨著諸多挑戰(zhàn),如何降低AI的算法、模型開發(fā)門檻,讓AI可以普惠,成為行業(yè)亟待解決的問題。今年4月華為云發(fā)布的盤古系列超大預(yù)訓(xùn)練模型包括中文語言(NLP)、視覺(CV)大模型,多模態(tài)大模型、科學(xué)計算大模型。這其中,盤古NLP大模型是業(yè)界首個千億級生成與理解中文NLP大模型;華為云在視覺領(lǐng)域打造的包含超過30億參數(shù)的CV大模型,也在不斷突破行業(yè)的極限。
華為云盤古系列大模型的價值不僅是技術(shù)能力上的突破,更重要的是具備極強的泛化能力。通過與行業(yè)知識結(jié)合其能快速實現(xiàn)不同場景的適配,基于只需要“預(yù)訓(xùn)練+下游微調(diào)”就可以快速應(yīng)用。隨著盤古大模型的開放,各行各業(yè)的開發(fā)者不必再從零開始,只需在云上找到自己所需模型。這就如同造車企業(yè)沒有必要自己造輪子,只需求從輪胎廠選擇適合自己的輪子。可以說,盤古大模型就如同是各行各業(yè)的AI“輪子”工廠,只要選到最適合自己的,就可以快速奔跑起來。
“讓AI從作坊式變成工廠式生產(chǎn),減少對數(shù)據(jù)的依賴、對AI開發(fā)者的依賴,這就是盤古要解決的問題。”賈永利說。比如盤古CV大模型目前已經(jīng)在醫(yī)學(xué)影像、金融、工業(yè)質(zhì)檢等100余項實際任務(wù)中得到了驗證,平均縮短開發(fā)時間 80% 以上,極大地提升了開發(fā)效率以及模型性能。再比如,盤古NLP大模型具備廣泛的運用場景,在金融領(lǐng)域,可以輔助識別企業(yè)風(fēng)險,助力企業(yè)盡調(diào)和項目審核。
以醫(yī)藥行業(yè)為例,AI在制藥領(lǐng)域的難點最重要的有兩個,一個是數(shù)據(jù),AI模型的訓(xùn)練往往需要大量的數(shù)據(jù),而數(shù)據(jù)往往又是制藥公司的核心資產(chǎn),被視為商業(yè)機密,在不同機構(gòu)之間基本不會共享。第二個是適用于藥物數(shù)據(jù)的全新的深度學(xué)習(xí)架構(gòu),藥物數(shù)據(jù)不同于圖片和文本數(shù)據(jù),如何用深度學(xué)習(xí)的方法對藥物數(shù)據(jù)進(jìn)行建模是當(dāng)前學(xué)術(shù)界的熱點難題。
作為盤古家庭新成員,華為云盤古藥物分子大模型作為醫(yī)療智能體藥物研發(fā)引擎的核心,可以賦能傳統(tǒng)的制藥公司低成本,低門檻的構(gòu)建起自己的企業(yè)級AI研發(fā)能力,可以幫助企業(yè)搶到AI藥物研發(fā)這一波技術(shù)紅利。
盤古大模型將一套通用的流水線復(fù)用到各種不同的場景里去,減少專家的干預(yù)和人為調(diào)優(yōu)的消耗,從而降低人工智能開發(fā)的門檻和成本,讓行業(yè)開始了工業(yè)化AI開發(fā)模式。
圍繞場景深耕,放大AI價值
IDC 預(yù)測,全球 AI 市場支出將在 2021 年達(dá)到 850 億美元,并在 2025 年增至 2000 億美元,五年復(fù)合增長率(CAGR)約為 24.5%。2025 年,全球約 8% 的 AI 相關(guān)支出將來自于中國市場,市場規(guī)模在全球九個區(qū)域中位列第三。
隨著AI投入的不斷增加,特別是華為云盤古大規(guī)模推動AI進(jìn)入工業(yè)化時代,縮短了傳統(tǒng)行業(yè)走向智能化的距離,各行各業(yè)的智能化將迎來爆發(fā)式增長,智慧城市、智慧能源、智慧金融、智慧制造……越來越多的應(yīng)用場景都將加上“智慧”二字。
華為一直圍繞行業(yè)、圍繞場景去深耕,找到真正的結(jié)合點。同時華為造“輪子”的目的不止于“輪子”,而是真正能飛奔起來的汽車。
比如在電力行業(yè),傳統(tǒng)的無人機智能巡檢AI模型開發(fā)主要面臨兩大挑戰(zhàn):一是如何對海量數(shù)據(jù)進(jìn)行高效標(biāo)注;二是缺陷種類多達(dá)上百種,需要數(shù)十個AI識別模型,開發(fā)成本高。國網(wǎng)重慶永川供電公司應(yīng)用無人機電力智能巡檢技術(shù),華為云合作應(yīng)用了盤古 CV 大模型,樣本篩選效率提升約 30 倍,篩選質(zhì)量提升約 5 倍,以永川每天采集 5 萬張高清圖片為例,可節(jié)省人工標(biāo)注時間 170 人天。這其中更為重要的是模型通用性,結(jié)合盤古搭載的自動數(shù)據(jù)增廣以及類別自適應(yīng)損失函數(shù)優(yōu)化策略,可以做到一個模型適配上百種缺陷,一個模型就可以替代永川原來的 20 多個小模型,極大地減少了模型維護(hù)成本,平均精度提升 18.4%,模型開發(fā)成本降低 90%。
在金融行業(yè),傳統(tǒng)動產(chǎn)質(zhì)押業(yè)務(wù)中有很多痛點,比如:因貨源不清晰,導(dǎo)致“一物多抵”;因監(jiān)管公司道德風(fēng)險,導(dǎo)致“黃金變銅”;因缺乏數(shù)字化手段,導(dǎo)致過程監(jiān)管成本高,流于形式;因缺乏處置平臺,導(dǎo)致貨物變現(xiàn)難。在浦發(fā)銀行與華為聯(lián)合打造的浦慧云倉項目中,需要實現(xiàn)貨物進(jìn)倉與融資放款匹配、還款與貨品出庫聯(lián)動。浦發(fā)銀行應(yīng)用華為云盤古大模型,對叉車入庫時的貨堆進(jìn)行精確計數(shù),確保了貨物入庫的真實性;借助華為云盤古大模型的小樣本學(xué)習(xí)能力,大大節(jié)省了識別倉庫中上百種外觀不同箱體的樣本采集和標(biāo)注工作量,明顯縮短了項目上線周期。
通用AI加速行業(yè)智能化,反過來行業(yè)實踐也會促進(jìn)通用AI技術(shù)能力的提升。今天處于AI發(fā)展的初期階段,造出AI的輪子,還要讓輪子多跑、多轉(zhuǎn),然后再不斷進(jìn)行優(yōu)化。在各行各業(yè)的充分歷練,也將使得盤古獲得更大的成長空間。
AI 機器學(xué)習(xí)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。