華為云與北大BIOPIC聯(lián)合發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集

      網(wǎng)友投稿 693 2025-03-31

      近日,華為與北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)、北京大學化學與分子工程學院、深圳灣實驗室高毅勤教授課題組聯(lián)合推出蛋白質(zhì)多序列比對(Protein MSA)數(shù)據(jù)集,希望在標準化的數(shù)據(jù)集基礎上,支撐研究人員開發(fā)先進的AI模型,加深對蛋白質(zhì)結(jié)構(gòu)、功能和進化的認知,并進行蛋白設計與改造。此數(shù)據(jù)集將發(fā)布于華為云AI Gallery平臺,相關代碼及數(shù)據(jù)集說明將依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護,旨在為全世界相關的產(chǎn)、學、研團隊提供優(yōu)質(zhì)的數(shù)據(jù)共享解決方案。

      本次開源的Protein MSA數(shù)據(jù)集完全覆蓋最新版本(2021年2月發(fā)布)的UniRef50數(shù)據(jù)庫中的蛋白質(zhì)序列,采用學術界的“金標準”搜索方法,對約0.5億條蛋白序列進行了充分的MSA搜索與比對(MSA平均深度大于1000),是目前世界范圍內(nèi)規(guī)模最大、參考數(shù)據(jù)集最新、覆蓋度最廣的開源蛋白質(zhì)MSA數(shù)據(jù)集(之前最大的開源MSA數(shù)據(jù)集包含10萬個蛋白MSA)【1】。

      人類已知的蛋白質(zhì)序列已經(jīng)超過4.4億條,但僅憑這些蛋白質(zhì)單序列數(shù)據(jù)庫,很難了解蛋白之間的關系。Protein MSA數(shù)據(jù)庫是一個對不同蛋白質(zhì)序列之間的關系進行了標記的大規(guī)?!瓣P系型”數(shù)據(jù)庫,被標記為關聯(lián)的蛋白質(zhì)序列之間的相似度、進化關系、突變所在位點的分布等信息對蛋白質(zhì)結(jié)構(gòu)和功能的預測極為重要。

      為了更好地服務于跨領域的研究人員,Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。原始數(shù)據(jù)集(近30T)將以UniRef系列數(shù)據(jù)庫【2】和UniClust數(shù)據(jù)庫【3】的標準文本形式存儲,并按照序列長度進行分割與壓縮。為了便于AI領域的研究人員直接使用,Protein MSA數(shù)據(jù)集還會將文本格式的數(shù)據(jù)集轉(zhuǎn)化為浮點數(shù)張量類型壓縮存儲,并對已有的AI框架如MindSpore進行數(shù)據(jù)接口的支持。

      高毅勤教授表示:“我們鼓勵并期待來自生物信息學、數(shù)據(jù)科學和AI研究等領域的專家和人才充分碰撞與合作,引入、改進或設計全新的AI模型,來充分地挖掘Protein MSA數(shù)據(jù)集中所隱藏的‘自然的秘密’”。

      從科學的角度看,MSA的數(shù)量和質(zhì)量很大程度上影響了目前最先進結(jié)構(gòu)模型的預測速度和精度,而且產(chǎn)生MSA的非參數(shù)化算法仍是諸多蛋白預測方法中決定速度的主要步驟之一。因此,Protein MSA數(shù)據(jù)庫本身可以作為這些結(jié)構(gòu)預測模型的預訓練材料,用來挖掘序列信息甚至快速生成新的序列特征,這對解決研究、設計蛋白質(zhì)中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。

      此次數(shù)據(jù)庫的發(fā)布,依托于華為云AI Gallery平臺,能夠充分保障國內(nèi)外用戶對于數(shù)據(jù)集的訪問和下載,并提供可持續(xù)更新與擴充的先進數(shù)據(jù)維護方案以及下游AI應用與部署的相關支持,融合了產(chǎn)、學、研相結(jié)合的研究模式的優(yōu)勢。此外,華為也與北京大學高毅勤課題組聯(lián)合開發(fā)并開源了首個國產(chǎn)分子動力學軟件MindSponge。未來,華為將牽手更多的學術科研界合作伙伴,在材料、生物、醫(yī)藥等更廣泛的科學計算領域打造數(shù)據(jù)推動的研究新模式。

      附:

      數(shù)據(jù)集開源說明:

      https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa

      華為云與北大BIOPIC聯(lián)合發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集

      數(shù)據(jù)集-:

      https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e

      【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

      【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

      【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., S?ding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

      AI 數(shù)據(jù)庫

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:WPS PPT通過另存為將PPS中的所有幻燈片轉(zhuǎn)換成JPG圖片集
      下一篇:excel表格中怎么建立趨勢圖
      相關文章
      国产成人亚洲综合一区| 亚洲日韩精品国产3区| 亚洲gv白嫩小受在线观看| 亚洲黄色高清视频| 亚洲高清偷拍一区二区三区| 亚洲国产另类久久久精品小说| 亚洲成a人片在线不卡| 亚洲AV无码专区国产乱码4SE| 久久国产成人亚洲精品影院| 亚洲电影免费观看| 大桥未久亚洲无av码在线| 91精品国产亚洲爽啪在线影院| 亚洲AV美女一区二区三区| 国产午夜亚洲精品不卡电影| 亚洲国产精品成人综合色在线婷婷| 亚洲精品乱码久久久久久中文字幕 | 毛片亚洲AV无码精品国产午夜| 亚洲国产美女精品久久久| 亚洲日本国产乱码va在线观看| 亚洲无圣光一区二区| 国内精品久久久久影院亚洲| 亚洲成a∧人片在线观看无码| 欧洲亚洲国产精华液| 国产亚洲精aa在线看| 亚洲综合在线一区二区三区| 亚洲精品国产啊女成拍色拍| 亚洲三级中文字幕| 亚洲自偷精品视频自拍| 亚洲av乱码一区二区三区| 一本色道久久综合亚洲精品蜜桃冫 | 麻豆亚洲AV成人无码久久精品 | 亚洲avav天堂av在线网爱情| 亚洲日韩精品无码AV海量| 国产偷国产偷亚洲高清在线| 久久亚洲AV无码西西人体| 亚洲av午夜福利精品一区人妖| 亚洲综合激情视频| 亚洲色最新高清av网站| xvideos亚洲永久网址| 亚洲av日韩综合一区久热| 亚洲麻豆精品国偷自产在线91|