生物信息學數據庫分類概覽(生物信息學數據庫的分類)
生物與計算機的結合讓生物進入大數據時代,為方便管理各種生物數據,科學家們開發了各式各樣的生物數據庫。了解與自己研究領域相關的數據庫,并加以利用可能會使研究工作得到事半功倍的效果。在此將常用數據庫按照以下分類方式大致整理了一下,也方便檢索。
1. Meta databases
元數據庫,合并不同來源的相關數據以更新的或更加方便的形式提供新的數據,通俗的講就是數據庫的數據庫,代表性的數據庫主要有以下幾個:
ConsensusPathDB 網址:http://consensuspathdb.org/?描述:分子功能互作數據庫,基于32個公共數據庫,整合了人類蛋白質相互作用,遺傳相互作用信號,代謝,基因調控和藥物 - 靶標相互作用的信息。
Entrez 網址:https://www.ncbi.nlm.nih.gov/Class/MLACourse/Modules/Entrez/complex_boolean.html?描述:Entrez跨數據庫全局查詢搜索系統是一個聯合搜索引擎或門戶網站,允許用戶在NCBI網站上搜索許多離散的健康科學數據庫。
Neuroscience Information Framework 網址:https://neuinfo.org//?描述:整合了數百種神經科學相關資源,包括實驗,臨床和轉化神經科學數據庫,知識庫,地圖集和遺傳/基因組資源等。
GeneCard 網址:https://www.genecards.org/?描述:自動整合125個數據庫,包含基因組、轉錄組、蛋白組、遺傳、臨床和功能信息的龐大人基因組數據庫。
Ensembl Genomes 網址:http://ensemblgenomes.org/?描述:該項目由EMBL運營,提供細菌、原生生物、真菌、植物和無脊椎動物后生動物的基因組數據。
NGS基礎 - 參考基因組和基因注釋文件
NGS基礎 - GTF/GFF文件格式解讀和轉換
UCSC Genome 網址:?http://genome.ucsc.edu?描述:主要是動物基因組信息,基因組注釋,基因組保守性和基因組共線性數據。
UCSC XENA - 集大成者(TCGA, ICGC)
UCSC基因組瀏覽器
Human protein atlas 網址:http://www.proteinatlas.org/?描述:人體蛋白在細胞、組織、病理條件下的表達
ICGC數據庫使用
2. Model organism databases
模式生物數據庫,為深入研究模式生物提供生物數據,如:
Personal Genome Project 網址:https://www.personalgenomes.org/?描述:來自世界各地的100,00名志愿者的人類基因組計劃。
Mouse Genome Database(MGD) 網址:http://www.informatics.jax.org/?描述:MGD數據庫是整合了國際上實驗室小鼠生物數據的資源庫,提供小鼠相關的基因組、綜合遺傳等信息。
Rat Genome Database (RGD): 網址:https://rgd.mcw.edu/?描述:大鼠基因組數據庫。
PomBase 網址:https://www.pombase.org/?描述:裂殖酵母Schizosaccharomyces pombe的知識庫。
Saccharomyces Genome Database (SGD): 網址:https://www.yeastgenome.org/?描述:酵母模型生物的基因組數據庫
TAIR 網址?https://www.arabidopsis.org/?描述:最全的擬南芥資源數據庫。政府為我們付費購買了使用權,以至于不少人沒感覺到TAIR已經收費了。
Legume Information System (LIS) 網址:https://legumeinfo.org/?描述:豆科植物的基因組數據庫。
Wormbase: 網址:https://wormbase.org/#012-34-5?描述:關于線蟲模式生物秀麗隱桿線蟲的生物學和基因組在線生物數據庫,還包含其他相關線蟲的信息。
Xenbase: 網址:http://www.xenbase.org/entry/?描述:模式生物非洲爪蟾(Xenopus tropicalis)和非洲爪蟾(Xenopus laevis)的基因組數據庫。
Zebrafish Information Network: 網址:http://zfin.org/?描述:斑馬魚的基因組數據庫。
FlyBase: 網址:http://flybase.org/?描述:模式生物果蠅的基因組數據庫。
UCSC Malaria Genome Browser: 網址:http://enacademic.com/dic.nsf/enwiki/7907997?描述:UCSC瘧疾基因組瀏覽器是研究瘧疾(如惡性瘧原蟲等)基因組的生物信息學研究工具。
3. Nucleic acid databases
3.1 DNA databases
核酸數據庫分為一級數據庫(Primary databases)和二級數據庫(Secondary databases)
3.1.1 一級核酸數據庫
下面三個數據庫是核酸的主數據庫,存儲來自所有生物的核酸序列,接受用戶提交核酸序列,每天交換更新數據以實現他們之間的最佳同步。
DNA Data Bank of Japan 網址:https://www.ddbj.nig.ac.jp/index-e.html
EMBL (European Bioinformatics Institute) 網址:https://www.embl.org/
NCBI (National Center for Biotechnology Information) 網址:https://www.ncbi.nlm.nih.gov/
生信軟件系列 - NCBI使用
如果你經常用PubMed,那么這個插件將非常好用!
一文教會你查找基因的啟動子、UTR、TSS等區域以及預測轉錄因子結合位點
3.1.2 二級核酸數據庫
數目很多,先列出一些,歡迎補充:
23andMe's database 網址:https://www.23andme.com/en-int/?描述:23andMe是一家私營的個人基因組學生物技術公司 ,主要業務是基于唾液對消費者進行基因檢測,并向客戶提供基因檢測報告。
OMIM (Online Mendelian Inheritance in Man): 網址:https://omim.org/?描述:一個管理人類基因和人類遺傳疾病特征的數據庫。
RefSeq 網址:https://www.ncbi.nlm.nih.gov/refseq/?描述:參考序列數據庫收集了從病毒、細菌到真核生物等主要生物的核酸序列(DNA、RNA)及其蛋白質常產物。
1000 Genomes Project: 網址:http://www.internationalgenome.org/?描述:2008年1月啟動的項目,對來自不同種族群體的一千多名匿名參與者的基因組進行了分析,并將數據公布于眾。
SNP / Disease Databases 網址:https://www.snpedia.com/?描述:人SNP位點對表型的影響和貢獻度數據庫
3.2 Gene expression databases
這些數據庫收集基因組序列,注釋并分析他們,以提供公共訪問。主要包括:
ArrayExpress 網址:https://www.ebi.ac.uk/arrayexpress/?描述:功能基因組數據存檔;存儲來自EMBL的高通量功能基因組學實驗的數據;展示方式很炫酷。
Bioinformatic Harvester 網址:Ensembl:?http://asia.ensembl.org/index.html?描述:為人類,小鼠,其他脊椎動物和真核生物基因組提供自動注釋的數據庫
BioGPS 網址:http://biogps.org/#goto=welcome?描述:強大的基因和蛋白表達注釋平臺
Gene Disease Database 基因疾病數據庫,通過整理表型-基因型關系和基因-疾病機制,以及多種復合相互作用來理解復雜疾病的潛在機制。主要數據庫如下:
5.1 The Comparative Toxicogenomics Database (CTD) 網址:http://ctdbase.org/?5.2 The Universal Protein Resource (UNIPROT) 網址:https://www.uniprot.org?5.3 The Online Mendelian Inheritance in Man 網址:https://www.ncbi.nlm.nih.gov/omim?5.5 The Ensembl genome database project 網址:http://www.ensembl.org/?5.6 The Gene Disease Associations Database DisGeNET 網址:http://www.disgenet.org/
Gene Expression Omnibus (GEO): 網址:https://www.ncbi.nlm.nih.gov/geo/?描述:來自美國國家癌癥研究所(NCI)的公共功能基因組數據庫,它支持基于陣列和序列的數據,并提供了用于查詢和下載基因表達譜的工具。
NGS基礎 - 測序原始數據下載
測序文章數據上傳找哪里
3.3 Phenotype databases
PHI-base: 網址:http://www.phi-base.org/?描述:病原體 - 宿主相互作用數據庫。
細胞表型數據庫 網址:https://www.ebi.ac.uk/fg/sym?描述:基于RNAi的細胞表型收集
dbGAP 網址:https://www.ncbi.nlm.nih.gov/gap?描述:基因型-表型數據庫,來源于GWAS、醫學測序、分子診斷等
The Human Phenotype Ontology 網址:https://hpo.jax.org/app/?描述:人類疾病表型描述的標準化術語,類比于Gene Ontology. 現有13000個條目和156,000關于遺傳病的注釋。
GWAS central 網址:?https://www.gwascentral.org?描述:包含2,974,967個SNP與829個MeSH疾病、表型之間的69,986,326個關聯。
European genome-phenome archive 網址:https://ega-archive.org?描述:生物醫學研究中涉及的遺傳和表型數據關聯庫
Monarch 網址:https://monarchinitiative.org?描述:基因型-表型數據庫,表型相似性度量
Cellular Phenotype Database 網址:http://www.ebi.ac.uk/fg/sym?描述:存儲來自高通量表型研究的數據,可以搜索感興趣的表型并檢索相關靶基因和RNAi
GenomeRNAi 網址:http://www.genomernai.org/?描述:包含來自果蠅和人RNA干擾篩選的表型數據庫
Genomics of Drug Sensitivity in Cancer 網址:http://www.cancerrxgene.org/?描述:篩選了多種抗癌療法人類癌細胞系,通過與基因組數據關聯以識別藥物靶標,同時為臨床應用提供信息
GenomeCRISPR 網址:http://genomecrispr.dkfz.de/?描述:用于高通量CRISPR / Cas9篩選實驗的數據庫
Cellular Microscopy Phenotype Ontology (CMPO) 網址:www.ebi.ac.uk/cmpo/?描述:CMPO為描述與整個細胞、細胞成分、細胞過程和細胞群體有關的表型特性提供了一種物種中立的詞匯。
Human Phenotype Ontology (HPO) 網址:https://hpo.jax.org/app/?描述:提供了人類疾病中表型異常的標準化詞匯
3.4 RNA databases
miRBase 網址:http://www.mirbase.org/?描述:存儲microRNA序列和注釋的數據庫。
Rfam: 網址:http://rfam.org/?描述:一個包含非編碼RNA(ncRNA)家族和其他類型RNA信息的數據庫。
RNAcentral 網址:https://rnacentral.org/?描述:非編碼RNA序列數據庫。
4. Amino acid / protein databases
4.1 Protein sequence databases
Swiss-Prot/Uniprot 網址:https://www.uniprot.org/?描述:結合了從文獻中提取的信息和生物鑒定者評估的計算分析,是一個手動注釋的非冗余蛋白質序列數據庫。
Database of Interacting Proteins (Univ. of California) 網址:https://dip.doe-mbi.ucla.edu/dip/Main.cgi?描述:記錄了實驗確定的蛋白質之間的相互作用。
DisProt:(打不開了) 網址:http://www.disprot.org/?描述:用于注釋文獻中的蛋白固有無序區域(IDRs)
2018Cell系列最好的調控方式-相變,最強綜述,未來以來,你在哪
InterPro: 網址:https://www.ebi.ac.uk/interpro/?描述:通過整合多個蛋白相關數據庫,提供了一個方便的對蛋白序列進行功能注釋的平臺,包括對蛋白質家族、結構域、功能位點的預測。
MobiDB: 網址:http://mobidb.bio.unipd.it/?描述:內在蛋白質紊亂注釋數據庫。
neXtProt: 網址:https://www.nextprot.org/?描述:人類蛋白質數據庫。
Pfam: 網址:http://pfam.xfam.org/?描述:Pfam是蛋白質家族的數據庫,包括使用隱馬爾可夫模型生成的注釋和多序列比對。
PRINTS 網址:http://130.88.97.239/PRINTS/index.php?描述:蛋白質序列指紋圖譜數據庫,所謂蛋白質的指紋是指一組保守的序列基序,用于刻畫蛋白質家族的特征。
PROSITE: 網址:https://prosite.expasy.org/?描述:收集了有顯著生物學意義的蛋白質位點和序列模式,并能根據這些位點和模式快速并可靠地鑒別一個未知功能的蛋白質序列應該屬于哪一個蛋白質家族。
Protein Information Resource 網址:https://pir.georgetown.edu/?描述:是一個全面的、經過注釋的、非冗余的蛋白質序列數據庫。可幫助研究者鑒別和解釋蛋白質序列信息,研究分子進化、功能基因組,進行生物信息學分析。
SUPERFAMILY: 網址:http://supfam.org/SUPERFAMILY/?描述:一個包含所有蛋白質和基因組結構和功能注釋的數據庫。
4.2 Protein structure databases
Protein Data Bank (PDB) 網址:http://www.rcsb.org?描述:一個專門收錄蛋白質及核酸的三維結構資料的數據庫,以下為PDB成員網站 1.1 Protein DataBank in Europe (PDBe):https://www.ebi.ac.uk/pdbe/?1.2 ProteinDatabank in Japan (PDBj):https://pdbj.org?1.3 Research Collaboratory for Structural Bioinformatics (RCSB):https://www.rcsb.org?1.4 Worldwide Protein Data Bank:http://www.wwpdb.org/
The Protein Protein Interaction Inhibition Database (2PI2db): 網址:http://2p2idb.cnrs-mrs.fr?描述:收集了已通過X射線晶體學或核磁共振表征的蛋白質-蛋白質、蛋白質-調節劑復合物結構。
4.3 Protein model databases
ModBase: 網址:https://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi?描述:一個注釋比較飯白紙結構模型的數據庫。
Protein Model Portal (PMP): 網址:https://www.proteinmodelportal.org?描述:結合了數個蛋白質結構模型數據庫的元數據庫,提供模型構建和質量評估等多種交互式服務。
Similarity Matrix of Proteins (SIMAP): 網址:http://cube.univie.ac.at/resources/simap?描述:基于FASTA序列計算的蛋白質相似性數據庫。
Swiss-model: 網址:https://swissmodel.expasy.org?描述:致力于同源蛋白質的3D結構建模。
4.4 Protein-protein and other molecular interactions
BioGRID 網址:https://thebiogrid.org?描述:蛋白質與遺傳相互作用數據庫。
string 網址:http://string-db.org/cgi/help.pl?subpage=api?描述:用于檢索相互作用基因/蛋白質的搜索工具
IntAct 網址:https://www.ebi.ac.uk/intact/?描述:為分子交互研究提供免費的開源數據庫系統和分析工具。
5. Signal transduction pathway databases
NCI-Nature Pathway Interaction Database 網址:http://biogps.org/plugin/259/nci-nature-pathway-interaction-database/描述:http://www.ndexbio.org/#/?(原來的PID遷移到此新數據庫)。 NDEx提供了一個開源框架,科學家和機構可以共享、存儲、操作和發布生物網絡知識。
Netpath 網址:http://www.netpath.org/?描述:人類信號轉導通路數據庫,擁有45個信號通路,包括在免疫系統調節和癌癥調節中起主要作用的通路。
Reactome 網址:https://reactome.org/?描述:該庫覆蓋了19個物種的通路研究,包括經典的代謝通路、信號轉導、基因轉錄調控、細胞凋亡與疾病。
reactome相關推文:
生物AI插圖素材獲取和拼裝指導
沒錢買KEGG怎么辦?REACTOME開源通路更強大
WikiPathways 網址:https://www.wikipathways.org/index.php/WikiPathways?描述:該數據庫收錄了超過20個物種的通路,其中人類的通路就包含了800多個通路,涵蓋了約7500種基因。此外,它還包含了超過1000個代謝產物的通路。
6. Metabolic pathway and protein function databases
代謝途徑和蛋白質功能數據庫
BiGG Models 網址:http://bigg.ucsd.edu?描述:該數據庫將70多種已發表的基因組規模的代謝網絡整合到了一起,并且有一組標準化的BiGG ID。
BioCyc Database Collection: 網址:https://biocyc.org?描述:收集了14558個通路/基因組數據庫,每一個數據庫描述了單個有機體的基因組和代謝通路,同時提供多種用于組學數據導航和可視化的分析工具。
BRENDA: 網址:http://www.brenda-enzymes.org?描述:酶數據庫,提供酶的分類、命名法、生化反應、專一性、結構、細胞定位、提取方法、文獻、應用與改造及相關疾病的數據。
HMDB 網址:http://www.hmdb.ca?描述:人類代謝組數據庫,包含有關人體中發現的小分子代謝物的詳細信息。
KEGG PATHWAY Database 網址:https://www.kegg.jp?描述:KEGG是一個整合了基因組、化學和系統功能信息的數據庫。把從已經完整測序的基因組中得到的基因目錄與更高級別的細胞、物種和生態系統水平的系統功能關聯起來是KEGG數據庫的特色之一。
Reactome(同上)
WikiPathways(同上)
7. Additional databases
7.1 Exosomal databases
外泌體是一類可以由多種細胞類型分泌的胞外囊泡,與其他胞外囊泡如核外顆粒體和凋亡小體不同,外泌體是內吞起源的。外泌體在疫苗、藥物遞送、細胞間通信的作用以及其作為生物標志物的一種可能來源以及引起了研究人員的極大興趣,導致外泌體相關研究呈現井噴趨勢。相關數據庫如下:
ExoCarta 網址:http://www.exocarta.org?描述:是一個關于外泌體蛋白、RNA、脂質體的手工數據庫。
exoRBase 網址:http://www.exorbase.org?描述:將不同疾病血來源外泌體中的circRNA, lncRNA和mRNA進行整理的數據庫。
7.2 Mathematical model databases
Biomodels Database 網址:http://biomodels.caltech.edu?描述:生物模型在線數據庫,主要存儲數量型生物化學模型。
7.3 Taxonomic databases
BacDive 網址:https://bacdive.dsmz.de?描述:提供有關細菌和古細菌生物多樣性的菌株相關信息。
EzTaxon-e 網址:https://www.ezbiocloud.net?描述:基于16S核糖體RNA基因序列鑒定原核生物的數據庫。
7.4 Radiologic databases
The Cancer Imaging Archive (TCIA) 網址:http://www.cancerimagingarchive.net?描述:包含常見腫瘤(肺癌、前列腺癌等)醫學圖像(MRI、CT等)及相應臨床信息(治療方案細節、基因、病理等)的大規模公用數據庫。
Neuroimaging Informatics Tools and Resources Clearinghouse 網址:https://www.nitrc.org?描述:神經影像信息學工具和資源交換中心。
8. Wiki-style databases
Gene Wiki 網址:https://en.wikipedia.org/wiki/Wikipedia:Gene_Wiki?描述:一個基于wiki的基因信息數據庫
9. Specialized databases
Barcode of Life Data Systems 網址:http://www.boldsystems.org?描述:DNA條形碼數據庫(即生物體內能夠代表該物種的、標準的、有足夠變異的、易擴增且相對較短的DNA片段),并提供一個分析DNA序列的在線平臺。
The Cancer Genome Atlas (TCGA) 網址:https://cancergenome.nih.gov?描述:提供使用高通量技術獲得的癌癥樣本數據,包括基因表達譜、拷貝數變異、SNP基因分型、全基因組DNA甲基化等。
Cellosaurus 網址:https://web.expasy.org/cellosaurus/?描述:細胞系的在線資源庫。
Comparative Toxicogenomics Database (CTD) 網址:http://ctdbase.org?描述:CTD(比較毒物遺傳數據庫),為研究人員提供了集中、綜合的各種不同類型分子以及來自各種生物體的毒理學數據。
DiProDB 網址:http://diprodb.fli-leibniz.de?描述:收集和分析熱力學,結構和其他二核苷酸特性的數據庫。
Dryad 網址:http://datadryad.org?描述:存放優質數據資源的場所,使科學出版物背后的數據可被發現、可重復使用、可引用。
Edinburgh Mouse Atlas 網址:http://www.emouseatlas.org/emap/home.html?描述:小鼠胚胎原位基因表達數據庫。
EPD Eukaryotic Promoter Database 網址:https://epd.vital-it.ch/index.php?描述:真核基因啟動子數據庫,提供從EMBL中得到的真核基因的啟動子序列,幫助實驗研究人員、生物信息學研究人員分析真核基因的轉錄信號。
FINDbase (the Frequency of INherited Disorders database) 網址:http://www.findbase.org?描述:是一個全球治病遺傳變異頻率的數據庫。
HGNC (HUGO Gene Nomenclature Committee): 網址:https://www.genenames.org?描述:負責對人類基因組包括蛋白編碼基因, ncRNA基因,甲基因和其他基因在內的所有基因提供一個唯一的、標準的、可以廣泛傳播的symbol
International Human Epigenome Consortium 網址:http://ihec-epigenomes.org?描述:國際人類表觀基因組學會,致力于全球表觀基因組學領域的發展。
MethBase 網址:http://smithlabresearch.org/software/methbase/?描述:在UCSC Genome Browser上可視化的DNA甲基化數據庫。
Minimotif Miner 網址:http://minimotifminer.org/?描述:短連續功能性肽基序的數據庫。
NCI-dbGaP 網址:https://www.ncbi.nlm.nih.gov/gap?描述:人類基因型和表型相互作用的數據庫。
PubMed 網址:?https://www.ncbi.nlm.nih.gov/pmc/?描述:生命科學和生物醫學領域的參考和摘要。
Oncogenomic databases 網址:https://oglandscapes.irbbarcelona.org?描述:用于癌癥研究的數據庫匯編。
RIKEN integrated database of mammals 網址:http://metadb.riken.jp/metadb/download/SciNetS_ria254i?描述:Riken研究所推廣的多個大型項目的綜合數據庫。
TDR Targets 網址:http://tdrtargets.org?描述:專注于熱帶疾病藥物發現的化學基因組學數據庫。
LNCipedia 網址:http://www.lncipedia.org/?描述:人類長鏈非編碼RNA的整合庫
NONCODE 網址:?http://www.noncode.org/?描述:存儲17類(人類,小鼠,牛,大鼠,雞,果蠅,斑馬魚,小腸,酵母,擬南芥,黑猩猩,大猩猩,猩猩,恒河猴,負鼠和豬)物種非編碼RNA(不包括tRNA和rRNA)的數據庫
Oncomine 網址:https://www.oncomine.org/resource/login.html?描述:腫瘤相關基因研究的數據庫,整合了GEO、TCGA和已發表的文獻等來源的RNA和DNA-seq數據
GeneVestigator(GV) 網址:https://genevestigator.com/
描述:一個基因表達的搜索引擎,集成了上萬的人工精選、注釋的公共芯片實驗結果
immuneXpresso 網址:http://immuneexpresso.org/immport-immunexpresso/public/immunexpresso/search
描述:immuneXpresso搜索引擎可自動從PubMed摘要中提取高分辨率細胞 - 細胞因子相互作用網絡。
數據庫
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。