BioPython安裝與入門
BioPython簡介
Biopython工程是一個使用Python來開發計算分子生物學工具的國際團體。(http://www.python.org) Python是一種面向對象的、解釋型的、靈活的語言,在計算機科學中日益流行。Python易學,語法明晰,并且能很容易的使用以C,C++或 者FORTRAN編寫的模塊實現擴展。
Biopython官網(http://www.biopython.org)為使用和研究生物信息學的開發者提供了一個在線的 資源庫,包括模塊、腳本以及一些基于Python的軟件的網站鏈接。一般來講,Biopython致力于通過創造高質量的和可重復利用的模塊及 類,從而使得Python在生物信息學中的應用變得更加容易。Biopython的特點包括解析各種生物信息學格式的文件(BLAST, Clustalw, FASTA, Genbank...),訪問在線的服務器(NCBI,Expasy...),常見和不那么常見程序的接口(Clustalw, DSSP,MSMS...),標準的序列類,各 種收集的模塊,KD樹數據結構等等,還有一些文檔。
BioPython主要功能
將生物信息學文件解析為Python可用的數據結構,包含以下支持的格式:
Blast輸出結果 – standalone和在線Blast
Clustalw
FASTA
GenBank
PubMed和Medline
ExPASy文件, 如Enzyme和Prosite
SCOP, 包括‘dom’和‘lin’文件
UniGene
SwissProt
被支持格式的文件可以通過記錄來重復或者通過字典界面來索引。
處理常見的生物信息學在線數據庫的代碼:
NCBI – Blast, Entrez和PubMed服務
ExPASy – Swiss-Prot和Prosite條目, 包括Prosite搜索
常見生物信息學程序的接口,例如:
NCBI的Standalone Blast
Clustalw比對程序
EMBOSS命令行工具
一個能處理序列、ID和序列特征的標準序列類。
對序列實現常規操作的工具,如翻譯,轉錄和權重計算。
利用k最近鄰接、Bayes或SVM對數據進行分類的代碼。
處理比對的代碼,包括創建和處理替換矩陣的標準方法。
分發并行任務到不同進程的代碼。
實現序列的基本操作,翻譯以及BLAST等功能的GUI程序。
使用這些模塊的詳細文檔和幫助,包括此文件,在線的wiki文檔,網站和郵件列表。
整合BioSQL,一個也被BioPerl和BioJava支持的數據庫架構。
BioPython安裝:通過pip安裝
(安裝之前確定安裝了anaconda或者miniconda或者pip)
pip install biopython
測試安裝
import Bio
入門小實例
#!/usr/bin/env python3
from Bio.Seq import Seq
#create a sequence object
my_seq = Seq('CATGTAGACTAG')
#print out some details about it
print ('seq %s is %i bases long' % (my_seq, len(my_seq)))
print ('reverse complement is %s' % my_seq.reverse_complement())
print ('protein translation is %s' % my_seq.translate())
參考資料
https://biopython.org/
https://biopython.org/wiki/Download
https://github.com/biopython
Python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。