本篇文章給大家談談二代測序
數據分析軟件,以及二代測序結果分析對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。
今天給各位分享二代測序
數據分析軟件的知識,其中也會對二代測序結果分析進行解釋,如果能碰巧解決你現在面臨的問題,別忘了關注本站,現在開始吧!
本文目錄一覽:

二代測序的數據的分析——質量控制
Fastqc
Fastqc website ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) )
質量控制的測序質量檢測是通過FastQC軟件實現。fastqc可以不設置任何參數運行,這樣會直接在當前目錄下生成一個質量報告的壓縮文件和文件夾,報告是網頁格式。也可以設置輸出目錄和是否解壓縮(--noextract),默認設置會解壓縮。命令如下:
其中 --noextract 命令是不解壓縮輸出文件。 -t 參數是指定使用線程數,fastqc似乎并不是并行運算,而是通過線程數同時執行多個程序,比如線程數指定為4,并不是用4個進程去跑一個文件,而是同時跑4個文件,不過4個線程速度提高很大,個人測試感覺10倍速度于2個線程。 -q 為屏蔽進程信息并只輸出錯誤信息, -f 參數為指定輸入文件格式(有bam, sam, fastq可選)
fastqc的結果在v0.11.5版下共有12項。
根據結果去接頭( adapter )、引物( Primary )尾巴( Poly-A )等。必須要去的是接頭。常用的軟件有cutadapt、trim_galore等等。一般用cutadapt,很多去接頭軟件的底層其實也是調用cutadapt。
眼科中心服務器cutadapt 1.9.1版本安裝在c0,c10節點上,需要提交到這兩個節點才可以運行,否則很多節點用的是1.4.1,老版本的問題是功能有限,尤其是對于雙端數據不支持(如-A參數)。cutadapt官網對于Illumina接頭去除的說明如下:
因此單端數據只需要用-a參數去掉“ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC ”就可以了。
按照推薦我雙端數據(Pair-End)的命令如下:
其中的參數說明:
-a 序列 正向接頭序列,單端測序只用這個。
-A 序列 反向接頭序列,雙端情況下設置。
-q 數字 表示最低質量值,在去接頭前先將低于此數值的bases去除。 如果只設置一個數值則從3'末端去除,如果用逗號分割兩個數值則先去5'末端后去3'末端 。一般設為30。
-m 數字 表示trim后最短bp低于此數的reads被拋棄,一般設為20。
-M 數字 表示長于此數字的reads被拋棄,默認值不限制。
--max-n=COUNT 拋棄有太多N的reads。COUNT如果設置為整數,就是按N的絕對個數來處理;如果設置為小數(0到1之間),就按每條reads中N的百分比來處理。
-O 數字 表示adapt和序列比對最少overlap的值,高于此值就認為是接頭并修剪,默認是3,個人設置至少到5。
-o 目錄 Read1的輸出路徑
-p 目錄 Read2的輸出路徑
根據fastqc的報告,如果是RNA數據尾巴較多的情況,最好再去一次PolyA尾巴,少就不用了。
Trim Galore 合并了FastQC和Cutadapt到一個程序中。它的優勢在于它可以根據FastQC分析的個體質量對每個reads進行修剪。同時可以設置程序對剪切后的序列用FastQC生成一個統計信息。對雙端序列支持也很好。
選項
示例:

GATK什么意思
GATK全稱是The Genome Analysis Toolkit,是Broad
Institute開發的用于二代重測序數據分析的一款軟件,里面包含了很多有用的工具,主要注重與變異的查找,基因分型且對于數據質量保證高度重視。它擁有強大的架構,強大的處理引擎,以及高性能計算功能,使它能夠適用于任何規模的項目
NGS019 二代測序的圖象處理和堿基識別
二代測序的數據分析通常分為 初級分析、次級分析和高級分析 三個層次。
以Illumina測序平臺為例二代測序數據分析軟件,討論二代測序的圖象處理和堿基識別,也就是從熒光信號的產生到堿基序列的識別這一過程,主要包括 圖象校正(即空間校正)、簇的識別、熒光校正(即光學校正)、phasing/prephasing(即化學校正)、堿基識別、PF、質量評估等 7個步驟,涉及到兩個軟件二代測序數據分析軟件:HCS (HiSeq ControlSoftware),控制測序儀的運行,收集熒光信號二代測序數據分析軟件;RTA(Real-Time Analysis),在測序過程中實時處理數據,包括圖象分析、堿基識別和質量評估等。至于用于二代測序數據展示的第三個軟件工具GenomeStudio,屬于可選項。本文不涉及更下游的次級和高級分析。
Illumina的HiSeq系列測序儀具有紅綠波長兩根激光管,配備兩片濾色片。激光光源與濾色片兩兩組合,形成4種不同波長的激發光,分別用于激發DNA分子中的A、G、C、T這4種堿基。在測序過程中,cluster上所標記的熒光基團在激光激發下產生熒光信號,熒光信號用相機收集,收集方式有拍照和掃描兩種。掃描的速度比較快。
每臺HiSeq測序儀可以同時運行兩張flow cell(某些型號只能運行1張),通常每張flow cell有8個通道(lane);每個通道的內壁,包括頂面和底面,都可以生成簇;由于面積大,為了方便數據管理,軟件把頂面或者底面虛擬地劃分為3條column,或者叫swath,每條column或者swath又被虛擬地劃分為幾16個tile。簇的密度根據上樣量以及機器型號和軟件版本有各種變化,通常為1M/mm2。
從原理上看,Illumina二代測序的堿基識別其實非常簡單二代測序數據分析軟件:對測序過程中所獲得的熒光信號圖片進行空間校準,按空間位置和時間順序排列,然后根據每個簇隨著時間變化而發生的顏色改變讀取堿基序列;序列長度就等于SBS的循環次數。
二代測序數據分析主要包括圖像分析、堿基識別、序列組裝、突變識別、功能分析等5個環節,以及每個環節都需要的可視化數據展示。圖像分析和堿基識別屬于初級分析,序列組裝和突變識別屬于次級分析,功能分析屬于高級分析。
圖像分析的目的有兩個二代測序數據分析軟件:(1)對每一個簇(cluster)進行識別,確定其坐標;(2)提取每個簇分別在A、G、C、T四個波長的信號強度值。
Flowcell上的每個簇都是由1000-6000個單鏈DNA分子組成的。這些分子全部來自一個共同的“祖先”模板分子、通過橋式PCR的擴增克隆而成。所以,除了PCR過程中偶爾發生的堿基錯配以外,它們的堿基序列是一模一樣的。由于二代測序文庫的DNA片段很短,總共才不過三五百個堿基,堿基錯配的概率不高,在討論堿基識別的階段可以暫時忽略不計。
既然堿基序列是一樣的,在測序的每個循環,每個簇所發射的熒光信號的波長(或者說顏色)就是一樣的、單一的、純凈的。儀器針對每個簇、在每個測序循環都拍攝了A、G、C、T 4張圖象。正常情況下,這4張圖中只有1張有信號;另外3張沒有信號,只有背景噪音。信號的熒光強度要顯著高于噪音的。
堿基識別的基本過程就是比較每個簇的這4張圖,挑出其中信號強度最高的那個波長,從而確定該堿基的種類。如果只有一個簇,這種比較是非常簡單容易的。但是圖象處理的單位是tile,每個tile里包含有幾百萬、上千萬個簇,平行測序導致平行的數據處理,所以上一節講解的圖象處理就非常重要。堿基識別涉及到以下5個重要方面。
二代測序每每獲得海量數據,通常稱為大數據。正因為數據的體量太大,對于其整體質量的好壞就難以直觀評價。為此我們必須建立一套客觀的評價體系,通常是相關統計參數,幫助我們對每一批測序數據的好壞進行直觀把握。雖然至今還沒有建立被普遍接受的公認的標準,在實際工作中,人們主要關心的二代測序數據質量參數逐漸集中于以下這么幾個:數據量、%Q30、比對率、覆蓋度、重復率。對于外顯子組測序,在此基礎上再增加一個:捕獲率。
對于這些重要參數,下面我們逐一進行簡要介紹。
基因組Survey(二代測序數據質控)
Survey分析要做什么數據準備?
(1)QC方法介紹
(2)NT方法介紹
1.為什么要進行Survey分析?
2.Survey分析數據準備
3.Survey 數據質控軟件
4.重點總結
堿基的質量都是以ASCII值表示的,根據測序時采用的質量方案的不同,計算十進制的質量值的方法也有所區別,常見的計算方法如下所示:
展示方式:Phred+33和Phred+64,這里的33和64就是指ASCII值轉換為得分該減去的數值
(1)Phred+64:質量字符的ASCII值 -64
(2)Phred+33: 質量字符的ASCII值 -33
Illumina 測序堿基質量值的范圍是[0,40],即ASCII值表示為[B,h] 戒 [#,I]。
Illumina 測序錯誤率不測序質量值簡明對應關系。具體地,如果測序錯誤率用 E 表示,Illumina 堿基質量值用 Q 表示,則有如下關系 : Q = -10 log10(E)。
各提出10000對比對到NT庫,如果都比對到同源物種,說明無污染,如果比對到細菌真菌,可能數據有污染。
1.NT庫
Partially non-redundant nucleotide from all traditional divisions of GenBank, EMBL, and DDBJ excluding GSS,STS, PAT, EST, HTG, and WGS.
2.NT比對
軟件:BLAST
The Basic Local Alignment Search Tool (BLAST) is the most widely used sequence similarity tool. There are versions of BLAST that compare protein queries to protein databases, nucleotide queries to nucleotide databases, as well as versions that translate nucleotide queries or databases in all six frames and compare to protein databases or queries.
3.NT比對結果文件統計
因為實驗過程丌可知,物種特性難量化,數據通過qc,可以做到量化展示數據,從數據分析相關信
息,同時為后續Kmer分析做準備,獲取一個準確的基因組預估情況。
污染問題最重要,數據報告上面如果出現測序質量低,測序效果丌好,往往從展示圖可以明確看到,
但是污染的問題有可能是共生菌,細胞器,實驗污染,樣本污染,這些信息丌僅僅是從NT比對和gc峰
了解,更要結合物種特性來展開連鎖分析。比如一些帶病昆蟲會有共生菌,一些哺乳動物也有相關細
菌。
DNA/RNA序列比對軟件整理
文章僅是記錄自己的學習使用,有錯誤請指出,我立刻改正
在對比對工具進行比較時,通常將其分為DNA比對工具(DNA-seq)和RNA比對工具(RNA-seq)。它們的區別在于是否會考慮跨外顯子的比對,即:是否會將沒有比對上的reads劈開,對劈開后的兩部分再次比對)。
隨著現在各種seq測序的出現,我們已經不能簡單的根據是比對DNA還是RNA來判斷。比對工具的選擇主要依據reads的比對是否需跨外顯子。(PRO-seq/GRO-seq,它們雖然在建庫時捕獲的RNA,但是它們的比對并不需要考慮跨外顯子。)
常用工具:
DNA-seq:BWA;bowtiebowtie2
RNA-seq:STAR;HISAT2;TophatTophat2
BWA主要應用二代測序后的大量短小片段與參考基因組之間的定位比對。需要先對參考序列建建立索引,BWA也是基于 BWT和 FM-Index 理論來對參考基因組做索引。根據測序方法的不同,有單末端序列(Single-end,SE)比對和雙末端序列(Pair-end,PE)比對。
bowtie出現在測序行業還不成熟的時候,序列長度普遍在50bp以下,bowtie的只滿足長度在50bp以下的reads的比對。官方稱其可以把短的DNA序列(35bp)快速的比對到人類基因組上。
Bowtie2 是一款經典的短讀長序列( 50-100 bp,最多可到1000 bp ) 比對軟件,節約內存且靈活與成熟的短序列比對軟件,比較適合下一代測序技術。支持單端測序(unpaired) 和雙端測序的比對。支持全局比對(end-to-end align ) 和 局部比對( local align )。其通常使用全文分索引(FM-index)以及Burrows-Wheeler 變換(BWT)索引基因組使得比對非常快速且內存高效,但是這種方法不適合于找到較長的、帶缺口的序列比對
結論:bowtie和bowtie2,是兩個不同類型的比對工具,bowtie2并非是bowtie的升級。尺有所長寸有所短,bowtie適合長度在50b長度以內的reads比對,而bowtie2適合50-100b,甚至更長的reads比對。但是這兩個都屬DNA-seq比對工具
RNA-Seq測序的特性,天然的會有一部分數據延伸到內含子區,這部分跨越外顯子和內含子的reads就稱為『junction reads』,所以RNA-Seq比對軟件需要針對此進行優化。
( junction:轉錄組reads比對不同于基因組reads比對(如ChIP-seq、WES等)的地方在于,比對的reads可能來源于2個被內含子隔開的外顯子區域,導致reads一端比對在第一個外顯子的后面部分,另一端比對在第二個外顯子的前面部分,即跨剪切位點,從而形成exon-exon junction (剪接點)。這些reads又稱為junction reads,對轉錄本的拼接、鑒定和差異分析具有重要的意義。)
(soft-clip事件: 即reads末端存在低質量堿基或接頭導致比對不上的, STAR會自動嘗試截去未比對部分,只保留比對上的部分。)
STAR是ENCODE皇家御用的RNA-seq比對工具,ENCODE計劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計劃,是2003年在人類基因組計劃完成之后緊接著的又一個大型國際科研項目。
Tophat2的原作者們也不知道是出于什么考慮,不再更新Tophat2,轉而開發了一個新的比對工具HISAT2,更是推薦人們使用HISAT2,聲稱其速度更快,內存占用率更小,準確率更高。
此外,HISAT2不僅支持RNA-seq的比對還支持DNA-seq比對,唯一需要做的就是加上一個參數--no-spliced-alignment。但是就目前來看,大部分人都是使用HISAT2做RNA-seq,沒人使用它做DNA-seq
Tophat/Tophat2工具本身不能進行比對,它是通過調用bowtie/bowtie2進行比對的。劃重點,bowtie2不是bowtie的升級版,但是Tophat2是Tophat2的升級版。因此Tophat只可以調用bowtie,而Tophat2不僅可以調用bowtie2(默認)還可以更改設置調用bowtie。
Tophat/Tophat2調用bowtie/bowtie2后,會首先使用bowtie/bowtie2對序列進行比對,對于那些沒有比對上的,會考慮其跨外顯子的可能性,將reads劈開重新比對。
全長轉錄組(Full-length transcriptome)是基于PacBio和Nanopore三代測序平臺,無需打斷拼接,直接獲得包含5’UTR、3’UTR、polyA尾的mRNA全長序列及完整結構信息,從而準確分析有參考基因組物種可變剪接及融合基因等結構信息,克服無參考基因組物種轉錄本拼接較短、信息不完整的難題。同時還可以借助二代測序數據,進行轉錄本特異性表達分析,獲得更加全面的注釋信息。
傳統的使用比較多的長讀長比對軟件是GMAP,05年發表公布,最開始是用來比對低通量的est序列的,后來也有進一步升級為GSNAP支持高通量的二代測序。PacBio測序技術出現后,常用于Iso-seq轉錄本的鑒定,目前仍是相關研究引用量最高的比對軟件,該軟件也一直在持續更新升級。其可以將轉錄本序列與參考基因組序列比對,輸出gff文件,比對速度稍慢。
Minimap2是生信大牛李恒18年用C語言開發的可以用于三代數據(subreads、iso-seq)比對的長序列比對軟件,與傳統的三代比對工具GMAP相比,其速度有非常顯著的提升,當然同時消耗的內存也比較大。使用方法也比較簡單,近幾年引用次數增長的也很迅速,所以大家可以試試用minimap2進行Iso-seq的比對。
關于二代測序數據分析軟件和二代測序結果分析的介紹到此就結束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。
二代測序數據分析軟件的介紹就聊到這里吧,感謝你花時間閱讀本站內容,更多關于二代測序結果分析、二代測序數據分析軟件的信息別忘了在本站進行查找喔。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。