亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
981
2022-12-29
本文目錄一覽:
" RNACocktail是一款集成軟件,開發者調查了RNA-seq分析的所有主要步驟,評價了不同步驟下分析工具組合的準確性、效率和一致性,提出了一個綜合的RNA-seq分析流程手冊--”海底撈“----即在轉錄組的分析范圍內,使用RNACocktail你可以組合不同的分析工具,從而一步完成流程分析。
RNACocktail本質上來說是一款”調度“軟件,它可以調取你本地上所有的轉錄組分析工具,因此,這些分析工具需要你提前安裝在本地,不建議使用conda安裝RNACocktail,否則,在分析過程中你需要指定每一款轉錄組分析軟件或者你所有的轉錄組分析軟件都和RNACocktail一樣安裝在 同一個環境下。
在跑流程過程中,如果那一步”卡住“了,則可能是某一分析工具安裝的問題:
軟件版本和例子參見: RNACocktail (bioinform.github.io)
注意 :RNACocktail需要使用者先建立轉錄組的索引,我這里就略過了
總的的來說,RANCocktail對于常規的的轉錄組分析流程提供了一個不錯的一步到位的分析解決思路,但實際上,對于稍微復雜點的轉錄組數據,使用RNACocktail往往無法調整每一步分析的細節,而這又會對最終的結果造成較大的偏差。因此,從來就沒有一步到位且能滿足各種情況的完美軟件,每一步都需要使用者去理解,調整參數,達到最優值。當然,這個軟件的文章卻能為我們對轉錄組分析軟件提供新的理解和思考。
Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis | Nature Communications
軟件說明書 : RNACocktail (bioinform.github.io)
中文說明 : 2020-08-18 | 39個RNAseq分析工具與對比_穆易青的博客-CSDN博客
評估結果:
注:定量分為兩大類:基因層次和轉錄本亞型層次,基因層次的定量使用GTF文件中的外顯子和基因坐標信息,將reads比對信息與之對應,常用的軟件有Featurecounts、HTSeq-count等
Stringtie參考: stringTie:轉錄本組裝和定量工具 (qq.com)
總之,在RNA-seq分析過程中,需要考慮的問題是:分析目的是基因還是轉錄本?有參還是無參?是否需要比對?是否需要組裝轉錄本?(featurecount)?比對到參考轉錄組還是參考基因組計數?
????????計算表達量可以用 StringTie、Htseq-count或featureCount ,第一次做轉錄組分析時,參照了一篇Cell的子刊文章的分析方法,里面使用的STAR+featureCount,就直接用了這個軟件,也就沒再使用別的,回頭看第一次使用時,發現好多細節沒有注意到,溫故而知新。featureCount是subread軟件包里的一個命令,所以安裝subread即可。而subread又有命令行版和R版,有服務器,自然選擇命令行版了。
featureCounts ,有兩個核心概念:
?????? Feature: 指的是基因組區間的最小單位,比如exon;
?????? Metafeature: 可以看做是許多的feature構成的區間,比如屬于同一個gene的外顯子的組合。
?????? 在定量的時候,支持對單個feature 定量(對外顯子定量), 也支持對meta-feature進行定量(對基因進行定量)。當reads比對到2個或者以上的features 時,默認情況下,featureCounts在統計時會忽略到這部分reads, 如果你想要統計上這部分reads,可以添加-O 參數,此時一條reads 比對到多個feature,每個feature 定量時,都會加1。對于meta-features來說,如果比對到多個features 屬于同一個 meta-features(比如一條reads比對到了exon, 但這些exon屬于同一個gene), 則對于這個gene 而言,只會計數1次。 總之,不管對于 feature 還是 meta-feature, 只有比對多個不同的區間時,才會分別計數。
??首先是官方網站
? ? ? ? https://sourceforge.net/projects/subread/
? ? ? ? http://subread.sourceforge.net
-a 指定注釋文件
-o 指定結果輸出目錄及文件名
-p 能用在paired-end的情況中,會統計fragment而不統計read
-t 指定feature的類型,默認是exon,當然gtf里面還有gene、CDS或者直接以feature命名的分類方式。
其它參數:
?-f 參數 ? 該參數設置后統計的是 feature 層面(默認是 exon )的參數,如果不設置則是直接統計 meta-feature 參數(即一個 gene 中的多個 exon )
這時按exon分類進行統計,但是由于沒有設置-f,在同一個gene內的exon會被統計成一個meta-feature,但是每個exon仍然會被顯示出來,遇到一個gene有多個exon的時候看著就很亂。
第二種: 然后我加上-f,這樣設置-t exon -f , 看一下結果:
? ? ? ? 我現在還不確定-f參數及-t參數對后面差異表達會不會有影響,初步判斷不會的,但我注意到,-t gene -f設置后,count計數基于gene 層面,就不會出現相同基因的不同外顯子count值,也就是第一列不會出現重復,并且可以直接得到基因信息,避免了注釋、刪除重復這個過程,我們做轉錄組測序,不就是想看基因水平的變化嗎,我覺得這是很好的一個參數設置,不知道為什么網上一堆的帖子都沒有這樣設置,官網上示例也只是-t exon。希望未來有人和我討論一下這個問題。
最終:我基于自己的理解,加上-t gene -f參數了。
1 、運行過程情況:
????????Successfully assignedalignments: 14212190 (32.7%), 說明只有32.7的paired reads 定量到了基因上,如果想知道那些沒有分配上的reads是出于什么原因,則可看下圖,輸出中的summary文件。
? ? ?Unmapped: 沒有比對上; ????
?????MultiMapping:多個序列比對在有限的序列區域上,即參考組上有多個匹配點;?
? ? ?NoFeatures: 其比對與任何基因都不重疊;?
? ? ?ambiguous: 其比對與多個基因重疊。
2. 合并不同樣本的 count 文件:
? ? ? ? join count1.txt count2.txt count_12.txt
? ? ? ??或者先提取出來每個樣本的第一列和第七列信息,再通過join合并
? ? ? ? cut -f 1,7 count1.txt | grep -v ‘^#’ count1_cut.txt
????????這樣就能得到所有的樣本的Count矩陣了。
總結:使用這個工具時要根據不同的項目,不同的目的,參數也要進行適當的調整,尤其是模式生物和非模式生物研究時,一定要想想參數設置合適不合適,我不認為寫好了一個流程,就可以用來做所有課題的轉錄組分析了。這也是自己會和交給公司來做最大的好處了,自己的課題,只有自己才能對數據結果負責。
附:
STAR有一個參數-quantMode,可以指定--quantMode GeneCounts輸出STAR計算出的reads計數結果,如果是比對完之后未做轉錄本拼裝,直接對已知基因(構建基因組索引時GTF中囊括的基因)進行定量時,完全不需要再次用featureCounts或HTSeq再計算reads count。以后試試。
參考:
https://www.jianshu.com/p/9cc4e8657d62
http://doc.com/content/21/0714/12/76149697_986499746.shtml
https://pubmed.ncbi.nlm.nih.gov/24227677/
http://subread.sourceforge.net/featureCounts.html
http://subread.sourceforge.net/RNAseqCaseStudy.html
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。