轉錄組數據分析軟件(分析轉錄組數據用什么軟件)

      網友投稿 981 2022-12-29

      本篇文章給大家談談轉錄組數據分析軟件,以及分析轉錄組數據用什么軟件對應的知識點,希望對各位有所幫助,不要忘了收藏本站喔。 今天給各位分享轉錄組數據分析軟件的知識,其中也會對分析轉錄組數據用什么軟件進行解釋,如果能碰巧解決你現在面臨的問題,別忘了關注本站,現在開始吧!

      本文目錄一覽:

      單細胞轉錄組測序分析--初探Seurat

      時代發展的步伐總是毫不留情的將你甩在身后,連車尾燈都看不見。當你還在沉迷于普通轉錄組數據挖掘時,已經有人悄悄的搞上單細胞了。單細胞轉錄組測序,顧名思義就是在單個細胞的分辨率基礎上去研究細胞內的基因表達等,其主要目的是為了研究不同細胞類型的基因表達異質性,從而解決相關生物學問題。談到單細胞就不得不提一下當下火爆的10x Genomics服務商了,具體參見 10x Genomics 。本篇文章暫時不介紹10x,主要介紹單細胞轉錄組數據分析軟件Seurat。
      Seurat軟件是一個R包,可以說是單細胞轉錄組測序分析的明星軟件,很多單細胞測序文章都會引用該軟件,引用次數也是杠杠的,而且也有詳細的 在線教程 。本文也主要是根據其教程介紹一下使用Seurat軟件分析一個樣本的單細胞轉錄組數據的步驟及注意事項,供大家討論。
      導入分析需要的包

      Seurat軟件提供了很友好的函數可以直接讀取10x Genomics的輸出結果

      導入文件后便可以創建Seurat對象

      創建完Seurat對象后,Seurat將數據保存在不同的slot中,如filter_10x_object@raw.data, filter_10x_objectt@data, filter_10x_object@meta.data, filter_10x_object@ident,其中raw.data存放的是每個細胞中每個gene的原始UMI數據,data存放的是gene的表達量,meta.data存放的是每個細胞的統計數據如UMI數目,gene數目等,ident此時存放的是project信息。

      由于技術原因,一個GEM中可能會包含2個或多個細胞,也可能不包含細胞,這時候可以通過觀察每個barcode中的基因數目或UMI數目來判斷。

      上圖展示的是每個barcode中的基因數目和UMI數目的關系,一般二者都成正相關關系,有個別barcode的基因數目和UMI數目過高,有可能就是包含2個細胞的GEM,可以考慮在后續分析中將其過濾掉。
      我們不僅僅可以觀察每個barcode的基因數目,還可以計算每個barcode中的線粒體基因含量等,從而更加仔細的觀察數據的質量。

      這張圖片展示了每個barcode中基因數目、UMI數目以及線粒體基因含量的分布情況,根據上述2張圖片就可以大致確定是否需要過濾哪些數據進行后續分析。
      Seurat提供了一個很好用的數據過濾函數:

      以上就是數據的預處理過程了,接下來就進入正式的分析階段,包括數據的標準化、歸一化、數據降維以及聚類分析等。

      FindVariableGenes算法:首先計算基因的平均表達量,然后計算基因的離散度;接下來根據平均表達值將基因分成20塊并計算每塊的離散度的Z值。
      如上圖:橫坐標代表基因的平均表達量,縱坐標代表基因的離散度的Z值,標有基因名的點就是由函數中的cutoff值決定的,改變cutoff值,這些標記也會隨之改變。
      數據的線性回歸、中心化和比例化:對數據進行線性回歸分析,去除不想要的變異源。
      中心化:首先計算基因A在所有細胞中的平均表達量,然后分別將每個細胞中基因A的表達值減去平均值。
      比例化:在中心化的基礎上,首先計算基因A在所有細胞中的中心化值后的標準差,然后分別將每個細胞中基因A的中心化值除以標準差。這些步驟都在一個函數中完成。

      單細胞轉錄組測序產生的數據是數萬個基因在數萬個細胞中的表達情況,屬于典型的高維數據。如果把1個基因視為1個坐標軸的話,那么一個細胞的空間位置就是在數萬個坐標軸中的定位,這樣的話相同細胞類型的細胞就應該挨在一起,我們就可以根據細胞的空間位置判斷細胞亞群了。可是我最多也就認識三維坐標啊,咋辦,能不能把這些高維數據投影到二維坐標呢,那就交給PCA和t-SNE吧。PCA和tSNE都是數據降維分析方法,PCA屬于線性降維,tSNE屬于非線性降維。我們先執行PCA分析,使高維數據的信息最大程度保留在低維數據中,PCA分析利用的是保存在scale.data的值。

      執行完PCA分析后,就要根據PCA得分來進行聚類分析了,但是在進行聚類分析之前,需要選擇使用對少個主成分進行計算。每個主成分實際上代表的是相關基因集的信息,因此確定多少個主成分是一個重要的步驟,我們可以根據PCElbowPlot函數來判斷。

      從上圖可以看到,拐點出現在10-15之間,我們可以選擇15來進行聚類分析。Seurat采用的是基于圖形的聚類方法,即利用PCA空間中的歐幾里德距離構造一個KNN圖(數學好的可以留下來幫忙講講)。

      好了,到此我們就知道了我們的數據中有多少種細胞亞群了,怎么可以少得了圖片展示呢。超棒的可視化方法tSNE要上場了。tSNE的目標是將在高維空間中具有相似局部鄰域的細胞,在低維空間中放在一起。

      既然我們知道了有多少種細胞亞群,那么是不是就要分析一下這些亞群間的差異性呢,交給FindAllMarkers吧。FindAllMarkers能夠同時計算所有亞群的差異性(分別計算每個亞群與剩下的所有細胞的差異性)。

      得到差異表達基因后,當然要進行展示了。

      好了,剩下的就是進行生物學知識挖掘了,例如根據這些差異基因推斷細胞類型啊之類的。
      關于單個樣本的單細胞轉錄組數據分析就介紹到這兒了,那多個樣本的分析會有什么不同呢,我們下次再說吧。

      TAC是什么軟件?

      無論是否掌握生物信息學資源,每位研究人員都可以輕松獲得詳細分析。 轉錄組分析控制臺 (TAC) 軟件現在包括 Expression Console (EC) 軟件的功能,通過提供強大的交互式可視化顯示,讓您超越差異表達的簡單鑒別。無論是否掌握生物信息學資源,每位研究人員都可以輕松獲得詳細分析。 轉錄組分析控制臺 (TAC) 軟件現在包括 Expression Console (EC) 軟件的功能,通過提供強大的交互式可視化顯示,讓您超越差異表達的簡單鑒別。
      TAC軟件專為生物學家設計,使您能夠:
      執行陣列QC和數據規范化
      對差異表達執行統計測試
      專注于感興趣的基因或通路
      探索編碼與非編碼RNA之間的相互作用
      解讀復雜的選擇性剪接事件
      鏈接到公開可用的注釋
      獲取序列信息以設計驗證實驗

      RNA-seq分析軟件“海底撈“--RNACocktail

      " RNACocktail是一款集成軟件,開發者調查了RNA-seq分析的所有主要步驟,評價了不同步驟下分析工具組合的準確性、效率和一致性,提出了一個綜合的RNA-seq分析流程手冊--”海底撈“----即在轉錄組的分析范圍內,使用RNACocktail你可以組合不同的分析工具,從而一步完成流程分析。

      RNACocktail本質上來說是一款”調度“軟件,它可以調取你本地上所有的轉錄組分析工具,因此,這些分析工具需要你提前安裝在本地,不建議使用conda安裝RNACocktail,否則,在分析過程中你需要指定每一款轉錄組分析軟件或者你所有的轉錄組分析軟件都和RNACocktail一樣安裝在 同一個環境下。
      在跑流程過程中,如果那一步”卡住“了,則可能是某一分析工具安裝的問題:
      軟件版本和例子參見: RNACocktail (bioinform.github.io)

      注意 :RNACocktail需要使用者先建立轉錄組的索引,我這里就略過了

      總的的來說,RANCocktail對于常規的的轉錄組分析流程提供了一個不錯的一步到位的分析解決思路,但實際上,對于稍微復雜點的轉錄組數據,使用RNACocktail往往無法調整每一步分析的細節,而這又會對最終的結果造成較大的偏差。因此,從來就沒有一步到位且能滿足各種情況的完美軟件,每一步都需要使用者去理解,調整參數,達到最優值。當然,這個軟件的文章卻能為我們對轉錄組分析軟件提供新的理解和思考。

      Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis | Nature Communications

      軟件說明書 : RNACocktail (bioinform.github.io)
      中文說明 : 2020-08-18 | 39個RNAseq分析工具與對比_穆易青的博客-CSDN博客

      評估結果:

      注:定量分為兩大類:基因層次和轉錄本亞型層次,基因層次的定量使用GTF文件中的外顯子和基因坐標信息,將reads比對信息與之對應,常用的軟件有Featurecounts、HTSeq-count等

      Stringtie參考: stringTie:轉錄本組裝和定量工具 (qq.com)

      總之,在RNA-seq分析過程中,需要考慮的問題是:分析目的是基因還是轉錄本?有參還是無參?是否需要比對?是否需要組裝轉錄本?(featurecount)?比對到參考轉錄組還是參考基因組計數?

      轉錄組定量工具-featureCounts安裝及使用

      ????????計算表達量可以用 StringTie、Htseq-count或featureCount ,第一次做轉錄組分析時,參照了一篇Cell的子刊文章的分析方法,里面使用的STAR+featureCount,就直接用了這個軟件,也就沒再使用別的,回頭看第一次使用時,發現好多細節沒有注意到,溫故而知新。featureCount是subread軟件包里的一個命令,所以安裝subread即可。而subread又有命令行版和R版,有服務器,自然選擇命令行版了。

      featureCounts ,有兩個核心概念:

      ?????? Feature: 指的是基因組區間的最小單位,比如exon;

      ?????? Metafeature: 可以看做是許多的feature構成的區間,比如屬于同一個gene的外顯子的組合。

      ?????? 在定量的時候,支持對單個feature 定量(對外顯子定量), 也支持對meta-feature進行定量(對基因進行定量)。當reads比對到2個或者以上的features 時,默認情況下,featureCounts在統計時會忽略到這部分reads, 如果你想要統計上這部分reads,可以添加-O 參數,此時一條reads 比對到多個feature,每個feature 定量時,都會加1。對于meta-features來說,如果比對到多個features 屬于同一個 meta-features(比如一條reads比對到了exon, 但這些exon屬于同一個gene), 則對于這個gene 而言,只會計數1次。 總之,不管對于 feature 還是 meta-feature, 只有比對多個不同的區間時,才會分別計數。

      ??首先是官方網站

      ? ? ? ? https://sourceforge.net/projects/subread/

      ? ? ? ? http://subread.sourceforge.net

      -a 指定注釋文件

      -o 指定結果輸出目錄及文件名

      -p 能用在paired-end的情況中,會統計fragment而不統計read

      -t 指定feature的類型,默認是exon,當然gtf里面還有gene、CDS或者直接以feature命名的分類方式。

      其它參數:

      ?-f 參數 ? 該參數設置后統計的是 feature 層面(默認是 exon )的參數,如果不設置則是直接統計 meta-feature 參數(即一個 gene 中的多個 exon )

      這時按exon分類進行統計,但是由于沒有設置-f,在同一個gene內的exon會被統計成一個meta-feature,但是每個exon仍然會被顯示出來,遇到一個gene有多個exon的時候看著就很亂。

      第二種: 然后我加上-f,這樣設置-t exon -f , 看一下結果:

      ? ? ? ? 我現在還不確定-f參數及-t參數對后面差異表達會不會有影響,初步判斷不會的,但我注意到,-t gene -f設置后,count計數基于gene 層面,就不會出現相同基因的不同外顯子count值,也就是第一列不會出現重復,并且可以直接得到基因信息,避免了注釋、刪除重復這個過程,我們做轉錄組測序,不就是想看基因水平的變化嗎,我覺得這是很好的一個參數設置,不知道為什么網上一堆的帖子都沒有這樣設置,官網上示例也只是-t exon。希望未來有人和我討論一下這個問題。

      最終:我基于自己的理解,加上-t gene -f參數了。

      1 、運行過程情況:

      ????????Successfully assignedalignments: 14212190 (32.7%), 說明只有32.7的paired reads 定量到了基因上,如果想知道那些沒有分配上的reads是出于什么原因,則可看下圖,輸出中的summary文件。

      ? ? ?Unmapped: 沒有比對上; ????

      ?????MultiMapping:多個序列比對在有限的序列區域上,即參考組上有多個匹配點;?

      ? ? ?NoFeatures: 其比對與任何基因都不重疊;?

      ? ? ?ambiguous: 其比對與多個基因重疊。

      2. 合并不同樣本的 count 文件:

      ? ? ? ? join count1.txt count2.txt count_12.txt

      ? ? ? ??或者先提取出來每個樣本的第一列和第七列信息,再通過join合并

      ? ? ? ? cut -f 1,7 count1.txt | grep -v ‘^#’ count1_cut.txt

      ????????這樣就能得到所有的樣本的Count矩陣了。

      總結:使用這個工具時要根據不同的項目,不同的目的,參數也要進行適當的調整,尤其是模式生物和非模式生物研究時,一定要想想參數設置合適不合適,我不認為寫好了一個流程,就可以用來做所有課題的轉錄組分析了。這也是自己會和交給公司來做最大的好處了,自己的課題,只有自己才能對數據結果負責。

      附:

      STAR有一個參數-quantMode,可以指定--quantMode GeneCounts輸出STAR計算出的reads計數結果,如果是比對完之后未做轉錄本拼裝,直接對已知基因(構建基因組索引時GTF中囊括的基因)進行定量時,完全不需要再次用featureCounts或HTSeq再計算reads count。以后試試。

      參考:

      https://www.jianshu.com/p/9cc4e8657d62

      http://doc.com/content/21/0714/12/76149697_986499746.shtml

      https://pubmed.ncbi.nlm.nih.gov/24227677/

      http://subread.sourceforge.net/featureCounts.html

      http://subread.sourceforge.net/RNAseqCaseStudy.html

      關于轉錄組數據分析軟件和分析轉錄組數據用什么軟件的介紹到此就結束了,不知道你從中找到你需要的信息了嗎 ?如果你還想了解更多這方面的信息,記得收藏關注本站。 轉錄組數據分析軟件的介紹就聊到這里吧,感謝你花時間閱讀本站內容,更多關于分析轉錄組數據用什么軟件、轉錄組數據分析軟件的信息別忘了在本站進行查找喔。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:項目管理軟件(項目管理軟件排行榜)
      下一篇:學習辦公表格軟件(學表格下載什么軟件)
      相關文章
      久久精品国产亚洲5555| 亚洲黄色在线观看| 亚洲成在人线电影天堂色| 国产成人A人亚洲精品无码| 亚洲男人第一无码aⅴ网站| 国产亚洲视频在线观看| 亚洲高清视频在线| 亚洲狠狠色丁香婷婷综合| 亚洲欧洲日产国码久在线| 亚洲熟妇AV一区二区三区宅男| 在线亚洲午夜片AV大片| 亚洲av产在线精品亚洲第一站| 亚洲成人免费电影| 亚洲狠狠成人综合网| 一本色道久久88—综合亚洲精品 | 亚洲深深色噜噜狠狠网站| 亚洲国产日韩女人aaaaaa毛片在线| 亚洲喷奶水中文字幕电影| 亚洲一卡二卡三卡| 久久国产亚洲精品| 亚洲av无码一区二区三区四区| 国产亚洲美女精品久久| 亚洲人妻av伦理| 国产精品亚洲视频| 亚洲αv久久久噜噜噜噜噜| 亚洲色欲色欲综合网站| 亚洲天堂一区二区三区| 亚洲中文字幕无码mv| 国产成人精品亚洲| 国产成人亚洲精品影院| 亚洲精品无码不卡在线播HE| 亚洲AV成人一区二区三区AV| 亚洲福利电影一区二区?| 精品亚洲456在线播放| 日韩亚洲国产二区| 亚洲日韩中文在线精品第一 | 伊人久久五月丁香综合中文亚洲| 久久精品亚洲日本波多野结衣| 亚洲国产精品成人AV无码久久综合影院| 亚洲午夜精品第一区二区8050| 人人狠狠综合久久亚洲88|