京寵展信息指南
1227
2022-12-23
本文目錄一覽:
GEOquery 包使用指南
GEO(The NCBI Gene Expression Omnibus)是NCBI專門儲存高通量測序的庫。如基于芯片數據(mRNA、DNA、蛋白豐度)基因芯片數據分析軟件,蛋白質質譜數據和高通量測序數據。
GEO數據主要有4種基本類型。Sample, Platform 和 Series是由作者上傳的數據基因芯片數據分析軟件,dataset是由GEO官方從做和提交的數據整理出來的。
## 1.1 Platforms
GEO 號:GPLxxx。
芯片的組成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量檢測平臺信息,例如SAGE tags, peptides。
## 1.2 Samples
GEO 號: GSMxxx
描述單個樣本信息,處理步驟、處理條件以及實驗測得的結果。一個樣本可能屬于多個研究(Series)。
## 1.3 Series
GEO 號:GSExxx
涉及同一個研究的記錄,包括處理過的數據、總結和分析基因芯片數據分析軟件;信息可以從GSEMatrix文件解析快速得到。
##1.4 Datasets
GEO 號:GDSxxx
一套經過整理的GEO 數據集。每套數據都是可以進行生物學或者統計學上比較的樣本,是GEO自帶工具進行數據分析和展示的基礎。一個 GDS數據集來自同一個平臺,數據分析和標準化都具有一致性。
getGEO 函數可以從GEO官網獲取數據或者將固定格式數據解析為R格式的數據。
GEOquery 數據結構大致分為兩類。第一種是GDS, GPL和GSM,基因芯片數據分析軟件他們的操作和數據類型差不多;第二種是GSE,GSE數據是由GSM和GPL整合而成。
## 3.1 GDS, GSM 和 GPL
這些數據類組成
可以使用show()查看這些數據類。
##3.2 GSE類
GSE類組成:
GEO datasets與limma 數據結構MAList 和Biobase數據結構 ExpressionSet比較相似。可以相互轉換:
## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套實驗數據的集合,有SOFT,MINiML格式文件,以及一個 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函數可以解析,解析結果就是ExpressionSets。
一個GSE下如果存在多個GPL測序,篩選特定的GPL數據;GSE會有多個列表 gset[[idx]]
##4.2 Converting GDS to an ExpressionSet
##4.3 Converting GDS to an MAList
ExpressionSet不包含注釋信息, getGEO 可以幫助我們獲取。
與ExpressionSet不同,the limma MAList 包含基因注釋信息。上面的gpl包含注釋信息。
MAList不僅包含數據,還包含樣本信息,和注釋信息。
4.4 Converting GSE to an ExpressionSet
GSE轉換成ExpressionSet
這個GSE包含兩個GPLs,GPL96 和 GPL97。
篩選使用GPL96 的GSM。
獲取表達矩陣:
構造ExpressionSet
##6.1 Getting all Series Records for a Given Platform
英文版原文見:[Using the GEOquery Package
第一章概述1
第一節分子生物學技術及基因、基因組
科學發展歷史簡介1
第二節基因芯片技術簡介3
一、基因芯片基因芯片數據分析軟件的基本概念4
二、基因芯片技術基因芯片數據分析軟件的產生和發展4
三、基因芯片基因芯片數據分析軟件的應用領域6
第三節生物信息學與基因芯片基因芯片數據分析軟件的數據
挖掘7
一、生物信息學的興起7
二、基因芯片的數據挖掘8
參考文獻9
第二章微陣列基因芯片實驗技術11
第一節基因芯片的價值和分類11
一、基因芯片的價值11
二、基因芯片的分類12
第二節基片的制備15
一、基片的類型和性質15
二、玻璃基片表面的修飾方法17
第三節點樣探針的制備18
一、cDNA探針的制備19
二、基因組DNA探針19
三、寡核苷酸探針19
四、獨特的PM?MM探針設計20
第四節基因芯片點樣22
一、芯片點樣儀和點樣方式22
二、點樣后處理27
三、基因芯片的質量標準28
第五節原位合成及納米結構的基因芯片
制備28
一、原位合成法制作基因芯片28
二、納米結構的基因芯片制備31
第六節表達譜基因芯片的檢測方法34
一、樣本選擇、處理和RNA的分離35
二、mRNA樣本標記35
三、芯片雜交38
參考文獻39
第三章統計學基礎41
第一節統計學的基本概念41
一、總體與樣本41
二、資料的統計描述42
三、隨機變量、概率與分布43
四、統計量45
第二節假設檢驗46
一、假設檢驗的基本原理46
二、假設檢驗的步驟47
三、假設檢驗的基本方法47
第三節方差分析54
一、完全隨機設計資料的方差分析54
二、隨機區組設計資料的方差分析55
三、多個樣本均數間的多重比較57
第四節聚類分析與判別分析簡介57
一、聚類分析58
二、判別分析59
參考文獻61
第四章實驗設計62
第一節樣品配對模式62
一、基因芯片實驗的分類62
二、樣品配對方案概述64
三、樣品配對模式的選擇66
第二節樣品的重復及合并69
一、實驗誤差的來源及重復樣品的使用69
二、樣品重復數量的確定70
三、樣品合并70
第三節總結72
參考文獻72
第五章基因芯片圖像的采集和處理74
第一節基因芯片圖像的采集74
一、激光共聚焦掃描儀74
二、CCD掃描儀78
三、掃描儀的技術指標79
第二節基因芯片圖像的處理81
一、劃格83
二、分割84
三、信息提取87
四、質量評估88
第三節一些芯片掃描儀和芯片圖像處理
軟件的介紹88
一、激光共聚焦掃描儀90
二、 激光非共聚焦掃描儀91
三、CCD基因芯片檢測儀92
參考文獻96
第六章數據的預處理和歸一化98
第一節數據的預處理98
一、背景的校正98
二、弱信號的處理99
三、數據的對數轉換101
四、重復數據的合并102
五、缺失數據的處理103
第二節數據的歸一化104
一、cDNA芯片數據的歸一化105
二、Affymix芯片數據的歸一化115
參考文獻118
第七章差異表達基因分析120
第一節差異表達基因的挑選120
一、倍數法120
二、Z值法121
三、重復實驗的判別方法121
四、其基因芯片數據分析軟件他方法124
五、總結125
第二節研究差異表達基因的意義126
一、在基因組研究中的作用126
二、在藥物研究中的作用127
三、在醫學基礎研究中的作用129
參考文獻131
第八章芯片數據的可靠性分析133
第一節數據的評價133
一、差異表達基因的可靠性133
二、芯片數據重復性評價139
第二節誤差來源分析142
一、生物學差異來源142
二、實驗系統誤差144
第三節基因芯片的質控體系149
一、直接點樣的基因芯片的質控體系149
二、Affymetrix的寡核苷酸芯片質控
體系及其產品質量評估151
第四節信號線性擴增技術及其評估154
一、信號線性擴增技術154
二、信號擴增方法的可靠性評價154
參考文獻161
第九章聚類分析和可視化162
第一節相似性(或距離)的度量162
一、歐氏距離162
二、馬氏距離163
三、Chebychev距離164
四、Mahalanobis距離164
五、Minkowski距離164
六、平均點積164
七、向量間的角度165
八、協方差165
九、Pearson相關距離165
十、Spearman秩相關166
十一、互信息166
十二、Kendall?s Tau167
第二節聚類算法167
一、系統聚類168
二、分割聚類172
第三節二維聚類177
一、耦聯二維聚類177
二、區組聚類177
第四節主成分、SVD和基因修剪178
一、主成分178
二、奇異值分解178
三、基因修剪179
參考文獻179
第十章微陣列實驗中的分類方法181
第一節概述182
一、利用基因表達譜數據進行生物樣本
分類183
二、分類的背景183
三、基因表達譜數據184
第二節不同分類方法的概述184
一、分類及統計決策論184
二、費歇線性判別分析186
三、線性判別和二次判別分析186
四、線性判別分析的擴展188
五、最近鄰分類器188
六、決策樹190
七、BP神經網絡分類法194
八、支持向量機197
九、Parzen窗204
第三節分類中的一般問題205
一、特征選取205
二、標準化和距離函數206
三、缺失值填充207
四、多分類問題208
第四節性能評價209
一、偏差、方差和誤差率209
二、再置換估計210
三、倍數交叉驗證法210
四、解靴帶估計210
第五節實例分析211
一、基因表達譜數據211
二、數據預處理212
三、支持向量機軟件應用213
參考文獻216
第十一章微陣列技術的標準化218
第一節MIAME規則218
一、MIAME規則的具體內容219
二、MIAME表單221
三、MIAME的目前與將來222
第二節Affimetrix芯片系統與MIAME
規則223
一、遵循MIAME規則224
二、Affimetrix實驗的MIAME表單225
三、Affimetrix的RNA抽提、清洗、
標記和雜交規范225
參考文獻227
第十二章基因芯片數據的基因注釋和
功能分析228
第一節單一基因的注釋228
一、一般的注釋228
二、關于疾病的信息233
三、蛋白質家族的信息234
第二節轉錄因子調節的分析235
一、Transfac數據庫236
二、轉錄因子研究中的統計學檢驗238
第三節Gene Ontology數據庫中基因
功能分類的分析240
一、Gene Ontology數據庫240
二、GO數據庫相關分析的工具241
第四節生物學通路和生物學相互作用的
分析243
一、生物學通路中的基因分析244
二、生物學網絡中的基因分析249
三、基因芯片數據中使用者自己定義的
基因集的分析250
參考文獻251
第十三章系統生物學及基因調控
網絡252
第一節系統生物學簡介252
第二節基因轉錄調控網絡的構成253
一、基因轉錄過程簡介253
二、研究轉錄因子及其調控基因的實驗
方法254
三、基因調控網絡與圖形254
第三節用高斯圖形模型推導基因調控
網絡257
第四節貝葉斯網絡模型在基因芯片
數據中的應用259
一、貝葉斯網絡簡介259
二、學習貝葉斯網絡261
三、貝葉斯網絡方法在基因芯片數據
方面的應用262
第五節從時間序列數據中推導基因調控
網絡266
一、基因調控網絡模型的“事件模型”266
二、關于基因調控網絡的“動態
概率模型”268
第六節通過基因擾動來推導基因調控
網絡的反義工程方法270
第七節結論271
參考文獻272
第十四章基因芯片技術的應用——
從基因篩選到臨床診斷274
第一節基因表達譜研究與臨床腫瘤學274
一、確定腫瘤亞型275
二、識別腫瘤的組織來源276
三、預后分析276
四、存在問題277
第二節微矩陣芯片和遺傳多態性278
一、單核苷酸多態性簡介278
二、基因多態性與疾病易感性279
三、基因多態性作為遺傳標記的應用279
四、基因多態性與個性化用藥280
五、基因多態性和基因芯片檢測技術281
第三節微矩陣和基因拷貝數變化282
一、cDNA陣列CGH283
二、基因組陣列CGH283
第四節微矩陣和感染性疾病284
一、微生物的鑒定和分型285
二、耐藥性研究286
三、致病機理研究287
第五節微矩陣芯片的其他應用288
一、微矩陣芯片和DNA甲基化分析288
二、轉錄因子結合位點分布290
三、展望291
參考文獻292
第十五章主要數據分析軟件的介紹295
第一節分析軟件在基因芯片技術中的
地位295
第二節主要圖像和數據處理軟件296
一、基因芯片圖像分析軟件
GenePix Pro296
二、Affymetrix GCOS系統297
三、Cluster和TreeView程序298
四、GeneSpring300
五、SpotFire DecisionSuite300
六、SAM和PAM302
七、R平臺及生物導體303
八、MATLAB生物信息工具箱304
第三節基因表達譜公共數據庫304
一、NCBI?Gene Expression Omnibus
(GEO)基因表達數據專用庫304
二、EBI ArrayExpress和SMD307
三、微陣列數據庫的建立和管理307
第四節基因注釋數據庫的訪問308
一、斯坦福大學SMD/SOURCE309
二、UCSC基因組瀏覽器309
三、mySQL客戶310
參考文獻311
第十六章展望312
第一節后基因組研究的趨勢——系統
生物學312
一、系統生物學的啟動312
二、系統生物學的發展趨勢313
第二節后基因組應用研究發展的
趨勢——基因組醫學314
第三節基因芯片技術在系統生物學和
基因組醫學中的地位316
一、基因芯片及數據挖掘在基礎研究中
的地位316
二、 基因芯片技術在基因組醫學分子
診斷中的應用趨勢316
參考文獻318
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。