PDF转Excel:高效去除AI特征,实现数据自由编辑
1031
2022-12-23
本文目录一览:
GEOquery 包使用指南
GEO(The NCBI Gene Expression Omnibus)是NCBI专门储存高通量测序的库。如基于芯片数据(mRNA、DNA、蛋白丰度)基因芯片数据分析软件,蛋白质质谱数据和高通量测序数据。
GEO数据主要有4种基本类型。Sample, Platform 和 Series是由作者上传的数据基因芯片数据分析软件,dataset是由GEO官方从做和提交的数据整理出来的。
## 1.1 Platforms
GEO 号:GPLxxx。
芯片的组成信息,例如 cDNAs, oligonucleotide probesets, ORFs, antibodies 。或者其它定量检测平台信息,例如SAGE tags, peptides。
## 1.2 Samples
GEO 号: GSMxxx
描述单个样本信息,处理步骤、处理条件以及实验测得的结果。一个样本可能属于多个研究(Series)。
## 1.3 Series
GEO 号:GSExxx
涉及同一个研究的记录,包括处理过的数据、总结和分析基因芯片数据分析软件;信息可以从GSEMatrix文件解析快速得到。
##1.4 Datasets
GEO 号:GDSxxx
一套经过整理的GEO 数据集。每套数据都是可以进行生物学或者统计学上比较的样本,是GEO自带工具进行数据分析和展示的基础。一个 GDS数据集来自同一个平台,数据分析和标准化都具有一致性。
getGEO 函数可以从GEO官网获取数据或者将固定格式数据解析为R格式的数据。
GEOquery 数据结构大致分为两类。第一种是GDS, GPL和GSM,基因芯片数据分析软件他们的操作和数据类型差不多;第二种是GSE,GSE数据是由GSM和GPL整合而成。
## 3.1 GDS, GSM 和 GPL
这些数据类组成
可以使用show()查看这些数据类。
##3.2 GSE类
GSE类组成:
GEO datasets与limma 数据结构MAList 和Biobase数据结构 ExpressionSet比较相似。可以相互转换:
## 4.1 Getting GSE Series Matrix files as an ExpressionSet
GEO Series是一套实验数据的集合,有SOFT,MINiML格式文件,以及一个 Series Matrix File(s)文本。Series Matrix File是tab-delimited text, getGEO 函数可以解析,解析结果就是ExpressionSets。
一个GSE下如果存在多个GPL测序,筛选特定的GPL数据;GSE会有多个列表 gset[[idx]]
##4.2 Converting GDS to an ExpressionSet
##4.3 Converting GDS to an MAList
ExpressionSet不包含注释信息, getGEO 可以帮助我们获取。
与ExpressionSet不同,the limma MAList 包含基因注释信息。上面的gpl包含注释信息。
MAList不仅包含数据,还包含样本信息,和注释信息。
4.4 Converting GSE to an ExpressionSet
GSE转换成ExpressionSet
这个GSE包含两个GPLs,GPL96 和 GPL97。
筛选使用GPL96 的GSM。
获取表达矩阵:
构造ExpressionSet
##6.1 Getting all Series Records for a Given Platform
英文版原文见:[Using the GEOquery Package
第一章概述1
第一节分子生物学技术及基因、基因组
科学发展历史简介1
第二节基因芯片技术简介3
一、基因芯片基因芯片数据分析软件的基本概念4
二、基因芯片技术基因芯片数据分析软件的产生和发展4
三、基因芯片基因芯片数据分析软件的应用领域6
第三节生物信息学与基因芯片基因芯片数据分析软件的数据
挖掘7
一、生物信息学的兴起7
二、基因芯片的数据挖掘8
参考文献9
第二章微阵列基因芯片实验技术11
第一节基因芯片的价值和分类11
一、基因芯片的价值11
二、基因芯片的分类12
第二节基片的制备15
一、基片的类型和性质15
二、玻璃基片表面的修饰方法17
第三节点样探针的制备18
一、cDNA探针的制备19
二、基因组DNA探针19
三、寡核苷酸探针19
四、独特的PM?MM探针设计20
第四节基因芯片点样22
一、芯片点样仪和点样方式22
二、点样后处理27
三、基因芯片的质量标准28
第五节原位合成及纳米结构的基因芯片
制备28
一、原位合成法制作基因芯片28
二、纳米结构的基因芯片制备31
第六节表达谱基因芯片的检测方法34
一、样本选择、处理和RNA的分离35
二、mRNA样本标记35
三、芯片杂交38
参考文献39
第三章统计学基础41
第一节统计学的基本概念41
一、总体与样本41
二、资料的统计描述42
三、随机变量、概率与分布43
四、统计量45
第二节假设检验46
一、假设检验的基本原理46
二、假设检验的步骤47
三、假设检验的基本方法47
第三节方差分析54
一、完全随机设计资料的方差分析54
二、随机区组设计资料的方差分析55
三、多个样本均数间的多重比较57
第四节聚类分析与判别分析简介57
一、聚类分析58
二、判别分析59
参考文献61
第四章实验设计62
第一节样品配对模式62
一、基因芯片实验的分类62
二、样品配对方案概述64
三、样品配对模式的选择66
第二节样品的重复及合并69
一、实验误差的来源及重复样品的使用69
二、样品重复数量的确定70
三、样品合并70
第三节总结72
参考文献72
第五章基因芯片图像的采集和处理74
第一节基因芯片图像的采集74
一、激光共聚焦扫描仪74
二、CCD扫描仪78
三、扫描仪的技术指标79
第二节基因芯片图像的处理81
一、划格83
二、分割84
三、信息提取87
四、质量评估88
第三节一些芯片扫描仪和芯片图像处理
软件的介绍88
一、激光共聚焦扫描仪90
二、 激光非共聚焦扫描仪91
三、CCD基因芯片检测仪92
参考文献96
第六章数据的预处理和归一化98
第一节数据的预处理98
一、背景的校正98
二、弱信号的处理99
三、数据的对数转换101
四、重复数据的合并102
五、缺失数据的处理103
第二节数据的归一化104
一、cDNA芯片数据的归一化105
二、Affymix芯片数据的归一化115
参考文献118
第七章差异表达基因分析120
第一节差异表达基因的挑选120
一、倍数法120
二、Z值法121
三、重复实验的判别方法121
四、其基因芯片数据分析软件他方法124
五、总结125
第二节研究差异表达基因的意义126
一、在基因组研究中的作用126
二、在药物研究中的作用127
三、在医学基础研究中的作用129
参考文献131
第八章芯片数据的可靠性分析133
第一节数据的评价133
一、差异表达基因的可靠性133
二、芯片数据重复性评价139
第二节误差来源分析142
一、生物学差异来源142
二、实验系统误差144
第三节基因芯片的质控体系149
一、直接点样的基因芯片的质控体系149
二、Affymetrix的寡核苷酸芯片质控
体系及其产品质量评估151
第四节信号线性扩增技术及其评估154
一、信号线性扩增技术154
二、信号扩增方法的可靠性评价154
参考文献161
第九章聚类分析和可视化162
第一节相似性(或距离)的度量162
一、欧氏距离162
二、马氏距离163
三、Chebychev距离164
四、Mahalanobis距离164
五、Minkowski距离164
六、平均点积164
七、向量间的角度165
八、协方差165
九、Pearson相关距离165
十、Spearman秩相关166
十一、互信息166
十二、Kendall?s Tau167
第二节聚类算法167
一、系统聚类168
二、分割聚类172
第三节二维聚类177
一、耦联二维聚类177
二、区组聚类177
第四节主成分、SVD和基因修剪178
一、主成分178
二、奇异值分解178
三、基因修剪179
参考文献179
第十章微阵列实验中的分类方法181
第一节概述182
一、利用基因表达谱数据进行生物样本
分类183
二、分类的背景183
三、基因表达谱数据184
第二节不同分类方法的概述184
一、分类及统计决策论184
二、费歇线性判别分析186
三、线性判别和二次判别分析186
四、线性判别分析的扩展188
五、最近邻分类器188
六、决策树190
七、BP神经网络分类法194
八、支持向量机197
九、Parzen窗204
第三节分类中的一般问题205
一、特征选取205
二、标准化和距离函数206
三、缺失值填充207
四、多分类问题208
第四节性能评价209
一、偏差、方差和误差率209
二、再置换估计210
三、倍数交叉验证法210
四、解靴带估计210
第五节实例分析211
一、基因表达谱数据211
二、数据预处理212
三、支持向量机软件应用213
参考文献216
第十一章微阵列技术的标准化218
第一节MIAME规则218
一、MIAME规则的具体内容219
二、MIAME表单221
三、MIAME的目前与将来222
第二节Affimetrix芯片系统与MIAME
规则223
一、遵循MIAME规则224
二、Affimetrix实验的MIAME表单225
三、Affimetrix的RNA抽提、清洗、
标记和杂交规范225
参考文献227
第十二章基因芯片数据的基因注释和
功能分析228
第一节单一基因的注释228
一、一般的注释228
二、关于疾病的信息233
三、蛋白质家族的信息234
第二节转录因子调节的分析235
一、Transfac数据库236
二、转录因子研究中的统计学检验238
第三节Gene Ontology数据库中基因
功能分类的分析240
一、Gene Ontology数据库240
二、GO数据库相关分析的工具241
第四节生物学通路和生物学相互作用的
分析243
一、生物学通路中的基因分析244
二、生物学网络中的基因分析249
三、基因芯片数据中使用者自己定义的
基因集的分析250
参考文献251
第十三章系统生物学及基因调控
网络252
第一节系统生物学简介252
第二节基因转录调控网络的构成253
一、基因转录过程简介253
二、研究转录因子及其调控基因的实验
方法254
三、基因调控网络与图形254
第三节用高斯图形模型推导基因调控
网络257
第四节贝叶斯网络模型在基因芯片
数据中的应用259
一、贝叶斯网络简介259
二、学习贝叶斯网络261
三、贝叶斯网络方法在基因芯片数据
方面的应用262
第五节从时间序列数据中推导基因调控
网络266
一、基因调控网络模型的“事件模型”266
二、关于基因调控网络的“动态
概率模型”268
第六节通过基因扰动来推导基因调控
网络的反义工程方法270
第七节结论271
参考文献272
第十四章基因芯片技术的应用——
从基因筛选到临床诊断274
第一节基因表达谱研究与临床肿瘤学274
一、确定肿瘤亚型275
二、识别肿瘤的组织来源276
三、预后分析276
四、存在问题277
第二节微矩阵芯片和遗传多态性278
一、单核苷酸多态性简介278
二、基因多态性与疾病易感性279
三、基因多态性作为遗传标记的应用279
四、基因多态性与个性化用药280
五、基因多态性和基因芯片检测技术281
第三节微矩阵和基因拷贝数变化282
一、cDNA阵列CGH283
二、基因组阵列CGH283
第四节微矩阵和感染性疾病284
一、微生物的鉴定和分型285
二、耐药性研究286
三、致病机理研究287
第五节微矩阵芯片的其他应用288
一、微矩阵芯片和DNA甲基化分析288
二、转录因子结合位点分布290
三、展望291
参考文献292
第十五章主要数据分析软件的介绍295
第一节分析软件在基因芯片技术中的
地位295
第二节主要图像和数据处理软件296
一、基因芯片图像分析软件
GenePix Pro296
二、Affymetrix GCOS系统297
三、Cluster和TreeView程序298
四、GeneSpring300
五、SpotFire DecisionSuite300
六、SAM和PAM302
七、R平台及生物导体303
八、MATLAB生物信息工具箱304
第三节基因表达谱公共数据库304
一、NCBI?Gene Expression Omnibus
(GEO)基因表达数据专用库304
二、EBI ArrayExpress和SMD307
三、微阵列数据库的建立和管理307
第四节基因注释数据库的访问308
一、斯坦福大学SMD/SOURCE309
二、UCSC基因组浏览器309
三、mySQL客户310
参考文献311
第十六章展望312
第一节后基因组研究的趋势——系统
生物学312
一、系统生物学的启动312
二、系统生物学的发展趋势313
第二节后基因组应用研究发展的
趋势——基因组医学314
第三节基因芯片技术在系统生物学和
基因组医学中的地位316
一、基因芯片及数据挖掘在基础研究中
的地位316
二、 基因芯片技术在基因组医学分子
诊断中的应用趋势316
参考文献318
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。