bioconductor系列教程之一分析基因芯片上

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

►bioconductor系列教程之一分析基因芯片上
可以取代MAS5的主要还有两种算法，分别是dChip和RMA。

RMA算法正逐步成为microarray的主流算法。

RMA全称为log scale robust multi-array analysis，多阵列对数健壮算法。

RMA算法并不直接从PM的信号中减去做为背景的MM 信号，而是基于20组探针的信号分布来判断是信号还是噪音。

这种算法无疑对于低噪号的实验有较大的适用性。

Figure 2 MAS5.0, dChip 和RMA算法结果比较（数据来源：Summaries of Affymetrix GeneChip probe level data. Irizarry RA, Bolstad BM, Collin F, Cope LM, Hobbs B, Speed TP. Nucleic Acids Res 2003: 31(4);）
所以这里，我就主要介绍一下如何在bioConductor使用RMA算法预处理基因芯片原始数据。

首先，去/support/technical/sample_data/demo_data.affx 下载一些示例数据文件下来。

这里，我使用Arabidopsis-AG AGCC数据示例。

我们先把下载下来的文件解压后拷贝ArabidopsisATH1-121502.CEL文件至R工作文件夹下。

首先是一个快速上手教程：
1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 > library(affy)##加载库文件
Loading required package: Biobase
Welcome to Bioconductor
Vignettes contain introductory material. To view, type
'openVignette()'. To cite Bioconductor, see
'citation("Biobase")'and for packages 'citation(pkgname)'.
> Data <- ReadAffy()##读取工作目录下的CEL文件
> eset <- rma(Data)##用RMA算法预处理数据，这时它会自动下载CDF文件，所以需要联网。

trying URL
'/packages/2.6/data/annotation/bin/windows/contrib/2.11/ath1121501cdf_2.6.0. Content type 'application/zip'length1744505 bytes (1.7 Mb)
opened URL
downloaded 1.7 Mb
package'ath1121501cdf' successfully unpacked and MD5 sums checked
The downloaded packages are in
C:\Documents and Settings\jianhong ou\Local Settings\Temp\RtmpHn3D5q\downloaded_packages Background correcting
Normalizing
Calculating Expression
>write.exprs(eset,file="mydata.txt")##将经过处理后的数据输出至mydata.txt文件。

我们从这简单的几步，就可以得到拟兰介基因芯片中每个对应的基因的表达状况了。

►bioconductor系列教程之一分析基因芯片中（质量控制）
上一节，我们了解了分析基因芯片的预处理的基本知识。

其实那只是一个热身。

这一节，我们来学习拿到基因芯片数据时更基本的操作：质量控制。

只有通过质量检测合格的芯片数据才会真正地进入数据分析的步骤。

本节将学习以下内容：
背景
MAS5 标准化
Affymetrix公司制定的内参
教程数据下载
质量控制总览图及报告
使用FitPLM生成权重，残差及NUSE图像
RNA降解曲线及MVA线图
PCA分析
总结
背景
通过上一节的介绍，我们了解到Affymetrix基因芯片中的探针都是由25个碱基组成的寡聚核苷酸序列。

每个芯片上可能包含上百万的探针，它们被整齐有序的印刷在芯片上。

而探针的排序以组为单位，随机排列。

而每一组，都由20对探针组成。

这一组探针被称为探针组（probeset）。

每一对探针都由perfect match(PM)和mismatch(MM)组成，称为探针对（probe pair）（figure 1）。

MM与PM维一的不同，就是正中央的那个碱基不同，其余的都一致。

人们期待MM不会象PM 那样与RNA或者DNA有特异性配对，有的只是非特异性配对。

而事实上，我们都知道，这是不可能的。

在后面的教程中，会可能提及一些这方面的分析。

而每一个探针组都均匀包含了目标基因3’至5’不同区段特异序列。

这种设计一方面可以通过均衡它们结果的方式来获取目标基因的表达强度（这一过程被称为总结步骤（summarization step）），另一方面，它也可以提供mRNA降解的程度信息。

我们知道一般mRNA都是按5’端至3’端的顺序来降解的，而这些探针组应该能体现这一趋势。

上一节我们谈到过标准化的问题。

这一节并不会深入探讨这个问题，但是我们会简单地应用上一节提到过了两个标准化方法MAS5和RMA方法。

使用它们只是作为一种示例来表达如何通过试用不同的标准化方法来获得最佳的结果。

Affymetrix公司在指导手册上就已经提出了用于判断基因芯片质量的多种标准。

这些标准大多都是依照该公司的MAS5算法而提出的，所以我们还是得重新提及一下MAS5算法。

提取差异表达的基因
从基因芯片当中提取生物学的信息需要合理的统计学方法。

人们已经为优化传统统计学方法在基因芯片方面的应用做出了多年的努力。

但是直到现在，最主要的努力依然还是依据实验设计的差别，用统计学方法提取出差异表达的基因，然后再转回使用实验的方法去验证这个结果。

在提取差异表达的基因时，人们总是会有这两种考虑，一是不可漏过一个，二是不能错杀过多（在英语里称为false discovery rate(FDR)错误发现率）。

常见的手段是使用多种统计学方法来分析同样一个结果，尽可能多的得到差异表达的基因，而排除那些假的信号。

然而学习和使用多种统计分析手段并不一定对于每一个生物学工作者都是非常容易的，这需要付出时间和努力。

在这里，我们尽量多介绍几种常用的统计分析手段，并给出实践中人们常常使用的组合，来帮助你更好的分析自己的数据。

现在常用的分析手段主要有：significance analysis of microarrays(SAM)，CyberT 和Rank products(RP)三种手段。

其中CyberT是bioconductor当中最为常用的分析手段，因为它的算法完整地被limma库实现。

但有研究指出，使用SAM和RP算法相结合可能是最佳的方案。

其实任何一种算法都是有局限性的，我们需要从根本上对算法有所了解，然后才能有针对性地选择合适的算法。

SAM：Tusher VG, Tibshirani R, Chu G. Significance analysis of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci USA 2001; 98:5116-21 CyberT: Baldi P, Long AD. A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes. Bioinformatics 2001; 17:509-19
RP: Breitling R, Armengaud P, Amtmann A, et al. Rank products: a simple, yet powerful, new method to detect differentially regulated genes in replicated microarray experiments. FEBS lett 2004;573:83-92。