基因芯片的数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因表达谱芯片的数据分析
基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。然而每次实验都产生海量数据,如何解读芯片上成千上万个基因点的杂交信息,将无机的信息数据与有机的生命活动联系起来,阐释生命特征和规律以及基因的功能,是生物信息学研究的重要课题[1]。基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析,假如分类还没有形成,非监督分析和聚类方法是恰当的分析方法;假如分类已经存在,则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3],我们对基因芯片数据分析方法分类如下。(1)差异基因表达分析:基因芯片可用于监测基因在不同组织样品中的表达差异,例如在正常细胞和肿瘤细胞中;(2)聚类分析:分析基因或样本之间的相互关系,使用的统计方法主要是聚类分析;(3)判别分析:以某些在不同样品中表达差异显著的基因作为模版,通过判别分析就可建立有效的疾病诊断方法。
1 差异基因表达分析(difference expression, DE)
对于使用参照实验设计进行的重复实验,可以对2样本的基因表达数据进行差异基因表达分析,具体方法包括倍数分析、t检验、方差分析等。
1.1倍数变化(fold change, FC)
倍数分析是最早应用于基因芯片数据分析的方法[4],该方法是通过对基因芯片的ratio值从大到小排序,ratio 是cy3/cy5的比值,又称R/G值。一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。由于实验条件的不同,此阈值范围会根据可信区间应有所调整[5,6]。处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图等。该方法的优点是需要的芯片少,节约研究成本;缺点是结论过于简单,很难发现更高层次功能的线索;除了有非常显著的倍数变化的基因外,其它变化小的基因的可靠性就值得怀疑了;这种方法对于预实验或实验初筛是可行的[7]。此外倍数取值是任意的,而且可能是不恰当的,例如,假如以2倍为标准筛选差异表达基因,有可能没有1条入选,结果敏感性为0,同样也可能出现很多差异表达基因,结果使人认为倍数筛选法是在盲目的推测[8,9]。
1.2 t检验(t-test)
差异基因表达分析的另一种方法是t检验[10],当t超过根据可信度选择的标准时,比较
的两样本被认为存在着差异。但是t 检验常常受到样本量的限制,由于基因芯片成本昂贵,重复实验又很费时,小样本的基因芯片实验是很常见的,但是小样本导致了不可信的变异估计。为了克服这种缺点,研究者提出了调节性t 检验(regularized t -test),它是根据在基因表达水平和变异之间存在着相互关系,相似的基因表达水平有着相似的变异这个经验,应用贝叶
斯条件概率(贝叶斯定理 )统计方法,通过检测同一张芯片临近的其它基因表达水平,可以对任何基因的变异程度估计进行弥补。这种方法对于基因表达的标准差估计优于简单的t -test 和固定倍数分析法[11]。
1.3 方差分析(analysis of variance, ANOV A)
方差分析(ANOV A)又称变异数分析或F 检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义,方差分析可用于差异基因表达研究[12]。方差分析需要参照实验设计,参照样本常用多种细胞的mRNA 混合而成,由于所有的细胞同时表达的基因众多,结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性,因此,增加参照样本的细胞不会提高参照样本的代表性[13]。
方差分析能计算出哪些基因有统计差异,但它没有对那些组之间有统计差异进行区分,比如用单因素方差分析对A 、B 、C 、D 4组进行分析,对于某一个基因,方差分析能够分析出A 组与B 、C 、D 组之间有差异,但是B 、C 、D 之间无统计学意义。这就需要使用均值间的两两比较(post-hoc comparisons)检验,该检验是对经方差分析后的基因进行下一水平更细节的分析[14]。即t -检验只能用于检验两样本中均值是否存在显著性差异,而两两比较技术考虑了多于2样本间均数的比较。
上述所有的参数分析方法必须平衡假阳性、假阴性错误[15, 16],控制假阳性率有4种方法:
(1)邦弗朗尼(Bonferroni)方法,计算公式:Corrected P-value =P-value×n(number of genes in test),如果纠正P 值仍小于错误率(如0.05),则该基因将属于有表达差异的基因。(2)Bonferroni Step-down(Holm)法,这种校正方法与邦弗朗尼很相似,但没有前者严格。主要思想如下:每个基因的P 值从低到高排序,Corrected P -value =P -value×n(n-1/n-2……),如果纠正P 值仍小于错误率(如0.05),则该基因将属于有表达差异的基因。(3)Westafall & Young 参数法,前面2种方法都是单独对P 值进行纠正,本方法通过同时对所有基因进行排序,充分利用基因间的独立性进行P 值纠正。每个基因的P 值是按原始资料的排序进行计算;将资料划分为人工组和对照组而产生新的数据。采用新数据计算所有基因的P 值,新P 值再与以前的P 值进行比较,上述过程重复很多次,最后计算出纠正P 值。如果纠正P 值仍小于错误率(如0.05),则该基因将属于有表达差异的基因。(4)Benjamini & Hochberg 假阳性率法,该方法是4种方法中最不严谨()()()()
r r r r B A A A B B ΡΡΡ=Ρ
的方法,因此可能产生很多的假阳性和假阴性,其方法如下:首先对每一个基因的p值由小到大排序,最大的P值保持不变,其它基因按下列公式计算P值,Corrected p-value=P value×(n/n-1)以此类推,若P<0.05则为有差异基因。
上述前3种方法可概括为误差率判断族(family-wise error rate, FWER),它的特点是允许很少的假阳性基因发生,而假阳性率(false discovery rate, FDR)是允许一定率的假阳性基因发生。总之,假阳性率(FDR)在差异表达与控制假阳性率之间提供了一个好的平衡统计,Bonferroni 是最严格的方法,也是最保守的假阳性估计方法。Westfall & Young 参数法是以基因的共同调节进行计算,因此它的计算是很慢的,对假阳性率的估计也是很保守的[17,18]。
1.4非参数分析(nonparametric analysis)
由于微阵列数据存在“噪声”干扰而且不满足正态分布假设,因此使用t-检验和回归模型进行筛选的方法可能有风险。非参数检验并不要求数据满足特殊分布的假设,所以使用非参数方法对变量进行筛选虽然粗放,但还是可行的[19]。目前用于基因表达谱数据分析的非参数方法除了传统的非参数t-检验(nonparametric t-test)、Wilcoxon秩和检验(Wilcoxon rank sun test)等外[20],一些新的非参数方法也应用于基因表达谱数据的分析中,如经验贝叶斯法(empirical Bayes method)[21]、芯片显著性分析(significance analysis of microarray, SAM)[22]、混合模型法(the mixture model method, MMM)[23]等。参数法的缺点是分析数据有假设检验,比如改变样本中的变异可明显影响分析结果,对同样数据的转换(如对数),对其分析结果也有明显的影响。非参数方法对于这种情况的发生更有效,但是它对表达数据分析的敏感性不如参数方法。1.5回归分析(Regression Analysis)
目前使用的一些简单的参数分析方法是通过数据转换(如对数)来达到正态分布为假设前提的,或者是估计的经验分布,然而这二种方法对基因表达数据可能都是不合理的,非参数方法忽视了数据的分布,而参数方法又会误判数据的分布[24,25]。基因表达谱的回归分析是可以处理多个基因变量间线性依存关系的统计方法,于是研究者们提出了使用回归分析基因表达谱数据,如Li et al[26]使用互变量(Cox)回归方法分析基因表达谱数据,用于患者的生存率预判;Huang et al[27]将线性回归方法应用于肿瘤的分类研究中。
2 聚类分析(clustering analysis)
聚类分析的目的在于辨别在某些特性上相似的事物,并按这些特性将样本划分成若干类(群),使同类事物具有高度同质性,而不同类事物则有高度异质性。聚类分析是通过建立各种不同的数学模型,它把基于相似数据特征的变量或样本组合在一起。归为一个簇的基因在功能上可能相似或关联,从而找到未知基因的功能信息或已知基因的未知功能。但是由于使用数据转换、归一化等因素,导致对聚类分析结果的影响较大;此外,聚类只是为了寻求类,