基因芯片数据功能分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学在基因芯片数据功能分析中的应用2009-4-29
随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(PostgenomeEra),向基因的功能及基因的多样性倾斜。
通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病如癌症、心血管疾病的发病机理、诊断治疗、药物开发等方面的研究发挥巨大的作用。
它将大大推动人类结构基因组及功能基因组的各项基因组研究计划。
生物信息学在基因组学中发挥着重大的作用,而另一项崭新的技术——基因芯片已经成为大规模探索和提取生物分子信息的强有力手段,将在后基因组研究中发挥突出的作用。
基因芯片与生物信息学是相辅相成的,基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的,可以为生物信息学研究提供必需的数据库,同时基因芯片的数据分析也极大地依赖于生物信息学,因此两者的结合给分子生物学研究提供了一条快捷通道。
本文介绍了几种常用的基因功能分析方法和工具:
一、GO基因本体论分类法
最先出现的芯片数据基因功能分析法是GO分类法。
Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675个Entrez Gene注释基因中的17348个,并把它们的功能分为三类:
分子功能,生物学过程和细胞组分。
在每一个分类中,都提供一个描述功能信息的分级结构。
这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。
研究者可以通过GO分类号和各种GO数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。
在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。
EASE(ExpressingAnalysisSystematicExplorer)是比较早的用于芯片功能分析的网络平台。
由美国国立卫生研究院(NIH)的研究人员开发。
研究者可以用多种不同的格式将芯片中得到的基因导入EASE进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。
其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。
EASE能进行的统计学检验主要包括Fisher精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE得分(EASE score)。
由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。
这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjaminifalsediscovery rate)和靴带法(bootstraping)。
同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。
2002年,挪威大学和乌普萨拉大学联合推出的Rosetta系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimaldecision rules)的概念。
它的基本思想是在对多张芯片结果进行聚类分析之后,与表达模式不相近的基因相比,相近的基因更有可能参与相同的生物学功能的实现。
比较著名的基于GO分类法的芯片数据分析网络平台还有七十多个,表1列举了其中的一部分。
Onto-Toolshttp:
///projects.htm
ROSETTAhttp:
//rosetta.lcb.uu.se/general/
GOstat
FatiGO
EASEhttp:
//.au/
http:
GOToolBoxhttp:
//burgundy.cmmt.ubc.ca/GOToolBox/
GFINDerhttp:
http:
///ease/ease.jsp
表1用GO分类法进行芯片功能分析的网络平台
二、Pathway通路分析法
通路分析是现在经常被使用的芯片数据基因功能分析法。
与GO分类法(应用单个基因的GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用,即生物学通路。
研究者可以把表达发生变化的基因列表导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路中,并通过统计学方法计算哪些通路与基因表达的变化最为相关。
现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路,对芯片的结果进行分析。
主要的生物学通路数据库有以下两个:
①KEGG数据库:
②BioCarta数据库:
KEGG、GenMAPP和BioCarta,生成变化基因参与的通路,并用fisher精确概率检验。
PathwayMiner自动把得到的通路分成两大类:
代谢通路和细胞调节通路。
方便使用者根据不同的研究目的选择需要查看的结果。
Name
GenMAPP
PathwayMiner
KOBAS
GEPAT
VitaPad
KEGGanim
VisANT
3.0
http:
http:
http:
http:
//gepat.bioapps.biozentrum.uni-wuerzburg.de/GEPAT/index.faceshttp: ///group
http:
//biit.cs.ut.ee/kegganim/
http:
///
WholePathwayScopehttp:
http:
表二通路分析网络平台
三、基因调控网络分析
通路分析法是芯片功能分析的有力工具之一,其与GO分类法的主要区别也正是它的弱点。
在生物反应的过程中,发生表达变化的基因通常不只局限在一个通路中,而是存在于由许多调控因子和通路参与的复杂调控网络中。
生物调控网络十分复杂,并没有现成的文献和数据库供参考。
而且,把芯片中发生表达变化的基因放在生物调控网络的水平来看,它们通常在多个通路中都有分布,而每个通路只包含几个发生表达变化的基因。
这就解释了为什么有些通路只有部分基因表达发生变化,而且表达变化的趋势在整个通路水平上不一定是一致的。
进行生物调控网络的研究需要更多的数据库及分析工具的支持。
比如需要关于基因组调控序列(启动子和增强子)的信息,现在已经有许多关于转录因子结合位点(transcriptionfactor binding site, TFBS)的数据库可以满足这个要求,如TRANSFAC及JASPAR。
而且芯片检测的基因变化应该深入到转录本水平,因为不同的转录本的转录可能是由不同的启动子启动的。
外显子连接芯片(exonjunctionmicroarray)将基因组中外显子与外显子之间的连接序列做成
36nt的探针点到芯片上,与样本mRNA进行杂交后可检测出样本中多外显子基因pre-mRNA的剪接状况。
转录调节控制基因表达,调控不同组织中的细胞在各种生理条件及外界刺激下的反应。
不同于原核细胞,真核细胞的转录调节涉及大量转录因子的相互作用,而且基因组调控序列不只位于启动子,还包括内含子及许多基因下游序列。
所以真正了解真核细胞的基因调控网络是一项非常艰巨的工作。
用基因调控网络来分析基因芯片数据还需要更多信息及技术的支持。