基因芯片数据处理流程与分析介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因芯片数据处理流程与分析介绍
关键词:基因芯片数据处理
当人类基因体定序计划的重要里程碑完成之后,生命科学正式迈入了一个后基因体时代,基因芯片(microarray)的出现让研究人员得以宏观的视野来探讨分子机转。不过分析是相当复杂的学问,正因为基因芯片成千上万的信息使得分析数据量庞大,更需要应用到生物统计
与生物信息相关软件的协助。要取得一完整的数据结果,除了前端的实验设计与操作的无暇
外,如何以精确的分析取得可信数据,运筹帷幄于方寸之间,更是画龙点睛的关键。
基因芯片的应用
基因芯片可以同时针对生物体内数以千计的基因进行表现量分析,对于科学研究者而言,不论是细胞的生命周期、生化调控路径、蛋白质交互作用关系等等研究,或是药物研发中对于
药物作用目标基因的筛选,到临床的疾病诊断预测,都为基因芯片可以发挥功用的范畴。
基因表现图谱抓取了时间点当下所有的动态基因表现情形,将所有的探针所代表的基因与荧光强度转换成基本数据(raw data)后,仿如尚未解密前的达文西密码,隐藏的奥秘由丝丝
的线索串联绵延,有待专家抽丝剥茧,如剥洋葱般从外而内层层解析出数千数万数据下的隐晦含义。
要获得有意义的分析结果,恐怕不能如泼墨画般洒脱随兴所致。从raw data取得后,需要
一连贯的分析流程(图一),经过许多统计方法,才能条清理明的将raw data整理出一初步
的分析数据,当处理到取得实验组除以对照组的对数值后(Iog2 ratio),大约完成初步的统
计工作,可进展到下一步的进阶分析阶段。
Rosetta profile error model calculation
2Sqweeze replicated probes
^Normalize intensities (exclude flagged ^nd wontrol
data) with median scaling
"Basic statistic plot and Pearson correlation
coefficient
^Combine tech nicar repeat
Pairwise ratid calculation
图一、整体分析流程。基本上raw data取得后,将经过从最上到下的一连串分析流程。
(1)
Rosetta软件会透过统计的model,给予不同的权重来评估数据的可信度,譬如一些实验
操作的误差或是样品制备与处理上的瑕疵等,可已经过Rosetta error model 的修正而提高数据的可信值;(2)移除重复出现的探针数据;(3)移除flagged数据,并以中位数对荧光强度的数据进行标准化(Normalized)的校正;(4) Pearson correlation coefficient (得到R 值)目的在比较技术性重复下的相似性,R值越高表示两芯片结果越近似。当R值超过0.975,我们才将此次的实验结果视为可信,才继续后面的分析流程;(5)将技术性重复芯片间的数据进行平均,取得一平均之后的数据;(6)将实验组除以对照组的荧光表现强度差
异数据,取对数值(log2 ratio)进行计算。
找寻差异表现基因
实验组与对照组比较后的数据,最重要的就是要找出显著的差异表现基因,因为这些正是条
件改变后而受到调控的目标基因,透过差异表现基因的加以分析,背后所隐藏的生物意义才
能如拨云见日般的被发掘出来。
一般根据以下两种条件来筛选出差异表现基因:(i)荧光表现强度差异达2倍变化(fold change增加2倍或减少2倍)的基因。而我们通常会取对数(log2)来做fold change 数
值的转换,所以看的是log2仝1或w -1的差异表现基因;(ii)显著值低于0.05 (p值
< 0.05)的基因。当这两种条件都符合的情况下所交集出来的基因群,才是显著性高且稳定 的差异表现基
因。
进阶分析案例
以目前华联生技的最新服务报告里, 将主动提供下列几种进阶分析服务于报告中供您使用参
考。
首先,为确认 control 组与treatment 组各自芯片实验间的质量一致性,先以主成分分析
(Prin ciple Compo nent An alysis, PCA) 将芯片数万点的信息简化成几个低维度的分析数据,
以归纳出彼此的群落分布,藉以比对各自的近似关系。从结果可以看到 control 组与
treatment 组经过主成分分析后, 显示出两组各自间的结果是相近似的
(图二),代表这次实
验的设计与芯片结果是可信的,值得往下做进阶分析。
图二、主成分分析 control 组与treatment 组间的芯片结果。用主成分 1 (Comp. 1)和2
(Comp. 2)便可以将两组间的数据归纳出显著的各自群落。代表两组各自的结果相近似。
接着以 Hierarchical Clustering ( 丛聚法)搭配 Pearson correlation
找出各基因彼此间的
近似关系。如此将control 组与treatment 组的差异表现基因做分群,划分出treatment 组 经过处理后,对照 control 组而呈现下调 (Down-regulated) 或者上调(Up-regulated) 基 因群(图三)。
-
毂 邛 寻
3 40 9 W
为 帥 伸 帰
匸”亦牛4
图三、丛聚法分析将差异表现基因做分群。以 treatment 组(T-1、T-2、T-3、T-4)对应
control 组(C-1、C-2、C-3、C-4)后的分析下,基因表现呈现下调
(Down-regulated ) 与
上调(Up-regulated ) 的分类结果。
进阶分析服务方面,提供
Gene Ontology (GO, 基因功能分类)和Pathways analysis ( 讯
息传递路径分析)的进阶分析。于 GO 的分析,在于将差异表现基因群做功能上的分类, 可依功能分类推敲出所处的情况在何种状态,譬如:细胞增生、受损、凋亡或发炎等等。而 讯息传递路径分析则从基因上下游的牵连性来探讨受调控后的影响关系。
使用的是 Ge ne Set En richme nt An alysis (GSEA ) 工具,将差异表现基因导入后,再选择 所需要的分析服务,可获取所需的相关信息
(图四)。
Down-reg u fated
Up-regulated