芯片数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单因素多组数据统计分析
目的:只考虑一种影响因素,筛选两组以上样品 之间的差异基因。 要求:一个影响因素下的多组数据,每组数据3 个以上生物学重复。 Cy3通道信号和Cy5通道信号在常规实验设计中 不能独立分开作为两组单通道信号值进行数据分 析。
多因素数据统计分析
目的:根据一个以上不同的条件综合评判,筛选 多个条件对于两组样品造成的差异基因。
1. 图像分析
芯片分析的第一步是将芯片扫描得到的杂交信号 转化为原始的代表信号强度的数据 激光扫描仪(Scaner)得到的Cy3/Cy5图像文件 通过划格(Griding),确定杂交点范围,过滤背 景噪音,提取得到基因表达的荧光信号强度值, 最后以列表形式输出
目前可用于这一步分析工作的软件有Quantarray、 Genpix、ChipReader和ScanAlyze等
要求:多个影响因素下的2组数据,每组数据3个 以上生物学重复。
Cy3通道信号和Cy5通道信号在常规实验设计中 不能独立分开作为两组单通道信号值进行数据分 析。
SAM 分析
目的:SAM(Significant Analysis of Microarray) 分析方法是在多组实验中寻找具有差异表达的基 因。 要求:每组3个以上生物学重复。 Cy3通道信号和Cy5通道信号在常规实验设计中 不能独立分开作为两组单通道信号值进行数据分 析。
由于样本差异、荧光标记效率和检出率的不平衡, 需对Cy3和Cy5的原始提取信号进行均衡和修正 才能进一步分析实验数据。 Normalization正是基于此种目的。
Normalization的方法有很多种,包括中值法、总 体信号强度法以及指定使用芯片上的某些点来对 数据做标准化
用一组内参照基因(如一组看家基因)校正 Microarray所有的基因、阳性基因、阴性基因、 单个基因 标准化的结果以Excel表格的形式输出,并得到 两种荧光信号标准化后的比值。通过比值的大小 (大于2或者小于0.5)就可知道该基因的表达是 上调还是下调
数据挖掘和分析
Data Minding and Analysis
Microarray 数据分析
Microarray 数据分析是对 Microarray 高密度杂交 点阵图像进行处理,并从中提取杂交点的荧光强 度信号进行定量分析,通过有效数据的筛选和相 关基因表达谱的聚类,最终整合杂交点的生物学 信息,发现基因的表达谱与功能可能存在的内在 联系。
散 点 图
基因芯片的实例
基因表达谱分析实例
表达谱芯片分析—差异基因筛选
差异基因的筛选是基因芯片微阵列数据分析的最 关键一步,后续的功能分析和功能预测都是基于 这些筛选出来的差异基因。
合理的差异基因筛选方法是实验成功的关键。
差异基因筛选的常用分析方法
单因素两组数据统计分析:t-test 单因素多组数据统计分析:one-way anova 多因素数据统计分析:two(N)-way anova
信号强度分析
通过Genpix进行分析后就可得到Cy3和Cy5信号 强度的分布情况
Ratio分析
Cy3/Cy5的比值,又称R/G值。 一般0.5-2.0范围内的基因不存在显著表达差异, 该范围之外则认为基因的表达出现显著改变。
处理后的信息可以根据不同的需求以各种形式输 出,如饼形图、柱形图、点图、原始图像拼图等。
聚类分析的目的
不同基因之间存在着一些内在的联系,由此决定 了多少基因需要表达,那些基因需要表达,表达 到什么程度。
基因簌中的多个基因需要或是协同性或是顺序性 的基因表达来实现特定的生物功能。
通过对未知基因与已知基因的相关性分析进而预 测或推断出未知基因的表达特性。 通过聚类分析可以得到基因相关性的信息。
KEGG
http://www.genome.jp/kegg/pathway.html
Biocarta
/
DAVID
the Database for Annotation,Visualization and Integrated Discovery /
主成分分析实例
6. 表达谱芯片分析—样本相关性
目的:检测各个样品间的相关性,验证生物学重 复之间的均一性。 要求:设有生物学重复实验的样品组数据。
Pearson’s correlation 图:图形是一个由纵横两 列相同顺序的样品构成的矩阵
聚类分析
7. 基因功能富集
Gene Ontology(简称GO)是国际标准的基因功 能分类体系,分为分子功能(Molecular Function),生物过程(Biological Process)和 细胞组成(Cellular Component)。 GO enrichment 的原理是对差异基因进行GO分 类,并将分类结果进行显著性分析、误判率分析 和富集度分析,筛选与实验目的(表型)有显著 联系的GO terms,即导致样本性状差异最重要的 功能差别。该分析可以提示导致性状变化的重要 功能,并提示该功能所对应的基因。
The Gene Ontology
/
KEGG
http://www.genome.jp/kegg/pathway.html
8. 信号通路分析
基于公共数据库(例如KEGG和Biocarta)对差 异基因按照Pathway进行分类,对Pathway中的 基因进行显著性分析,筛选与实验目的有显著性 联系的Pathway,该Pathway提示导致样本性状 差异的原因。
数据分析流程图
数据分析流程图
背景校正
荧光信号强度: 真正的异性结 合、载体的发射光、仪器内部的散射光
信号校正: 需要去除本底信号以得到真实的荧光 信号
数据归一化的通用方法
整体强度归一化:利用那些信号强度相差不大的 基因为标准,对整个芯片上的实施归一化 管家基因:利用管家基因在许多细胞中都有表达, 而且不受外部因素的影响 人为介入:利用人为掺入的质控样品为内标
单因素两组数据统计分析
The Unpaired t-test for Two Groups,多用于生物 学重复之间个体差异非常小的数据; The Unpaired Unequal Variance t-Test (Welch ttest) for Two Groups,多用于生物学重复之间个 体差异较大的数据; The t-test against 0 for a Single Group,用于单 组数据的t-Test。 Cy3通道信号和Cy5通道信号在常规实验设计中不 能独立分开作为两组单通道信号值进行数据分析。
SAM 分析:R-software
倍数差异:Fold change
单因素两组数据统计分析
目的:根据一种条件,筛选两组样品之间的差异 基因,计算以后提供p-value(显著性值)。 要求:一个影响因素下的2组数据,每组数据3个 以上生物学重复 根据不同的数据情况,t-test有三种不同的模型
实验步骤
提取实验组的mRNA,PCR扩增,标记Cy5 提取对照组的mRNA,PCR扩增,标记Cy3 将实验组的PCR扩增产物和对照组的PCR扩增产物 等体积混合 与基因芯片杂交,获取基因芯片图像,分析荧光 数据 计算每一点的 Cy3/Cy5 相对值,建立二维图
单色图像和叠加图像
Microarray数据分析
图像分析 标准化处理(Normalization) Ratio值分析
基因聚类分析(Gene Clustering)
Science. 2008, 319:1787-1789
Cy3图像
Cy5图像
叠加图像
基因芯片的荧光图像
数据分析流程图
准确的数据处理和对比是发现新基因以及确认基 因之间的调控关系的金标准。 经过定量、修正、归一化等一系列的处理后,图 像数据的真正意义需要得到诠释。 许多图形表示方法直观明了,易于揭示其数据的 内在涵义。 准确的表示方法才能得到准确的结论。
数据分析流程图
4. 基因的聚类分析
比较成熟的算法是聚类分析(cluster),包括自 组织图(SOM),k-means cluster,多维排列 (multi-dimensional scaling,MDS)等。 另外还有主成分分析(PCA),Support Vector Machines(SVM),隐式马尔可夫模型(HMM) 等。 聚类分析是芯片分析方法的一种,它可以将那些 表达数据相关的基因聚集在一起,而聚类后产生 的树状图通过 TreeView 软件则能更直观地观察 聚类分析的结果。
Gene Clustering就是根据统计分析原理,对具有 相同统计行为的多个基因进行归类的分析方法, 归为一个簇的基因在功能上可能相似或关联
5. 主成分分析
通过统计学排序原理,确定方差最大的3个变量; 通过降维处理,形成三维坐标,图像中的每个点 代表相应的芯片情况。表达越相似的芯片在空间 上的定位越接近,相互距离越短。
倍 数 差 异
目的:筛选两组样品之间的差异基因,计算以后 提供两组样品之间的差异倍数。 要求:每组样本只有一个或两个重复。
基因表达谱分析—火山图
单荧光芯片数据组间T 检验分析得到p-value 值 与 Fold change 值两个因素共同绘制火山图 (Volcano plot),用于显示两组样品数据的显著性 差异。 在火山图里,一个坐标显示着由 t-test 演算出来 p-values的负log,另一个坐标显示在两个条件比 较下log2 转换后的改变值。
是一个生物信息数据库,整合了生物学数据和分 析工具,为大规模的基因或蛋白列表(成百上千 个基因ID或者蛋白ID列表)提供系统综合的生物 功能注释信息,帮助用户从中提取生物学信息。
GO surfer
Biological pathways analysis
GenMAPP Expression Dataset Manager
聚 类 图
一种将散在的数据通过数学模式进行归类分组的 方法 提供了一种可以根据基因表达谱的特征对基因进 行初步分类的方法 通过聚类分析,可以发现一些未知基因和某些已 知基因具有相同或相似的表达特征,从而推测出 这些基因的可能生物学功能。
聚 类 分 析
聚类分析实例
通过建立不同的数学模型,可以得到各种统计分 析结果,确定不同基因在表达上的相关性,从而 找到未知基因的功能信息或已知基因的未知功能
Microarray 数据分析
标准化处理(Normalization) Ratio值分析 差异基因筛选
基因聚类分析(Gene Clustering)
标准化处理
利用Genpix软件做图像分析处理得当的仅仅是原 始杂交信号的强度信息,必须对这些数据做进一 步的处理才能的得到有用信息。