第七讲 差异表达基因分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单通道寡核苷酸芯片差异基因(两 个样本直接比较)
Affymetrix,illumina芯片由于有探针重复,可以利用统计方 法计算出一个统计性的P值或者score值,筛选差异表达基因
不同类样本差异基因识别
评价一组数的统计量
232.7 198.2 137.7 84.3 218.6 181.5 216.7 87
错误发现率是评估检验统计显著性的最有 力工具。统计学家都想用更符合统计学的 手段得到差异基因,具体说来就是想用假 设检验后赋予每个基因统计显著性或者P值, 使得每个基因的判别更有统计学上的意义。 为了达到这个目的,统计学家们常常用控 制错误发现率(False Discovery Rate) 的方法来判断差异基因。
Multiple test (Pvalue adjustment)
火山图(volcano plot)
Statistical test: Pvalue Fold change: Ratio
其他方法
B-statistics (Smyth,2004) Bayes T-test (Baldi and Long, 2001) SAMROC (Broberg, 2002) Zhao-Pan method (Zhao and Pan, 2003) ……
Cluster&Treeview软件
Genesis软件
预分析(Pre-Analysis)
重复值合并( replicate handling ) 数据转换和标准化(data transformation and standardization) 缺失数据处理( missing value management ) 基因筛选(pattern selection)
基因表达数据矩阵 (glass slides)
数据矩阵具体形式
数据形式
数据矩阵,基因数远大于样品数
对任意一个基因来说,样本值是特征值,数据的维数是M 对任意一个样本来说,基因值是特征值,数据的维数是N 聚类时考虑基因之间的相似性,从数学上讲 就是看对应的M维数据之间的相似性
Cluster&Treeview软件
单张cDNA芯片差异表达基因
差异表达基因分析
基因表达谱芯片实验的主要目的之一是发现两个 样本间差异表达基因。 通常采用基因在实验组和对照组中信号的比值作 为衡量基因在两种状态下基因的表达差异,在双 色荧光系统中,用Cy5/Cy3的比值来衡量基因的表 达差异,也称表达差异值。在Affymetrix等短的 寡核苷酸芯片中,采用单色荧光标记的方式,实 验组和对照组分别用两张芯片进行检测,表达差 异值即为两张芯片的信号比值。 噪声和芯片本身的一些因素以及生物学本身的特 点给筛选差异表达基因带来了很大的麻烦。必须 设定一个差异表达基因的判定标准。这个筛选的 标准就称为差异表达基因的阈值。
Improved Detection of Differentially Expressed Genes Time series microarray dataset
聚类分析
基因表达数据矩阵 (Affymetrix
GeneChip® oligonucleotide arrays)
sam/ref
数据转换和标准化
数据变换的目的是在尽量保证原始数据特 征不变的前提下,使变换后的数据更适于 进行统计分析。 对数转化(log-transformation) 中心化处理(center) 单位圆化 正态化(均值为0,方差为1)
缺失数据处理
芯片上的某些点可能因为芯片的缺陷、点像素强 度达到饱和、点像素强度非常小等因素而产生异 常的数据点,在数据的预处理阶段把这些数据点 删除。 未观测点 若后续的统计分析要求数据满足完整性,如特征 基因提取的奇异值分解、某些基因的聚类分析方 法等,则需要对含有缺失值的数据进行处理 删除含有缺失值的整条记录,这种方法操作简单, 但却因为个别值的缺失而删除整个记录,可能丢 失大量有价值的信息 填充或修补缺失数据
缺失数据的处理
固定值法,比如0或者1 行平均法 使用重复数据点对缺失数据进行填充。对于生物 学重复中缺失数据的填充应慎重,应当使用尽量 同质的样品对缺失值进行估计。 使用基因间的相关性对缺失数据进行填充。奇异 值分解法,KNN法。 其他方法,最小二乘法拟合修补,方差迭代分析, 最大可能性分析
KNN法
一般性的方法
选择一个统计量给基因排秩来证明表达有 差异 为排秩统计量选择一个判别值,在它之上 的值将被认为是显著的 前面一个部分更为重要,所以研究的较多, 方法也更多,后面那部分的方法稍微简单
重复芯片(replicates)M值
根据比率平均值或 对基因排序。 M值 为信号强度比值的log2值, 是任一特 定基因在重复序列中M值的均值。 这一排序法忽略了一个基因在重复实验中 的不同芯片上表达水平的差异程度。例如, 可能某一个基因在某一张芯片上M值很大, 但在其他芯片上M值很小,其实这条基因并 没有差异表达,但由于个别M值的影响,从 而显示出一个差异表达的特性,造成假阳 性。
平均值 标准差
比较多组数的方法
T检验:平均值 F检验: 方差
ห้องสมุดไป่ตู้
SAM(significance analysis of microarrays)
单通道Oligo芯 片,尤其是 affymetrix芯片 数据分析用得 较多
双通道cDNA芯片数据分析用得较多
False Discovery Rate (FDR)
倍数法
倍数法
倍数法是比较常用的一种方法,因为比较简单和 直接。 但是,这种方法也是有其重大缺陷的。比如,在 某个实验中,基因表达水平的变化不大,如果选 择判别域值为2倍,则有可能找不到几个差异表达 的基因,假阴性率比较高。但如果是主观缩小判 断域值,又有可能增大假阳性率。 这一方法没有考虑到差异表达的统计显著性。
Z值法
在一张cDNA芯片上一般都点了很多基因,其实这 些基因中只有很小一部分表达有差异,所以一般 都假设表达的比率值满足正态分布。 Z=(X-µ)/σ. |Z|>=1.96 在寡核苷酸芯片中,芯片上的基因在相应实验条 件下或相应组织中也只是有很小一部分基因有表 达,可以假定强度满足对数正态分布,同样可以 对其作Z变换,使其具有统计意义。 如果实验体系中没有一条差异表达的基因,Z值法 还是会挑选出5%的差异表达基因。这是因为在芯 片实验中,总有一些由于背景噪声产生的假阳性 点。如果实际上实验中有大量的基因发生表达改 变,Z值法还是机械的找出5%的差异表达基因, 丢失了一部分真阳性点。
T值排序
假如一个基因在几张重复芯片的M值都很小, 但是这些M值非常接近,所以s值也非常小, 这样可能会导致t值很大,从而会把这个本 没有差异表达的基因误认为差异表达。
修正的T值
修正值由样本方差的均数和标准差估计而 得。结果显示:在一个模拟的数据集中, 虽然带有一些经验性质,但用修正t-统计 量给基因排秩比用均数和一般的t-统计量 效果要好。
降维可以减少无用信息和冗余信息,将高维数据转换 为易于处理的低维数据,减少了后续步骤处理的计算量 ,当降至三维以下时还可用于可视化技术,从而发挥人 在低维空间感知上的优点,发现数据集的空间分布、聚 类性质等结构特征。
主成分分析(PCA,principal component analysis)
对于一组原始随机变量为 X1,…,Xp,寻找一个新的 变量Z1,这个新的变量是 原始变量的线性组合, Z1=a11X1+a21X2+…+ap1Xp, 并使得Z1的变异最大化 Z1即为原始变量的最大主 成分,它使用一个变量试 图最大化地包含一组变量 的变异。通常一个变量还 不足够,因此,需要寻找 第二个主成分Z2,Z2与Z1 不相关,且是除Z1外具有 最大方差的原始变量的线 性组合。
第七讲
Quantile Normalization
使每张芯片/通道的强度值有相同的分布 (intensity distribution)
Quantile normalization
Before
Quantile normalization
After
R语言和bioconductor
差异表达基因分析
基因筛选
针对特别目的选取,比如选取不同类之间 差异表达基因。常用的方法,假设检验, 比如t检验,F检验等 不改变整体数据矩阵的数据结构,去除数 据的冗余性。常用方法,主成分分析等。
发展
新算法
新角度
合并多种方法
主成分分析 (Principle Component Analysis)
降维概述
降维是指将样 本从输入空间 通过线性或非 线性映射到一 个低维空间。
基因筛选(gene selection)
在进行分析之前,要先选择用来分析的基因。不 然所有的基因有上万条,也就是数据矩阵有上万 行时,既增加了运算的难度,又引入了不必要的 基因,也增加了解释结果的难度,要预先进行基 因的滤取。 当一条基因表达谱数据中的无效数据个数超过一 定的范围时,这条基因就认为是一条无效基因, 在以后的聚类分析中不把这条基因考虑在内。 一条基因表达谱数据的波动很小,也就是说,数 据的方差小于一定的范围,意味着这条基因与所 要研究的生物过程或对象关联很小,也被滤掉, 不进行聚类分析。 差异表达次数
重复值合并
基因不同命名
重复值合并
Gene ID converter
重复值合并
在特定条件下把所有的重复值合并成一个数值可 能更为方便,而这一个值是给定基因/条件的代表。 通常的合并是指计算这些重复值的集中趋势指标, 如均数、中位数或众数。然而,使用一个集中趋 势指标代替一组数值意味着信息的丢失,因此数 据的合并应谨慎。 去除奇异值。可以通过计算原始数据的均数和标 准差,去除位于给定区间外的数据(如均数加减3 个标准差外的数据)。剩余的数据重新计算均数 和标准差,并消除给定区间外的数据。
K最近邻法(K-nearest neighborhood method): 假定某个基因在某个指标上含有缺失值,计算此 包含缺失值的基因与在该指标上无缺失的基因间 的相似性指标或距离指标(相似性或距离的计算 中不包括欲估计的指标),与该基因相似性最大 的K个基因称为该基因的K个最近邻(k nearest neighborhoods),这K个基因在该观测指标上的 数据就是估计缺失基因数据的基础,估计值可以 是这K个基因在该指标上的均数,也可以是这K个 基因的加权均数。在加权均数中,权重为上面计 算的基因间的相似性。K值的确定具有一定的经验 性,但不宜太大和太小。