第七讲_差异表达基因分析 共64页
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因表达数据矩阵 (glass slides)
数据矩阵具体形式
数据形式
数据矩阵,基因数远大于样品数 对任意一个基因来说,样本值是特征值,数据的维数是M 对任意一个样本来说,基因值是特征值,数据的维数是N
聚类时考虑基因之间的相似性,从数学上讲 就是看对应的M维数据之间的相似性
Cluster&Treeview软件
单张cDNA芯片差异表达基因
差异表达基因分析
基因表达谱芯片实验的主要目的之一是发现两个 样本间差异表达基因。 通常采用基因在实验组和对照组中信号的比值作 为衡量基因在两种状态下基因的表达差异,在双 色荧光系统中,用Cy5/Cy3的比值来衡量基因的 表达差异,也称表达差异值。在Affymetrix等短 的寡核苷酸芯片中,采用单色荧光标记的方式, 实验组和对照组分别用两张芯片进行检测,表达 差异值即为两张芯片的信号比值。 噪声和芯片本身的一些因素以及生物学本身的特 点给筛选差异表达基因带来了很大的麻烦。必须 设定一个差异表达基因的判定标准。这个筛选的 标准就称为差异表达基因的阈值。
Improved Detection of Differentially Expressed Genes Time series microarray dataset
聚类分析
基因表达数据矩阵 (Affymetrix
GeneChip® oligonucleotide arrays)
sam/ref
双通道cDNA芯片数据分析用得较多
False Discovery Rate (FDR)
错误发现率是评估检验统计显著性的最有 力工具。统计学家都想用更符合统计学的 手段得到差异基因,具体说来就是想用假 设检验后赋予每个基因统计显著性或者P值, 使得每个基因的判别更有统计学上的意义。 为了达到这个目的,统计学家们常常用控 制错误发现率(False Discovery Rate) 的方法来判断差异基因。
不同类样本差异基因识别
评价一组数的统计量
232.7 198.2 137.7 84.3 218.6 181.5 216.7
87
平均值 标准差
比较多组数的方法
T检验:平均值 F检验: 方差
SAM(significance analysis of microarrays)
单通道Oligo芯 片,尤其是 affymetrix芯片 数据分析用得 较多
一般性的方法
选择一个统计量给基因排秩来证明表达有 差异 为排秩统计量选择一个判别值,在它之上 的值将被认为是显著的 前面一个部分更为重要,所以研究的较多, 方法也更多,后面那部分的方法稍微简单
重复芯片(replicates)M值
根据比率平均值或 对基因排序。 M值为 信号强度比值的log2值, 是任一特定基 因在重复序列中M值的均值。
倍数法
倍数法
倍数法是比较常用的一种方法,因为比较简单和 直接。 但是,这种方法也是有其重大缺陷的。比如,在 某个实验中,基因表达水平的变化不大,如果选 择判别域值为2倍,则有可能找不到几个差异表达 的基因,假阴性率比较高。但如果是主观缩小判 断域值,又有可能增大假阳性率。 这一方法没有考虑到差异表达的统计显著性。
修正的T值
修正值由样本方差的均数和标准差估计而 得。结果显示:在一个模拟的数据集中, 虽然带有一些经验性质,但用修正t-统计量 给基因排秩比用均数和一般的t-统计量效果 要好。
单通道寡核苷酸芯片差异基因(两 个样本直接比较)
Affymetrix,illumina芯片由于有探针重复,可以利用统计方 法计算出一个统计性的P值或者score值,筛选差异表达基因
这一排序法忽略了一个基因在重复实验中 的不同芯片上表达水平的差异程度。例如, 可能某一个基因在某一张芯片上M值很大, 但在其他芯片上M值很小,其实这条基因 并没有差异表达,但由于个别M值的影响, 从而显示出一个差异表达的特性,造成假 阳性。
T值排序
假如一个基因在几张重复芯片的M值都很 小,但是这些M值非常接近,所以s值也非 常小,这样可能会导致t值很大,从而会把 这个本没有差异表达的基因误认为差异表 达。
ຫໍສະໝຸດ Baidu
Cluster&Treeview软件
Genesis软件
预分析(Pre-Analysis)
重复值合并( replicate handling ) 数据转换和标准化(data transformation and standardization) 缺失数据处理( missing value management ) 基因筛选(pattern selection)
第七讲
Quantile Normalization
使每张芯片/通道的强度值有相同的分布 (intensity distribution)
Quantile normalization
Before
Quantile normalization
After
R语言和bioconductor
差异表达基因分析
Z值法
在一张cDNA芯片上一般都点了很多基因,其实 这些基因中只有很小一部分表达有差异,所以一 般都假设表达的比率值满足正态分布。 Z=(X-µ)/σ. |Z|>=1.96 在寡核苷酸芯片中,芯片上的基因在相应实验条 件下或相应组织中也只是有很小一部分基因有表 达,可以假定强度满足对数正态分布,同样可以 对其作Z变换,使其具有统计意义。 如果实验体系中没有一条差异表达的基因,Z值法 还是会挑选出5%的差异表达基因。这是因为在芯 片实验中,总有一些由于背景噪声产生的假阳性 点。如果实际上实验中有大量的基因发生表达改 变,Z值法还是机械的找出5%的差异表达基因, 丢失了一部分真阳性点。
Multiple test (Pvalue adjustment)
火山图(volcano plot)
Statistical test: Pvalue Fold change: Ratio
其他方法
B-statistics (Smyth,2019) Bayes T-test (Baldi and Long, 2019) SAMROC (Broberg, 2019) Zhao-Pan method (Zhao and Pan, 2019) ……