第7章 拟合优度检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
KS检验的应用-GSEA
• Gene Set Enrichment Analysis (GSEA) • References
– Subramanian et al. PNAS 102:15546, 2005. – Tian et al. PNAS 102:13544, 2005. – Mootha et al. Nature Genetics 2003.
– As Phit is the empirical distribution for genes in S, while Pmiss is the one for genes outside S.
GSEA Overview
Effect of Weight p.
Estimating Significance
• Randomly assign the original phenotype labels to samples, reorder genes, re-compute ES(S). • Repeat for 1000 permutations, and create a histogram of the corresponding ESNULL; • Estimate nominal p-value for S from ESNULL and observed ES(S).
Introduction of GSEA
• First explored in Mootha’s Nature Genetics (03) paper, fully formulated in PNAS(05) paper. • GSEA: evaluate microarray data at the level of gene sets, which is defined based on prior knowledge (such as gene sets from GO categories or pathways from KEGG).
自由度修正
• 定理7.2 (Fisher 1924) 在零假设下,设 是似然方程组的相合解,则
KS统计量
• KS检验是 Kolmogorov-Siminov 检验的缩 写,直接在分布函数上进行。 • 设
• 经验分布函数
KS统计量
• 对双边检验问题
• 对单边检验问题
Distribution-Free
Chi-square统计量的极限分布
• 因为似然比的对数以卡方分布作为极限分 布,容易想见Chi-square统计量也以卡方分 布作为其极限分布。 • 定理 7.1 在零假设 square统计量有 下,Chi-
自由度修正
• 上面定理中零假设参数是给定的,但更多 的时候只是将分布的形式给出,参数需要 从数据中估计,这时候需要对自由度进行 修正 • 此时问题可以这样表述:理论分布F含有s 个位置参数,样本空间分割成k个互不相交 的区域, • 根据样本可以得到参数的估计值 由相应 的 构造chi-square统计量
• 定理7.7 设
是连续分布函数,则
推论
• 推论7.8 设 是连续分布函数,则 令 当 时, V以自由度为2 的卡方分布作为极限分布. • 证明: 于是
即
服从自由度为2 的卡方分布
注记
• 对分布族进行检验时,用估计参数的分布 来定义类似的KS统计量 • 此时没有离散时那么好的结论。零假设下 其分布复杂。 • Lilliefors1967年指出,对正态分布检验时如 果仍然采用原来的临界值作出拒绝域,其 结果相当保守. 采用Monte Carlo方法给出 临界值表格
• 讨论重点:如何构造统计量,如何确定统 计量的分布
简单想法
• 多项分布的极大似然为在相应的频率处达 到 • 似然比统计量
简单想法
• Taylor展开到二阶,
• 于是
Chi-square统计量
• 1900年Pearson提出了Chi-square统计量
• 和上面的讨论相比,只是把分母的ni替换成 而 这种替换是合理的,因为由大数定律频率是概率 的相合估计,即
Motivation (I)
• Genome-wide expression profiling with microarrays has become an effective frequently used technique in molecular biology;
Motivation (II)
• 定理7.3 KS统计量 分布的. 是适应于任意
• 证明思路:将统计量表示成为有限个样本 点上取值的某个函数。而在样本点上的取 值完全可以看成是 [0,1]上均匀分布的样本 点,故为Distribution-Free.
定理7.3 证明(I)
• 证明:首先 令 则
定理7.3 证明(II)
• 同理得 • 在零假设下, 可以看成是均匀分布上 的样本,于分布F(x)无关,故其是适应于任 意分布的。
Overview of GSEA
• Given a prior defined gene set S , GSEA is to determine whether members of S are randomly distributed throughout the list, or primarily found at the top or bottom in the list. • Step of GSEA:
KS统计量的分布
• 定理7.4 设分布函数 KS统计量 在零假设下有 连续,对于单边
其中
定理7.4的证明(I)
• 证明:不妨设 的分布函数, 则 为(0,1)上的均匀分布
对
定理7.4的证明(II)
• 其中次序统计量的分布
KS统计量的分布
• 定理7.5 设分布函数 在零假设下有 连续,KS统计量
An Existing Way to Study Enrichment of Gene Categories
• Statistical procedures such as Fisher’s exact test based on the hypergeometric distribution are used to test if members of a list of differentially expressed genes are overrepresented in given GO categories or in predefined gene sets compared with the distribution of the whole set of genes represented on the chip. • Tools developed along this line include:
Challenges in Interpreting Gene Microarray Data
• May obtain a long list of statistically significant genes without any obvious unifying biological theme; • Even with DEG list(s) of up and/or downregulated genes, still need to accurately extract valid biological inferences. Cutoff for inclusion in DEG lists is somewhat arbitrary. Must address multiple hypothesis testing.
• Interpreting the results to gain insights into biological mechanisms remains a major challenge; • For a typical study (e.g., experimental condition vs. control, disease state vs. normal, tumor type A vs. tumor type B), a standard approach has been to produce a list of differentially expressed genes (DEGs);
– – – – – GOMINER; GENMAPP; ONTO-TOOLs; CHIPINFO; GOSTAT.
Hypergeometric Distribution
• N个球的盒子,m个红球,无放回抽取n次 中有k个红球的概率
• 列联表
抽取 红球 白球 总数 k n-k n 未抽取 m-k N+k-n-m N-n 总数 m N-m N
Where p is a constant to control the weight of ranks.
Calculation of ES
• The ES is the maximum deviation from zero of Phit-Pmiss. • For a randomly distributed S, ES(S) will be small, but if it is concentrated at the top or bottom of the list, the score will be high. • When p=0, this reduces to the standard Kolmogorov-Smirnov statistic.
其中
定理7.5的证明(I)
• 证明:不妨设 的分布函数, 记 为(0,1)上的均匀分布
定理7.5的证明ห้องสมุดไป่ตู้II)
• 其中次序统计量的分布
大样本性质
• 1933年, Kolmogorov给出了如下定理, 1948 年, Feller给出了一个相对简单的证明. • 定理7.6 设 是连续分布函数,则
第7章 拟合优度检验
• Chi-Square检验; • Kolmogorov-Siminov检验(KS检验) • KS检验的应用:GSEA
分布检验
• 问题: 给定一组i.i.d 样本,我们希望对样本 的分布函数或者分布函数族进行检验 • 意义:T检验是常用的假设检验方法,但分 布函数族为正态分布时功效最大。因此如 果可以通过检验说明样本接近正态分布, 就可以放心地使用T检验。
– Calculation of an enrichment score (ES). – Estimation of significance level of ES. – Adjustment for MHT.
Calculation of ES
• Notation: D is the expression dataset with N genes and k samples; C is a phenotype or profile of interest; NS is gene number of S, • Rank order N genes to form L={ g1,, gN} according their correlation r(gj)=rj. • Define:
Limitation of Above Methods
• No further use made of information contained in expression values for the non-DEG list genes • The level of differential expression of the genes in the significant gene list is not taken into consideration. • The correlation structure of the expression data is not considered at all.
分布检验
• 检验问题
• 两种处理方式:
– 离散:Chi-square检验 – 连续:KS检验
离散化处理
• 将X的样本空间S划分为K个互不相交的部 分 ,满足
• 令 随机抽取n个观 测值,X落在Si的数目设为ni服从多项分布
离散后的检验问题
• 观察到落入每个区域Si的个数为ni, 如何检 验多项分布的参数,即 • 离散检验问题