基于系统的多源多层组学数据分析结课报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

“基于系统的多源/多层组学数据分析”学习体会

我的本科专业与生物统计不相关，所以背景知识较为缺乏，我选择本门课的目的是为将来研究生期间的学习打一些基础。其实这门课对我来说有些深奥，我就从基本的概念方法等方面对“基于系统的多源/多层组学数据分析”进行总结归纳，以及谈一下自己的学习心得和阅读体会。

下面主要从“基于基因集分析”和“基于基因网络分析”两个方面展开阐述。

一、基于基因集分析

1、基因集概念：基因的一个集合，如：属于相同统计群的所有基因组成的集合；涉及一个特定路径的所有基因组成的集合；在特定文章中提到的所有基因组成的集合等。

2、本质：在相同集合中的基上因通常是一致的，而不是相互独立的。它们应该作为一个整体而不是个体被学习。

3、如何构造：统计学上的群（假定功能相近的基因有共同联系的度量；K -均值，分层）。从生物学上的建构（GO ；KEGG ；Wikipathways ；MsigDB ）。

4、分类：

一个表型可以被看做一个基因集，因此可以通过研究基因集的关联来发现基因影响表现的机制。有许多基因集分析方法，如基因集边际分析、基因集关联分析（GSEA ）等。

（1）基因集边际分析：

目标：识别哪个基因集与因变量有重要的联系。

方法：

（a ）自限性方法：只使用在一个特定集合中基因的度量。

零假设：{}型相关联基因集内没有基因与表=0H

算法：Q2; Globaltest; FCS.SC; ES.SC

（b ）竞争性方法：比较一个基因集合与另一个基因集合。

零假设：{}基因更加紧密的关联不比基因集外的基因集内的基因与表型=0H 算法：Q1; FCS; GSEA （富集分析）; GSA; SAFE

（c ）比较：相同的设定条件下，自限性方法的筛选率高于竞争性方法。但当两组间均数相差较小时，两种方法均不能较好地识别组间差异。

（2）基因集关联分析：

基因集关联分析利用密度和P 值对基因集进行检验取得良好的效果。该方法提供了一个有效的手段来分析生物途径之间的关联，一方面通过分子相互作用网络增加了信号强度，另一方面从基因集整体的角度，将集内基因的信号整合作为集合的特征来提高信号强度，从而有效的提高了分析敏感性。

下面主要讨论基因集关联分析中的降维和变量选择：

（a ）降维：

Step1:构造基因集或路径

Step2:在每个基因集合内做PCA

Step3:识别每个集合中前几个PCs

Step4:使用PCs 进行回归分析

注意：实践上很简单（使用现有的软件可轻松实现）；PCs 可有很多功能性的解释。

（b ）变量选择：

本质：将每个基因集看作一个群

一层或两层的选择可以通过惩罚, thresholding,和其他正则化方法来构建

二、基于基因网络分析

1、区别：基于基因集分析：关注两个基因是否有联系，然而没有联系度

基于基因网络分析：可以通过提供联系度和联系方向的信息。

j k a ,：基因k 和基因j 的邻接度量（值越大说明两个基因统计上或功能上接近，或有很强的联系）

2、方法

（1）生物的方法

淘汰学：删除或修正一个基因，看它是如何影响其他的。蛋白质相互作用为基础的网络：使用后阶段产品或前阶段调节的信息。

优势和劣势：

（a ）直接描述因果关系

（b ）产生一个定向的网络（可能k j j k a a ,,≠）

（c ）只应用于小数量的基因。若全面的推断网络，需要的是同时地淘汰大量的基因。

说明：这个领域已经展开（在数据收集和方法论的发展上），然而一个综合的阐述、讨论或比较仍然空缺。

（2）统计的方法

WGCNA ；Graphical Lasso ；Bayesian network ；Boolean network......

方法1：Graphical Lasso

假设服从多元正态分布；两个节点是条件独立的如果在∑1-上对应的元素是0（其中∑是协方差矩阵）；这意味着∑1-的一个稀疏的估计；Lasso 和其他的

正则化方法被应用于产生稀疏估计。

方法2：WGCAN （加权基因共表达网络分析）

WGCAN 网络是不定向的（adjacency 矩阵是对称的）；是加权的（adjacency measure 是连续值）

WGCAN 算法：1,2,3,4,5

（3）回归

对于接下来的分析，我们假定网络结构已经被构建，以至于我们有全体模块、连接性度量、adjacency 度量等。现在主要目标：运用网络结构或信息去帮助回归。

➢ 基于网络的边际分析

1，基于节点分析

（1）一个经验观察：有较高的内模块相连性的基因有更大的可能与疾病结果和表现型联系。

讲得通吗？有可能（一些简单的疾病，如囊性纤维化，因为一个单个的或一些基因组的改变引起）；然而，复杂的疾病由于系统层的改变，高联系性节点更容易引起这个改变。

（2）策略：联系性提供给边际统计的意义一些额外的信息；一个策略是注意有高统计意义和高内模块联系性的基因。

（3）例子：120个恶性胶质瘤病人的存活率。

（4）注意：这个方法并不是万无一失的，高关联性并不是必要的或有效的；相反的例子：非常强的信号、拥有补偿作用的基因。

2，基于模块的边际分析

（1）假设有M 个模块，用)(j m 表示基因j 的模块成员数，定义一个由模块m 中的基因组成的向量{}m j m X X j m ==)(:

（2）法1：对M m ,...,2,1=，计算模块意义度量，如m X Y ~对比1~Y 的似然比测试中的P 值（m p ），如果模块大，需要正则化的估计（如ridge ）；对{}m p p ,..,1应用FDR 或Bonferroni 。

（3）法2：对于模块M m ,...,2,1=，进行PCA 和识别本征基因m ξ；对于M m ,...,2,1=，建立回归模型m Y ξ~，用m p 表示P 值，注意这是单变量回归问题；对{}m p p ,..,1应用FDR 或Bonferroni 。

其中本征基因是每个模块中第一重要的成分，是一个最高关联的基因。

➢ 基于网络的关联分析