聚类分析与分类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
决策树优点: 不需要使用者了解很多背景知识(这同时也是它的最大缺点), 概念 简单, 计算效率高 作为一种非参数分类方法,使用者不需要输入任何参数 分类的结果意义明确, 可解释性强
有关决策树的演变算法也很多
优化方案:修剪枝叶
决策树过度拟合往往是因为太过“茂盛”,也就是节点过多,所以需 要裁剪(Prune Tree)枝叶。裁剪枝叶的策略对决策树正确率的影响很大。
双向聚类
以上对基因表达谱采用的都是单向聚类 法(one-way clustering),即要么以整 个样本中特性相似的基因进聚类,或者 以基因表达相似的样本进行聚类。 对样本和基因同时进行聚类就是双向聚 类法
双聚类的目的:
在基因表达数据矩阵中寻找满足条件的 子矩阵,使得子矩阵中基因集在对应的 条件集上表达波动一致,反之亦然。不 同的双聚类算法采用不同的方式度量结 果质量,所能找到的双聚类类型是有很 大差别的。
K均值聚类
K 均值(K-means)聚类在数据划分上不考虑类的分层结构问题
步骤:
• 随机选择初始类中心 • 将所有的表达谱分配到 K 个类中,根据欧氏距离,反复计算每个类的 类中心,然后将每个表达谱分配到类中心与之最接近的类中 , 形成新 的类再计算新的类中心 • 直至类中心保持不变, 或达到最大叠代次数。该算法使待聚类的所有 向量到聚类中心的距离的平方和最小
聚类分析
基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。 聚类分析是一种 无监督学习方法,不需要任何先验领域知识。从生 物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内 基因的表达谱相似,它们可能有相似的功能。 但聚类只是为了寻求类,不管所聚的类别是否有意义。
聚类分析相似性(距离)尺度函数
总的来说, 对同一种聚类算法 , 所用度量函 数不同,结果也可能不同。
聚类算法
对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不 全面,没有聚类的先验知识,所以通常采用无监督学习方法。 在基因表达 数据分析方面,层次聚类、 K 均值聚类、自组织映射聚类在应用中是常用的 方法。 下面主要介绍这几种常用的聚类方法。
K-均值聚类优点: 采用误差平方和为准则函数的动态聚类方法,其计算快速,适合于大规模 的数据计算 K-均值聚类缺点: 要求预指定类数 ,而实际应用中很难预测类数, 因此需要通过试误 ,即使用多 套不同的参数设定,比较其结果 ,并且从生物学角度对结果进行验证 。 需要用随机初始类中心,不同的随机类中心会有得到完全不同的结果 是完全无结构的方法,聚类的结果是无组织的
k-medoids的运行速度较慢
k-medoids对噪声鲁棒性比较好 虽然k-medoids也有优点,但是只能对小样本起作用,样本一大其速度就太 慢了,而且当样本多的时候,少数几个噪音对k-means的质心影响也没有想象中 的那么重,所以k-means的应用明显比k-medoids多的多。
决策树
常见的相似性度量: 对基因表达谱进行聚类分析之前,必须首先确定反映 不同基因表达谱相似程度的度量函数,根据该函数可以将 欧氏距离( Euclidean distance ) 相似程度高的基因分为一类。在实际计算中,还可以用距 离代替相似的概念,相似性度量被转化为两个基因表达谱 Pearson 相关系数(Pearson' s correlation coefficiency ) 之间的距离。距离越小,表达模式越相近;反之,则表达 模式差异大。 互信息( mutual information )
距离度量标准
层次聚类优点: 容易理解和实现 所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系, 尤其是类与类之间的关系
层次聚类缺点: 算法的时间复杂度大 结果依赖聚类的合并点和分裂点的选择 层次聚类过程最明显的特点就是不可逆性,也就是说,一旦聚类结果形 成,想要再重新合并来优化聚类的性能是不可能的了 聚类终止的条件的不精确性,要求指定一个合并或分解的终止条件,比 如指定聚类的个数或是两个距离最近的聚类之间最小距离阈值
分类分析
上述无监督的聚类分析可同时对样本和基因进行聚类。而有监督的分类分 析一般是单向的,即以基因为属性,构建分类模式对样本的类别进行预测。还 可以同时进行疾病相关基因的挖掘。 常用分类方法: • Fisher线性判别 • K近邻分类法(略) • PAM方法 • 决策树
Fisher线性判别
Fisher线性判别的思想是: 找到一个投影矩阵,通过这个投影矩阵将各类样本数据映射到一个新的空间, 使得投影后两类相隔尽可能远,而同一类内的样本尽可能聚集。
重抽样方法:
• • • • n倍交叉验证 Bagging 无放回随机抽样 留一法交叉验证(LOOCV)
分类效能指标: • • • • • 灵敏度 特异性 阳性预测率 阴性预测率 均衡正确率
聚类分析软件 Cluster TreeView
THANK YOU FOR WATCHING
聚类分析与分类分析
——XXX 学号
数据聚类和分类是重要的数据挖掘方法,表达谱基因聚类可以将那些具有相 关功能和共调控关系的基因聚在一起,用于推断调控基因、注释基因功能和确立 分子标签, 为进一步详细研究基因的功能打下基础。 表达谱样本聚类可以帮助发 现新的疾病亚型。样本分类可以提高复杂疾病诊断的正确率。
决策树是一种常用于预测模型的算法,它通过将大量数据有目的的分 类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分 类速度快,特别适合大规模的数据处理
分割准则:
Gini指数变化 信息增益(熵) 上面两个准则是值越大,表示节点越 “不纯”,越小表示越“纯” (二者选一即可)
决策树应用于肿瘤基因表达谱的分类分析
像上图所示的两种投影方案,左边的投影方向可以将两种样本区分开 来,而右边的投影方向不能区分开来,所以左边的投影方向更好。
PAM方法
又叫K-medoids(K-中心点)聚类,使K-means(K-均值)聚类的改进。 基本思想:每类样本的质心向所有样本的质心进行收缩。
基因2
基因1
K-均值聚类和K-中心点聚类区别: k-means的质心是各个样本点的平均,可能是样本点中不存在的点 k-medoids的质心一定是某个样本点的值 这个不同使他们具有不同的优缺点:
主要有两种剪枝方法:
前剪枝: 在构建决策树的过程时,提前停止。那么,会将切分节点的条件设置 的很苛刻,导致决策树很短小。结果就是决策树无法达到最优。实践证明 这种策略无法得到较好的结果。 后剪枝:
决策树构建好后,然后才开始剪枝。后剪枝有个问题就是计算效率, 有些节点计算后就被剪枝了,导致有点浪费。
分类效能评价
欧氏距离
Minkowski Distance公式 不是一种距离,而是一组距离的定义 λ可以随意取值,可以是负数,也可以是正数,或是无穷大
Euclidean Distance公式 明氏公式λ=2的情况
欧氏距离( Euclidean distance )是一个通常采用的距离定义,它 是在空间中两个点之间的真实距离。
Pearson 相关系数
从本质上说 Pearson 相关系数是测量两个表达矢量所指方向的相似性, 处理 时将其视为单位矢量,因而对幅度的变化不敏感。 几何距离比较适合衡量样本间的相似性或 基因在样本空间(如不同组织间)的相似性。 但若两个不很相似的基因表达谱在某一突出的的峰或谷特别相关的话, 当基因表达数据是一系列具有相同变化趋势的 Pearson 相关系数可能得出假阳性。 数据时,运用几何距离会丢失重要信息 相关系数的一个有趣的性质是它可用来检测负相关的基因
源自文库
互信息
考虑到了两个或多个基因对同一输入基因控制信号反应可能不同 ,一 目前,还没有理论来指导如何选择最好的相 个基因可能上调 ,而另一个可能下调。这两种基因反应虽然不同, 但 似性度量,也许一个“正确”的距离在表达模式 常被认为功能相关 。 空间是不存在的,选择何种度量函数依赖于我们 要解决的问题。
SOM优点: 可以将高维表达谱映射到二维, 从网格上的数据可以清楚地看到数据 (基因或样本)的空间聚类情况,这非常有利于理解样本之间的关系 具有稳健准确和抗噪能力强的优点
SOM缺点:
也需要预先指定参数(节点群的拓扑构形) 是一种拓扑保留的神经网络, 易产生不均衡分类。若不相关数据过多, 感兴趣的数据较少时,分辨率可能会很低。因此,在应用 SOM对基因表 达谱聚类前,需要对数据进行筛选
距离和相关系数反映的都是基因表达谱 之间的相似性,这种相似性反映了基因的共 表达行为,而基因的行为是复杂的,它们之 间存在调控和被调控的关系,或者存在调控 链,调控还有正性调控和负性调控之分。对 于这些调控关系,它们的表达谱往往是不相 似的,或者存在时延、或者存在反相,而基 因表达的幅度也可能不相等。 呢? 如何从数据中发现这些复杂的基因关系
自组织映射聚类(SOM)
在 SOM 算法中 ,使用者预先指定一个具有某种拓扑构形的结点群(即二 维网格 -每个结点对应一个类), 在将这些结点随机映射到基因表达数据空间, 再反复随机挑选一个表达谱 ,将与之最近的结点向它移近, 其他结点随之移动, 但移动距离与初始结点拓扑结构中结点间距离成比例。反复挑选表达谱 , 并 移动结点
层次聚类
层次聚类法,在统计分析中也称为系统聚类法。 其就是一层一层的进行聚类,可以由上向下把大的类别(cluster)分 割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法; 但是一般用的比较多的是由下向上的凝聚方法。
凝聚法: 首先将每个表达谱当作一个类, 根据一定的距离度量标准计算两类间的 距离 。然后反复地将距离最近的两类合并为一类 ,并重新计算类间距离 ,直 到达到某种终止标准或只剩一个类 。这一过程产生一树状结构, 树枝高度与 类间距离成正比。最后选取某一水平(即某一类间距离)的类数作最终结果 。