聚类分析和可视化 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

当m=1，Minkowski距离即为马氏距离；当
m=2时，Minkowski距离即为欧氏距离。
wk.baidu.com
欧氏距离与马氏距离的区别欧氏距离，即两项间的差是每个变量值差的平方和再平方根，目的是计算其间的整体距离即不相似性。欧氏距离的缺点是将样品的不同属性（即各指标或各变量）之间的差别等同看待，这一点有时不能满足实际要求。马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。
x,y间的距离小于或等于它们与第三个点z之间的距离和
一、欧氏距离

欧氏距离(Euclidean distance)

平方欧氏距离(squared Euclidean distance)

标化欧氏距离(standardized Euclidean distance)
标化欧氏距离在特定情况下提供较好的结果
利用极差标化欧氏距离
二、马氏距离
马氏距离（Manhattan
distance)，又称为
city-block距离
三、Chebychev（最大）距离
使用在n次实验中两个基因测量值差别最大的
值作为两个基因间的距离。
四、Minkowski距离
明考夫斯基距离是欧氏距离和马氏距离的更
一般形式
第九章聚类分析和可视化
Department of Bioinformatics College of Bio-safety Science & Technology Hunan Agricultural University
聚类分析

聚类分析(clustering anaIysis)是基因表达数据分析最常用的多变量技术，在没有关于数据的先验知识时，对不同的样本或实验间的相似性进行研究。
在机器学习的框架内聚类分析又称为非监督学习方法。基因表达数据矩阵中，聚类的对象：基因、样本或序列

聚类的基础是对象(或称观测个体)间的相似
性(或非相似性)。相似性指标用于度量欲对
其进行聚类的对象之间的相似程度。
聚类就是把相似的个体划分到相同的组别，
而把不相似的个体划分到不同组别的过程。
1.单联结 2.全联结 3.平均联结 4.质心联结 5.Wald法
系统聚类图（平均联结）
单联结
全联结
（二）分裂法

凝聚算法在系统树的顶部通常并不能较好地反映数据的结构，因为在顶部阶段时已完成很多次的合并，而这些类的合并都是建立在前期合并的基础上，因此，如果早期的合并存在问题，将影响后面的合并，并且前期的合并是不可逆的。如果聚类的目标在于把所有观测个体分为少数几个类，分裂法期望能产生更有判断力、更灵敏的分割，但是，进行多次分割后的结果通常也不能给出较好的分类结果。
确定相似性指标
第一节相似性或距离的度量
n维空间中的两个点x、y间的距离d具有如下
属性：
1)
对称性: d(x,y)＝d(y,x) 指从x到y的距离等于y到x
的距离
2)
非负性: d(x,y) ≥0 指两点x,y间的距离大于或等于0
3)
三角不等性: d(x,y) ≤d(z,x)十d(z,y)指两个点
凝聚法和分裂法的比较
分裂算法快速（运算复杂度为nlgn,n2)，但
不一定得到更好的结果，也不一定能非常准确反映数据的结构特征。
凝聚法运算复杂度（n2,n3)
比较不同的聚类方法的聚类结果
聚类树的切割
系统聚类
系统聚类是目前基因聚类中最常用的方法之
一，因为它仅需要确定类的合并规则和相似性度量指标．且得到的系统树图便于对基因间的相似性进行评价。它的主要缺点在于基因的分类数需要由用户确定，且当相似短阵较大时计算量较大。
利用相关系数计算距离
平均点积
向量间的角度协方差
Pearson相关距离
第二节聚类算法
聚类算法任务就是寻找到最优函数C，使得
类内的非相似性最小。
聚类算法常被分为两大类：分割方法和系统
方法。分割方法把观测个体最优地分割到固
定数目的类中，系统方法将产生类的嵌套式
的分类序列。
一、系统聚类
优点：适合于需要关注不同水平分类细节时
的分类。
系统树图（dendrogram)
相同的系统聚类方法产生的结果确定，分割
法（K-均值聚类）产生的结果不确定。
凝聚法和分裂法
（一）凝聚法：
初始时n个观测个体形成n个类，每个类中包含一个模式(观测个体)，在每一步中，最相似的两个类进行合并，直到所有的观测形成一个类。
分割聚类
对于一个给定的微阵列矩阵，分割聚类
(partitioning methods)将把观察个体分为预定的几部分，使得对个体的分割达到最忧的客观标准．即类内个体问的相似性达到最大，而类间的相似性达到最小。最常用的分割算法为k—means法、k—medoids法和自组织图。