聚类分析及其应用实例.ppt
合集下载
聚类分析及其应用实例ppt课件
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
Outlines
聚类的思想 常用的聚类方法 实例分析:层次聚类
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
3. 实例分析:层次聚类算法
定义:对给定的数据进行层次的分解
第4 步
➢
凝聚的方法(自底向上)『常用』
思想:一开始将每个对象作为单独的
第3 步
一组,然后根据同类相近,异类相异 第2步 的原则,合并对象,直到所有的组合
并成一个,或达到一个终止条件。 第1步
a, b, c, d, e c, d, e d, e
X3 Human(人) X4 Gorilla(大猩猩) X5 Chimpanzee(黑猩猩) X2 Symphalangus(合趾猿) X1 Gibbon(长臂猿)
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
离差平方和法( ward method ):
各元素到类中心的欧式距离之和。
Gp
Cluster P
Cluster M
Cluster Q
D2 WM Wp Wq
G q
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
凝聚的层次聚类法举例
Gp G q
Dpq max{ dij | i Gp , j Gq}
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
Outlines
聚类的思想 常用的聚类方法 实例分析:层次聚类
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
3. 实例分析:层次聚类算法
定义:对给定的数据进行层次的分解
第4 步
➢
凝聚的方法(自底向上)『常用』
思想:一开始将每个对象作为单独的
第3 步
一组,然后根据同类相近,异类相异 第2步 的原则,合并对象,直到所有的组合
并成一个,或达到一个终止条件。 第1步
a, b, c, d, e c, d, e d, e
X3 Human(人) X4 Gorilla(大猩猩) X5 Chimpanzee(黑猩猩) X2 Symphalangus(合趾猿) X1 Gibbon(长臂猿)
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
离差平方和法( ward method ):
各元素到类中心的欧式距离之和。
Gp
Cluster P
Cluster M
Cluster Q
D2 WM Wp Wq
G q
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
凝聚的层次聚类法举例
Gp G q
Dpq max{ dij | i Gp , j Gq}
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
聚类分析(共8张PPT)
第4页,共8页。
聚类分析
三、聚类分析中的测度与标准化
在聚类分析技术的发展过程中,形成了很多种测度相似性的方法。每一种方法 都从不同的角度测度了研究对象的相似性。
在数据采集过程中,一般可以用三种方式采集数据:二分类型数据、等级类型 数据和连续类型数据。在进行聚类分析时可以根据不同的数据特点采用相应的测度 方法。
尽量避免绝对数据。
研究个案 A B C
受教育年限 10 16 6
年收入(万元) 2
1.5 1
年收入(元) 20000 15000 10000
A、B、C在不同距离单位时的距离图
A
B
B
10.01
C
A
10000
C
单位:万元
第6页,共8页。
单位:元
聚类分析
四、常用两种聚类分析方法
1.快速聚类法
快速聚类过程是初始分类的有效方法。适用于大容量样本的情形,由用户指定须聚类的 类数之后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。
m维空间中点与点之间的某种距离就可用来描述样品之间的亲疏程度。 而聚类分析则较常使用于将变量属性相似程度较高的观察值,加以分类,使类与类间的异质性达到最大,而同一类的几个观察值同质性很高。 ③对数据进行变换处理,(如标准化或规格化);
mm维维空 空间间中中点点与与点点实之之际间间的的应某某用种种距距时离离,就就可可两用用者来来描描的述述主样样品品要之之差间间的的别亲亲在疏疏程程于度度因。。子分析是针对“变量”予以分组,而聚类分析 按照这种方则法是不断将进“行合观并察,直值到个把所体有”的样予品以合为分一组个,大类亦为即止。因子分析时,根据因变量(题项)间关系密切与 四⑦、最常 后用绘两制否种系,聚统类聚将分类变析谱方系量法图予,按以不分同的类分(类标分准为或不几同个的层分类面原因则,子得)出不;同而的分聚类类结果分。析则较常使用于将变量属性相似 从数据结构程和度统计较形高式上的看观,因察子值分析,是加一种以“横分向类合并,”的使方类法,与聚类类分间析的则是异一质种“性纵向达合到并”最的方大法,。 而同一类的几个观察值 适每用一于 种大方容法同量都质样从本不性的同很情的形角高,度。由测用度户了指研定究须对聚象类的的相类似数性之。后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。 研究学生学业差异、因教师素教分学水析平:等等横,向都需简要化对研,究聚对象类进分行分析类:。纵向分组
聚类分析
三、聚类分析中的测度与标准化
在聚类分析技术的发展过程中,形成了很多种测度相似性的方法。每一种方法 都从不同的角度测度了研究对象的相似性。
在数据采集过程中,一般可以用三种方式采集数据:二分类型数据、等级类型 数据和连续类型数据。在进行聚类分析时可以根据不同的数据特点采用相应的测度 方法。
尽量避免绝对数据。
研究个案 A B C
受教育年限 10 16 6
年收入(万元) 2
1.5 1
年收入(元) 20000 15000 10000
A、B、C在不同距离单位时的距离图
A
B
B
10.01
C
A
10000
C
单位:万元
第6页,共8页。
单位:元
聚类分析
四、常用两种聚类分析方法
1.快速聚类法
快速聚类过程是初始分类的有效方法。适用于大容量样本的情形,由用户指定须聚类的 类数之后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。
m维空间中点与点之间的某种距离就可用来描述样品之间的亲疏程度。 而聚类分析则较常使用于将变量属性相似程度较高的观察值,加以分类,使类与类间的异质性达到最大,而同一类的几个观察值同质性很高。 ③对数据进行变换处理,(如标准化或规格化);
mm维维空 空间间中中点点与与点点实之之际间间的的应某某用种种距距时离离,就就可可两用用者来来描描的述述主样样品品要之之差间间的的别亲亲在疏疏程程于度度因。。子分析是针对“变量”予以分组,而聚类分析 按照这种方则法是不断将进“行合观并察,直值到个把所体有”的样予品以合为分一组个,大类亦为即止。因子分析时,根据因变量(题项)间关系密切与 四⑦、最常 后用绘两制否种系,聚统类聚将分类变析谱方系量法图予,按以不分同的类分(类标分准为或不几同个的层分类面原因则,子得)出不;同而的分聚类类结果分。析则较常使用于将变量属性相似 从数据结构程和度统计较形高式上的看观,因察子值分析,是加一种以“横分向类合并,”的使方类法,与聚类类分间析的则是异一质种“性纵向达合到并”最的方大法,。 而同一类的几个观察值 适每用一于 种大方容法同量都质样从本不性的同很情的形角高,度。由测用度户了指研定究须对聚象类的的相类似数性之。后,系统采用标准迭代算法进行运算,把所有的个案归并在不同的类中。 研究学生学业差异、因教师素教分学水析平:等等横,向都需简要化对研,究聚对象类进分行分析类:。纵向分组
聚类分析法ppt课件全
8/21/2024
25
1.2.2 动态聚类分析法
1.2 聚类分析的种类
(3)分类函数
按照修改原则不同,动态聚类方法有按批修改法、逐个修改法、混合法等。 这里主要介绍逐步聚类法中按批修改法。按批修改法分类的原则是,每一步修 改都将使对应的分类函数缩小,趋于合理,并且分类函数最终趋于定值,即计 算过程是收敛的。
8/21/2024
23
1.2.2 动态聚类分析法
1.2 聚类分析的种类
(2)初始分类 有了凝聚点以后接下来就要进行初始分类,同样获得初始分类也有不同的
方法。需要说明的是,初始分类不一定非通过凝聚点确定不可,也可以依据其 他原则分类。
以下是其他几种初始分类方法: ①人为分类,凭经验进行初始分类。 ②选择一批凝聚点后,每个样品按与其距离最近的凝聚点归类。 ③选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离
8/21/2024
14
1.2 聚类分析的种类
(2)系统聚类分析的一般步骤 ①对数据进行变换处理; ②计算各样品之间的距离,并将距离最近的两个样品合并成一类; ③选择并计算类与类之间的距离,并将距离最ቤተ መጻሕፍቲ ባይዱ的两类合并,如果累的个
数大于1,则继续并类,直至所有样品归为一类为止; ④最后绘制系统聚类谱系图,按不同的分类标准,得出不同的分类结果。
8/21/2024
18
1.2 聚类分析的种类
(7)可变法
1 2 D kr
2 (8)离差平方和法
(D k 2 pD k 2 q)D p 2q
D k 2 rn n ir n n p i D i2 pn n ir n n q iD i2 qn rn in iD p 2 q
8/21/2024
《数据挖掘》课程PPT-聚类分析
图像处理
1 2 3
图像分割
在图像处理中,聚类分析可以用于将图像分割成 多个区域或对象,以便进行更细致的分析和处理。
特征提取
通过聚类分析,可以提取图像中的关键特征,如 颜色、形状、纹理等,以实现图像分类、识别和 检索。
图像压缩
通过聚类分析,可以将图像中的像素进行聚类, 从而减少图像数据的维度和复杂度,实现图像压 缩。
03 推荐系统
利用聚类分析对用户和物品进行分类,为用户推 荐相似或相关的物品或服务。
02
聚类分析的常用算法
K-means算法
• 概述:K-means是一种基于距离的聚类算法,通过迭代将数据划分为K个集群,使得每个数 据点与其所在集群的中心点之间的距离之和最小。
• · 概述:K-means是一种基于距离的聚类算法,通过迭代将数据划分为K个集群,使得每个数 据点与其所在集群的中心点之间的距离之和最小。
03 基于模型的聚类
根据某种模型对数据进行拟合,将数据点分配给 不同的模型,常见的算法有EM算法、高斯混合模 型等。
聚类分析的应用场景
01 客户细分
将客户按照其特征和行为划分为不同的细分市场, 以便更好地了解客户需求并提供定制化服务。
02 异常检测
通过聚类分析发现数据中的异常值或离群点,以 便及时发现潜在的问题或风险。
生物信息学
基因表达分析
在生物信息学中,聚类分析可以用于分析基因表达数据, 将相似的基因聚类在一起,以揭示基因之间的功能关联和 调控机制。
蛋白质组学分析
通过聚类分析,可以研究蛋白质之间的相互作用和功能模 块,以深入了解生物系统的复杂性和动态性。
个性化医疗
通过聚类分析,可以根据个体的基因型、表型等特征进行 分类,为个性化医疗提供依据和支持。
聚类分析法ppt课件
7
(2)计算样品的距离。
d ij xi x j yi y j
8
G1
D(0)
G2 G3
G4
G5
G1 G2 G3 G4 G5
0 0.34 1.37 1.34 1.33
0 1.03 1 1.67
0 0.63 1.3
0 0.67
0
9
(3)找出D(0)非对角线上的最小元素, 将其对应的两个类合并为一个新类。
0 0.63 1.30 0 0.67
0
19
0
D(2)
1.37 0
1.67 1.30
0
20
0 1.67
D(3)
0
21
G1 G2 G3 G4 G5
0.4
0.8 1.2 1.6 2.0
聚类距离
பைடு நூலகம்22
G1 G2 G3 G4 G5
0.2 0.4 0.6 0.8 1.0
G1 G2 G3 G4 G5
0.4
0.8
1.2
1.6
2.0
聚类距离
聚类距离
23
某村对5个地块就其土壤质地和土壤有机 质含量进行了评估,结果如下。请分别 使用最长距离法和最短距离法对这5个地 块进行聚类分析,要求分为两类。
地块 A
B
C
D
E
质地 8
3
6
6
4
有机质 5
7
4
9
7
含量
24
聚类分析法
Cluster Analysis
1
聚类分析
将具有相似(similarity)性质(或距离)的 个体(样本)聚为一类,具有不同性质 的个体聚为不同的类。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。
Gp Gq
D pq ? max{ d ij | i ? G p , j ? G q }
类平均距离( average linkage ):
Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。
Gp Gq
?? D pq
?
1 t ptq
tp i?1
? 相似系数----常用于对变量的聚类
? Pearson相关系数:两个连续变量间呈线性相关 ? Spearman相关系数:利用两变量的秩次大小作线性相关分析 ? Kendall等级相关系数,。。。
凝聚的层次聚类示意图
C3
X4 X3
C4
X5 X2
X1
X1:Gibbon (长臂猿) X2:Symphalangus (合趾猿) X3:Human (人) X4:Gorilla (大猩猩) X5:Chimpanzee (黑猩猩)
tq
X (q) i i ?1
用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间
的距离用Dpq表示。
离差平方和法( ward method ):
各元素到类中心的欧式距离之和。
Gp
Cluster P
Cluster M
Cluster Q
Gq
D 2 ? WM ? W p ? Wq
凝聚的层次聚类示意图
Oh?
X4 X3
X5 X2
X1
X1:Gibbon (长臂猿) X2:Symphalangus (合趾猿) X3:Human (人) X4:Gorilla (大猩猩) X5:Chimpanzee (黑猩猩)
常用的聚类统计量
? 距离函数----用于对样品的聚类
? 欧式距离:两点之间的直线距离 ? 马氏距离:数据的协方差距离 ? 切比雪夫距离:两个向量之间的最大距离 ?曼哈顿距离 :运动物体走过的实际距离 ? 。。。。。。
聚类分析及其应用实例
Outlines
? 聚类的思想 ? 常用的聚类方法 ? 实例分析:层次聚类
1. 聚类的思想
Oh?
1. 聚类的思想
Oh!
1. 聚类的思想
? 聚类(clustering)是对物理的或抽象的对象集合分组的过程
? 即把“性质相似”或“相互关系密切”的样品或指标聚在一起。 ? 同一个类内样本之间彼此相似,不同类间的样本足够不相似。 ? 寻找数据中潜在的自然分组结构或感兴趣的关系。
a, b, c, d, e c, d, e d, e
a, b
分裂的(DIANA) 第0步 第1步 第2步
e
? 分裂的方法(自顶向下)
第0步
思想:一开始将所有的对象置于一类,凝聚的(AGENS)
第4步
在迭代的每一步中,一个类不断地分
为更小的类,直到每个对象在单独的
一个类中,或达到一个终止条件
步骤3
由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3), X(4)},有:
?K-均值聚类方法
?系统聚类法---用于对小样本的样品间聚类及对指标聚类 。
?层次聚类
?模糊聚类法---建立在模糊数学基础上,适用于小样本 ?分割聚类法---适用于对指标聚类 ?……
3. 实例分析:层次聚类算法
定义:对给定的数据进行层次的分解
第4步
? 凝聚的方法(自底向上) 『常用』
思想:一开始将每个对象作为单独的 第 3步 一组,然后根据同类相近,异类相异 的原则,合并对象,直到所有的组合 第 2步 并成一个,或达到一个终止条件。 第 1步
构造: 样本间距离——欧氏距离; 类间距离——最短距离;
X(1)
X(2)
X(3)
X(4)
X(5)
X(1)
0
X(2)
X(3)
X(4)
X(5)
1
3.5
5
7
0
2.5
4
6
0
1.5
3.5
0
2
0
步骤 1
5个物种各自构成1类,得到5类,有:
初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1)
same color!
? 基本原理:将随机现象归类的统计学方法;
? 分类
? R型聚类:指标聚类,目的是指标降维从而选 择有代表性的指标;
? Pearson、Spearman系数
? Q型聚类:样本聚类,目的是找出样品间的共 性;
? 欧氏距离、绝对距离、马氏距离及明氏距离等。
2 常用的聚类分析方法
?逐步聚类法---用于对大样本的样品间聚类
X4 X3
X5 X2
X1
D(1)
X(1)
X(2)
X(3)
X(4)
X(5)
X(1)
0
X(2)
X(3)
X(4)
X(5)
1
3.5
5
7
0
2.5
4
6
0
1.5 3.5
0
2
0
步骤2
由D(1)知,合并X(1)和X(2)为新类C(4)={X(1), X(2)},有:
新的G (2)={X(3) , X(4) , X(5) , C(4)} 新的类别数目m=4 新的类间距离矩阵D(2)
tq
d ij
j?1
i? G p, j? Gq
几何中心距离( centroid linkage ):
用Gp和Gq两类几何中心的距离为两个类之间的距离。
Gp
Gq
? ? D pq ? d X ( p ) , X ( q )
? X ( p ) ?
1 tp
tp
X (p) i i ?1
? X ( q ) ?
1 tq
常用的类间距离
? 最短距离 ? 最长距离 ? 类平均距离 ? 几何平均距离 ? 离差平方和法
最短距离(single linkage ):
Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。
Gq Gp
D pq ? min{ d ij | i ? G p , j ? G q }
最长距离( complete linkage ):
D(2)
X(3)
X(4)
X(5)
X(3)
0
1.5 3.5
X(4)
0
2
X(5)
0
C(4)
C4
X2
X4 X3
X5
X1
C(4)
C(4)
2.5 4
6
0
D(1)
X(1) X(2) X(3) X(4) X(5)
X(1) 0 X(2) X(3) X(4) X(5)
1 3.5 5 7 0 2.5 4 6
0 1.5 3.5 02 0
凝聚的层次聚类法举例
已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之
间的距离矩阵(经过数据变换处理)。
X(1):Gibbon(长臂猿); X(2):Symphalangus(合趾猿); X(3) :Human(人); X(4) :Gorilla(大猩猩); X(5) :Chimpanzee(黑猩猩)
Gp Gq
D pq ? max{ d ij | i ? G p , j ? G q }
类平均距离( average linkage ):
Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。
Gp Gq
?? D pq
?
1 t ptq
tp i?1
? 相似系数----常用于对变量的聚类
? Pearson相关系数:两个连续变量间呈线性相关 ? Spearman相关系数:利用两变量的秩次大小作线性相关分析 ? Kendall等级相关系数,。。。
凝聚的层次聚类示意图
C3
X4 X3
C4
X5 X2
X1
X1:Gibbon (长臂猿) X2:Symphalangus (合趾猿) X3:Human (人) X4:Gorilla (大猩猩) X5:Chimpanzee (黑猩猩)
tq
X (q) i i ?1
用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间
的距离用Dpq表示。
离差平方和法( ward method ):
各元素到类中心的欧式距离之和。
Gp
Cluster P
Cluster M
Cluster Q
Gq
D 2 ? WM ? W p ? Wq
凝聚的层次聚类示意图
Oh?
X4 X3
X5 X2
X1
X1:Gibbon (长臂猿) X2:Symphalangus (合趾猿) X3:Human (人) X4:Gorilla (大猩猩) X5:Chimpanzee (黑猩猩)
常用的聚类统计量
? 距离函数----用于对样品的聚类
? 欧式距离:两点之间的直线距离 ? 马氏距离:数据的协方差距离 ? 切比雪夫距离:两个向量之间的最大距离 ?曼哈顿距离 :运动物体走过的实际距离 ? 。。。。。。
聚类分析及其应用实例
Outlines
? 聚类的思想 ? 常用的聚类方法 ? 实例分析:层次聚类
1. 聚类的思想
Oh?
1. 聚类的思想
Oh!
1. 聚类的思想
? 聚类(clustering)是对物理的或抽象的对象集合分组的过程
? 即把“性质相似”或“相互关系密切”的样品或指标聚在一起。 ? 同一个类内样本之间彼此相似,不同类间的样本足够不相似。 ? 寻找数据中潜在的自然分组结构或感兴趣的关系。
a, b, c, d, e c, d, e d, e
a, b
分裂的(DIANA) 第0步 第1步 第2步
e
? 分裂的方法(自顶向下)
第0步
思想:一开始将所有的对象置于一类,凝聚的(AGENS)
第4步
在迭代的每一步中,一个类不断地分
为更小的类,直到每个对象在单独的
一个类中,或达到一个终止条件
步骤3
由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3), X(4)},有:
?K-均值聚类方法
?系统聚类法---用于对小样本的样品间聚类及对指标聚类 。
?层次聚类
?模糊聚类法---建立在模糊数学基础上,适用于小样本 ?分割聚类法---适用于对指标聚类 ?……
3. 实例分析:层次聚类算法
定义:对给定的数据进行层次的分解
第4步
? 凝聚的方法(自底向上) 『常用』
思想:一开始将每个对象作为单独的 第 3步 一组,然后根据同类相近,异类相异 的原则,合并对象,直到所有的组合 第 2步 并成一个,或达到一个终止条件。 第 1步
构造: 样本间距离——欧氏距离; 类间距离——最短距离;
X(1)
X(2)
X(3)
X(4)
X(5)
X(1)
0
X(2)
X(3)
X(4)
X(5)
1
3.5
5
7
0
2.5
4
6
0
1.5
3.5
0
2
0
步骤 1
5个物种各自构成1类,得到5类,有:
初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1)
same color!
? 基本原理:将随机现象归类的统计学方法;
? 分类
? R型聚类:指标聚类,目的是指标降维从而选 择有代表性的指标;
? Pearson、Spearman系数
? Q型聚类:样本聚类,目的是找出样品间的共 性;
? 欧氏距离、绝对距离、马氏距离及明氏距离等。
2 常用的聚类分析方法
?逐步聚类法---用于对大样本的样品间聚类
X4 X3
X5 X2
X1
D(1)
X(1)
X(2)
X(3)
X(4)
X(5)
X(1)
0
X(2)
X(3)
X(4)
X(5)
1
3.5
5
7
0
2.5
4
6
0
1.5 3.5
0
2
0
步骤2
由D(1)知,合并X(1)和X(2)为新类C(4)={X(1), X(2)},有:
新的G (2)={X(3) , X(4) , X(5) , C(4)} 新的类别数目m=4 新的类间距离矩阵D(2)
tq
d ij
j?1
i? G p, j? Gq
几何中心距离( centroid linkage ):
用Gp和Gq两类几何中心的距离为两个类之间的距离。
Gp
Gq
? ? D pq ? d X ( p ) , X ( q )
? X ( p ) ?
1 tp
tp
X (p) i i ?1
? X ( q ) ?
1 tq
常用的类间距离
? 最短距离 ? 最长距离 ? 类平均距离 ? 几何平均距离 ? 离差平方和法
最短距离(single linkage ):
Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。
Gq Gp
D pq ? min{ d ij | i ? G p , j ? G q }
最长距离( complete linkage ):
D(2)
X(3)
X(4)
X(5)
X(3)
0
1.5 3.5
X(4)
0
2
X(5)
0
C(4)
C4
X2
X4 X3
X5
X1
C(4)
C(4)
2.5 4
6
0
D(1)
X(1) X(2) X(3) X(4) X(5)
X(1) 0 X(2) X(3) X(4) X(5)
1 3.5 5 7 0 2.5 4 6
0 1.5 3.5 02 0
凝聚的层次聚类法举例
已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之
间的距离矩阵(经过数据变换处理)。
X(1):Gibbon(长臂猿); X(2):Symphalangus(合趾猿); X(3) :Human(人); X(4) :Gorilla(大猩猩); X(5) :Chimpanzee(黑猩猩)