医学统计学第十九章 聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
类。
0.732
0.085
身高
下肢长 胸围
腰围
图19-1 4个指标聚类的系统聚类图
2012-9-29
医学统计学
例19-2 今测得6名运动员4个运动项目(样品)的
能耗、糖耗的均数见表19-1,欲对运动项目归类, 以便提供相应的膳食标准,提高运动成绩。试用 样品系统聚类法将运动项目归类。
表19-1 4个运动项目的测定值 能耗 X1 (焦耳/分、m2 ) 27.892 23.475 糖耗 X2 (%) 61.42 56.83 1.315 0.174 0.688 0.088
2012-9-29 医学统计学
有g类的合并离差平方和为。如果将与合并,形成g-1类,
例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、 腰围(X3)和胸围(X4),计算得相关矩阵:
X2 X 3 X 4 X1 0 . 852 0 . 099 0 . 234 0 . 055 0 . 174 X
第十九章 聚类分析
(Clustering Analysis)
2012-9-29
医学统计学
Content
• • • • Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis
2012-9-29 医学统计学
一、类间相似系数的计算 系统聚类的每一步都要计算类间相似 系数,当两类各自仅含一个样品或变量 时,两类间的相似系数即是两样品或变 量间的相似系数或,按第一节的定义计 算。
2012-9-29
医学统计学
当类内含有两个或两个以上样品或变量时,计算类间相似系 数有多种方法可供选择,下面列出5种计算方法。用分别表示两 类,各自含有个样品或变量。 1.最大相似系数法 类中的个样品或变量与类中的个样品或变 量两两间共有个相似系数,以其中最大者定义为与的类间相似 系数。
2 pq
1 n p nq
d ij
2
(19-1 0)
类平均法是系统聚类方法中较好的方法之一,它充分 反映了类内样品的个体信息。
2012-9-29
医学统计学
5.离差平方和法 又称Ward法,仅用于样品聚类。 此
法效仿方差分析的基本思想,即合理的分类使得类内 离差平方和较小,而类间离差平方和较大。假定n个样 品已分成g类,是其中的两类。此时有个样品的第k类 的离差平方和定义为:,其中为类内指标的均数。所 它们的合并离差平方和。由于并类引起的合并离差平 方和的增量定义为两类间的平方距离。显然,当n个样 品各自成一类时,n类的合并离差平方和为0。
2012-9-29 医学统计学
(4)马氏距离:用表示m个变量间的样本协方差矩阵, 马氏距离(Mahalanobis distance)的计算公式为
d ij X S X
i1 j1 i2 j2 im jm
1
(19-6)
其中向量 X ( X X , X X , , X X ) 。不难看出,当 (单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量 和有序变量必须在数量化后方能应用。
运动项目名称 负重下蹲 G1 引体向上 G2
俯 卧 撑 G3
仰卧起坐 G4
2012-9-29
18.924
20.913
医学统计学
45.13
61.25
-1.001
-0.488
-1.441
0.665
本例选用欧氏距离,类间距离选
用最小相似系数法。为了克服变 量量纲的影响,分析前先将变量
标准化,
X i
2012-9-29 医学统计学
根据聚类过程,绘制出系统聚类图(见图192)。结合系统聚类图和专业知识认为分成两类较 好:{ G1,G2,G4},{ G3}。负重下蹲、引体向 上、仰卧起坐三个运动项目体能消耗较大,训练
时应提高膳食标准。
2012-9-29
医学统计学
3.145
1.803
0.878
图19-2 4个运动项目样品聚类的系统聚类图
rij
( X X )( X X ) (X X ) (X X
i i j j 2 i i j
(1 9 -1 )
j
)
2
绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态 变量与间的相似系数。当变量均为定性变量时,最好 用列联系数定义类间的相似系数。
2
R
(0)
X3 0 . 732
试用系统聚类法将这4个指标聚类。 本例是R型(指标)聚类,相似系数选用简单相关系数, 类间相似系数采用最大相似系数法计算。
2012-9-29
医学统计学
聚类过程如下: (1)各个指标独自成一类G1={X1},G2={X2}, G3={X3},G4={X4},共4类。 (2)将相似系数最大的两类合并成新类,由于G1和G2 类间相似系数最大,等于0.852,将两类合并成G5={X1 , X2},形成3类。计算G5与G3、G4间的类间相似系数
D p q M in ( d ij ) i G p , j G q r p q iM ,axG q ( rij ) G p j , , 样品聚类 指标聚类 (1 9 -7 )
注意距离最小即相似系数最大。 2.最小相似系数法 类间相似系数计算公式为
D p q M ax ( d ij ) i G p , j G q M r p q i G p , inG q ( rij ) j , , 样品聚类 指标聚类 (1 9 -8 )
G1 1 . 289 3 . 145 1 . 803
G2
1 . 928 0 . 878
G3 2 . 168
2012-9-29
医学统计学
(2)G2,G4间距离最小,将G2,G4并成一新类G5={ G2,G4}。 应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的 距离
Xi Xi Si
, X i、 S i
分别是Xi的
样本均数与标准差。变换后的数
据列在表19-1的X 1,X 2 列。
2012-9-29 医学统计学
聚类过程如下: (1)计算4个样品间的相似系数矩阵,样品聚类中又称为 距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3) 计算得
d 12 2 2 ( X 11 X 21 ) ( X 12 X 22 ) (1.315 0.174 ) (0.688 0.088)
(4)最终将G5 ,G6合并成G7={G5 , G6},所有指标形成一 大类。
2012-9-29
医学统计学
根据聚类过程,绘制出 系统聚类图(见图191)。图中显示分成两类 较好:{X1,X2},{X3, X4},即长度指标归为一
图 19-1 图 4 个指标聚类系统聚类
0.234
类,围度指标归为另一
G3 2 . 168
(3)G1,G5间距离最小,将G1,G5并成一新类G6={ G1,G5}。 计算G6 与G3之间的距离
d 36 M ax ( d 13 , d 35 ) M ax (3 .1 4 5, 2 .1 6 8) 3 .1 4 5
(4)最终将G1 ,G6合并成G7={G1 , G6},所有指标形成一大类。
G4 0 . 234
(3)由于G3和G4类间相似系数最大,等于0.732,将两
类合并成G6={G3 , G4},形成两类。计算G6与G5间的类
间相似系数。
r56 M ax ( r35 , r45 ) M ax (0 .0 9 9, 0 .2 3 4 ) 0 .2 3 4
r35 M ax( r13 , r23 ) M ax(0.099, 0.055) 0.099
r45 M ax( r14 , r24 ) M ax(0.234, 0.174 ) 0.234
G1,G3,G5的距离矩阵
D
(1 )
G3 G 5
G1 3 . 145 1 . 803
2012-9-29 医学统计学
聚类分析属于探索性统计分析方法,按照分类目
的可分为两大类。
例如测量了n个病例(样品)的m个变量(指
标),可进行:
(1)R型聚类: 又称指标聚类,是指将m个指标
归类的方法,其目的是将指标降维从而选择有代
表性的指标。
(2)Q型聚类: 又称样品聚类,是指将n个样品 归类的方法,其目的是找出样品间的共性。
2012-9-29 医学统计学
2.Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相 似系数,距离越小表明两样品间相似程度越高。 (1)欧氏距离: 欧氏距离(Euclidean distance)
(X X ) (2)绝对距离:绝对距离(Manhattan distance)
d ij
2 i j
(1 9 -3 )
d ij
q
| Xi X j |
(19-4)
(3)Minkowski距离:
d ij
| Xi X j |
q
(19-5)
绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的 Minkowski距离。Minkowski距离的优点是定义直观,计算简单; 缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。
r3 5 M ax ( r1 3 , r2 3 ) M ax (0 .0 9 9, 0 .0 5 5) 0 .0 9 9
r45 M ax( r14 , r24 ) M ax(0.234, 0.174 ) 0.234
G3,G4,G5的类间相似矩阵
R
2012-9-29
(1 )
G3 G 4 0 . 732 G 0 . 099 5 医学统计学
2012-9-29 医学统计学
聚类实例分析 相似系数的定义以及类间相似 系数的定义的不同将导致系统 聚类结果有所差异。聚类分析 的结果解释除了要了解聚类方 法外,还必须结合专业知识。
2012-9-29 医学统计学
无论是R型聚类或是Q型聚类的
关键是如何定义相似性,即如何把
相似性数量化。聚类的第一步需要 给出两个指标或两个样品间相似性
的度量——相似系数(similarity
coefficient)的定义。
2012-9-29 医学统计学
第一节 相似系数
1.R型(指标)聚类的相似系数 X1,X2,…,Xm表示m个变量,R型聚类常用简单 相关系数的绝对值定义变量与间的相似系数:
3.重心法(仅用于样品聚类) 用分别表示的均值向量(重 心),其分量是各个指标类内均数,类间相似系数计算公式为
2012-9-29 d D pq X 医学统计学
pXq
(1 9 -9 )
4.类平均法(仅用于样品聚类) 对类中的个样品与 类中的个样品两两间的个平方距离求平均,得到两类 间的相似系数
D
2012-9-29
医学统计学
判别分析:在已知分为若干个类的前提下,获得 判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不 知道应分多少类合适的情况下,试图借助数理 统计的方法用已收集到的资料找出研究对象的 适当归类方法。已成为发掘海量基因信息的首 选工具。 二者都是研究分类问题的多元统计分析方法。
2 2
1.289
同样负重下蹲与俯卧撑之间的距离
d 13
2 2 ( X 11 X 31 ) ( X 12 X 32 )
(1 .3 1 5 1 .0 0 1) (0 .6 8 8 1 .4 4 1)
2
2
3 .1 4 5
同理,计算出距离矩阵
(0)
D
G2 G 3 G 4
2012-9-29
医学统计学
第二节 系统聚类
系统聚类(hierarchical clustering analysis)是将相似 的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类 只含一个样品(或变量),计算类间相似系数矩阵,其 中的元素是样品(或变量)间的相似系数。相似系数矩 阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两 类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。
0.732
0.085
身高
下肢长 胸围
腰围
图19-1 4个指标聚类的系统聚类图
2012-9-29
医学统计学
例19-2 今测得6名运动员4个运动项目(样品)的
能耗、糖耗的均数见表19-1,欲对运动项目归类, 以便提供相应的膳食标准,提高运动成绩。试用 样品系统聚类法将运动项目归类。
表19-1 4个运动项目的测定值 能耗 X1 (焦耳/分、m2 ) 27.892 23.475 糖耗 X2 (%) 61.42 56.83 1.315 0.174 0.688 0.088
2012-9-29 医学统计学
有g类的合并离差平方和为。如果将与合并,形成g-1类,
例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、 腰围(X3)和胸围(X4),计算得相关矩阵:
X2 X 3 X 4 X1 0 . 852 0 . 099 0 . 234 0 . 055 0 . 174 X
第十九章 聚类分析
(Clustering Analysis)
2012-9-29
医学统计学
Content
• • • • Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis
2012-9-29 医学统计学
一、类间相似系数的计算 系统聚类的每一步都要计算类间相似 系数,当两类各自仅含一个样品或变量 时,两类间的相似系数即是两样品或变 量间的相似系数或,按第一节的定义计 算。
2012-9-29
医学统计学
当类内含有两个或两个以上样品或变量时,计算类间相似系 数有多种方法可供选择,下面列出5种计算方法。用分别表示两 类,各自含有个样品或变量。 1.最大相似系数法 类中的个样品或变量与类中的个样品或变 量两两间共有个相似系数,以其中最大者定义为与的类间相似 系数。
2 pq
1 n p nq
d ij
2
(19-1 0)
类平均法是系统聚类方法中较好的方法之一,它充分 反映了类内样品的个体信息。
2012-9-29
医学统计学
5.离差平方和法 又称Ward法,仅用于样品聚类。 此
法效仿方差分析的基本思想,即合理的分类使得类内 离差平方和较小,而类间离差平方和较大。假定n个样 品已分成g类,是其中的两类。此时有个样品的第k类 的离差平方和定义为:,其中为类内指标的均数。所 它们的合并离差平方和。由于并类引起的合并离差平 方和的增量定义为两类间的平方距离。显然,当n个样 品各自成一类时,n类的合并离差平方和为0。
2012-9-29 医学统计学
(4)马氏距离:用表示m个变量间的样本协方差矩阵, 马氏距离(Mahalanobis distance)的计算公式为
d ij X S X
i1 j1 i2 j2 im jm
1
(19-6)
其中向量 X ( X X , X X , , X X ) 。不难看出,当 (单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量 和有序变量必须在数量化后方能应用。
运动项目名称 负重下蹲 G1 引体向上 G2
俯 卧 撑 G3
仰卧起坐 G4
2012-9-29
18.924
20.913
医学统计学
45.13
61.25
-1.001
-0.488
-1.441
0.665
本例选用欧氏距离,类间距离选
用最小相似系数法。为了克服变 量量纲的影响,分析前先将变量
标准化,
X i
2012-9-29 医学统计学
根据聚类过程,绘制出系统聚类图(见图192)。结合系统聚类图和专业知识认为分成两类较 好:{ G1,G2,G4},{ G3}。负重下蹲、引体向 上、仰卧起坐三个运动项目体能消耗较大,训练
时应提高膳食标准。
2012-9-29
医学统计学
3.145
1.803
0.878
图19-2 4个运动项目样品聚类的系统聚类图
rij
( X X )( X X ) (X X ) (X X
i i j j 2 i i j
(1 9 -1 )
j
)
2
绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态 变量与间的相似系数。当变量均为定性变量时,最好 用列联系数定义类间的相似系数。
2
R
(0)
X3 0 . 732
试用系统聚类法将这4个指标聚类。 本例是R型(指标)聚类,相似系数选用简单相关系数, 类间相似系数采用最大相似系数法计算。
2012-9-29
医学统计学
聚类过程如下: (1)各个指标独自成一类G1={X1},G2={X2}, G3={X3},G4={X4},共4类。 (2)将相似系数最大的两类合并成新类,由于G1和G2 类间相似系数最大,等于0.852,将两类合并成G5={X1 , X2},形成3类。计算G5与G3、G4间的类间相似系数
D p q M in ( d ij ) i G p , j G q r p q iM ,axG q ( rij ) G p j , , 样品聚类 指标聚类 (1 9 -7 )
注意距离最小即相似系数最大。 2.最小相似系数法 类间相似系数计算公式为
D p q M ax ( d ij ) i G p , j G q M r p q i G p , inG q ( rij ) j , , 样品聚类 指标聚类 (1 9 -8 )
G1 1 . 289 3 . 145 1 . 803
G2
1 . 928 0 . 878
G3 2 . 168
2012-9-29
医学统计学
(2)G2,G4间距离最小,将G2,G4并成一新类G5={ G2,G4}。 应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的 距离
Xi Xi Si
, X i、 S i
分别是Xi的
样本均数与标准差。变换后的数
据列在表19-1的X 1,X 2 列。
2012-9-29 医学统计学
聚类过程如下: (1)计算4个样品间的相似系数矩阵,样品聚类中又称为 距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3) 计算得
d 12 2 2 ( X 11 X 21 ) ( X 12 X 22 ) (1.315 0.174 ) (0.688 0.088)
(4)最终将G5 ,G6合并成G7={G5 , G6},所有指标形成一 大类。
2012-9-29
医学统计学
根据聚类过程,绘制出 系统聚类图(见图191)。图中显示分成两类 较好:{X1,X2},{X3, X4},即长度指标归为一
图 19-1 图 4 个指标聚类系统聚类
0.234
类,围度指标归为另一
G3 2 . 168
(3)G1,G5间距离最小,将G1,G5并成一新类G6={ G1,G5}。 计算G6 与G3之间的距离
d 36 M ax ( d 13 , d 35 ) M ax (3 .1 4 5, 2 .1 6 8) 3 .1 4 5
(4)最终将G1 ,G6合并成G7={G1 , G6},所有指标形成一大类。
G4 0 . 234
(3)由于G3和G4类间相似系数最大,等于0.732,将两
类合并成G6={G3 , G4},形成两类。计算G6与G5间的类
间相似系数。
r56 M ax ( r35 , r45 ) M ax (0 .0 9 9, 0 .2 3 4 ) 0 .2 3 4
r35 M ax( r13 , r23 ) M ax(0.099, 0.055) 0.099
r45 M ax( r14 , r24 ) M ax(0.234, 0.174 ) 0.234
G1,G3,G5的距离矩阵
D
(1 )
G3 G 5
G1 3 . 145 1 . 803
2012-9-29 医学统计学
聚类分析属于探索性统计分析方法,按照分类目
的可分为两大类。
例如测量了n个病例(样品)的m个变量(指
标),可进行:
(1)R型聚类: 又称指标聚类,是指将m个指标
归类的方法,其目的是将指标降维从而选择有代
表性的指标。
(2)Q型聚类: 又称样品聚类,是指将n个样品 归类的方法,其目的是找出样品间的共性。
2012-9-29 医学统计学
2.Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相 似系数,距离越小表明两样品间相似程度越高。 (1)欧氏距离: 欧氏距离(Euclidean distance)
(X X ) (2)绝对距离:绝对距离(Manhattan distance)
d ij
2 i j
(1 9 -3 )
d ij
q
| Xi X j |
(19-4)
(3)Minkowski距离:
d ij
| Xi X j |
q
(19-5)
绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的 Minkowski距离。Minkowski距离的优点是定义直观,计算简单; 缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。
r3 5 M ax ( r1 3 , r2 3 ) M ax (0 .0 9 9, 0 .0 5 5) 0 .0 9 9
r45 M ax( r14 , r24 ) M ax(0.234, 0.174 ) 0.234
G3,G4,G5的类间相似矩阵
R
2012-9-29
(1 )
G3 G 4 0 . 732 G 0 . 099 5 医学统计学
2012-9-29 医学统计学
聚类实例分析 相似系数的定义以及类间相似 系数的定义的不同将导致系统 聚类结果有所差异。聚类分析 的结果解释除了要了解聚类方 法外,还必须结合专业知识。
2012-9-29 医学统计学
无论是R型聚类或是Q型聚类的
关键是如何定义相似性,即如何把
相似性数量化。聚类的第一步需要 给出两个指标或两个样品间相似性
的度量——相似系数(similarity
coefficient)的定义。
2012-9-29 医学统计学
第一节 相似系数
1.R型(指标)聚类的相似系数 X1,X2,…,Xm表示m个变量,R型聚类常用简单 相关系数的绝对值定义变量与间的相似系数:
3.重心法(仅用于样品聚类) 用分别表示的均值向量(重 心),其分量是各个指标类内均数,类间相似系数计算公式为
2012-9-29 d D pq X 医学统计学
pXq
(1 9 -9 )
4.类平均法(仅用于样品聚类) 对类中的个样品与 类中的个样品两两间的个平方距离求平均,得到两类 间的相似系数
D
2012-9-29
医学统计学
判别分析:在已知分为若干个类的前提下,获得 判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不 知道应分多少类合适的情况下,试图借助数理 统计的方法用已收集到的资料找出研究对象的 适当归类方法。已成为发掘海量基因信息的首 选工具。 二者都是研究分类问题的多元统计分析方法。
2 2
1.289
同样负重下蹲与俯卧撑之间的距离
d 13
2 2 ( X 11 X 31 ) ( X 12 X 32 )
(1 .3 1 5 1 .0 0 1) (0 .6 8 8 1 .4 4 1)
2
2
3 .1 4 5
同理,计算出距离矩阵
(0)
D
G2 G 3 G 4
2012-9-29
医学统计学
第二节 系统聚类
系统聚类(hierarchical clustering analysis)是将相似 的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类 只含一个样品(或变量),计算类间相似系数矩阵,其 中的元素是样品(或变量)间的相似系数。相似系数矩 阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两 类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。