聚类分析实用PPT教案
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
资料要求:描述样品的指标全
第4页/共46页
部定量。
37
5
367
无论是R型聚类或是Q
型聚类的关键是如何定义
相似性,即如何把相似性
数量化。聚类的第一步需
要给出两个指标或两个样
品间相似性的度量——相
似系数(similarity 第5页/共46页
coefficient)的定义。
聚类统计量
指标聚类(R型聚类)的聚类统计量:指标间的相似系 数。0≤C≤1; C越大越相似。大则同类,小则异类。
第13页/共46页
当类内含有两个或两个以上样品或变量时,计算类间相 似系数有多种方法可供选择,下面列出5种计算方法。 用 G p,Gq 分别表示两类,各自含有np,nq个样品 或变量。
第14页/共46页
37
15
3176
1.最大相似系数法 G p类中的np个样品或变量与Gq类中的nq个样品或变量 两两间共有npnq个相似系数,以其中最大者定义为G p与Gq的类间相似系数。
Dpq
Min
iGp , jGq
(dij
)
,
样品聚类
rpq
Max
iGp , jGq
(rij
)
, 指标聚类
(19-7)
注意距离最小即相似系数最大。 2.最小相似系数法 类间相似系数计算公式为
Dpq
Max
iGp , jGq
(dij
)
,
样品聚类
rpq
Min
iGp , jGq
(rij
)
, 指标聚类
(19-8)
d13 ( X11 X31)2 ( X12 X32 )2 (1.315 1.001)2 (0.688 1.441)2 3.145
同理,计算出距离矩阵
D(0)
G2 G3 G4
G1 1.289 3.145 1.803
G2
1.928 0.878
G3
2.168
第27页/共46页
3279
D
2 pq
1 n p nq
di2j
(19-10)
类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品
的个体信息。
第16页/共46页
3178
5.离差平方和法 又称Ward法,仅用于样品 聚类。 此法效仿方差分析的基本思想,即合 理的分类使得类内离差平方和较小,而类间离 差平方和较大。
第17页/共46页
法将运动项目归类。
表19-1 4个运动项目的测定值
X
' i
Xi X i2
(焦耳/分、m2) (%)
负重下蹲 G1 引体向上 G2 俯 卧 撑 G3 仰卧起坐 G4
27.892 23.475 18.924 20.913
61.42 56.83 45.13 61.25
R (1)
G4
G5
G3 0.732 0.099
第19页/共46页
G4
0.234
3271
(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并 成G6={G3 , G4},形成两类。计算G6与G5间的类间相似系数。
r56 M ax(r35, r45 ) M ax(0.099, 0.234) 0.234
第1页/共46页
37
聚类分析属于探索性统计分析方法,按照分类 目的可分为两大类。
例如测量了n个病例(样品)的m个变量
(指标),可进行:
(1)R型聚类: 又称指标聚类,是指将m个指标
归类的方法,其目的是将指标降维从而选择有 代表性的指标。
(2)Q型聚类: 又称样品聚类,是指将n个样品
归类的方法,其目的是找出样品间的共性。
G1,G3,G5的距离矩阵
D (1)
G3
G5
G1 3.145 1.803
G3
2.168
(3)G1,G5间距离最小,将G1,G5并成一新类G6={ G1,G5}。计
算G6 与G3之间的距离
d36 M ax(d13, d35 ) M ax(3.145, 2.168) 3.145
变量的标准化
X1‘
X2’
1.315
0.688
0.174
0.088
-1.001
-1.441
-0.488
0.665
第25页/共46页
327
本例选用欧氏距离,类间距离选用最小相似系数法。为了克服
变量量纲的影响,分析前先将变量标准化,
分别
是Xi的样本均数与标准差。变换X后i 的Xi 数Si X据i , 列Xi、在Si表19-1的 ,
虽相同(包括各指标都无单位),但数量级相差大
时,应先将各指标标准化,在计算距离。
标准化方法:
xi'
xi
si
xi
第11页/共46页
37
12
3173
第二节 系统聚类
系统聚类(hierarchical clustering analysis)是将相似的样品或 变量归类的最常用方法,聚类过程如下:
1)开始将各个样品(或变量)独自视为一类,即各类 只含一个样品 (或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)
3179
例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围 (X3)和胸围(X4),计算得相关矩阵:
R (0)
X2
X X
3 4
X1 0.852 0.099 0.234
X2
0.055 0.174
X 3
0.732
试用系统聚类法将这4个指标聚类。 本例是R型(指标)聚类,相似系数选用简单相关系数,类间相 似系数采用最大相似系数法计算。
X1 0.852 0.099 0.234
X2
0.055 0.174
X 3
0.732
r35 M ax(r13, r23 ) M ax(0.099, 0.055) 0.099 r45 M ax(r14 , r24 ) M ax(0.234, 0.174) 0.234
G3,G4,G5的类间相似矩阵
列。
X1 X 2
第26页/共46页
3278
聚类过程如下: (1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩 阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得
d12 ( X11 X21)2 ( X12 X22 )2 (1.315 0.174)2 (0.688 0.088)2 1.289 同样负重下蹲与俯卧撑之间的距离
间的相似系数。相似系数矩阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,
计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。
第12页/共46页
3174
一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数
(即:新形成的类别与其他类之间的类间相似 系数的确定),当两类各自仅含一个样品或变 量时,两类间的相似系数即是两样品或变量间 的相似系数 dij 或rij ,按第一节的定义计算。
绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距
离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到
变量间的相关关系。基于此引进马氏距离。
第9页/共46页
3171
(4)马氏距离:用S 表示m个变量间的样本协方差矩阵,马氏距离 (Mahalanobis distance)的计算公式为
数定义类间的相似系数。
第7页/共46页
样品聚类(Q型聚类)的聚类统 计量(相似
系数):2个样品间距离,越短 越接近,
短则同类,长第则8页/共异46页类。
37
9
3170
Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数, 距离越小表明两样品间相似程度越高。
第2页/共46页
指标聚类
目的:把多个指标按相似程度聚成 几类,每类
找一个典型指标来代表原来的多个 指标。
资料要求:指标是定量的,理论上 也可以全部
是定性的或等级的(要少用)效果
不好。
第3页/共46页
用途:1.分类找典37型指标
4
样品聚类
目的:把多个样品按照相近样 品聚成几类,作分类比较研究。 需要时也可每类找一个典型样 品来代表各类样品。
3.重心法(仅用于样品聚类) 用 , 分别表示 的均值向量(重 心),其分量是各个指标类内均数,xp类间xq 相似系数计Gp算,Gq公式为
Dpq dXpXq
(19-9)
第15页/共46页
317
4.类平均法(仅用于样品聚类) 对G p 类中的 np 个样品与Gq类中的 nq个样品两两间的 np nq 个平方距离求平均,得到两类间的相似系数
聚类分析实用
会计学
1
327
判别分析:在已知分为若干个类的前提下,获得 判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不 知道应分多少类合适的情况下,试图借助数理 统计的方法用已收集到的资料找出研究对象的 适当归类方法。已成为发掘海量基因信息的首 选工具。
二者都是研究分类问题的多元统计分析方法。
dij XS1X
(19-6)
其中向量 X ( X i1 X j1, Xi2 X j2 , , X im X。jm不) 难看出,当 阵)时,马氏距离就是欧氏距离的平方。
(单位s 矩I
以上定义的4种距离适用于定量变量,对于定性变量和有序变量 必须在数量化后方能应用。
第10页/共46页
说明:当样品各指标的单位不同时,或各指标单位
0.6),规定类那个指标间的
相似系数值第入22页小/共46页于该值,则停
止并类。特别是当某步骤类使
37
23
如何找典型指标
对指标聚类而言:
为选择每类的典型指标,计算每类的每个指标与同
类其他指标的相关指数(相关系数的平方)的均
数,即
R2
r2
mi 1
式中mi 为指标xi 所在类的指标个数,在各类挑选
(1)欧氏距离: 欧氏距离(Euclidean distance)
dij
(Xi X j )2
(19-3)
(2)绝对距离:绝对距离(Manhattan distance)
dij
| Xi X j |
(19-4)
(3)Minkowski距离:
dij q | Xi X j |q
(19-5)
(4)最终将G5 ,G6合并成G7={G5 , G6},所有指标形成一大类。
第20页/共46页
3272
根据聚类过程,绘制出系 统聚类图(见图19-1)。图 中显示分成两类较好:{X1, X2},{X3,X4},即长度指 标归为一类,围度指标归 为另一类。
图 19-1 4 个指标聚类系统聚类 0.23
第18页/共46页
3270
聚类过程如下:
(1)各个指标独自成一类G1={X1},G2={X2},
G3={X3},G4={X4},共4类。 (2)将相似系数最大的两类合并成新类,由 于G1和G2类间相似系数最大,等于0.852,将
R (0)
X X X
2 3 4
两类合并成G5={X1 , X2},形成3类。计算G5与 G3、G4间的类间相似系数
D(0)
G2 G3 G4
G1 1.289 3.145 1.803
G2
1.928 0.878
G3
2.168
(2)G2,G4间距离最小,将G2,G4并成一新类G5={ G2,G4}。应
用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离
d15=Max(d12,d14)=Max(1.289,1.803)=1.803 d35=Max(d23,d34)=Max(1.928,2.168)=2.168
(1)定量指标:用简单相关系数定义为相似系数。 (定量指标包含定性指标转化成0,1变量和等级指标 转化成的1,2,…变量)
(2)定性指标或等级指标(包括含有定量指标转换成
的等级指标),可用列联系数定义x为i x和j 指标的
相似系cij数 :x2x2 n
第6页/共46页
37
7
387
R型(指标)聚类的相似系数
X1,X2,…,Xm表示m个变量,R型聚类常用简单相关系
数的绝对值定义变量与间的相似系数:
绝对值r越ij 大表(X明(iXi两XiX变)2i )(量X(jX间j X相jX) 似j )2 程度越高。
(19-1)
同样也可考虑用Spearman秩相关系数定义非正态变量
之间的相似系数。当变量均为定性变量时,最好用列联系
图
4
0.73
0.85
2
2
身高 下肢长 腰围
G1
G2
G3
胸围 G4
图19-1 4个指标聚类的系统聚类图
第21页/共46页
如何判断聚为几类
对于指标聚类而言:
M个指标究竟聚几类为好,即聚 成几类后停止并类,可分析聚 类过程表和聚类过程图,还可 以结合专业知识和实际需要确 定。
例:指定1个相似系数值(比如
Ri2 值最大的 作为该类的典型指标
第23页/共46页
37
24
第一类
X1
X2
X2
0.89
X3
0.67
0.84
R12
0.892 0.672 31
0.62
第24页/共46页
37
25
3276
例19-2 今测得6名运动员4个运动项目(样品)的能耗、
糖耗的均数见表19-1,欲对运动项目归类,以便提供
相应的膳食标准,提高运动成绩。试用样品系统聚类