第六章 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关矩阵列于表6.2.5,我们用相似系数 来度量各变量之间的相似性。
表6.2.5
x1
x1 x2 x3 x4
1.000 0.846 0.805 0.859 0.473 0.398 0.301 0.382
各变量之间的相关系数
x3 x4 x5 x6 x7 x8
x2
1.000 0.881 0.826 0.376 0.326 0.277 0.415
(1)样品间采用绝对值距离(这时它与
其它明氏距离完全相同),计算样品间的距
离矩阵 D0 ,列于表6.2.1。
表 6.2.1
G1
G1 G2 G3 G4 G5
0 1 5 7 10 0
D0
G2
0 4 6 9
G3
G4
G5
0 2 5
0 3
(2) D0 中最小元素是 D12 1 ,于是将
G1 和 G2 合并成 G6 ,并利用(6.3.2)式计算
1 n 其中 x j xij 为第 j 个变量的样本均值, n i 1 2 1 n 为第 j 个变量的样本方差。 x x s
jj
n 1
i 1
ij
j
2.兰氏(Lance和Williams)距离
当
xij 0, i 1,2,, n, j 1,2,, p 时,
第六章
聚类分析
第一节 距离和相似系数
在对样本(或变量)进行分类时,样品(或
变量)之间的相似性度量工具——距离和相似
系数。前者常用来度量样本之间的相似性,后
者常用来度量变量之间的 相似性。样本之间的
距离和相似系数有着各种不同的定义,而这些
定义与变量的类型有非常密切的关系。
通常变量按测量尺度的不同可以分为以下三类:
变量 样品
一、距离 设 xij为第 i 个样品的第 j 个指标,数据矩
表6.1.1 数据矩阵
x1 x11
x21
x2
xp
x1 p x2 p
1 2
x12 x22
n
xn1
xn 2
xnp
在表6.1.1中,每个样品有
p 个变量,故
p
每个样品都可以看成是 R P中的一个点, n 个 样品就是 R 中的
1/ 2
6.1.7
常量之间常常借助于相似系数来定义距离, 如令 2 2 6.1.8 dij 1 cij
第二节 系统聚类法
系统聚类法(hierarchical clustering method)的基本思想是:开始将 n个样 本各自作为一类,并规定样本之间距离 和类与类之间的距离,然后将距离最近 的合并成一个新类,计算新类与其他类 的距离;重复进行两个最近类的合并, 每次减少一类,直至所有的样品合并为 一类。
1 d 2 p
ij
xik x jk xil x jl rkl k 1 l 1
p p
1/ 2
6.1.4
其中
rkl 是变量 xk 与变量 xl 间的相关系数。当 p 个变量互不相关时,dij dij 2 / p ,即斜
交空间距离退化为欧氏距离(除相差一个常数 倍外)。
G1 1 G2 2
G6 G7
G8
1 2
G3 6
G9
G4 8
G5 11
0
3
4
D
图6.2.1 最短距离法树形图
二 最长距离法
类与类之间的距离定义为两类最远样品间的 距离,即
DKL max d ij
iGK , jGL
6.2.3
称这种系统聚类法为最长距离法(complete linkage method)。
G6 G7
G8
G3 6
G4 8
G5 11
G9
0
2
4
6
8
10
D
图6.2.2
最长距离法树形图
例 6.2.2 对305 名女中学生测量八个体型指标:
x1 : 身高 x2 : 受臂长 x3 : 上肢长 x4 : 下肢长 x5 : 体重 x6 : 颈围 x7 : 胸围 x8 : 胸宽
用 dij表示第 i 个样品与第 j 个样品的距离,
D G1 , G2 , 表示类, KL 表示 GK 与 GL 的距离。
本节介绍的系统聚类方法中,所有的方法一开 始每个样品自成一类,类与类之间的距离与样 本之间的距离相同(除离差平方和法之外), 即 DKL d KL ,所以起初距离矩阵全部相同, 记为 D0 dij
例6.2.1
某高校举办一个培训班,从学员的资
料中得到这样六个变量:性别 x1 ,取值为男
和女;外语语种x2 ,取值为英,日和俄;专 取值为教师和非教师;居住处x5 ,取值为校
业 x3 ,取值为统计,会计和金融;职业 x4 , 内和校外;学历 x6 ,取值为本科和本科以下。 现有两名学员:
p 1/ 2
3当q 时,dij max xik x jk , 称为切比雪夫距离。 1 k p
当各变量的单位不同或测量值范围相差很大 时,不应直接采用明氏距离,而应先对各变 量的数据作标准化处理,然后用标准化后的 数据计算距离。最常用的标准化处理是,令 xij x j xij , i 1,2,, n, j 1,2,, p s jj
6.1.1
这里 q 为某一自然数。明氏距离有以下三种特 殊形式:
1当q 1时,dij 1 xik x jk , 称为绝对值距离,
i 1
p
常被形象的称作“城市 街区”距离; 2 2当q 2时, dij 2 xik x jk , 称为欧氏距离, i 1 这是聚类分析中最常用 的一个距离;
,不配合的变量数 6.1.5
2 故按此定义本例中x1与 x 2 之间的距离为 。 3
二 相似系数
变量 x i与
x j的相似系数用 cij来表示,它一
般应满足如下三个条件:
1 cij 1,当且仅当xij axj b, a 0和b是常数 2 cij 1, 对一切i,j; 3 cij c ji , 对一切i, j。
T T
dij M
x x S x
T 1 i j
i
xj
6.1.3
为样本协方差矩阵。使用马氏距离的好处是
考虑到了各变量之间 的 相关性,并且与各 变量的单位无关。但马氏距离有一个很大的 缺陷,就是马氏距离公式中的 S 难以确定。
4.斜交空间距离 第 i 个样品与第 j 个样品间的斜交空间距离定 义为
minDKJ , DLJ
iGM , jG J
n
iGK , jGJ
6.2.2
iGL , jGJ
G 在 D0 中, K 和 GL 所在的行与列合并成一个新 行新列,对应 GM ,该行列上的 新距离值由 (6.3.2)式求得,其余行列上的距离值不变, 这样就得到新的距离矩阵,记为 D1 。
G6 与其他类的距离,列于表6.2.2
表6.2.2
G6
D1
G3
0 2 5
G4
G5
G6 G3 G4 G5
0
0 4 6 9
0 3
(3) D1 的最小元素是 D34 2 ,合并 G3 和 G4 成 G7 , G7 与其他类之间的距离计算为 表6.2.3 表6.2.3
G6
D2
G7
0 3
G5
可以定义第
i 个样品与第 j 个样品间的兰氏
p
距离为
d ij L
k 1
xik x jk xik x jk
6.1.2
3.马氏(Mahalanobis)距离
第 i 个样品与第 j 个样品之间的马氏距离为 其中 xi xi1 , xi 2 ,, xip , x j x j1 , x j 2 ,, x jp , S
G6 G7 G5
0 4 9
0
(4) D2 中的最小元素是 D57 3 ,将 G5 和
G7 合并为 G8 ,新的距离矩阵列于表6.2.4
表6.2.4
G6
D3
G8
0 0 4
G6 G8
(5)最后将G6和 G8 合并为 G9 ,这时所有五 个样品聚为一类,过程终止。
将上述聚类过程画成一张树形图(或称谱系图, dendrogram),如图6.2.1 所示。
n 2 n 2 xki xkj k 1 k 1
6.1.6
T
2.相关系数
变量 x i 与
cij 2
x j的相关系数为
x
n k 1
ki
x i xkj x j
2
n n 2 xki x i xkj x j k 1 k 1
(1)间隔尺度变量: 变量有连续的量来表示,
如长度,重量,速度,温度等。
(2)有序尺度变量:变量度量时不用明确的
数量表示,而是用等级来表示,如某产品分
为一等品,二等品,三等品等有次序关系。 (3)名义尺度变量:变量用一些类表示,这 些类之间既无等级关系也无数量关系。如性别,
职业,产品的型号等。
阵列于表6.1.1
x5 x6
x7 x8
1.000 0.801 0.380 0.319 0.237 0.345
1.000 0.436 0.329 0.327 0.365
1.000 0.762 1.000 0.730 0.583 1.000 0.629 0.577 0.539 1.000
一 最短距离法
(一)定义
类与类之间的距离为两类最近样 本之间的距离,即
DKL min d ij
iGK , jGL
6.2.1
称这种系统聚类法为最短距离法(single
linkage method)。
(二)最短距离法的聚类步骤如下;
(1)规定样本之间的距离,计算 个样本 距离矩阵 D0 ,它是一个对称矩阵。 (2)选定D0 中的最小元素,设为 GKL , 则将 GK 和 GL合并成一个新类,记为 GM , 即 GM GK , GL 。 (3)计算新类 GM 与任一类 GJ 之间距离的 递推公式 DMJ min d ij min min d ij , min d ij
3
dij d ji , 对一切i,j;
4
dij dik kj , 对一切i,j,k。
常用的距离有如下几种: 1.明考夫斯基(Minkowski)距离 第 i 个样品与第 j 个样品间的明考夫斯基距离 (简称明氏距离)定义为
q d ij q xik x jk k 1 p 1/ q
最长距离法与最短距离法并类步骤完全相同, 只是类间距离的递推公式有所不同。设某步 将类 GK 和 GL合并成新类GM ,则 GM与任 一类 GJ 的距离为 DMJ maxDKJ , DLJ
6.2.4
对例6.2.1 采用最长距离法,其树形图如 图6.2.2所示
G1 1 G2 2
(4)对 D1 重复上述对 D0 的两步得 D2 ,如 此下去直至所有元素合并成一类为止。 如果某一步 Dm 中最小的元素不止一个, 则称此现象为结(tie),对应这些最小元素 的类可以任选一类合并或同时合并。
例6.2.1 设有五个样品,每个只测量了一
个指标,分别是1,2,6,8,11,试用最 短距离法将它们分类。
最常用的相似系数有如下两种
1.夹角余弦 变量 x i 与 x j的夹角余弦定义为
cij 1
x
k 1
n
ki kj 1/ 2
x
它是 R n 中变量 x i的观察向量 x1i , x2i ,xni T 与变量x j 的观察向量 x1 j , x2 j ,, xnj 之间的 夹角 ij 的余弦函数,即 cij 1 cosij 。
p
n 个点。在 R
中需定义某
Baidu Nhomakorabea
种距离,第 i 个样品与第 j个样品之间的距
离记为 dij,在聚类过程中,相距较近的点
倾向于归为一类,相距较远的点应归属不同
的类。
距离
dij 的定义一般满足如下四个条件:
dij 0, 对一切i, j;
dij 0,当且仅当第i个样本与第j个样本
1
2
的各变量值相等;
x1 男,英,统计,非教师 ,校外,本科
T T
x 2 女,英,金融,教师, 校外,本科以下
这两名学员的第二个变量都取值“英”,称 为 配合的,第一个变量一个取值为“男”,另 一 个取值为“女”,称为不配合的。一般的, 若 m2
m1
m2 记配合的变量数为 d
12
为
m1 m2 ,则它们之间的距离可定义为