《多元统计分析》第四章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

xi*

xi
xi sii
,
i 1, 2,, p
其中 xi 和sii分别为xi的样本均值和样本方差。
4
绝对值距离
v
p
d x, y xi yi
i 1
v 常被形象地称作“城市街区”距离,
当我们对某城市(需考虑彼此之间
路程)的位置点进行聚类时,使用
绝对值距离一般是合适的。
5
马氏距离
分割系统法的聚类步骤与聚集系统法正相反(略)。 聚集系统法最为常用,本讲着重介绍其中常用的五种方法。
1
聚集系统法的图示说明
2
二、常用的系统聚类法
1.最短距离法 2.最长距离法 3.类平均法 4.重心法 5.离差平方和法(Ward方法)
所有这些聚类方法的 区别在于类与类之间 距离的定义不同。
x1 2959.19 2459.77 1495.63 1406.33 1303.97 1730.84 1561.86 1410.11 3712.31 2207.58 2629.16 1844.78 2709.46 1563.78 1675.75
x2 730.79 495.47 515.9 477.77 524.29 553.9 492.42 510.71 550.74 449.37 557.32 430.29 428.11 303.65 613.32
x7 478.42 570.84 364.91 281.84 287.87 330.24 360.48 317.61 720.33 429.77 575.76
314 535.13 509.39 371.62
单位:元
x8 457.64 305.08 188.63 212.1 192.96 163.86 147.76 152.85 462.03 252.54 323.36 151.39 232.29 160.12 211.84
2
聚类分析和判别分类的区别
聚类分析和判别分类是两种不同的分类方法。 在判别分类中,组(或类)的数目是已知的,组是事先已定义好了的,
我们将样品分配给其中一个组。 而在聚类分析中,无论是类的数目还是类本身在事先都是未知的。 例如,我们判断某公司的职员来自哪个部门的,这属于判别分类的问
题;而我们根据该公司各职员的一些能力和特点进行分类,则属于聚 类分析的问题。
3
《多元统计分析》
4.2 距离和相似系数
变量的尺度
v 变量的测量尺度:间隔、有序和名义尺度。 v 间隔变量:变量用连续的量来表示。如长度、重量、速度、温度等。 v 有序变量:变量度量时不用明确的数量表示,而是用等级来表示。
如某产品分为一等品、二等品、三等品等有次序关系;又如顾客售后 评价从非常满意到非常不满意之间进行选择。 v 名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关
v
d x, y x y S 1 x y
其中S为样本协差阵。 v 聚类过程中的类一直变化着,S一般难以确定,除非有关于不同类的
先验知识。因此,在实际聚类分析中,马氏距离一般不是理想的距离 。
6
二值名义变量的一种距离定义
v 例1 (书中例6.2.1) 某高校举办一个培训班,从学员资料中得到这样 六个变量: x1 :性别(男,女) x2 :外语语种(英语,非英语) x3 :专业(统计,非统计) x4 :职业(教师,非教师) x5 :居住处(校内,校外) x6 :学位(硕士,学士)

G6
G7
G5
G6
0
G7
4
0
G5
9
3
0
G8=G7∪G5={6,8,11}。
7

G6
G8
G6
0
G8
4
0
G9=G6∪G8={1,2,6,8,11}。 最短距离法树形图
8
最短距离法有一种挑选长链状聚类的倾向,称为链接倾向。
最短距离法不适合对分离得很差的群体进行聚类。
9
2.最长距离法
类与类之间的距离定义为两类最远样品间的距离,即
DKL

max
iGK , jGL
dij
最长距离法与最短距离法的并类步骤完全相同,只是递推公式不同。
10
最长距离法的递推公式
DMJ maxDKJ , DLJ
11
最长距离法容易被异常值严重地扭曲。
12
3.类平均法
有两种定义。
在聚类分析中,有时我们 也使用不满足三角不等式 的“距离”,当然这不是 真正意义上的距离。
3
欧氏距离
v
d x, y x y x y
它是聚类分析中最常用的一个距离。
v 当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据
作标准化处理。最常用的标准化处理是,令
记G1={1},G2={2},G3={6},G4={8},G5={11},样品间采用绝对值 距离。

G1
G2
G3
G4
G5
G1
0
G2
1
0
G3
5
4
0
G4
7
6
2
0
G5
10
9
5
3
0
G6=G1∪G2={1,2}。
6

G6
G3
G4
G5
G6
0
G3
4
0
G4
6
2
0
G5
9
5
3
0
G7=G3∪G4={6,8}。
消费性支出数据
x3 74百度文库.41 697.33 362.37 290.15 254.83 246.91 200.49 211.88 893.37 572.4 689.73 271.28 334.12 233.81 550.71
x4 513.34 302.87 285.32 208.57 192.17 279.81 218.36 277.11 346.93 211.92 435.69 126.33 160.77 107.9 219.79
设类GK和GL的重心(均值)分别为xK和xL ,则GK与GL之间的平方距 离定义为
DK2L
d2 xK xL

xK xL
xK xL
与其他系统聚类法相比,重心法在处理异常值方面更稳健,但是在别 的方面一般不如类平均法或离差平方和法的效果好。
14
5.离差平方和法(Ward方法)
x5 467.87 284.19 272.95 201.5 249.81 239.18 220.69 224.65
527 302.09 514.66 250.56 405.14 209.7 272.59
x6 1141.82 735.97 540.58 414.72 463.09 445.2 459.62 376.82 1034.98 585.23 795.87 513.18 461.67 393.99 599.43
系。如性别、职业、产品的型号等。 v 间隔变量也称为定量变量,有序变量和名义变量统称为定性变量或属
性变量或分类变量。
1
相似性度量
v 相似性度量:距离和相似系数。 v 对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来
度量变量之间的相似性。 v 本章主要讨论针对间隔变量的聚类分析,并侧重于对样品聚类分析的
7
Ø 现有两名学员: x=(男,英语,统计,非教师,校外,学士)′ y=(女,英语,非统计,教师,校外,硕士)′
Ø 一般地,若记 m1:配合的变量数 m2:不配合的变量数
则它们之间的距离可定义为
d x, y m2
m1 m2 Ø 故按此定义,本例中x 与y 之间的距离为2/3。
8
相似系数
GK与GL之间的平方距离定义为
DK2L

nK nL nM
xK

xL

xK

xL


nKnL nKnL
1
nM nK nL 1 nL 1 nK
离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;
相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合
我们对聚类的实际要求。
19
河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆
1427.65 1783.43 1942.23 3055.17 2033.87 2057.86 2303.29 1974.28 1673.82 2194.25 2646.61 1472.95 1525.57 1654.69 1375.46 1608.82
在生物学上,对动植物分类和对基因分类,获得对种群中固有结构的 认识。
在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等 多项指标对世界上所有国家的经济发展状况进行分类。
对人体体型指标进行测量,可对所有这些指标进行聚类,一般可分成 “纵向”指标(如身高、手臂长、上肢长和下肢长等)和“横向”指 标(如体重、颈围、胸围和胸宽等)两类。
3
1.最短距离法
定义类与类之间的距离为两类最近样品间的距离,即
DKL

min
iGK , jGL
dij
4
最短距离法的递推公式
将类GK和GL合并成一个新类GM,则GM与任一类GJ之间距离的递推公 式为
DMJ minDKJ , DLJ
5
例1 (书中例6.3.1) 设有五个样品,每个只测量了一个指标,分别是 1,2,6,8,11,试用最短距离法将它们分类。
讨论。
2
距离的定义
v 设x =(x1,x2,⋯ ,xp)′ 和y =(y1,y2,⋯ ,yp)′为两个样品,则所定义的距离一般 应满足如下三个条件:
Ø (i)非负性:d(x, y)≥0,d(x, y)=0当且仅当x=y;
Ø (ii)对称性:d(x, y)=d(y, x);
Ø (iii)三角不等式:d(x, y)≤d(x,z)+d(z, y)。 v 距离越小表明相似性越强,反之越弱。
离差平方和法在许多场合下被认为是一种比较好的系统聚类法,但该 方法对异常值很敏感。
15
16
例1的最短距离法树形图
例1的最长距离法树形图
例1的类平均法树形图
例1的离差平方和法树形图
17
三、案例分析
例2 (书中例6.3.3) 下表列出了1999年全国31个省、直辖市和自治 区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这 八个变量是
v 变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另 一些应用中要看相似系数绝对值的大小。
v 相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高; 反之,则越低。
v 聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同 的类。
v 对于间隔变量,变量之间最常用的相似系数是相关系数。
定义1:类GK和GL之间的距离定义为
1
DKL

nK nL
dij
iGK , jGL
定义2:类GK和GL之间的平方距离定义为
DK2L

1 nK nL
di2j
iGK , jGL
类平均法较好地利用了所有样品之间的信
息,在很多情况下它被认为是一种比较好
的系统聚类法。
13
4.重心法
x1:食品
x5:交通和通讯
x2:衣着
x6:娱乐教育文化服务
x3:家庭设备用品及服务 x7:居住
x4:医疗保健
x8:杂项商品和服务
分别用最短距离法、重心法和Ward方法对各地区作聚类分析。为同等
地对待每一变量,在作聚类前,先对各变量作标准化变换。
18
地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东
9
《多元统计分析》
4.3 系统聚类法
一、系统聚类法的概念
系统聚类法(或层次聚类法)是通过一系列相继的合并或相继的分割 来进行的,分为聚集的和分割的两种。系统聚类法适用于样品数目n不 是非常大的情形。
聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样 品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一 个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每 次减少一类,直至所有的样品合并为一类。
431.79 511.88 512.27 353.23 300.82 186.44 589.99 507.76 437.75 537.01 839.7 390.89 472.98 437.77 480.89 536.05
288.55 282.84 401.39 564.56 338.65 202.72 516.21 344.79 461.61 369.07 204.44 447.95 328.9 258.78 273.84 432.46
《多元统计分析》
4.1 引言
聚类分析的概念
聚类分析将分类对象分成若干类,相似的归为同一类,不相似的归为 不同的类。
聚类分析常常用来探索寻找“自然的”分类,并且这样的分类应是对 所研究的问题有意义的。
聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。
1
聚类分析的例子
在商务上,市场分析人员希望将客户基本库中的客户分成不同的客户 群,并且用购买模式来刻画不同客户群的特征。
相关文档
最新文档