应用多元统计分析-第五章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 kr

G p和Gq合并为Gr,则任一类Gk 与Gr的距离为:
np nr
D
2 kp
nq nr
2 Dkq
36
系统聚类法
离差平方和法——Word’s Method Word’s法的基本思想是来自于方差分析,如果分 类正确,同类样品的离差平方和应当较小,类与 类的离差平方和应当较大。 具体方法: 先将n个样品各自成一类,然后每次缩小一类; 每缩小一类离差平方和就要增大,选择使离差平 方和增加最小的两类合并,直到所有的样品归为 一类为止。
聚类分析
1
第五章 把对象分类 ——聚类分析
2
分类
俗语说,物以类聚、人以群分。 当有一个分类指标时,分类比较容易。 但是当有多个指标,要进行分类就不是很 容易了。 比如,要想把中国的县分成若干类,可以 按照自然条件来分:考虑降水、土地、日照、 湿度等各方面; 也可以考虑收入、教育水准、医疗条件、 基础设施等指标;

37
系统聚类法

Gt
中样品的离差平方和为:
38
系统聚类法
如有五个样品:1, 2, 3.5, 7, 9 第一步:将五个样品各自分成一类,显 然这时的类内离差平方和S=0; 第二步:将一切可能的任意两样品合并, 计算所增加的离差平方和: 如

39
G1 G1 G2 G3 G4 G5
G2
G3
2 36
34
系统聚类法

重心法——Centroid Clustering 重心法定义两类之间的距离就是两类重心的距离。 设 Gp和Gq 的重心(即该类样品的均值)分别是 X p 和X q (注意一般他们是p维向量),则 Gp 和Gq 之间的距离是
2 D D D D pq 计算公式为: nr nr nr nr 2 kr 2 kp 2 kq
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5
0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
0 2
0 2.5 0 6 3.5 8 5. 5
0 2
0
32
系统聚类法-中间法
1 2 1 2 1 2 D Dkp Dkq D pq 2 2 4
完全相似; cos ij 接
j
近 l,说明 X i 与 X j 相似密切; cos ij =0,说明 X i 与X 不一样; cos ij 接近 0,说明 X i 与 X j 差别大。
完全
20
相似矩阵
把所有两两样品的相似系数都算出,可排成相似系数矩 阵:
cos 11 cos 21 cos n1 其中 cos 11
27
系统聚类法的步骤
可选择适当的距离,计算距离 把每个样品看成一类,构造n个类
合并最近的两类为一新类
采用系统聚类法
计算新类与当前各类的距离
不是仅有一个类 判断 仅有一个类
画聚类图
根据实际情况,确定类和类的个数
28
系统聚类法

正如样品之间的距离可以有不同的定义方法一样, 类与类之间的距离也有各种定义。 例如可以定义类与类之间的距离为两类之间最近 样品的距离,或者定义为两类之间最远样品的距 离,也可以定义为两类重心之间的距离等等。类 与类之间用不同的方法定义距离,就产生了不同 的系统聚类方法。

14
对指标标准化的方法
15
明氏距离的缺点

另一个缺点:它没有考虑到指标之间的相关性。 改进的方法是:采用马氏距离 马氏距离是1936年由印度数学家:马哈拉比斯由协方差 矩阵计算构造的距离。
16
距离矩阵
计算任何两个样品 X i 与 X j 之间的距离 d ij ,其值越小表示两
d 个样品接近程度越大, ij 值越大表示两个样品接近程度越小。
4
聚类分析
对于一个数据,人们既可以对变量(指标)进行

分类(相当于对数据中的列分类),也可以对观测 值(事件,样品)来分类(相当于对数据中的行 分类)。 对变量的聚类称为R型聚类,而对观测值聚类称为 Q型聚类。这两种聚类在数学上是对称的,没有什 么不同。
5
聚类中选择变量的要求

和聚类分析的目标密切相关 反映了要分类对象的特征 变量之间不应该高度相关。
43
Hierarchical Cluster聚类

分层聚类由两种方法:分解法和凝聚法。 分层聚类的功能:即可进行样品的聚类,也可进 行变量的聚类。 分层聚类的原理:即我们前面介绍过的系统聚类 方法的原理和过程。
44
Hierarchical Cluster聚类

分层聚类的中要进行以下的选择: 数据的标准化 测度方法的选择:距离方法的选择或相似性、关 联程度的选择。 聚类方法的选择:即以什么方法聚类,spss中提 供了7中方法可进行选择。 输出图形的选择:树形图或冰柱图。

3
聚类分析
由于不同的指标项对重要程度或依赖关系 是相互不同的,所以也不能用平均的方法, 因为这样会忽视相对重要程度的问题。 所以需要进行多元分类,即聚类分析。 最早的聚类分析是由考古学家在对考古分 类中研究中发展起来的,同时又应用于昆虫 的分类中,此后又广泛地应用在天气、生物 等方面。

点进行分类, 距离近的点归为一类, 距离远的点归为不同的类。
17
相似系数
研究样品之间的关系,除了用距离表示外, 还有相似系数,顾名思义,相似系数是描 写样品之间相似程度的一个量,常用的相 似系数有: 夹角余弦 相关系数

18
相似系数


夹角余弦—cosine 尽管图中AB和CD 长度不一样,但形 状相似。当长度不 是主要矛盾时,就 可利用夹角余弦这 样的相似系数。
本章主要介绍常用的系统聚类法。
25
系统聚类法
26
系统聚类法的基本思想


先将每个研究对象(样品或指标)各自看成一类。 然后根据对象间的相似度量,将h类中最相似的两 类合并,组成一个新类,这样得到h-1类,再在这 h-1类中找出最相似的两类合并,得到h-2类,如 此下去,直至将所有的对象并成一个大类为止。 当然,真的合并成一个类就失去了聚类的意义, 所以上面的聚类过程应该在某个类水平数(即未 合并的类数)停下来,最终的类就取这些未合并 的类。决定聚类个数是一个很复杂的问题。
G4
G5
0 0.5 0 3.125 1.123 0 18 12.5 6.125 32 24.5 12.125
0 2
0
此外,还有类内平均法等。
40
SPSS中的聚类 分析与过程
41
例9.1
饮料数据(drink.sav )
•16种饮料的热量、咖啡因、钠及价格四种变量
42
SPSS中的聚类分析


Spss中的聚类功能常用的有两种: 快速聚类(迭代过程): K-Means Cluster 分层聚类:Hierarchical
2 kr
33
系统聚类法-中间法
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5
G6 G3 0 3.5 5. 5 0 2 G4 G5 G6 G3 G4 G5 0 1.75 5.50 7.25
0 1.5 5 7
0 3.5 5.5
0 2
0
1 2 1 2 1 2 1 1 1 D D31 D32 D12 2.5 1.5 1 1.75 2 2 4 2 2 4
30
系统聚类法

最短距离法——Nearest Neighbor
G1
G1 G2 G3 G4 G5 0 1 2.5 6 8
G2
G3
G4
G5 G6 G3 G4 G5
0
G6
G3
G4
G5
0 1.5 5 7
0 3.5 5.5
0 2
0 1.5 0 5 3.5 7 5. 5
0 2
0
31
系统聚类法

最长距离法——Furthest Neighbor
d12 (2) ( x1 y1 ) ( x2 y2 )
2
2
11
当长度=cm时:
12
当长度=mm时:
改进的方法:对数据进行标准化,然后再计算距离。
13
采用明氏距离需要注意的是:
一定要采用相同量纲的变量。如果各变量 的量纲不同,或当各变量的量纲相同但各 变量的测量值相差悬殊时,不能直接采用 明氏距离。 需要先对数据进行标准化处理,然后再用 标准化处理后的数据计算距离。 最常用的标准化处理方法是:
cos 12 cos 22 cos n 2
cos 22
cos 1n cos 2 n cos nn cos nn 1 ,
是一个实
对称阵,所以只须计算上三角形部分或下三角形部分,根据 可对 n 个样品进行分类,把比较相似的样品归为一类,不怎么 相似的样品归为不同的类。
21

相关系数
通常所说相关系数,一般指变量间的相关系数,作为刻划 样品间的相似关系也可类似给出定义,即第 i 个样品与第 j 个 样品之间的相关系数定义为:
rij
(x
k 1 p k 1
p
ik
xi )( x jk x j )
p
( xik xi ) 2 ( x jk x j ) 2
6
如何聚类?


聚类分析就是要找出具有相近程度的点或类聚为 一类; 如何衡量这个“相近程度”? 一种方法是用相似系数,性质越接近的样品,它 们的相似系数的绝对值越接近1,而彼此无关的样 品,它们的相似系数的绝对值越接近于零。比较 相似的样品归为一类,不怎么相似的样品归为不 同的类。 另一种方法是将一个样品看作p维空间的一个点, 并在空间定义距离,距离越近的点归为一类,距 离较远的点归为不同的类。
如果把任何两个样品的距离都算出来后,可排成距离阵D :
d11 d12 d d 22 21 D d n1 d n 2 其中 d11 d 22 d nn
d1n d 2n d nn 0 。 D 是一个实对称阵,所以只 须计算上三角形部分或下三角形部分即可。根据D 可对 n 个
29
八种系统聚类方法





最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均法 可变法 离差平方和法

系统聚类分析尽管方法很 多,但归类的步骤基本上 是一样的,所不同的仅是 类与类之间的距离有不同 的定义方法,从而得到不 同的计算距离的公式。这 些公式在形式上不大一样, 但最后可将它们统一为一 个公式,对上机计算带来 很大的方便 。
19
夹角余弦—cosine
将任何两个样品 X i 与 X j 看成 p 维空间的两个向量,这两 个向量的夹角余弦用 cos ij 表示。则
p
cos ij
x
k 1 p k 1
ik
x jk
p
2 xik x 2 jk k 1
当 cos ij =1,说明两个样品 X i 与 X
j
7
距离和相似系数
8
距离
源自文库
什么是距离? 首先我们 看样本数 据: 一般满足以下四个条件时,就称为聚例:
9
常用距离——明氏距离

Minkowski距离: 当q=1时: 当q=2时:



当q=∞时:
10
明氏距离的缺点

距离的大小与个指标的观测单位有关,具有一定 的人为性。 例如:对体重和身高进行测量,采用不同单位, 其距离测量的结果不同。以欧氏距离为例。
k 1
r 实际上, ij 就是两个向量 X i X i 与 X j X j 的夹角余弦,其
中 X i ( xi , xi , , xi ) , X 据标准化,则 X i X
j j
( x j , x j , , x j ) 。若将原始数
= cos ij 。
22
0 ,这时 rij
np
nq
n p nq
具体计算过程见参考书2p78-79 。
35
系统聚类法

类平均法——Between-groups Linkage 重心法虽有很好的代表性,但并未充分利用个样 品的信息,因此给出类平均法,它定义两类之间 的距离平方为这两类元素两两之间距离平方的平 均,即: 设聚类到某一步将
D
相关系数矩阵

把两两样品的相关系数都计算出来,可形成样品 相关系数矩阵。
r11 r12 r1p r r r 2p 21 22 R (rij) rn1 rn2 rnp
23
24
聚类分析内容

系统聚类法 有序样品聚类法 动态聚类法 模糊聚类法 图论聚类法 聚类预报法等。
相关文档
最新文档