聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析(Cluster Analysis )
一、简介
聚类分析也是一种分类技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。
1. 聚类的目的
根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。
2. 聚类分析的应用例子
同一种疾病(如肝炎),根据临床表现等将病人分成若干类(甲、乙、丙、丁、戊型肝炎)
根据疾病的若干临床表现,将病人分成轻、中、重三型
在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类
3. 聚类的种类
根据分类的原理可将聚类分析分为:
♦系统聚类与快速聚类
根据分类的对象可将聚类分析分为:
♦系统Q型与R型(即样品聚类clustering for individuals 与指标聚类clustering for variables)
4. 聚类分析数据格式
5. 判别分析数据格式
6. 聚类分析与判别分析间的联系
先采用聚类分析获得各个个体的类别(classification );然后采用判别分析建立判别函数,对新个体进行类型识别((identification )
二、图示法聚类分析
1. 散点图(Scatter diagrams)
2. 轮廓图(Profile diagram)
三、距离与相似系数
(一)距离
假使每个样品有p个变量,则每个样品都可以看成p维空间中的一个点,n个样品就是p维空间中的n个点,则第i样品与第j样品之间的距离记为dij
1. 欧式(Euclidian )距离
1.1 二维空间欧式距离
1.2 欧式距离的平方
2. 明氏(Minkowski )距离
实例计算
绝对值距离Euclidian距离的平方
Euclidian距离
变量标准化(作用:消除量纲的影响)3. Mahalanobis 距离
Mahalanobis 距离
➢ 缺点:样品协方差矩阵不变不合理。
➢ 优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲 Mahalanobis 距离实例
4. Lance 和Williams 距离
5. 斜交空间距离
可考虑变量间相关性问题 6. 配合距离
适用于分类变量,尤其是名义尺度变量 (二)相似系数
1112
))((1⎥⎦
⎤
⎢⎣⎡--∑∑
==p k p l kl lj li kj ki r X X X X p 52
322),,,,()
,,,,(2121221=
=配合数不配合数配合数++=
+===m m m d K F S M V X K T S Q V X
研究样品间的关系常用距离,研究指标间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数
1. 夹角余弦(Cosine)
2. Pearson相关系数
四、系统聚类法(hierarchical clustering method)
系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤进行:
1、将n个样品各作为一类
2、计算n个样品两两之间的距离,构成距离矩阵
3、计算新类与当前各类的距离。再合并、计算,直至只有一类为止
4、画聚类图,解释类与类之间的距离
1.最短距离法(single linkage)
2.最长距离法(complete linkage)
3.中间距离法(median method)
4.类平均法(average linkage)
5.可变类平均法(flexible-beta method)
6.重心法(centroid method)
7.Ward离差平方和法(Ward's minimum-variance method)
8.Mcquitty的相似分析法(Mcquitty's similarity analysis)
9.最大似然估计法(EML)
10.密度估计(density linkage)
11.两阶段密度估计法(two-stage density linkage)等。 (一)最短距离法(single linkage ,nearest neighbor)
样品间:欧氏距离
类类间:两类间两两样品距离最短。即图中样品A2和B1之间的距离 6个民族的粗死亡率与期望寿命
)
,min(LJ KJ MJ D D D
(二)最长距离法(complete linkage ,furthest neighbor)
样品间:欧氏距离
类类间:两类间样品两两距离最长。 即图中样品A2和B3之间的距离
)
,m ax (LJ KJ MJ D D D
(三)中间距离法(median method)
最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离
2222
412121KL
LJ KJ MJ D D D D -+=
(四)中间距离法的变形——可变法
(五)类平均法(average linkage between group)
SPSS 作为默认方法,称为 between-groups linkage
(六)可变类平均法(flexible-beta method)
类平均法的变型
(七)重心法(centroid method)
类类间的距离用各自重心间的距离表示
()
2
2222
1KL LJ KJ MJ D D D D ββ++-=之间的数~通常情况下取-01,1<β为各类中所含样品数为欧氏距离的平方
其中.2
..2
22n D D n n D n n D LJ M
L KJ M K MJ +=25
.0;1)1(2
222-<+⎪⎪⎭
⎫ ⎝⎛+-=软件预置为SAS D D n n D n n D KL LJ M L KJ M K MJ βββ)(2
222
22KL M
L K KL
M L K LJ M L KJ M K MJ D n n n D n n n D n n D n n D --+=比中间距离多