第五章聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4. Lance和Williams 距离
对标准化变量:
xik x jk 1 d ij p k 1 xik x jk
p
5. 配合距离
前几类距离多用于定距和定比尺度数据 ,对于定类和定序变量:
X 1 (V , Q, S , T , K ) X 2 (V , M , S , F , K ) m2 配合数 d12 不配合数 2 2 d12 m 1 m2 不配合数 配合数 2 2 = = 23 5
(一)最短距离法
类与类之间的 距离是两类间 两两样品间的 最短距离
6个民族的粗死亡率与期望寿命
哈萨克与藏族的距离最短, 最先合并形成新类CL7
新类CL7和其 余四类的距离
第二次合并
新类和各类的距离
D8i min(D4i, D7i) i 1,2,3
第三次合并
第四次合并
最后合并成一类
列出指定类 数的类成员
显示指定范围中 每一步类成员
“图”对话框
树状结构图 冰柱图 显示聚类的每一步
指定显示的聚 类范围
不生成冰柱图
冰柱的方向
距离测度方法: 不同尺度变量选 择不同方法
定距尺度变量 定序尺度变量
“方法”对话框聚类方法选项
01变量
确定标准化的方法:只有前两 种尺度的数据才能标准化
测度转换方法 距离值取绝对值 相似度变为不相似度
距离标准化
“保存”对话框
生成一个新变量,表明 每个个体所属类
指定范围内的结果, 生成若干个新变量
系统聚类例:轿车的市场细分
对151名MBA学生的轿车偏好进行调查,要求 他们对10种轿车打分,分值1-10(最高分)。 10种轿车型号为:BMW328i, Ford Explorer, Infiniti J30, Jeep Grand Cherikee, Lexus ES300, Chrysler Town&Country, Merceds C280, Saab 9000, Porsche Boxster, Volvo V90.
3. 马氏(Mahalanobis) 距离
明氏距离没有考虑数据中的协方差模式,马 氏距离则考虑了协方差,且不受指标测量单 位的影响:
2 dij ( Xi X j ) ' 1 ( Xi X j )
其中为p维随机向量的协方差矩 阵
Mahalanobis 距离例
已知二维正态总体G的分布为:G~N(,),其 中 0.9 0 1
D J
2 MJ
1 2 1 2 1 2 DKJ DLJ DKL 2 2 4
(四)类平均法 (average linkage between group)
K M L SPSS作为默认方法 ,称为“组间联接 ”
D
J
2 MJ
nK 2 nL 2 DKJ DLJ nM nM
2 ..
其中D 为欧氏距离的平方 n.为各类类中所含样品
点A到μ的欧氏距离 12 12 2 , 点B到μ的欧氏距离 12 12 2
点A到μ的马氏距离
1 0.9 1 1 1 1 点B到μ的马氏距离 1.05 0 . 9 1 1 0.19
欧式等距离线
欧氏距离、标准化变量的欧式距 离与马氏距离的比较
变量聚类
一、概述
聚类的实质
根据样本(变量)间的亲疏关系将样本(变量)分 为类,相近的归为一类,差别较大的归为另一类。 所获得的分类应有一定的意义。
聚类分析的关键
亲疏关系的判别:相似性与距离(不相似性) 分类数的确定:分多少类合适
聚类分析的应用
不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经 济综合评价 产品市场细分:按照消费者的需求特征分成不 同的细分市场
分类数的确定及类别的解释
系统聚类法给我们提供了一个类别距离 谱系,最终样本如何分类、分成几类需 要我们自己根据研究的目的确定。
3类 2类
最 长 距 离 法
2类
最短距离法
系统聚类的SPSS实现
指定参与聚类的变量名和样品号
存放标识变量 选择聚类类型
“统计量”
聚类状态表
不显示类成员表
相似矩阵 类成员:
快速聚类(k-means clustering)
模糊聚类
聚类分析数据格式
k
二、距离与相似系数
样本间的亲疏关系通常用距离描述,变 量间的亲疏关系通常用相似系数或相关 系数描述
不同测量尺度的数据,其距离的Байду номын сангаас算方 法不同
(一)、距离:样本间的亲疏关系
距离的定义:
假设每个样品由p个变量描述,则每个样品 都可以看成p维空间中的一个点,n个样品就 是p维空间中的n个点,则第i样品与第j样品 之间的距离记为dij
第3次合并
第4次合并
最后合并
例题
5个品牌饮料的热量、咖啡因、钠含量及价格的 距离矩阵如下,请用最长距离法作出谱系图。 根据谱系图,这五个品牌饮料可以分为几类?
(三)中位数法 (median method)
K M L 最长距离夸大了类 间距离,最短距离 低估了类间距离。 介于两者间的距离 即为中间距离
在儿童生长发育研究中,把以形态学为主的指 标归于一类,以机能为主的指标归于另一类
聚类分析的类型
根据分类的对象
Q型聚类(即样本聚类clustering for individuals) R型聚类(变量聚类clustering for variables)
根据分类的方法:
系统聚类(hierarchical clustering )
类间距离
重复步骤2、3,直至合并成一类为止,形成谱系图
类与类间距离
Agglomerative Methods:各种不同方法的基本步骤相同, 只是类与类之间距离的计算方法不同。
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中位数法(median method) 4.类平均法(average linkage) 5.可变类平均法(flexible-beta method) 6.质心法(centroid method) 7.Ward离差平方和法(Ward's minimumvariance method)
聚合法 分解法
Agglomerative系统聚类法基本步骤
步骤1:将n个样品各作为一类,共n类:C1、 C2、…、 Cn。计算各类之间的距离,构成距离矩 阵:dcicj=dij 单样本类,类与类之间的距离为样品距离 步骤2:找到距离最近的两类合并为一新类 步骤3:计算新类与当前各类的距离。 根据谱系图确定如何分类
μ 0 , Σ 0.9 1
A
B
分别求点A=(1,1)’, 和点B=(1,-1)到均值 的欧式距离和马氏距离
马氏等距离线
Σ 1 1 1 0.9 0.19 0.9 1 1 0.9 1 1 1 1 10 0.19 0.9 1 1
k 1 p
Euclidian距离的平方
2
Euclidian距离
明氏距离的缺点
各指标同等对待(权数相同),不能反 映各指标变异程度上的差异 距离的大小与各指标的观测单位有关, 有时会出现不合理结果
没有考虑指标之间的相关性
当各指标的测量值相差悬殊时,可以先 对数据标准化,然后用标准化后的数据 计算距离
树状图
谱系图不显示实 际距离,显示025的比例距离
冰柱图
Vertical Icicle Case
6:
Number of clusters 1 2 3 4 5 X X X X X
4:
2:
哈 萨 克 族 X X X X X
藏 族 X X X X
维 吾 尔 族 X
X X X X X
5:
3:
1:
蒙 族 X X X
朝 鲜 族 X X
满 族 X X X X X
X X X X X
X X X X X
X X X X X
2 1 融合在一起的为一类
3
4
5
(二)最长距离法
类与类之间的 距离是两类间 两两样品间的 最长距离
前例:最长距离法
第1次合并仍取 最短欧式距离
新类和各类的距离:取最大值
第2次合并
新类和各类的距离:取最大值
(五)质心法(centroid method)
K M L 类与类间的距离用各自 重心间的欧式距离表示
D
2 MJ
nK 2 nL 2 nK nL 2 DKJ DLJ 2 DKL nM nM nM
J
nK nL 2 比中间距离多( DKL ) nM
(六)Ward最小方差法 (Ward’ minimum variance method)
x
k 1 n k 1
ki kj n
x
2 2 12 [( xki )( xkj )] k 1
(二)相似系数
2. Pearson相关系数
SPSS的“分析” →“相 关”→“距离”
Measures对话框
定距尺度 定序尺度
定类尺度
三、系统聚类法
通常分为两步:先做出类别 距离谱系图,再根据谱系图 的特点确定分类数并分类
当q=1, dij (1) xik x jk 为绝对值距离,SPSS称为block
p
当q=2,即为欧式距离
当q=∞,有 dij () max xik x jk 1 k p (Chebychev)距离 , 称为切比雪夫
k 1
实例计算
品
距离矩阵
绝对值距离
品
dij (1) xik x jk
dij满足下列条件
dij≥0
dii =0
dij = dji dij ≤ dik + dkj
1. 欧式(Euclidian )距离
d ij ( xi1 x j1 ) 2 ( xi 2 x j 2 ) 2 ( xip x jp ) 2 [ ( xik x jk ) 2 ]1 2
第五章
概述
聚类分析cluster analysis
聚类分析是多元分析的 主要方法之一,主要用 来对大量的样品或变量 进行分类,是初步数据 分析的重要工具之一。
距离与相似系数
系统聚类法
(hierarchical clustering )
快速聚类法
(k-means clustering)
1 1 1 1
1 1 1 0
0 0 1 1
1 0 1 1
Coke Pepsi Diet Caf free 1/4 1/4 2/4 2/4 3/4 1/4
(二)相似系数:变量间的亲疏关系
1. 夹角余弦(Cosine)
受相似形的启发而来,AB和CD尽管 长度不一,但形状相似 A C B D
n
Cij
x2 x12 ① x22- x12
d 21 ( x21 x11 ) 2 ( x22 x12 ) 2
k 1 p
x22 x11
x21- x11 ② x21 x1
2. 明氏(Minkowski )距离
dij [ xik x jk ]
k 1 p 1 q q
q=2
q=1 q=∞
不配合数 配合数 23 5
配合距离例
4种品牌的软饮料在4个方面的特性:是否可乐口味?是 否含有咖啡因?是否节食饮料?是否可口可乐公司产?
可乐味 咖啡因 节食 可口可乐
Coke Pepsi Diet Coke Caffeine-free Diet Coke
距离矩阵
Coke Pepsi Diet Caf free
(七)各种系统聚类方法的统一
以上聚类方法的计算步骤完全相同,仅 类与类之间的定义不同。Lance和Williams 于1967年将其统一为:
D
2 MJ
K D L D D D D
2 KJ 2 LJ 2 KL 2 KJ
2 LJ
八种系统聚类法公式的参数
注意:几种聚类方法获得的结果不一定相同
源于方差分析。 类内离差平方和:类中各样品到类重心(均值)的 平方欧式距离之和。 基本思路:两类合并后,离差平方和就会增加。每 次选择使离差平方和增加(SSM-SSK-SSL) 最小的两类进行合并,直至所有的样品归为一类。
D
2 MJ
n J nK 2 n J nL 2 nJ 2 DKJ DLJ DKL n J nM nJ nM nJ nM