聚类分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8.000 6.000 9.000 7.000 8.000 7.000 6.000 3.000 4.000 5.000 3.000 .000
This is a dissimilarity matrix
Mahalanobis 距离实例
6.2.2 关联性测度
�
பைடு நூலகம்
�
�
当个案不能有有意义的p维量度表示时,常根据某 些特征的存在与否来比较个案之间的相似性。相 似个案比不相似个案有更多的共同特征。 关联性测度用来度量聚类变量为类别变量的研究 对象的相似性 设研究对象有p个特征,引入0-1变量xij, 当个案i有 第j的特征时xij=1,没有时xij=0。则两个个案i与 k的p个组合对(xij, xkj)中,有4种配对模式: 1-1配对,0-0配对,两个错配0-1和1-0
定义6个二值变量:
X1= ⎧1 身高≥72英寸 X3= ⎧1 棕色眼睛 X2= ⎧1 体重 ≥ 150磅 X4=⎧1 金色头发 ⎨ ⎩0 其他 X6= ⎧1 女性
⎨ ⎩0 身高< 72英寸
⎨ ⎩0 其他
⎨ ⎩0 体重 < 150磅
X5= ⎧1 右手优势
⎨ ⎩0 左手优势
⎨ ⎩0 男性
相似性系数应用举例
6.2 相似性度量
6.2 相似性度量
6.2.1 � 6.2.1 � 6.2.3 � 6.2.4
�
距离测度 关联性测度 相关性测度 有关注意事项
6.2.1 距离测度
�
假使每个样品有p个变量,则每个样品都可以看成p 维空间中的一个点,n个样品就是p维空间中的n个点 ,则第i样品与第 j 样品之间的距离记为dij 距离测度须满足的条件
r
= ( ∑ | xik − x jk | )
k =1
r
1 r
明氏(Minkowski )距离是通用的距离公式。r=1时 为绝对值距离,r=2时为欧氏距离。r= � 时为切 比雪夫距离, x x
dij = xi − x j
∞
= max xik − x jk
k
6.2.1 距离测度
3、马氏(Mahalanobis) 距离
6.2.2 关联性测度(相似性系数)
�
匹配模式的频数表
个案k
1
0
b 个案 1 a d i 0 c 合计 a+c b+d
� �
合计 a+b c+d p=a+b+c+d
简单匹配系数(匹配距离):S=(a+d)/p 缺点:在相似性的度量中,拥有共同特征(1-1配对)和共
同不拥有同一特征(0-0配对)权重相同,但在某些情形 下,1-1配对是比0-0配对更强的相似性指标
6.1 概述
聚类的种类
�
�
根据分类的原理可将聚类分析分为: 系统聚类 与快速聚类 系统聚类与 根据分类的对象可将聚类分析分为: Q型与R型(即样品聚类clustering for 系统 系统Q individuals 与指标聚类clustering for variables )
6.1 概述
聚类分析数据格式
6.2.3 相关测度
� �
研究样品间的相似性常用距离,研究指标(变量) 间的相似性常用的有:夹角余弦与相关系数 夹角余弦(Cosine)
6.2.3 相关测度
�Pearson相关系数
6.2.3 相关测度
�积距相关系数: 用于二分变量
变量k
6.1 概述
聚类分析的应用例子 (1)不同地区城镇居民收入和消费状况的分类研究。 (2)区域经济及社会发展水平的分析及全国区域经济 综合评价 (3)在儿童生长发育研究中,把以形态学为主的指标 归于一类,以机能为主的指标归于另一类
�
6.1 概述
聚类分析的统计思想
聚类分析又叫群分析、点群分析或者簇分析,是直 接比较各事物之间的性质,将性质相近的归为一类,将 性质差别较大的归入不同的类。 聚类分析方法根据分类对象的不同可以分为两类:一 类是对样品所作的分类,即Q-型聚类,一类是对变量所 作的分类,即R-型聚类。聚类分析的基本思想是,对于 位置类别的样本或变量,依据相应的定义把它们分为若 干类,分类过程是一个逐步减少类别的过程,在每一个 聚类层次,必须满足 “ 类内差异小,类间差异大 ” 原则, 直至归为一类。评价聚类效果的指标一般是方差,距离 小的样品所组成的类方差较小。
This is a dissimilarity matrix
6.2.1 距离测度(举例)
Proximity Matrix Chebychev Distance 1 2 3 4 5 6 7 8 9 .000 2.000 1.000 4.000 4.000 2.000 3.000 5.000 2.000 .000 3.000 2.000 3.000 1.000 1.000 3.000 1.000 3.000 .000 3.000 5.000 2.000 3.000 6.000 4.000 2.000 3.000 .000 5.000 2.000 1.000 4.000 4.000 3.000 5.000 5.000 .000 4.000 4.000 5.000 2.000 1.000 2.000 2.000 4.000 .000 1.000 4.000 3.000 1.000 3.000 1.000 4.000 1.000 .000 3.000 5.000 3.000 6.000 4.000 5.000 4.000 3.000 .000 6.000 4.000 7.000 5.000 6.000 5.000 4.000 2.000 5.000 3.000 5.000 2.000 6.000 4.000 3.000 2.000 7.000 5.000 8.000 6.000 7.000 6.000 5.000 2.000 8.000 6.000 9.000 7.000 8.000 7.000 6.000 3.000 Case 1 2 3 4 5 6 7 8 9 10 11 12 10 6.000 4.000 7.000 5.000 6.000 5.000 4.000 2.000 .000 3.000 2.000 4.000 11 5.000 3.000 5.000 2.000 6.000 4.000 3.000 2.000 3.000 .000 4.000 5.000 12 7.000 5.000 8.000 6.000 7.000 6.000 5.000 2.000 2.000 4.000 .000 3.000
第6讲 聚类分析
第6讲 聚类分析
6.1 概述 � 6.2 相似性度量 � 6.3 聚类方法 � 6.4 聚类结果的解释和实证 � 6.5 SPSS聚类分析
�
6.1 概述
�
�
聚类分析 也是一种分类技术。与多元分析的其他方 聚类分析也是一种分类技术。与多元分析的其他方 法相比,该方法较为粗糙,理论上还不完善,但应 用方面取得了很大成功。与回归分析、判别分析一 起被称为多元分析的三大方法。 根据已知数据,计算各观察个体或变 聚类的目的。 聚类的目的。根据已知数据,计算各观察个体或变 量之间亲疏关系的统计量(距离或相关系数)。根 据某种准则(最短距离法、最长距离法、中间距离 法、重心法),使同一类内的差别较小,而类与类 之间的差别较大,最终将观察个体或变量分为若干 类。
6.2.1 距离测度(举例)
�
运动员的分类
6.2.1 距离测度(举例)
6.2.1 距离测度(举例)
Proximity Matrix Euclidean Distance 1 2 3 4 5 6 7 8 9 .000 3.000 1.732 4.583 4.123 2.236 3.742 7.141 3.000 .000 3.742 2.449 4.690 1.414 1.000 4.243 1.732 3.742 .000 4.690 5.477 2.449 4.123 7.874 4.583 2.449 4.690 .000 5.477 2.828 1.732 4.243 4.123 4.690 5.477 5.477 .000 5.099 5.385 7.211 2.236 1.414 2.449 2.828 5.099 .000 1.732 5.477 3.742 1.000 4.123 1.732 5.385 1.732 .000 3.873 7.141 4.243 7.874 4.243 7.211 5.477 3.873 .000 6.481 4.123 7.416 5.568 7.416 5.196 4.243 3.000 7.141 4.472 7.616 3.162 6.782 5.477 3.873 2.449 8.367 5.568 9.110 6.083 8.888 6.708 5.292 2.236 11.225 8.307 11.958 7.937 10.724 9.539 7.874 4.123 Case 1 2 3 4 5 6 7 8 9 10 11 12 10 11 12 6.481 7.141 8.367 11.225 4.123 4.472 5.568 8.307 7.416 7.616 9.110 11.958 5.568 3.162 6.083 7.937 7.416 6.782 8.888 10.724 5.196 5.477 6.708 9.539 4.243 3.873 5.292 7.874 3.000 2.449 2.236 4.123 .000 5.196 2.449 6.000 5.196 .000 4.583 5.196 2.449 4.583 .000 3.742 6.000 5.196 3.742 .000
�
个人1和个人2在p=6个二值变量上的得分为 个人 X1 1 0 2 1 X2 0 1 X3 0 1 X4 1 0
个人2 1 个人1 1 0 合计 1 3 4 0 2 0 2 合计 3 3 6
X5 1 1
X6 1 0
� 配对与错配的数目由下面双向表给出:
相似性系数应用举例
�
用给出等权配对的匹配系数,得到
dij = ( xi − x j ) Σ ( xi − x j )
马氏距离的优点:马氏距离既排除了各指标间的相 关性干扰,又消除了各指标的量纲 4、Lance和Williams 距离
�
p
T
−1
d ij = ∑
k =1
xik − x jk
( xik + x jk )
该距离与变量单位无关,对大的异常值不敏感,适用 于较大变异的数据,但未考虑相关问题
a + d 1+ 0 1 = = p 6 6
继续用匹配系数,便 可得到其余对个人之 间的相似性数字,这 些数字列于下面的5*5 对称矩阵中。
⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝
1 1 6 4 6 4 6 0
1 3 6 3 6 5 6 1 2 6 2 6 1 2 6
⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ 1⎟ ⎟ ⎠
6.2.2 关联性测度(相似性系数)
�
�
雅科比系数:S=a/p。是对简单匹配系数的改进,去 p p 掉了0-0配对 S = ∑ S ijk W ijk ∑ 果瓦系数: k =1 k =1
其中,Sijk=个案i和个案j在变量k上的相似性得分 Wijk:加权变量 � Sijk和Wijk的计算规则: � 对于二分变量,1-1配对时Sijk=1,其他配对Sijk=0;0-0 配对时Wijk=0,其他配对Wijk=1 � 次序变量:两个案在变量上取值相同时Sijk=1,否则为0 � 数值变量:Sijk=1-|xik-xjk|/Rk, Rk为变量xk的全距
相似性系数应用举例
�
判别具有以下特征的5个人中,那些人最为相似
个人 身高 体重 眼球颜色 头发颜色 优势手 性别 1 2 3 4 5 68 73 67 64 76 140 185 165 120 210 绿 棕 蓝 棕 棕 金 黑 金 黑 黑 右 右 右 右 左 女 男 男 女 男
相似性系数应用举例
�
(1)对称性 dij=dji≥0 (2)三角不等式 dij≤ dik+djk (3)dij≠0 则 样品i≠样品j
6.2.1 距离测度
1、欧氏(Euclidian )距离
p
d ij = xi − x j =
2 ( x − x ) ∑ ik jk
k =1
2、明氏(Minkowski )距离
p
d ij = x i − x j