聚类分析方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

相似性系数应用举例
�
判别具有以下特征的5个人中，那些人最为相似
个人身高体重眼球颜色头发颜色优势手性别 1 2 3 4 5 68 73 67 64 76 140 185 165 120 210 绿棕蓝棕棕金黑金黑黑右右右右左女男男女男
相似性系数应用举例
�
个人1和个人2在p=6个二值变量上的得分为个人 X1 1 0 2 1 X2 0 1 X3 0 1 X4 1 0
个人2 1 个人1 1 0 合计 1 3 4 0 2 0 2 合计 3 3 6
X5 1 1
X6 1 0
� 配对与错配的数目由下面双向表给出：
相似性系数应用举例
�
用给出等权配对的匹配系数，得到
第6讲聚类分析
第6讲聚类分析
6.1 概述 � 6.2 相似性度量 � 6.3 聚类方法 � 6.4 聚类结果的解释和实证 � 6.5 SPSS聚类分析
�
6.1 概述
�
�
聚类分析也是一种分类技术。与多元分析的其他方聚类分析也是一种分类技术。与多元分析的其他方法相比，该方法较为粗糙，理论上还不完善，但应用方面取得了很大成功。与回归分析、判别分析一起被称为多元分析的三大方法。根据已知数据，计算各观察个体或变聚类的目的。聚类的目的。根据已知数据，计算各观察个体或变量之间亲疏关系的统计量（距离或相关系数）。根据某种准则（最短距离法、最长距离法、中间距离法、重心法），使同一类内的差别较小，而类与类之间的差别较大，最终将观察个体或变量分为若干类。
�
（1）对称性 dij＝dji≥0 （2）三角不等式 dij≤ dik＋djk （3）dij≠0 则样品i≠样品j
6.2.1 距离测度
1、欧氏（Euclidian ）距离
p
d ij = xi − x j =
2 ( x − x ) ∑ ik jk
k =1
2、明氏（Minkowski ）距离
p
d ij = x i − x j
6.2.2 关联性测度（相似性系数）
�
匹配模式的频数表
个案k
1
0
b 个案 1 a d i 0 c 合计 a+c b+d
� �
合计 a+b c+d p=a+b+c+d
简单匹配系数（匹配距离）：S=(a+d)/p 缺点：在相似性的度量中，拥有共同特征（1-1配对）和共
同不拥有同一特征（0-0配对）权重相同，但在某些情形下，1-1配对是比0-0配对更强的相似性指标
6.2.2 关联性测度（相似性系数）
�
�
雅科比系数：S=a/p。是对简单匹配系数的改进，去 p p 掉了0-0配对 S = ∑ S ijk W ijk ∑ 果瓦系数： k =1 k =1
其中，Sijk＝个案i和个案j在变量k上的相似性得分 Wijk：加权变量 � Sijk和Wijk的计算规则： � 对于二分变量，1-1配对时Sijk＝1，其他配对Sijk＝0；0-0 配对时Wijk＝0，其他配对Wijk＝1 � 次序变量：两个案在变量上取值相同时Sijk＝1，否则为0 � 数值变量：Sijk＝1－|xik-xjk|/Rk, Rk为变量xk的全距
r
= ( ∑ | xik − x jk | )
k =1
r
1 r
明氏（Minkowski ）距离是通用的距离公式。r=1时为绝对值距离，r=2时为欧氏距离。r= � 时为切比雪夫距离， x x
dij = xi − x j
∞
= max xik − x jk
k
6.2.1 距离测度
3、马氏（Mahalanobis）距离
6.2 相似性度量
6.2 相似性度量
6.2.1 � 6.2.1 � 6.2.3 � 6 有关注意事项
6.2.1 距离测度
�
假使每个样品有p个变量，则每个样品都可以看成p 维空间中的一个点，n个样品就是p维空间中的n个点，则第i样品与第 j 样品之间的距离记为dij 距离测度须满足的条件
定义6个二值变量：
X1= ⎧1 身高≥72英寸 X3= ⎧1 棕色眼睛 X2= ⎧1 体重 ≥ 150磅 X4=⎧1 金色头发 ⎨ ⎩0 其他 X6= ⎧1 女性
⎨ ⎩0 身高< 72英寸
⎨ ⎩0 其他
⎨ ⎩0 体重 < 150磅
X5= ⎧1 右手优势
⎨ ⎩0 左手优势
⎨ ⎩0 男性
相似性系数应用举例
6.1 概述
聚类分析的应用例子（1）不同地区城镇居民收入和消费状况的分类研究。（2）区域经济及社会发展水平的分析及全国区域经济综合评价（3）在儿童生长发育研究中，把以形态学为主的指标归于一类，以机能为主的指标归于另一类
�
6.1 概述
聚类分析的统计思想
聚类分析又叫群分析、点群分析或者簇分析，是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。聚类分析方法根据分类对象的不同可以分为两类：一类是对样品所作的分类，即Q-型聚类，一类是对变量所作的分类，即R-型聚类。聚类分析的基本思想是，对于位置类别的样本或变量，依据相应的定义把它们分为若干类，分类过程是一个逐步减少类别的过程，在每一个聚类层次，必须满足 “ 类内差异小，类间差异大 ” 原则，直至归为一类。评价聚类效果的指标一般是方差，距离小的样品所组成的类方差较小。
6.2.3 相关测度
� �
研究样品间的相似性常用距离，研究指标（变量）间的相似性常用的有：夹角余弦与相关系数夹角余弦（Cosine）
6.2.3 相关测度
�Pearson相关系数
6.2.3 相关测度
�积距相关系数：用于二分变量
变量k
a + d 1+ 0 1 = = p 6 6
继续用匹配系数，便可得到其余对个人之间的相似性数字，这些数字列于下面的5*5 对称矩阵中。
⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝
1 1 6 4 6 4 6 0
1 3 6 3 6 5 6 1 2 6 2 6 1 2 6
⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ 1⎟ ⎟ ⎠
This is a dissimilarity matrix
6.2.1 距离测度（举例）
Proximity Matrix Chebychev Distance 1 2 3 4 5 6 7 8 9 .000 2.000 1.000 4.000 4.000 2.000 3.000 5.000 2.000 .000 3.000 2.000 3.000 1.000 1.000 3.000 1.000 3.000 .000 3.000 5.000 2.000 3.000 6.000 4.000 2.000 3.000 .000 5.000 2.000 1.000 4.000 4.000 3.000 5.000 5.000 .000 4.000 4.000 5.000 2.000 1.000 2.000 2.000 4.000 .000 1.000 4.000 3.000 1.000 3.000 1.000 4.000 1.000 .000 3.000 5.000 3.000 6.000 4.000 5.000 4.000 3.000 .000 6.000 4.000 7.000 5.000 6.000 5.000 4.000 2.000 5.000 3.000 5.000 2.000 6.000 4.000 3.000 2.000 7.000 5.000 8.000 6.000 7.000 6.000 5.000 2.000 8.000 6.000 9.000 7.000 8.000 7.000 6.000 3.000 Case 1 2 3 4 5 6 7 8 9 10 11 12 10 6.000 4.000 7.000 5.000 6.000 5.000 4.000 2.000 .000 3.000 2.000 4.000 11 5.000 3.000 5.000 2.000 6.000 4.000 3.000 2.000 3.000 .000 4.000 5.000 12 7.000 5.000 8.000 6.000 7.000 6.000 5.000 2.000 2.000 4.000 .000 3.000
dij = ( xi − x j ) Σ ( xi − x j )
马氏距离的优点：马氏距离既排除了各指标间的相关性干扰，又消除了各指标的量纲 4、Lance和Williams 距离
�
p
T
−1
d ij = ∑
k =1
xik − x jk
( xik + x jk )
该距离与变量单位无关，对大的异常值不敏感，适用于较大变异的数据，但未考虑相关问题
8.000 6.000 9.000 7.000 8.000 7.000 6.000 3.000 4.000 5.000 3.000 .000
This is a dissimilarity matrix
Mahalanobis 距离实例
6.2.2 关联性测度
�
�
�
当个案不能有有意义的p维量度表示时，常根据某些特征的存在与否来比较个案之间的相似性。相似个案比不相似个案有更多的共同特征。关联性测度用来度量聚类变量为类别变量的研究对象的相似性设研究对象有p个特征，引入0-1变量xij, 当个案i有第j的特征时xij＝1，没有时xij＝0。则两个个案i与 k的p个组合对(xij, xkj)中，有4种配对模式： 1－1配对，0－0配对，两个错配0－1和1－0
6.2.1 距离测度（举例）
�
运动员的分类
6.2.1 距离测度（举例）
6.2.1 距离测度（举例）
Proximity Matrix Euclidean Distance 1 2 3 4 5 6 7 8 9 .000 3.000 1.732 4.583 4.123 2.236 3.742 7.141 3.000 .000 3.742 2.449 4.690 1.414 1.000 4.243 1.732 3.742 .000 4.690 5.477 2.449 4.123 7.874 4.583 2.449 4.690 .000 5.477 2.828 1.732 4.243 4.123 4.690 5.477 5.477 .000 5.099 5.385 7.211 2.236 1.414 2.449 2.828 5.099 .000 1.732 5.477 3.742 1.000 4.123 1.732 5.385 1.732 .000 3.873 7.141 4.243 7.874 4.243 7.211 5.477 3.873 .000 6.481 4.123 7.416 5.568 7.416 5.196 4.243 3.000 7.141 4.472 7.616 3.162 6.782 5.477 3.873 2.449 8.367 5.568 9.110 6.083 8.888 6.708 5.292 2.236 11.225 8.307 11.958 7.937 10.724 9.539 7.874 4.123 Case 1 2 3 4 5 6 7 8 9 10 11 12 10 11 12 6.481 7.141 8.367 11.225 4.123 4.472 5.568 8.307 7.416 7.616 9.110 11.958 5.568 3.162 6.083 7.937 7.416 6.782 8.888 10.724 5.196 5.477 6.708 9.539 4.243 3.873 5.292 7.874 3.000 2.449 2.236 4.123 .000 5.196 2.449 6.000 5.196 .000 4.583 5.196 2.449 4.583 .000 3.742 6.000 5.196 3.742 .000
6.1 概述
聚类的种类
�
�
根据分类的原理可将聚类分析分为：系统聚类与快速聚类系统聚类与根据分类的对象可将聚类分析分为： Q型与R型（即样品聚类clustering for 系统系统Q individuals 与指标聚类clustering for variables )
6.1 概述
聚类分析数据格式