《应用多元统计分析》第05章_聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
维空间中的一个点,n个样品就是p维空间中的n个 点,则第i样品与第 j 样品之间的距离记为dij
距离测度须满足的条件
(1)对称性
dij=dji0
(2)三角不等式 dij dik+djk (3)dij0 则 样品i样品j
一、样品相似性的度量
在聚类之前,要首先分析样品间的相似性。Q型聚类分析,
距离测度(举例)
距离测度(举例)
Proximity Matrix Case 1 2 3 4 5 6 7 8 9 10 11 12 1 .000 3.000 1.732 4.583 4.123 2.236 3.742 7.141 6.481 7.141 8.367 11.225 2 3.000 .000 3.742 2.449 4.690 1.414 1.000 4.243 4.123 4.472 5.568 8.307 3 1.732 3.742 .000 4.690 5.477 2.449 4.123 7.874 7.416 7.616 9.110 11.958 4 4.583 2.449 4.690 .000 5.477 2.828 1.732 4.243 5.568 3.162 6.083 7.937 5 4.123 4.690 5.477 5.477 .000 5.099 5.385 7.211 7.416 6.782 8.888 10.724 Euclid ean Distance 6 7 2.236 3.742 1.414 1.000 2.449 4.123 2.828 1.732 5.099 5.385 .000 1.732 1.732 .000 5.477 3.873 5.196 4.243 5.477 3.873 6.708 5.292 9.539 7.874 8 7.141 4.243 7.874 4.243 7.211 5.477 3.873 .000 3.000 2.449 2.236 4.123 9 6.481 4.123 7.416 5.568 7.416 5.196 4.243 3.000 .000 5.196 2.449 6.000 10 7.141 4.472 7.616 3.162 6.782 5.477 3.873 2.449 5.196 .000 4.583 5.196 11 8.367 5.568 9.110 6.083 8.888 6.708 5.292 2.236 2.449 4.583 .000 3.742 12 11.225 8.307 11.958 7.937 10.724 9.539 7.874 4.123 6.000 5.196 3.742 .000
This is a dissimilarit y matrix
距离测度(举例)
Proximity Matrix Case 1 2 3 4 5 6 7 8 9 10 11 12 1 .000 2.000 1.000 4.000 4.000 2.000 3.000 5.000 6.000 5.000 7.000 8.000 2 2.000 .000 3.000 2.000 3.000 1.000 1.000 3.000 4.000 3.000 5.000 6.000 3 1.000 3.000 .000 3.000 5.000 2.000 3.000 6.000 7.000 5.000 8.000 9.000 4 4.000 2.000 3.000 .000 5.000 2.000 1.000 4.000 5.000 2.000 6.000 7.000 5 4.000 3.000 5.000 5.000 .000 4.000 4.000 5.000 6.000 6.000 7.000 8.000 Chebychev Distance 6 7 2.000 3.000 1.000 1.000 2.000 3.000 2.000 1.000 4.000 4.000 .000 1.000 1.000 .000 4.000 3.000 5.000 4.000 4.000 3.000 6.000 5.000 7.000 6.000 8 5.000 3.000 6.000 4.000 5.000 4.000 3.000 .000 2.000 2.000 2.000 3.000 9 6.000 4.000 7.000 5.000 6.000 5.000 4.000 2.000 .000 3.000 2.000 4.000 10 5.000 3.000 5.000 2.000 6.000 4.000 3.000 2.000 3.000 .000 4.000 5.000 11 7.000 5.000 8.000 6.000 7.000 6.000 5.000 2.000 2.000 4.000 .000 3.000 12 8.000 6.000 9.000 7.000 8.000 7.000 6.000 3.000 4.000 5.000 3.000 .000
2.马氏距离 设Xi与Xj是来自均值向量为 ,协方差为∑ =(>0)的总体 G中的p维样品,则两个样品间的马氏距离为
2 dij (M ) (Xi X j )Σ1 (Xi X j )
(5.5)
马氏距离又称为广义欧氏距离。 1)考虑了观测变量之间的相关性。若各变量之间相互独立, 即观测变量的协方差矩阵是对角矩阵,则马氏距离退化为用 各个观测指标的标准差的倒数作为权数的加权欧氏距离 2)考虑了观测变量之间的变异性,不受指标量纲影响
4.距离选择的原则
(1)要考虑所选择的距离公式在实际应用中有明确的意
义。如欧氏距离就有非常明确的空间距离概念。马氏距 离有消除量纲影响的作用。 (2)要综合考虑对样本观测数据的预处理和将要采用的 聚类分析方法。如在进行聚类分析之前已经对变量作了 标准化处理,则通常就可采用欧氏距离。 (3)要考虑研究对象的特点和计算量的大小。实际中, 聚类分析前不妨试探性地多选择几个距离公式分别进行 聚类,然后对聚类分析的结果进行对比分析,以确定最 合适的距离测度方法。
This is a dissimilarity matrix
Mahalanobis 距离实例
二、变量相似性的度量(相似性测度)
研究样品间的相似性常用距离,研究指标(变量)
间的相似性常用的有:夹角余弦与相关系数
1、夹角余弦 两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹 角余弦可用下式进行计算
量化分类研究。 据各种生物不同的特征对生物进行分类 据各地区城镇居民生活中的收入和消费情况分类 据各种矿石的化学和物理性质和所含化学成分分类 人口生育分类模式、人口死亡分类状况
第一节 引言
但历史上这些分类方法多半是人们主要依靠经验作定性分类
(主观性和任意性)准确性不好把握(特别是对于多因素、 多指标的分类问题)。
3.兰氏距离
1 p X ik X jk dij ( L) p k 1 X ik X jk
(5.6)
1)它仅适用于一切Xij>0的情况,这个距离也可以克服各个 指标之间量纲的影响。 2)这是一个自身标准化的量,由于它对大的奇异值不敏感, 它特别适合于高度偏倚的数据。 虽然这个距离有助于克服明氏距离的第一个缺点,但它也没 有考虑指标之间的相关性。
k 1 p 2 1/ 2
(5.3)
(3)切比雪夫距离( q )
dij () max X ik X jk
1 k p
(5.4)
欧氏距离是常用的距离,但在多元数据分析时,显出不足。
1)它没有考虑到总体的变异对“距离”远近的影响,显然 一个变异程度大的总体可能与更多样品近些 2)欧氏距离受变量的量纲影响,这对多元数据的处理是不 利的。为了克服这方面的不足,可用“马氏距离”的概念。
在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作
一个变换为 dij = 1 ∣cij∣ 或者 dij2 = 1 cij2 (5.10) 用表示变量间的距离远近,小则与先聚成一类。 (5.9)
补充: 注意事项
数据的标准化问题:以距离测度度量相似性时,聚
类变量的量纲对度量结果的影响较大,所以在计算 相似测度之前,通常要进行标准化处理
cos ij
X
k 1 p k 1 2 ik
p
ik
X jk
p
(5.7)
( X )( X 2 jk )
k 1
显然,∣cos ij∣ 1。
夹角余弦(Cosine)
2.相关系数 相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关 系数定义为
rij
(X
k 1 p k 1
聚类分析步骤
What-特征:选择变量来描述个体
Why-相似:相似性度量
How-规则:聚类,涉及两问题—聚类方法;分类个数 结果的解释和证实
第二节 相似性的量度
一 样品相似性的度量(距离测度和关联测度)
二 变量相似性的度量(相关测度)
(补充)距离测度
假使每个样品有p个变量,则每个样品都可以看成p
第五章 聚类分析
第一节 第二节 第三节 第四节 第五节 引言 相似性的量度 系统聚类分析法 K均值聚类分析 实例分析与计算机实现
第一节 引言
“物以类聚,人以群分”。对事物进行分类,是人们认识事 物的出发点,也是人们认识世界的一种重要方法。因此, 分类学已成为人们认识世界的一门基础科学。
在生物、经济、社会、人口等领域的研究中,存在着大量
常用距离来测度样品之间的相似程度。每个样品有p个指标 (变量)从不同方面描述其性质,形成一个p维的向量。如 果把n个样品看成p维空间中的n个点,则两个样品间相似程 度就可用p维空间中的两点距离公式来度量。两点距离公式 可以从不同角度进行定义,令dij 表示样品Xi与Xj的距离,存 在以下的距离公式: 1.明考夫斯基距离
聚类的目的。根据已知数据,计算各样品或变量之间亲疏关
系的统计量(距离或相关系数)。根据某种准则(最短距离 法、最长距离法、中间距离法、重心法),使同一类内的差 别较小,而类与类之间的差别较大,最终将样品或变量分为 若干类。
聚类的种类
根据分类的原理可将聚类分析分为:
系统聚类(层次聚类)与快速聚类(K均值法)(有 序聚类法、图论聚类法、模糊聚类法) 根据分类的对象可将聚类分析分为: 系统Q型与R型(即样品聚类clustering for individuals 与变量聚类clustering for variables)
为了克服定性分类存在的不足,人们把数学方法引入分类中,
形成了数值分类学。后来随着多元统计分析的发展,从数值 分类学中逐渐分离出了聚类分析方法。
聚类分析就是分析如何对样品(或变量)进行量化分类的问
题。与回归分析、判别分析一起被称为多元分析的三大方法。
聚类分析数据格式
第一节 引言
聚类分析就是根据研究对象的特征,按照一定的规则,对研 究对象进行分类,相似的归为一类,不相似的归为不同类。
p
ik
X i )( X jk X j )
p
2 2 ( X X ) ( X X ) ik i jk j k 1
(5.8)
显然也有,∣rij∣ 1。
Pearson相关系数
无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似
性的度量工具,统记为cij。 当∣cij∣ = 1时,说明变量Xi与Xj完全相似; 当∣cij∣近似于1时,说明变量Xi与Xj非常密切; 当∣cij∣ = 0时,说明变量Xi与Xj完全不一样; 当∣cij∣近似于0时,说明变量Xi与Xj差别很大。 据此,比较相似的变量聚为一类,不太相似的变量归到不同的类内。
dij (q) ( X ik X jk )
k 1
p
q 1/ q
Hale Waihona Puke Baidu(5.1)
明考夫斯基距离简称明氏距离,按的取值不同又可分成:
(1)绝对距离( q 1 )
dij (1) X ik X jk
k 1 p
(5.2)
(2)欧氏距离( q 2 )
dij (2) ( X ik X jk )