(整理)多元统计分析第九章聚类分析.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析

引言

俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。

研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。

聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。

聚类分析给人们提供了丰富多彩的分类方法,大致可归为:

⑴系统聚类法:首先,将n 个样品看成n 类,然后将性质最接近的两类合并成一个新类,得到1 n 类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。

⑵动态聚类法(调优法):首先对n 个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。

⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、

三类,一直分割到所需的K类为止。这种方法适用于有序样品的分类问题,故称为有序样品聚类法.

⑷模糊聚类法:该方法多用于定性变量的分类.利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据和多态数据具有明显的分类效果.

⑸图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法.

⑹聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析或判别分析.但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。本书主要介绍⑴~⑷

聚类分析不仅可以对样品进行分类,也可以对变量进行分类。对样品的分类称为Q型聚类分析,对变量进行分类称为R型聚类分析。

聚类分析的历史还很短,它的方法很粗糙,理论上还不完善,但由于能解决许多实际问题,所以很受人们重视,同回归分析、判别分析一起被称为多元分析的三大实用分析方法。

聚类统计量

在对样品(或变量)进行分类时,样品(或变量)之间的相似性是如何度量的呢?这一节中,我们介绍三种相似性度量—距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:

1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。

2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:

⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如某产品分为一

等品、二等品、三等品等,文化程度分为文盲、小学、中学、大学等。

⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例

如性别分为男、女,职业分为工人、教师、干部、农民等。

下面我们主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。

9.2.1距离

1. 数据矩阵

设ij x 为第i 个样品的第j 个指标,数据矩阵如下表 表9.1 数据矩阵

在上表中,每个样品有p 个变量,故每个样品都可以看成是p

R 中的一个点,n 个样品就是p

R 中的n 个点。在p

R 中需定义某种距离,第i 个样品与第j 个样品之间的距离记为ij d ,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所定义的距离ij d 一般应满足如下四个条件:

⑴0≥ij d ,对一切j i ,;且0),(=j i x x d 当且仅当j i x x = ⑵ji ij d d =,对一切j i ,; ⑶kj ik ij d d d +≤,对一切k j i ,, 2.定量变量的常用的距离

对于定量变量,常用的距离有以下几种: ⑴闵科夫斯基(Minkowski )距离 q

p

k q jk ik

ij x x

q d 1

1

][

)(∑=-=

这里q 为某一自然数。闵科夫斯基距离有以下三种特殊形式:

1) 当1=q 时,∑=-=

p

k jk ik

ij x x

d 1

)1(称为绝对值距离,常被形象地称为“城市街区”距离;

2) 当2=q 时,2

11

2

][

)2(∑=-=p

k jk ik

ij x x

d ,称为欧氏距离,这是聚类分析中最常用的距离;

3)当∞=q 时,jk ik p

k ij x x d -=∞≤≤1m ax )(,称为切比雪夫距离。

)(q d ij 在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方面它没

有考虑指标间的相关性。

当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:

令 j

j

ij ij

s x x x -=

*

其中∑==n i ij j x n x 11为第j 个变量的样本均值,∑=--=n

i j ij j x x n s 1

2)(11为第j 个变量的样本方差。 ⑵兰氏(Lance 和Williams )距离

当0>ij x (;,,2,1n i = p j ,,2,1 =)时,第i 个样品与第j 个样品间的兰氏距离为

=+-=p

k jk

ik jk ik ij x x x x L d 1

)(

这个距离与各变量的单位无关,但没有考虑指标间的相关性。 ⑶马氏距离(Mahalanobis )距离 第i 个样品与第j 个样品间的马氏距离为 )()'()(1j i j i ij x x S x x M d --=

-

其中)',,,(21ip i i i x x x x =,),,(21jp j j j x x x x =,S 为样品协方差矩阵。

使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S 难确定。由于聚类是一个动态过程,故S 随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。

相关文档
最新文档