聚类分析学习总结 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

聚类分析学习体会聚类分析是多元统计分析中研究“物以类聚”的一种方法，用于对事物的类别尚不清楚，甚至在事前连总共有几类都不能确定的情况下进行分类的场合。

聚类分析主要目的是研究事物的分类，而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道，这时对数据的分类就需借助聚类分析方法来解决。

聚类分析把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。

1．聚类统计量

在对样品（变量）进行分类时，样品（变量）之间的相似性是怎么度量？通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性，相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义，而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为：1.定量变量：变量用连续的量来表示，例如长度、重量、速度、人口等，又称为间隔尺度变量。

2.定性变量：并不是数量上有变化，而只是性质上有差异。定性变量还可以再分为：

⑴有序尺度变量：变量不是用明确的数量表示，而是用等级表示，例如文化程度

分为文盲、小学、中学、大学等。

⑵名义尺度变量：变量用一些类表示，这些类之间既无等级关系，也无数量关系，

例如职业分为工人、教师、干部、农民等。

下面主要讨论具有定量变量的样品聚类分析，描述样品间的亲疏程度最常用的是距离。

．距离

1. 数据矩阵

x为第i个样品的第j个指标，数据矩阵如下表

设

ij

表1 数据矩阵

在上表中，每个样品有p 个变量，故每个样品都可以看成是p R 中的一个点，n 个样品就是p R 中的n 个点。在p R 中需定义某种距离，第i 个样品与第j 个样品之间的距离记为ij d ，在聚类过程中，相距较近的点倾向于归为一类，相距较远的点应归属不同的类。所定义的距离ij d 一般应满足如下四个条件：

⑴0≥ij d ，对一切j i ,;且0),(=j i x x d 当且仅当j i x x =

⑵ji ij d d =，对一切j i ,；

⑶kj ik ij d d d +≤，对一切k j i ,,

2．定量变量的常用的距离

对于定量变量，常用的距离有以下几种：

⑴闵科夫斯基（Minkowski ）距离

这里q 为某一自然数。闵科夫斯基距离有以下三种特殊形式：

1）当1=q 时，∑=-=p

k jk ik ij x x d 1)1(称为绝对值距离，常被形象地称为“城市街区”

距离；

2）当2=q 时，2

112][)2(∑=-=p k jk ik ij x x d ，称为欧氏距离，这是聚类分析中最常用的

距离；

3）当∞=q 时，jk ik p

k ij x x d -=∞≤≤1m ax )(,称为切比雪夫距离。 )(q d ij 在实际中用得很多，但是有一些缺点，一方面距离的大小与各指标的观测单位有关，另一方面它没有考虑指标间的相关性。

当各指标的测量值相差悬殊时，应先对数据标准化，然后用标准化后的数据计算距离；最常用的标准化处理是：

令 j j ij ij s x x x -=*

其中∑==n i ij j x n x 11为第j 个变量的样本均值，∑=--=n

i j ij j x x n s 1

2)(11为第j 个变量的样本方差。

⑵兰氏（Lance 和Williams ）距离

当0>ij x （;,,2,1n i Λ= p j ,,2,1Λ=）时，第i 个样品与第j 个样品间的兰氏距离为

这个距离与各变量的单位无关，但没有考虑指标间的相关性。

⑶马氏距离（Mahalanobis ）距离

第i 个样品与第j 个样品间的马氏距离为

其中)',,,(21ip i i i x x x x Λ=,),,(21jp j j j x x x x Λ=,S 为样品协方差矩阵。

使用马氏距离的好处是考虑到了各变量之间的相关性，并且与各变量的单位无关；但马氏距离有一个很大的缺陷，就是S 难确定。由于聚类是一个动态过程，故S 随聚类过程而变化，那么同样的两个样品之间的距离可能也会随之而变化，这不符和聚类的基本要求。因此，在实际聚类分析中，马氏距离不是理想的距离。

⑷斜交空间距离

第i 个样品与第j 个样品间的斜交空间距离定义为

其中kl r 是变量k x 与变量l x 间的相关系数。当p 个变量互不相关时，p d d ij ij )2(=*，即斜

交空间距离退化为欧氏距离（除相差一个常数倍外）。

以上几种距离的定义均要求样品的变量是定量变量，如果使用的是定性变量，则有相应的定义距离的方法。

3．定性变量的距离

下例只是对名义尺度变量的一种距离定义。

例1 某高校举办一个培训班，从学员的资料中得到这样6个变量：性别（1x ）取值为男和女；外语语种（2x ）取值为英、日和俄；专业（3x ）取值为统计、会计和金融；职业（4x ）取值为教师和非教师；居住处（5x ）取值为校内和校外；学历（6x ）取值为本科和本科以下。

现有两名学员：

=1x （男，英，统计，非教师，校外，本科）ˊ

=2x (女，英，金融，教师，校外，本科以下)ˊ

这两名学员的第二个变量都取值“英”，称为配合的，第一个变量一个取值为“男”，另一个取值为“女”，称为不配合的。一般地，若记配合的变量数为1m ，不配合的变量数为2m ，则它们之间的距离可定义为

按此定义本例中1x 与2x 之间的距离为3

2。．匹配系数

当样品的变量为定性变量时，通常采用匹配系数作为聚类统计量。

第i 个样品与第j 个样品的匹配系数定义为

∑==p

k k ij Z S 1，其中

显然匹配系数越大，说明两样品越相似。

．相似系数

聚类分析方法不仅用来对样品进行分类，而且可用来对变量进行分类。在对变量进行分类时，常常采用相似系数来度量变量之间的相似性。

设ij c 表示i x 与j x 的相似系数，它一般应满足如下三个条件：

⑴ 1≤ij c ，对一切j i ,；

⑵ 1±=ij c ，当且仅当存在常数a 和b ，使得b ax x j i +=；

⑶ ji ij c c =，对一切j i ,.

最常用的相似系数有以下两种：