聚类分析学习总结.pdf

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算距离；最常用的标准化处理是：
令
xij
=
xij − x j sj
其中 x j
=
1 n
n i=1
xij
为第
j 个变量的样本均值，s j
=
1 n −1
n
( xij
i =1
− x j )2
为第
j个
变量的样本方差。
⑵兰氏（Lance 和 Williams）距离
当 xij 0 （ i = 1,2,, n; j = 1,2,, p ）时，第 i 个样品与第 j 个样品间的兰
学海无涯
设 xij 为第 i 个样品的第 j 个指标，数据矩阵如下表
样品
变量 x1
表 1 数据矩阵
x2
…
xp
1
x11
2 x 21
n
x n1
x12
…
x1 p
x 22
…
x2 p
xn2
…
x np
在上表中，每个样品有 p 个变量，故每个样品都可以看成是 R p 中的一个点，
n 个样品就是 R p 中的 n 个点。在 R p 中需定义某种距离，第 i 个样品与第 j 个样品
聚类分析把分类对象按一定规则分成组或类，这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此相似，而在不同类里的这些对象倾向于不相似。
1．聚类统计量在对样品（变量）进行分类时，样品（变量）之间的相似性是怎么度量？通常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性，相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义，而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为： 1.定量变量：变量用连续的量来表示，例如长度、重量、速度、人口等，又称为间隔尺度变量。 2.定性变量：并不是数量上有变化，而只是性质上有差异。定性变量还可以再分为： ⑴有序尺度变量：变量不是用明确的数量表示，而是用等级表示，例如文化程度分为文盲、小学、中学、大学等。 ⑵名义尺度变量：变量用一些类表示，这些类之间既无等级关系，也无数量关系，例如职业分为工人、教师、干部、农民等。下面主要讨论具有定量变量的样品聚类分析，描述样品间的亲疏程度最常用的是距离。 1.1．距离 1. 数据矩阵
使用马氏距离的好处是考虑到了各变量之间的相关性，并且与各变量的单位无关；但马氏距离有一个很大的缺陷，就是 S 难确定。由于聚类是一个动态过程，故 S 随聚类过程而变化，那么同样的两个样品之间的距离可能也会随之而变化，这不符和聚类的基本要求。因此，在实际聚类分析中，马氏距离不是理想的距离。
学海无涯
1
xik
−
x jk
2
]2
，称为欧氏距离，这是聚类分析中最
k =1
常用的距离；
3）当
q
=
时，
wk.baidu.com
dij
()
=
max
1k p
xik
− x jk
,称为切比雪夫距离。
dij (q) 在实际中用得很多，但是有一些缺点，一方面距离的大小与各指标的
观测单位有关，另一方面它没有考虑指标间的相关性。
当各指标的测量值相差悬殊时，应先对数据标准化，然后用标准化后的数据
外；学历（ x6 ）取值为本科和本科以下。现有两名学员：
x1 = （男，英，统计，非教师，校外，本科）ˊ
x2 = (女，英，金融，教师，校外，本科以下)ˊ 这两名学员的第二个变量都取值“英”，称为配合的，第一个变量一个取值
氏距离为
dij (L) =
p k =1
xik xik
− x jk + x jk
这个距离与各变量的单位无关，但没有考虑指标间的相关性。
⑶马氏距离（Mahalanobis）距离
第 i 个样品与第 j 个样品间的马氏距离为
dij (M ) = (xi − x j )' S −1 (xi − x j ) 其中 xi = (xi1, xi2 ,, xip )' , x j = (x j1, x j2 , x jp ) , S 为样品协方差矩阵。
之间的距离记为 dij ，在聚类过程中，相距较近的点倾向于归为一类，相距较远
的点应归属不同的类。所定义的距离 dij 一般应满足如下四个条件：
⑴ dij 0 ，对一切 i, j ;且 d (xi , x j ) = 0 当且仅当 xi = x j
⑵ dij = d ji ，对一切 i, j ；
⑶ dij dik + d kj ，对一切 i, j, k 2．定量变量的常用的距离对于定量变量，常用的距离有以下几种： ⑴闵科夫斯基（Minkowski）距离
p
dij (q) = [
1
xik − x jk q ]q
k =1
这里 q 为某一自然数。闵科夫斯基距离有以下三种特殊形式：
p
1）当 q = 1时， dij (1) = xik − x jk 称为绝对值距离，常被形象地称为“城市 k =1
街区”距离；
学海无涯
p
2）当 q = 2 时， dij (2) = [
量，则有相应的定义距离的方法。 3．定性变量的距离下例只是对名义尺度变量的一种距离定义。
例 1 某高校举办一个培训班，从学员的资料中得到这样 6 个变量：性别（ x1 ）
取值为男和女；外语语种（ x2 ）取值为英、日和俄；专业（ x3 ）取值为统计、
会计和金融；职业（ x4 ）取值为教师和非教师；居住处（ x5 ）取值为校内和校
学海无涯
聚类分析学习体会
聚类分析是多元统计分析中研究“物以类聚”的一种方法，用于对事物的类别尚不清楚，甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类，而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目，并且要有一批来自各判别类型的样本，才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道，这时对数据的分类就需借助聚类分析方法来解决。
⑷斜交空间距离第 i 个样品与第 j 个样品间的斜交空间距离定义为
d
ij
1 =[
p2
p k =1
p
(xik
l =1
− x jk )(xil
1
− x jl )rkl ] 2
其中 rkl
是变量
xk
与变量
xl 间的相关系数。当
p
个变量互不相关时，d
ij
=
d ij(2) p
，
即斜交空间距离退化为欧氏距离（除相差一个常数倍外）。以上几种距离的定义均要求样品的变量是定量变量，如果使用的是定性变