聚类分析学习总结.pdf
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算距离;最常用的标准化处理是:
令
xij
=
xij − x j sj
其中 x j
=
1 n
n i=1
xij
为第
j 个变量的样本均值,s j
=
1 n −1
n
( xij
i =1
− x j )2
为第
j个
变量的样本方差。
⑵兰氏(Lance 和 Williams)距离
当 xij 0 ( i = 1,2,, n; j = 1,2,, p )时,第 i 个样品与第 j 个样品间的兰
学海无涯
设 xij 为第 i 个样品的第 j 个指标,数据矩阵如下表
样品
变量 x1
表 1 数据矩阵
x2
…
xp
1
x11
2 x 21
n
x n1
x12
…
x1 p
x 22
…
x2 p
xn2
…
x np
在上表中,每个样品有 p 个变量,故每个样品都可以看成是 R p 中的一个点,
n 个样品就是 R p 中的 n 个点。在 R p 中需定义某种距离,第 i 个样品与第 j 个样品
聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而 是根据数据特征而定的。在一个给定的类里的这些对象在某种意义上倾向于彼此 相似,而在不同类里的这些对象倾向于不相似。
1.聚类统计量 在对样品(变量)进行分类时,样品(变量)之间的相似性是怎么度量?通 常有三种相似性度量——距离、匹配系数和相似系数。距离和匹配系数常用来度 量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相 似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通 常变量按取值的不同可以分为: 1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又 称为间隔尺度变量。 2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以 再分为: ⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如文化 程度分为文盲、小学、中学、大学等。 ⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量 关系,例如职业分为工人、教师、干部、农民等。 下面主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用 的是距离。 1.1.距离 1. 数据矩阵
使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位 无关;但马氏距离有一个很大的缺陷,就是 S 难确定。由于聚类是一个动态过程, 故 S 随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化, 这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
学海无涯
1
xik
−
x jk
2
]2
,称为欧氏距离,这是聚类分析中最
k =1
常用的距离;
3)当
q
=
时,
wk.baidu.com
dij
()
=
max
1k p
xik
− x jk
,称为切比雪夫距离。
dij (q) 在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的
观测单位有关,另一方面它没有考虑指标间的相关性。
当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据
外;学历( x6 )取值为本科和本科以下。 现有两名学员:
x1 = (男,英,统计,非教师,校外,本科)ˊ
x2 = (女,英,金融,教师,校外,本科以下)ˊ 这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值
氏距离为
dij (L) =
p k =1
xik xik
− x jk + x jk
这个距离与各变量的单位无关,但没有考虑指标间的相关性。
⑶马氏距离(Mahalanobis)距离
第 i 个样品与第 j 个样品间的马氏距离为
dij (M ) = (xi − x j )' S −1 (xi − x j ) 其中 xi = (xi1, xi2 ,, xip )' , x j = (x j1, x j2 , x jp ) , S 为样品协方差矩阵。
之间的距离记为 dij ,在聚类过程中,相距较近的点倾向于归为一类,相距较远
的点应归属不同的类。所定义的距离 dij 一般应满足如下四个条件:
⑴ dij 0 ,对一切 i, j ;且 d (xi , x j ) = 0 当且仅当 xi = x j
⑵ dij = d ji ,对一切 i, j ;
⑶ dij dik + d kj ,对一切 i, j, k 2.定量变量的常用的距离 对于定量变量,常用的距离有以下几种: ⑴闵科夫斯基(Minkowski)距离
p
dij (q) = [
1
xik − x jk q ]q
k =1
这里 q 为某一自然数。闵科夫斯基距离有以下三种特殊形式:
p
1)当 q = 1时, dij (1) = xik − x jk 称为绝对值距离,常被形象地称为“城市 k =1
街区”距离;
学海无涯
p
2)当 q = 2 时, dij (2) = [
量,则有相应的定义距离的方法。 3.定性变量的距离 下例只是对名义尺度变量的一种距离定义。
例 1 某高校举办一个培训班,从学员的资料中得到这样 6 个变量:性别( x1 )
取值为男和女;外语语种( x2 )取值为英、日和俄;专业( x3 )取值为统计、
会计和金融;职业( x4 )取值为教师和非教师;居住处( x5 )取值为校内和校
学海无涯
聚类分析学习体会
聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类 别尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必 须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能 建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和 分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
⑷斜交空间距离 第 i 个样品与第 j 个样品间的斜交空间距离定义为
d
ij
1 =[
p2
p k =1
p
(xik
l =1
− x jk )(xil
1
− x jl )rkl ] 2
其中 rkl
是变量
xk
与变量
xl 间的相关系数。当
p
个变量互不相关时,d
ij
=
d ij(2) p
,
即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。 以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变