应用统计方法课件 7-1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章聚类分析聚类标准
系统聚类法动态聚类法
§7.1 聚类标准
在实际问题中,有时需要将一些指标(变量)分类,所用的分类方法称为R型聚类法;有时需要将一些样品进行分类,所用的分类方法称为Q型聚类法。
进行Q型聚类时,我们将采用距离来衡量样品间的“相似性”;而进行R型聚类时,我们将采用相似系数衡量指标间的“相似性”。
一.距离
设有m 个指标,n X X X ,,,21 为n 个样品
),,,(21'=im i i i x x x X ),,2,1(n i =. 我们定义i X 与j X 之间的距离ij d ,满足
(1)j i d ij ,,0∀>,且j i ij X X d =⇔=0;
(2)j i d d ji ij ,,∀=;
(3)k j i d d d kj ik ij ,,,∀+≤。 (7-1) 以ij d 作为样品i X 与j X 间相似程度的一种度量,即以ij d 作为聚类标准。
若取(3)为 k j i d d d kj ik ij ,,,},max {∀≤ (7-2) 这时ij d 称为极端距离。
常用的距离如下:
1.绝对值距离
1(1)||m
ij ik jk k d x x ==-∑ (7-3)
2.欧氏距离
21/2
1(2)[()]m
ij ik jk k d x x ==-∑ (7-4) 3.明考夫斯基距离
1/1()[||]
m q q ij ik jk k d q x x ==-∑ (7-5)
取∞→=q q 和2,1可分别得到(7-3)、(7-4)、和(7-6)。
4.契比雪夫距离
1()max ||ij ik jk k m
d x x ≤≤∞=- (7-6) 5.马氏距离
2
/11)]()[()(j i j i ij X X S X X M d -'-=- (7-7) 其中S 为样本协方差阵。 6.兰氏距离
∑=+-=m k jk ik jk
ik ij x x x x L d 1
)( (7-8) 其中0>ik x ,0>jk x 。
二、相似系数
设m 个指标(变量)为m x x x ,,,21 ,根据这m 个
指标采集的样品为),,,(21'=im i i i x x x X ),,2,1(n i =。ij c 越接近于1,说明i x 与j x 间的关系越密切。 对于定量指标,常用的相似系数有
定义ij c 为i x 与j x 之间的相似系数,ij c 满足
(1)j i c ij ,,1||∀≤;
(2)i c ii ∀=,1||;
(3)ij c j i c ji ,,∀=。
∑∑∑====n k kj
n k ki n k kj ki ij x x
x x c 12/121
2
1
][)1( (7-9) ∑∑∑===----=n k j kj n k i ki n k j kj i ki ij x x x x x x x x c 12/12121
]
)
()
([)
)(()2( (7-10) 对于定量指标,常用的相似系数有
三、名义尺度
设有五个指标,均为名义尺度,取得的两个样品为),,,,(1K T S Q V X =、),,,,(2K F S M V X =,要定义1X 与2X 之间的距离。
我们把两个样品同指标相同者称为配合,否则称为不配合。第一个指标同为V 为配合,第二个指标分别Q 和M 为不配合。 记 1m 为配合的指标数,2m 为不配合的指标数,定义1X 与2X 之间的距离为=ˆ12d 2m /(1m +2m )
。 对于名义尺度也可定义相似系数。
11
设i X 的可能取值为s t t t ,,,21 ,j X 的可能取
值为q r r r ,,,21 ,kl n 表示i X 取值为k t ,j X 取值
为l r 的样本个数,将结果列表如下:
联列表
i X j X q r r r 21 ∑ 1t 11n 12
n q n 1 •1n 2t 21n 22
n q n 2 •2n
s t 1s n 2
s n sq n •s n ∑ 1•n 2
•n q n • ••n
在联列表独立性检验中常用到2χ——统计量 ]1[1212-=∑∑=••=••q j j i ij s i n n n n χ
在此基础上给出相似系数
2/122][)3(••+=n C ij χχ
§7.2 系统聚类法
系统聚类法是最常用的一种聚类方法,其基本思想是将样品各看成一类,然后定义类与类之间的距离,将距离最短的两类合并为一个新类,再计算新类与其它类之间的距离,将距离最短的两类合并为一个新类,如此下去,直到合并为一个大类为止。一般步骤如下:
(1)计算样品两两间的距离ij d ,记)()0(ij d D ;
系统聚类法一般步骤如下:
(1)计算样品两两间的距离ij d ,记)()
0(ij d D ;
(2)将每个样品各看成一类;
(3)将距离最近的两类合并为一个新类; (4)计算新类与当前各类之间的距离。若类的个数等于1,转(5),否则回到(3);
(5)画聚类图;
(6)决定类的个数和类。