应用统计方法课件 7-1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章聚类分析聚类标准

系统聚类法动态聚类法

§7.1 聚类标准

在实际问题中,有时需要将一些指标(变量)分类,所用的分类方法称为R型聚类法;有时需要将一些样品进行分类,所用的分类方法称为Q型聚类法。

进行Q型聚类时,我们将采用距离来衡量样品间的“相似性”;而进行R型聚类时,我们将采用相似系数衡量指标间的“相似性”。

一.距离

设有m 个指标,n X X X ,,,21 为n 个样品

),,,(21'=im i i i x x x X ),,2,1(n i =. 我们定义i X 与j X 之间的距离ij d ,满足

(1)j i d ij ,,0∀>,且j i ij X X d =⇔=0;

(2)j i d d ji ij ,,∀=;

(3)k j i d d d kj ik ij ,,,∀+≤。 (7-1) 以ij d 作为样品i X 与j X 间相似程度的一种度量,即以ij d 作为聚类标准。

若取(3)为 k j i d d d kj ik ij ,,,},max {∀≤ (7-2) 这时ij d 称为极端距离。

常用的距离如下:

1.绝对值距离

1(1)||m

ij ik jk k d x x ==-∑ (7-3)

2.欧氏距离

21/2

1(2)[()]m

ij ik jk k d x x ==-∑ (7-4) 3.明考夫斯基距离

1/1()[||]

m q q ij ik jk k d q x x ==-∑ (7-5)

取∞→=q q 和2,1可分别得到(7-3)、(7-4)、和(7-6)。

4.契比雪夫距离

1()max ||ij ik jk k m

d x x ≤≤∞=- (7-6) 5.马氏距离

2

/11)]()[()(j i j i ij X X S X X M d -'-=- (7-7) 其中S 为样本协方差阵。 6.兰氏距离

∑=+-=m k jk ik jk

ik ij x x x x L d 1

)( (7-8) 其中0>ik x ,0>jk x 。

二、相似系数

设m 个指标(变量)为m x x x ,,,21 ,根据这m 个

指标采集的样品为),,,(21'=im i i i x x x X ),,2,1(n i =。ij c 越接近于1,说明i x 与j x 间的关系越密切。 对于定量指标,常用的相似系数有

定义ij c 为i x 与j x 之间的相似系数,ij c 满足

(1)j i c ij ,,1||∀≤;

(2)i c ii ∀=,1||;

(3)ij c j i c ji ,,∀=。

∑∑∑====n k kj

n k ki n k kj ki ij x x

x x c 12/121

2

1

][)1( (7-9) ∑∑∑===----=n k j kj n k i ki n k j kj i ki ij x x x x x x x x c 12/12121

]

)

()

([)

)(()2( (7-10) 对于定量指标,常用的相似系数有

三、名义尺度

设有五个指标,均为名义尺度,取得的两个样品为),,,,(1K T S Q V X =、),,,,(2K F S M V X =,要定义1X 与2X 之间的距离。

我们把两个样品同指标相同者称为配合,否则称为不配合。第一个指标同为V 为配合,第二个指标分别Q 和M 为不配合。 记 1m 为配合的指标数,2m 为不配合的指标数,定义1X 与2X 之间的距离为=ˆ12d 2m /(1m +2m )

。 对于名义尺度也可定义相似系数。

11

设i X 的可能取值为s t t t ,,,21 ,j X 的可能取

值为q r r r ,,,21 ,kl n 表示i X 取值为k t ,j X 取值

为l r 的样本个数,将结果列表如下:

联列表

i X j X q r r r 21 ∑ 1t 11n 12

n q n 1 •1n 2t 21n 22

n q n 2 •2n

s t 1s n 2

s n sq n •s n ∑ 1•n 2

•n q n • ••n

在联列表独立性检验中常用到2χ——统计量 ]1[1212-=∑∑=••=••q j j i ij s i n n n n χ

在此基础上给出相似系数

2/122][)3(••+=n C ij χχ

§7.2 系统聚类法

系统聚类法是最常用的一种聚类方法,其基本思想是将样品各看成一类,然后定义类与类之间的距离,将距离最短的两类合并为一个新类,再计算新类与其它类之间的距离,将距离最短的两类合并为一个新类,如此下去,直到合并为一个大类为止。一般步骤如下:

(1)计算样品两两间的距离ij d ,记)()0(ij d D ;

系统聚类法一般步骤如下:

(1)计算样品两两间的距离ij d ,记)()

0(ij d D ;

(2)将每个样品各看成一类;

(3)将距离最近的两类合并为一个新类; (4)计算新类与当前各类之间的距离。若类的个数等于1,转(5),否则回到(3);

(5)画聚类图;

(6)决定类的个数和类。

相关文档
最新文档