应用统计方法课件 7-2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Dpq ( X i X p X p X )( X i X p X p X ) iGp Gq
(X i X p )(X i X p ) (X i X p )(X i X p )
iGp
iGq
( X i X p )(X p X iGp Gq
) ( X p X iGp Gq
-1/2 1/2
0 0 0
例 7-3 (续例 7-2)设有六个样品,每个样品
只有一个指标,分别是 1、2、5、7、9、10。试用
重心法和离差平方和法进行分类。
解:(1)重心法: Dk2r (C) (X k X r )(X k X r ) ,
Xr
1 nr
(np X p
nq
X
q
)
首先计算距离矩阵
D
2 pq
16)
Dk2r
nk nr
np nk
Dk2p
nk nr
nq nk
Dk2q
nk nr nk
D
2 pq
(7-21)
7
为了便于计算机程序的编制,上述五个递推公式可 用统一的形式来表示。
D2 k ( pq)
p Dk2p
q Dk2q
Dp2q
| Dk2p
Dk2q
|
(7-22)
式中的 p 、 q 、 、 为参数,它们对不同的方法
9-2
二、重心法与类平均法
设 Gs 、 Gt 两类的重心分别为 X s 、 X t ,则两类 间的距离定义为
Dst d XsXt [(X s X t )(X s X t )]1/ 2 (7-15) 以(7-15)作为距离标准的聚类法称为重心法。
设类 G p 、 Gq 的重心分别为 X p 、 X q ,且各包 含 n p 、 nq 个样品, Gk 为另外一类,其重心为 X k , 样品个数为 nk ,将 G p 、Gq 并为新类 Gr ,其重心为 X r ,样品个数为 n p nq ˆ nr 。则新类 Gr 与 Gk 间的 距离为
所以
Dpq Dp Dq nq (X p X q )(X p X q )
nq2 np nq
(X
p
X q )( X
p
Xq)
Dp
Dq
n p nq np nq
(X p
X q )( X p
Xq)
上页
Dpq Dp (Xi X p )(Xi X p ) iGq (np nq )(X p X )(X p X )
G3
,
G4
间的距离,得相应的
D2 (1)
如下:
D2 (1)
G7
G3
G4
G8
G7 G1 G2
0
G3
12.25 0
G4
Hale Waihona Puke Baidu
30.25 4 0
G8 G5 G6 64 20.25 6.25 0

D2 (1)
可得
G9
{G3 ,G4} 。得
D2 (2)
G7
G9
G8
G7
0
G9
20.25 0
G8
64
12.25 0
D2 (3)
G7
G10
G7
0
G10
52.1
0
G1 1 G2 2 G3 5 G4 7 G5 9 G6 10
0 0.7 1.4 3.5
注:(1)不同的聚类方法有时可能得到不同的类;
(2)对于不同的分类,以类间差最大者为最好。
例 7-4 已知 4 个样品分别为 A(3,3),B(-1,1),
(1)计算样品两两间的距离dij ,记D(0) (dij ) ;
系统聚类法一般步骤如下: (1)计算样品两两间的距离 d ij ,记 D(0) (dij ) ;
(2)将每个样品各看成一类; (3)将距离最近的两类合并为一个新类; (4)计算新类与当前各类之间的距离。若 类的个数等于 1,转(5),否则回到(3);
01
2 3.5
图 9-4
(2)离差平方和法,
D
2 pq
n p nq np nq
D
2 pq
(C
)

Dp2q
Dpq
Dp
Dq
首先计算距离矩阵
D2 (0)
D2 (0)
G1 G2
G3 G4 G5 G6
G1
0
G2
0.5 0
G3
8 4.5 0
G4
18 12.5 2 0
G5
32 24.5 8
20
G6 40.5 32 12.5 4.5 0.5 0
2 pq
(C
)

首先计算距离矩阵
D2 (0)
D2 (0)
G1
G2
G3
G4
G1
0
G2
10
0
G3
10
4
0
G4
18
4
16
0

D2 (0)
可以看出
G2与G3及G4
间距离最短均为
4,因此可将 G2与G3 或 G2与G4 合并为一个新类.
情 况 一 : 若 将 G2与G3 首 先 合 并 为 一 个 新 类
G5 {G2 , G3} {B,C} ,然后计算 G5与G1 、G5与G4 的距
(5)画聚类图; (6)决定类的个数和类。
一、最短距离法和最长距离法
用 d ij 表示第 i 个样品与第 j 个样品间的距
离。设 G1,G2, ,为类,定义类与类之间的距离 为两类中最近样品间的距离,即
Dst iGms ,ijnGt{dij }
(7-11)
用(7-11)作为距离标准的聚类法称为最短距离
)(X i X p )
(np nq )(X p X )(X p X )
Dp (X i X p )(X i X p )
iGq
(np nq )(X p X )(X p X )
下页
由于
Xp X
nq np nq
(X
p
Xq)
XiGpq(XXXiiXGq(XXnpni )p(Dp(nXX1XqnpniqnpppnqXqXni(pnnqXqGn)qq)ppqXXXGXqppXq)iq()X(niXppXXnqppXqX)nnq qqXX qp )
法。
如果将(7-11)改为 Dst imGs ,ajxGt{dij} 则由此导 出的聚类法称为最长距离法。
聚类过程中要反复计算新类与当前类之间的距 离,这可以通过递推公式来完成。
设聚类到某步将G p 和Gq 合并为Gr ,则 类Gr 与类Gk 之间的距离为
Drk min{ Dpk , Dqk } (最短距离法) (7-13) Drk max{ D pk , Dqk } (最长距离法) (7-14)
Dk2r ( X k X r )( X k X r )
Dk2r (X k X r )(X k X r )
n p nq ˆ nr
由于 X r
1 nr
(np X p
nq X q ) ,所以
Dk2r
(Xk
n
p
X
p
nr
nq
X
q
)(
X
k
np X p nq X q ) nr
Dk2p
np nr
C(1,-1),D(-3,3)。试用重心法和离差平方和法进
行聚类。
解:(1)重心法: Dk2r (C) (X k X r )(X k X r ) ,
Xr
1 nr
(np X p
nq
X
q
)
,首先计算距离矩阵
D2 (0)
D2 (0)
G1
G2
G3
G4
G1
0
G2
20
0
G3
20
8
0
G4
36
8
32
0

D2 (0)
Dk2q
因此重心法的新类距离递推公式为
Dk2r
np nr
Dk2p
nq nr
Dk2q
np nr
nq nr
D
2 pq
如果类与类之间的距离采用
(7-16)
Ds2t
1 ns nt
d
2 ij
iGs , jGt
则由此导出的聚类法称为类平均法。
由(7-17)得
(7-17)
Dk2r
1 nk nr
(
di2j

D2 (2)
可得 G10
{G8 , G9} 。 G10与G7 之间的距离
D(23)
G7
G10
G7
0
G10
39.1
0
最后合并为一类G11 {G1,G2 ,G3 ,G4 ,G5 ,G6} 。
上述聚类过程用聚类图表示为图 9-4。
G1 1 G2 2 G3 5 G4 7 G5 9 G6 10
G3
G1
0
G5
26
0
G3
20
18
0
由 D(21) 可以看出 G5 与 G3 间的距离最短,因此应
首先将 CBD 合为一类。即若要分为两类,可分 BCD 为一类, A 单独为一类。
A(3,3),B(-1,1),C(1,-1),D(-3,3)。
(2)离差平方和法:
D
2 pq
n p nq np nq
D
D D2 2 (1) (2)
G7 GG1 7 G2 GG39
GG48
G8 G5 G6
G7 G7 G3 G9 G4
GG88
00
12.2205.25 0 0
30.2654 4 12.250
0
64 20.25 6.25 0

D2 (2)
可得 G10
{G8 , G9} 。计算 G10与G7 的距离得
将 G1与G2 , G5与G6 合 并 为 两 个 新 类
G7
{G1, G2} , G8
{G5
,
G6
}
。得相应的
D2 (1)
如下:
D2 (1)
G7
G3
G4
G8
G7 G1 G2
0
G3
8.17 0
G4
20.17 2
0
G8 G5 G6 64 13.5 4.17
0

D2 (1)
可得
G9
{G3 ,G4} 。
A类(,3D,单3)独,为B(一-类1,,1或),BCCD(为1,一-类1),,AD(单-独3为 ,3一)类。。
情 况 二 : 若 将 G2与G4 首 先 合 并 为 一 个 新 类 G5 {G2 , G4} {B, D},然后计算 G5与G1 、G5与G3 的 距离如下:
D (21)
G1
G5
D
2 pq
(C)
为重心法的距离平方,则
D
2 pq
由(7-16)得
n p nq np nq
D
2 pq
(C
)
(7-20)
Dk2r
nr nk nr nk
[np nr
Dk2p (C)
nq nr
Dk2q
(C)
np nr
nq nr
D
2 pq
(C)]
因此D离k2r差nnkr平nn方rpnnD和kpk2pD法k2p的nnqr新nDn类krk2q距nn离 nnkq rpD递nnk2qrq推D公p2nq式r n为k n(k7
§2 系统聚类法
系统聚类法是最常用的一种聚类方法, 其基本 思想 是将 样品 各看 成一类 ,然 后定 义 类与类 之间 的距 离, 将距 离最短 的两 类合 并 为一个 新类 ,再 计算 新类 与其它 类之 间的 距 离,将 距离 最短 的两 类合 并为一 个新 类, 如 此下去 ,直 到合 并为 一个 大类为 止。 一般 步 骤如下:
iGp , jGk
di2j )
iGq , jGk
np nr
Dk2p
nq nr
Dk2q
13
于是类平均法的新类距离递推公式为
Dk2r
np nr
Dk2p
nq nr
Dk2q
(7-18)
三、离差平方和法
设G p 、Gq 为两个类,重心分别为X p 、X q 。
对于类Gp ,离差平方和为
类似地,有
D p (X i X p )( X i X p )
可以看出
G2与G3及G4
,间距离最短均为
8,因此可将 G2与G3 或 G2与G4 合并为一个新类。
情况一: 若将 G2与G3 首先合并为一 个新类
G5 {G2 , G3} {B, C} ,然后计算 G5与G1 、G5与G4
的距离如下:
D (21)
G1
G5
G4
G1
0
G5
18
0
G4
36
18
0
若要分为两类,可得两种不同的分类,即 ABC为一
X k
(Xk Xk
nX1r2k(n2p2Xnnprp
X k X p
X p 2n
2
p nq
2Xk X p X p X p ) nq (X
nr
nq nr
X p
k Xk
X k X q
X q nq2
2Xk Xq
X q X q
Xq Xq
)
)
D
2 pq
n p nq nr2
( X p
X
p
2X p Xq
Xq Xq )
iG p
Dq (X i X q )( X i X q )
iGq
Dpq ( X i X )( X i X ) iGp Gq
其中 X
np
1 nq
Xi
iGp Gq
定义类 G p 与类 Gq 间的距离平方为
Dp2q Dpq Dp Dq
(7-19)
则由此导出的聚类法称为离差平方和法。
取不同值,表 7-1 给出了上述五种方法参数的取值。
表 7-1 系统聚类法参数表
方法 最短距离法 最长距离法
重心法 类平均法
离差平方和法
p 1/2 1/2
np / nr np / nr np nk nr nk
q 1/2 1/2
nq / nr nq / nr nq nk nr nk
0 0 pq 0 nk nr nk
(X i X p )( X i X p )
iGq Dq nq (X p X q )(X p X q )
Xp X
nq np nq
(X
p
Xq)
Dp q D p
D q
n p nq np nq
(X
p
Xq
)( X
p
Xq
)

Dp2q (C) (X p X q )(X p X q )

D2 (0)
D2 (0)
G1 G2
G3 G4 G5 G6
G1
0
G2
10
G3
16 9
0
G4
36 25
40
G5
64 49 16
40
G6
81 64 25
91
0
由G1与G2 ,G5与G6 合并为两个新类G7 {G1,G2} ,
G8 {G5 ,G6} 。 然 后 计 算 G7 ,G8 间 以 及 它 们 与
相关文档
最新文档