系统聚类的方法解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.最长距离法
Dkr
max
XiGk , X j Gr
dij
max{ max Xi Gk , X j Gpj
dij
,
max
xi Gk ,x j Gq
dij }
max{Dkp , Dkq}
( 4)
再找距离最小两类并类,直至所有的样品全归为一类为止。 可以看出最长距离法与最短距离法只有两点不同:
nr
(X
p
n
p
X
p nr
Dkr
1 2
Dk2p
1 2
Dk2p
1 4
D
2 pq
(6)
图2 中间距离法
4. 重心法
重心法定义类间距离为两类重心(各类样品的均值)的距 离。重心指标对类有很好的代表性,但利用各样本的信息 不充分。
设 G p 与 Gq 分别有样品 n p ,nq 个,其重心分别为 X p 和 Xq ,
则 G p 与 Gq 之间的距离定义为 X p 和 Xq 之间的距离,这里 我 们 用 欧氏距离来表示,即
聚类分析
1
聚类分析
一 聚类分析的定义 二 系统聚类的基本思想 三 八种系统聚类方法 四 类间距离的统一性
一、聚类分析的定义
“物以类聚,人以群分”。对事物进行分类,是人们认 识事物的出发点,也是人们认识世界的一种重要方法。 因此,分类学已成为人们认识世界的一门基础科学。
聚类分析就是分析如何对样品(或变量)进行量化分 类的问题。通常聚类分析分为Q型聚类和R型聚类。Q 型聚类是对样品进行分类处理,R型聚类是对变量进行 分类处理。
nr
nr
( Xir X p )( Xir X p ) ( Xir X p )( X p X r )
i 1
i 1
nr
nr
( X p X r )( Xir X p ) ( X p X r )(X p X r )
i 1
i 1
np
2X k X
p
X p X p )
nq nr
( X k X k
2 X k X q
X q X q )
n p nq nr
(X
p X
p
2 X p X q
X q X q )
np nr
Dk2p
nq nr
Dk2q
n p nq nr2
Dp2q
( 9)
5. 类平均法
类 平 均法 定义 类间 距离 平方 为这 两类 元素 两两 之间 距离 平方 的
设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gt中的第I
个样品,nt表示Gt中样品的个数,X t是Gt的重心,则Gt的样品 离差平方和为
nt
St ( X it X t )( X it X t )
(14)
t 1
8.离差平方和法
如果 G p 和 Gq 合并为新类 Gr 类内离差平方和分别为
二、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量)先聚成类, 距离相远的后聚成类,过程一直进行下去,每个样品(或变量) 总能聚到合适的类中。 系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤 进行: ➢将n个样品各作为一类 ➢计算n个样品两两之间的距离,构成距离矩阵 ➢合并距离最近的两类为一新类 ➢计算新类与当前各类的距离。再合并、计算,直至只有一 类为止
2 ij XiGk X j Gq
np nr
Dk2p
nq nr
Dk2q
( 11)
类平均法的聚类过程与上述方法完全类似,这里就不在详述了。
6.可变类平均法
由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响, 因此将类平均法进一步推广,如果将Gp和Gq合并为新类Gr, 类Gk与新并类Gr的距离公式为:
X k X k
2 np nr
X k X p
2 nq nr
X k X q
1 nr2
(n2p
X
p
X
p
2n p nq
X
p
Xq
nq2 X q
Xq)
利用
X k X k
1 nr
(np X k X k
nq X k X k ) 代入上式,有
Dk2r
np nr
( X k X k
Dk2r
1 2
Dk2p
1 2
Dk2q
D
2 pq
(1/4 0)
(5)
设Dkq>Dkp,如果采用最短距离法,则Dkr = Dkp,如果采用 最长距离法,则Dkr = Dkq。如图2所示,(5)式就是取它们 (最长距离与最短距离)的中间一点作为计算Dkr的根据。
3.中间距离法
特别当 = 1/4,它表示取中间点算距离,公式为
nq
S p ( Xiq X q X q X p )( Xiq X q X q X p ) i 1
nr ( X p X r )( X p X r )
nq
S p ( Xiq X q )( Xiq X q ) nq ( X p X q )( X p X q ) i1
np
Sp ( Xip X p )( Xip X p ) i1 nq
Sq ( Xiq X q )( Xiq X q ) i1 nr
Sr ( X ir X r )( X ir X r ) i 1
8.离差平方和法
它们反映了各自类内样品的分散程度,如果 G p 和Gq 这两类
相距较近,则合并后所增加的离散平方和 Sr S p Sq 应较
小;否则,应较大。于是定义 G p 和 Gq 之间的平方距离为:
Dp2q Sr Sp Sq
(15)
其中 Gr Gp Gq ,可以证明类间距离的递推公式为
Dk2r
nk nr
np nk
Dk2p
nk nr
1. 最短距离法
定义类与之间的距离为两类最近样品的距离,即为
Dij min d XiGi , X jG j ij
(1)
设类与合并成一个新类记为,则任一类与的距离为
Dkr min d XiGk , X j Gr ij
min{ min Xi Gk , X j Gp
dij
,
min
xi Gk ,x j Gq
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表2
G7
G3
G4
G8
G7
0
G3
3
0
G4
5
2
0
G8
7
4
2
0
表2
1. 最短距离法
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2) ,见表 3
Dp2q (X p Xq )(X p Xq )
(7)
设将 G p 和 Gq 合并为 Gr ,则 Gr 内样品个数为 nr n p nq ,
它的重心是
Xr
1 nr
(np X p
nq X q ) ,类Gk
的重心是 X k
,
那么依据(5.17)式它与新类 Gr 的距离为
Dk2r
1. 最短距离法
【例 1】设有六个样品,每个只测量一个指标,分别是1,2, 5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表1
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
0
表1
1. 最短距离法
G7
G9
G7
0
G9
3
0
表3
1. 最短距离法
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一 类,其过程终止。 上述聚类的可视化过程见图1所示,横坐标的刻度表示并类 的距离。这里我们应该注意,聚类的个数要以实际情况所定, 其详细内容将在后面讨论。
图1 最短距离聚类法的过程
2.最长距离法
➢画聚类图,解释
三、八种系统聚类方法
在进行系统聚类之前,我们首先要定义类与类之间的 距离,由类间距离定义的不同产生了不同的系统聚类法。 常用的类间距离定义有8种之多,与之相应的系统聚类法 也有8种,分别为最短距离法、最长距离法、中间距离法、 重心法、类平均法、可变类平均法、可变法和离差平方和 法。它们的归类步骤基本上是一致的,主要差异是类间距 离的计算方法不同。以下用dij表示样品Xi与Xj之间距离, 用Dij表示类Gi与Gj之间的距离。
nq
( Xip X p )( X ip X p ) ( X iq X p )( X iq X p )
i 1
i 1
nr
2( X p X r ) ( Xir X p ) nr ( X p X r )( X p X r ) i 1
8.离差平方和法
平 均 数 ,即为
1 2
2
D d pq
ij
n np q XiGp X jGj
(10)
设聚类的某一步将 G p 和 Gq 合并为 Gr ,则任一类类Gk 与Gr 的
距离为:
1 2
2
D d kr
ij
n nk r XiGk X jGr
1 2
( d d ) ij n nk r XiGk X jGp
定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即
为
Dpq max d XiGp , X j Gq ij
(3)
最长距离法与最短距离法的并类步骤完全一样,也是将
各样品先自成一类,然后将距离最小的两类合并。将类
G p 与 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的类间距离公
式为
nq nk
Dk2q
nk nr nk
Dp2q
(5.26) 这种系统聚类法称为离差平方和法或Ward方法。下面论证
离差平方和法的距离递推(16)式。
8.离差平方和法
由于 nr Sr ( X ir X r )( X ir X r ) i 1
nr
( X ir X p X p X r )( X ir X p X p X r ) i 1
Dk2r
1
2
(Dk2p
Dk2q ) Dp2q
(13)
其中 是可变的,且 1 。显然在可变类平均法中取
np nq 1 ,即为可变法。可变类平均法与可变法的分类 nr nr 2 效果与 的选择关系很大,在实际应用中 常取负值。
8.离差平方和法
该方法是Ward提出来的,所以又称为Ward法。该方法的基 本思想来自于方差分析,如果分类正确,同类样品的离差平 方和应当较小,类与类的离差平方和较大。具体做法是先将 n个样品各自成一类,然后每次缩小一类,每缩小一类,离 差平方和就要增大,选择使方差增加最小的两类合并,直到 所有的样品归为一类为止。
dij }
min{Dkp , Dkq}
(2)
1. 最短距离法
最短距离法进行聚类分析的步骤如下: (1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些 最小元素的类可以同时合并。
一是类与类之间的距离定义不同;
另一是计算新类与其它类的距离所用的公式不同。
3.中间距离法
最短、最长距离定义表示都是极端情况,我们定义类间距离 可以既不采用两类之间最近的距离也不采用两类之间最远的 距离,而是采用介于两者之间的距离,称为中间距离法。
中间距离将类Gp与Gq类合并为类Gr,则任意的类Gk和Gr的距 离公式为
np nr
Dk2p
nq nr
Dk2q
npnq nr2
Dp2q
( 8)
这里我们应该注意,实际上(8)式表示的类 Gk 与新类Gr 的
距离为:
Dk2r ( X k X r )( X k X r )
[Xk
1 nr
(np X
p
nq
X q )][ X k
1 nr
(np X
p
nq X q )]
Dk2r
(1 )( np
nr
Dk2p
nq nr
Hale Waihona Puke Baidu
Dk2q )
Dp2q
(12)
其中是可变的且 <1,称这种系统聚类法为可变类平均法。
7.可变法
针对于中间法而言,如果将中间法的前两项的系数也依赖
于 ,那么,如果将G p 和 Gq 合并为新类 Gr ,类 Gk 与新
并类 Gr 的距离公式为: