系统聚类的方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
nq nr
Xk 2Xk Xq Xq Xq) (Xk (X p X p 2X p Xq Xq Xq )
nq nr D
2 kq
n p nq nr
np nr
D
2 kp
n p nq n
2 r
2 Dpq
( 9)
5. 类平均法
类平均法定义类间距离平方为这两类元素两两之间距离平方的 平均数,即为
二、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量)先聚成类, 距离相远的后聚成类,过程一直进行下去,每个样品(或变量) 总能聚到合适的类中。 系统聚类法是诸聚类分析方法中使用最多的一种,按下列步骤 进行: 将n个样品各作为一类 计算n个样品两两之间的距离,构成距离矩阵
合并距离最近的两类为一新类
D Sr S p Sq
2 pq
2 kr
(15)
其中 Gr Gp Gq ,可以证明类间距离的递推公式为
nk 2 D D D Dpq nr nk nr nk nr nk
2 kp 2 kq
nk n p
nk nq
(5.26) 这种系统聚类法称为离差平方和法或Ward方法。下面论证 离差平方和法的距离递推(16)式。
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
3.中间距离法
最短、最长距离定义表示都是极端情况,我们定义类间距离 可以既不采用两类之间最近的距离也不采用两类之间最远的 距离,而是采用介于两者之间的距离,称为中间距离法。 中间距离将类Gp与Gq类合并为类Gr,则任意的类Gk和Gr的距 离公式为
图1 最短距离聚类法的过程
2.最长距离法
定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即 为
D pq
X i G p , X j Gq
max
dij
(3)
最长距离法与最短距离法的并类步骤完全一样,也是将 各样品先自成一类,然后将距离最小的两类合并。将类 G p 与 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的类间距离公 式为
计算新类与当前各类的距离。再合并、计算,直至只有一 类为止 画聚类图,解释
三、八种系统聚类方法
在进行系统聚类之前,我们首先要定义类与类之间的 距离,由类间距离定义的不同产生了不同的系统聚类法。 常用的类间距离定义有8种之多,与之相应的系统聚类法 也有8种,分别为最短距离法、最长距离法、中间距离法、 重心法、类平均法、可变类平均法、可变法和离差平方和 法。它们的归类步骤基本上是一致的,主要差异是类间距 离的计算方法不同。以下用dij表示样品Xi与Xj之间距离, 用Dij表示类Gi与Gj之间的距离。
2 Dpq ( X p X q )( X p X q )
(7)
设将 G p 和 Gq 合并为 Gr , 则 Gr 内样品个数为 nr n p nq , 它的重心是 X r 1 (n p X p nq X q ) ,类 Gk 的重心是 X k , nr 那么依据(5.17)式它与新类 Gr 的距离为
8.离差平方和法
由于
Sr ( X ir X r )( X ir X r )
i 1
nr
( X ir X p X p X r )( X ir X p X p X r )
( X ir X p )( X ir X p ) ( X ir X p )( X p X r )
2 Dpq
1 n p nq
X i Gp X j G j
Leabharlann Baidu
2 dij
(10)
设聚类的某一步将 G p 和 Gq 合并为 Gr ,则任一类类 Gk 与 Gr 的 距离为:
1 D nk nr
2 kr
X i Gk X j Gr
2 dij
1 2 2 ( dij dij ) nk nr X i Gk X j Gp X i Gk X j Gq
Sr ( X ir X r )( X ir X r )
i 1
np
i 1 nq
i 1 nr
8.离差平方和法
它们反映了各自类内样品的分散程度,如果 G p 和 Gq 这两类
相距较近,则合并后所增加的离散平方和 Sr S p Sq 应较 小;否则,应较大。于是定义 G p 和 Gq 之间的平方距离为:
1 2 2 2 ( 13) D ( Dkp Dkq ) D pq 2 其中 是可变的,且 1 。显然在可变类平均 法中取
2 kr
1 即为可变法。 可变类平均法与可变法的分类 , nr nr 2 效果与 的选择关系很大,在实际应用中 常取负值。
np
nq
i 1 i 1
nr
i 1 nr
nr
( X p X r )( X ir X p ) ( X p X r )(X p X r )
i 1 i 1
nr
nr
( X ip X p )( X ip X p ) ( X iq X p )( X iq X p )
1. 最短距离法
定义类与之间的距离为两类最近样品的距离,即为
Dij
X i Gi , X j G j
min
d ij
(1)
设类与合并成一个新类记为,则任一类与的距离为
Dkr
X i Gk , X j Gr
min
d ij
dij , min dij }
(2)
min{
X i Gk , X j G p
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2) ,见表 3
G7 G7 G9
表3
G9 0
0 3
1. 最短距离法
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一 类,其过程终止。 上述聚类的可视化过程见图1所示,横坐标的刻度表示并类 的距离。这里我们应该注意,聚类的个数要以实际情况所定, 其详细内容将在后面讨论。
8.离差平方和法
该方法是Ward提出来的,所以又称为Ward法。该方法的基 本思想来自于方差分析,如果分类正确,同类样品的离差平 方和应当较小,类与类的离差平方和较大。具体做法是先将 n个样品各自成一类,然后每次缩小一类,每缩小一类,离 差平方和就要增大,选择使方差增加最小的两类合并,直到 所有的样品归为一类为止。 设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gt中的第I X t是Gt的重心,则Gt的样品 个样品,nt表示Gt中样品的个数, 离差平方和为
3.中间距离法
特别当 = 1/4,它表示取中间点算距离,公式为
Dkr
1 2 1 2 1 2 Dkp Dkp D pq 2 2 4
(6)
图2 中间距离法
4. 重心法
重心法定义类间距离为两类重心(各类样品的均值)的距 离。重心指标对类有很好的代表性,但利用各样本的信息 不充分。 设 G p 与 Gq 分别有样品 n p , 其重心分别为 X p 和 X q , nq 个, 则 G p 与 Gq 之间的距离定义为 X p 和 X q 之间的距离,这里 我们用欧氏距离来表示,即
1. 最短距离法
【例 1】设有六个样品,每个只测量一个指标,分别是1,2,
5,7,9,10,试用最短距离法将它们分类。 (1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表1
G1 G2 G3 G4 G5 G6 G1 0 1 4 6 8 9 G2 0 3 5 7 8
表1
G3
G4
G5
G6
聚类分析
1
聚类分析
一 聚类分析的定义 二 系统聚类的基本思想 三 八种系统聚类方法 四 类间距离的统一性
一、聚类分析的定义
“物以类聚,人以群分”。对事物进行分类,是人们认 识事物的出发点,也是人们认识世界的一种重要方法。 因此,分类学已成为人们认识世界的一门基础科学。
聚类分析就是分析如何对样品(或变量)进行量化分 类的问题。通常聚类分析分为Q型聚类和R型聚类。Q 型聚类是对样品进行分类处理,R型聚类是对变量进行 分类处理。
i 1 i 1
np
nq
2( X p X r ) ( X ir X p ) nr ( X p X r )( X p X r )
D
2 kr
np nr
D
2 kp
nq nr
D
2 kq
n p nq n
2 r
2 Dpq
( 8)
这里我们应该注意, 实际上( 8) 式表示的类 Gk 与新类 Gr 的 距离为:
2 Dkr ( X k X r )( X k X r )
1 1 [ X k (n p X p nq X q )] [ X k (n p X p nq X q )] nr nr
min
xi Gk , x j Gq
min{Dkp , Dkq }
1. 最短距离法
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些 最小元素的类可以同时合并。
St ( X it X t )( X it X t )
t 1
nt
(14)
8.离差平方和法
如果 G p 和 Gq 合并为新类 Gr 类内离差平方和分别为
S p ( X ip X p )( X ip X p ) Sq ( X iq X q )( X iq X q )
2 kr
np nr
D
2 kp
nq nr
2 2 Dkq ) Dpq
(12)
其中是可变的且 <1,称这种系统聚类法为可变类平均法。
7.可变法
针对于中间法而言,如果将中间法的前两项的系数也依赖 于 ,那么,如果将 G p 和 Gq 合并为新类 Gr ,类 Gk 与新 并类 Gr 的距离公式为:
Xk 2 Xk
np nr
Xp 2 Xk
nq nr
Xq Xk
1 2 2 2 (n p X X 2 n n X X n p p p q p q q Xq Xq) nr
1 X k (n p X k X k nq X k X k ) 代入上式,有 利用 X k nr np 2 Xk 2Xk X p X Dkr ( X k pX p) nr
2.最长距离法
Dkr
X i Gk , X j Gr
max
dij
dij , max dij }
max{
X i Gk , X j G pj
max
xi Gk , x j Gq
max{Dkp , Dkq }
( 4)
再找距离最小两类并类,直至所有的样品全归为一类为止。
可以看出最长距离法与最短距离法只有两点不同:
0 2 4 5 0 2 3 0 1 0
1. 最短距离法
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表2
G7 0 3 5 7
表2
G3 0 2 4
G4
G8
G7 G3 G4 G8
0 2 0
1. 最短距离法
np nr D
2 kp
nq nr
2 Dkq
( 11)
类平均法的聚类过程与上述方法完全类似,这里就不在详述了。
6.可变类平均法
由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响, 因此将类平均法进一步推广,如果将Gp和Gq合并为新类Gr, 类Gk与新并类Gr的距离公式为:
D (1 )(
1 2 1 2 2 D Dkp Dkq D pq 2 2
2 kr
(1/4 0)
(5)
设Dkq>Dkp,如果采用最短距离法,则Dkr = Dkp,如果采用 最长距离法,则Dkr = Dkq。如图2所示,(5)式就是取它们 (最长距离与最短距离)的中间一点作为计算Dkr的根据。