最新聚类分析简单例子复习过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

G7
G9
G7
0
G9
3
0
表5.3
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一 类,其过程终止。 上述聚类的可视化过程见图5.1所示,横坐标的刻度表示并 类的距离。这里我们应该注意,聚类的个数要以实际情况所 定,其详细内容将在后面讨论。
图5.1 最短距离聚类法的过程
2. 最长距离法
定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即
聚类分析简单例子
二、类间距离与系统聚类法
在进行系统聚类之前,我们首先要定义类与类之间的距离, 由类间距离定义的不同产生了不同的系统聚类法。常用的类 间距离定义有8种之多,与之相应的系统聚类法也有8种,分 别为最短距离法、最长距离法、中间距离法、重心法、类平 均法、可变类平均法、可变法和离差平方和法。它们的归类 步骤基本上是一致的,主要差异是类间距离的计算方法不同。 以下用dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj 之间的距离。
dij
,
max
xi Gk ,x j Gq
dij }
max{Dkp , Dkq}
( 5.14)
再找距离最小两类并类,直至所有的样品全归为一类为止。 可以看出最长距离法与最短距离法只有两点不同:
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
3. 中间距离法 最短、最长距离定义表示都是极端情况,我们定义类间距离 可以既不采用两类之间最近的距离也不采用两类之间最远的 距离,而是采用介于两者之间的距离,称为中间距离法。
最小元素的类可以同时合并。
【例5.1】设有六个样品,每个只测量一个指标,分别是1, 2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表5.1
G1
G2
G3
G4
G5
G6
G1
0
G2
1
0
G3
4
3
0
G4
6
5
2
0
G5
8
7
4
2
0
G6
9
8
5
3
1
0
表5.1
1 nr
(np X
p
nq X q )]
X k X k
2 np nr
X k X p
2 nq nr
X k X q
1 nr2
(n
2 p
X
p
X
p
2n p nq
X
p
Xq
nq2 X q
Xq
)
利用
X k X k
1 nr
(np X k X k
nq X k X k ) 代入上式,有
Dk2r
np nr
( X k X k
2 X k X p
X p X p )
nq nr
( X k X k
2 X k X q
X q X q )
n p nq nr
(X
p
X
p
2 X p X q
X q X q )
np nr
Dk2p
nq nr
Dk2q
n p nq nr2
Dp2q
(5.19)
xi Gk ,x j Gq
dij
}
min{Dkp , Dkq}
(5.12)
最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离 阵记为D(0) ,开始每个样品自成一类,显然这时Dij = dij。
(2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些
1. 最短距离法 定义类Gi与Gj之间的距离为两类最近样品的距离,即为
Dij min d XiGi , X jG j ij
(5.11)
设Gk类与合并成一个新类记为Gr,则任一类与的距离为
Dkr min d XiGk , X j Gr ij
min{ min Xi Gk , X j Gp
dij
,
min

Dpq max d XiGp ,X j Gq ij
(5.13)
最长距离法与最短距离法的并类步骤完全一样,也是将
各样品先自成一类,然后将距离最小的两类合并。将类
G p 与 Gq 合并为 Gr ,则任一类 Gk 与 Gr 的类间距离公
式为
Dkr
max
XiGk , X j Gr
dij
max{ max Xi Gk , X j Gpj

那么依据(5.17)式它与新类 Gr 的距离为
Dk2r
np nr
Dk2p
nq nr
Dk2q
npnq nr2
Dp2q
(5.18)
这里我们应该注意,实际上(5.18)式表示的类 Gk 与新类Gr
的距离为:
Dk2r ( X k X r )( X k X r )
[Xk
1 nr
(np X
p
nq X q )][ X k
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与其 它类的距离D(1) ,见表5.2
G7
G3
G4
G8
G7
0
G3
3
0
G4
5
2
0
G8
7
4
2
0
表5.2
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2) ,见表5.3
中间距离将类Gp与Gq类合并为类Gr,则任意的类Gk和Gr的距 离公式为
Dk2r
1 2
Dk2p
1 2
Dk2q
ቤተ መጻሕፍቲ ባይዱ
D
2 pq
(1/4 0) (5.15)
设Dkr>Dkp,如果采用最短距离法,则Dkr = Dkp,如果采用 最长距离法,则Dkr = Dkq。如图5.2所示,(5.15)式就是取它 们(最长距离与最短距离)的中间一点作为计算Dkr的根据。
则 G p 与 Gq 之间的距离定义为 X p 和 Xq 之间的距离,这里 我们用欧氏距离来表示,即
Dp2q (X p Xq )(X p Xq )
(5.17)
设将 G p 和 Gq 合并为 Gr ,则 Gr 内样品个数为 nr n p nq ,
它的重心是 X r
1 nr
(np X p
nq X q ) ,类 Gk 的重心是 X k
特别当 = 1/4,它表示取中间点算距离,公式为
Dkr
1 2
Dk2p
1 2
Dk2p
1 4
D
2 pq
(5.16)
图5.2 中间距离法
4. 重心法 重心法定义类间距离为两类重心(各类样品的均值)的距 离。重心指标对类有很好的代表性,但利用各样本的信息 不充分。
设 G p 与 Gq 分别有样品 n p ,nq 个,其重心分别为 X p 和 Xq ,
相关文档
最新文档