第一节系统聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章聚类分析
(一)教学目的
通过本章的学习,对聚类分析从总体上有一个清晰地认识,理解聚类分析的基本思想和基本原理,掌握用聚类分析解决实际问题的能力。
(二)基本要求
了解聚类分析的定义,种类及其应用范围,理解聚类分析的基本思想,掌握各类分析方法的主要步骤。
(三)教学要点
1、聚类分析概述;
2、系统聚类分析基本思想,主要步骤;
3、动态聚类法基本思想,基本原理,主要步骤;
4、模糊聚类分析基本思想,基本原理,主要步骤;
5、图论聚类分析基本思想,基本原理。
(四)教学时数
6课时
(五)教学内容
1、聚类分析概述
2、系统聚类分析
3、动态聚类法
4、模糊聚类分析
5、图论聚类分析
统计分组或分类可以深化人们的认识。
实际应用中,有些情况下进行统计分组比较容易,分组标志确定了,分组也就得到了,但是,有些情况下进行统计分组却比较困难,特别是当客观事物性质变化没有明显标志时,用于确定分组的标志和组别就很难确定。
聚类分析实际上给我们提供了一种对于复杂问题如何分组的统计方法。
第一节聚类分析概述
一、聚类分析的定义
聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。
聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。
二、聚类分析的种类
(一)聚类分析按照分组理论依据的不同,可分为系统聚类法,动态聚类法,模糊聚类、图论聚类、聚类预报等多种聚类方法。
1、系统聚类分析法。
是在样品距离的基础上定义类与类的距离,首先将n个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。
这种聚类方法称为系统聚类法。
根据并类过程所做的样品并类过程图称为聚类谱系图。
2、动态聚类分析法。
是将n个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。
这种分类方法一般称为动态聚类法,也称为调优法。
3、模糊聚类分析法。
是利用模糊数学中模糊集理论来处理分类问题的方法,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。
4、图论聚类分析法。
是利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。
5、聚类预报法。
是利用聚类方法处理预报问题的方法。
主要应用于处理一些出现异常数据的情况,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。
(二)按照分析对象不同,可以分为Q型聚类分析和R型聚类分析。
Q型聚类分析法是对样品进行的分类处理,可以揭示样品之间的亲疏程度。
R型聚类分析法是对变量进行的分类处理,可以了解变量之间,以及变量组合之间亲疏程度。
根据R型聚类的结果,可以选择最佳的变量组合进行回归分析或者Q型聚类分析。
其中,选择最佳变量的一般方法是,在聚合的每类变量中,各选出一个具有代表性的变量作为典型变量,其中选择的依据是2r。
1
2
2-=
∑k r r i
i
2r :表示每个变量与其同类的其它变量的相关系数的平方的均值。
k 为该类中变量的
个数。
应用中,挑选2
r 值最大的变量i x 作为该类的典型变量。
三、聚类分析中样品或变量亲疏程度的测定 1、变量类型与数据变换
通常变量类型按照计量尺度的不同,分为定类尺度,定序尺度,定距尺度,定比尺度变量。
其中,前两者一般又称为定性资料,后两者一般又称为定量资料。
在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义与变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大的差异。
另外,由于样本数据受量纲和数量级的影响,在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理,以便使不同量纲、不同数量级的数据能放在一起比较。
常用的数据变换方法有以下几种:
(1)中心化变换
中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。
即
对于一个样本数据,观测
p 个指标,n 个样品的数据资料阵为:
⎪⎪
⎪
⎪
⎪
⎭
⎫
⎝⎛=np n n p p x x x x x x x x x X 2
1
22221
11211
设中心化后的数据为ij
x ' 则有 j ij ij
x x x -=' n i 2,1= p j 2,1= 其中 p j x n x n
i ij
j 2,111
==∑=
进行了中心化变换后的数据特点是,其每列数据之和均为0。
(2)规格化变换(极差规格变换)
规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。
规格
化后的数据为:
{}
{}{}ij
n
i ij
n
i ij n
i ij ij
x
x x x x ≤≤≤≤≤≤--='111min max min
n i 2,1= p j 2,1=
进行了规格化变换后的数据特点是,将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。
(3)标准化变换
标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即
j
j
ij ij
S x x x -=' n i 2,1= p j 2,1=
其中 p j x n x n
i ij
j 2,111
==∑=
()2
11211⎥⎦
⎤
⎢⎣⎡--=∑=n i j ij j x x n S
进行了标准化变换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。
使用标准差处理后,在抽样样本改变时,它仍保持相对稳定性。
(4)对数变换
对数变换主要是对原始数据取对数。
即
{}ij ij
x x log =' 0>ij x n i 2,1= p j 2,1=
对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。
此外,还有平方根变换、立方根变换等。
极差标准化变换和规格化变换类似。
它是把每个变量的样本极差皆化为1,排除量纲的干扰。
立方根变换和平方根变换的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需要。
2、多维空间的距离
对于p 个观测指标,n 个样品的样本数据,每个样品有p 个变量,故每个样品都可以看成是p 维空间上的一个点,n 个样品就是p 维空间上的n 个点。
聚类分析中,对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。
因此需定义样品之间的距离,即第i
个样品与第j 个样品之间的距离,记为ij d ,所定义的距离一般满足以下四个条件:
①0≥ij d 对于一切j i ,; ②0=ij d 当且仅当j i =时 ③ji ij d d = 对于一切j i , ④kj ik ij d d d +≤ 对于一切k j i ,, 对于定量数据资料常用的距离有以下几种: (1)明氏(明科夫斯基,Minkowski )距离 第i 个样品与第j 个样品之间的明氏距离公式为
()q
q
p
k jk
ik ij x x q d 1
1
⎥⎥⎦
⎤
⎢⎢⎣⎡
-=∑=
这里q 为某一自然数,明氏距离是一最常用最直观的距离。
当1=q 时, ()∑=-=
p
i jk ik
ij x x
d 1
1,则称为绝对值距离。
当2=q 时,()()2
1
2
12⎥⎥⎦
⎤⎢⎢⎣⎡-=∑=p
k jk ik ij x x d ,则称为欧氏距离。
欧氏距离是聚类分析中用得最广泛的距离,但该距离与个变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。
当∞=q 时,()jk ik p
k ij x x d -=∞≤≤1max ,则称为切比雪夫距离
n j i ,2,1,=
由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数据进行准化处理,然后再用标准化后的数据计算距离。
(2)兰氏(Lance 和Williams )距离
兰氏距离是由Lance 和Williams 最早提出的,故称为兰氏距离。
当全部数据大于零,即
0>ij x 时,可以定义第i 个样品与第j 个样品之间的兰氏距离为
∑
=+-=p
i jk
ik jk ik ij x x x x d 1
n j i ,2,1,=
可见兰氏距离是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,其受奇异值的影响较小,使其适合应用于具有高度偏倚的数据。
然而兰氏距离没有考虑变量间的相关性。
明氏距离和兰氏距离的共同的特点是,假定变量之间相互独立,即均没有考虑变量之间的相关性,都是在正交空间内讨论距离的,而实际情况并非如此。
但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间的这种相关性影响,可以采用马氏距离。
(3)马氏距离(Mahalanobis )
第i 个样品与第j 个样品之间的马氏距离记为
()()j i j i ij X X S X X d -'
-=-12
其中j i X X ,分别为第i 个和第j 样品的p 个指标所组成的向量,
1-S 为样本协方差的逆矩阵。
()()∑=---=n
k j kj i ki x x x x n S 1
11 p j i ,2,1,=
马氏距离的优点是考虑到个变量之间的相关性,并且与个变量的单位无关。
不足之处是在聚类分析过程中,如果用全部数据计算的均值和协方差阵来计算马氏距离,并且始终保持不变,则显得不妥;然而若要随聚类过程而不断改变,计算将会很困难。
这样造成聚类效果不是很好的。
比较合理的办法是用各个类的样品来计算各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。
(4)斜交空间距离
由于多个变量之间存在着不同程度的相关关系。
在这种情况下,用正交空间距离来计算样品间的距离,易产生变形,从而使聚类分析时的谱系结构发生改变。
为此,计算斜交空间距离,第i 个样品与第j 个样品之间的斜交空间距离定义为,
()()2
1
112
1⎥⎦
⎤⎢⎣⎡--=∑∑==p k p
l kl jl il jk ik ij r x x x x m d 其中kl r 是变量k x 与变量l x 之间的相关系数。
以上几种距离的定义均要求变量间是间隔尺度的,如果使用的变量是定性材料,则应有一些其它定义距离的方法,在这里就不一一介绍。
3、相似系数
聚类分析方法不仅用来对样品进行分类,而且有时需要对变量进行分类,在对变量进行聚分类析时,则通常采用相似系数来表示变量之间的亲疏程度。
相似系数定义如下:
设ij C 表示变量i x 与变量i y 之间的相似系数,则ij C 应满足下列条件: (1),1j i ij ax x C =⇔±= ()
为非零常数a (2)1≤ij C 对一切j i ,成立 (3)ji ij C C = 对一切j i ,成立
ij C 越接近于1,则表示变量i x 与变量i y 之间关系越密切,ij C 越接近于0,则表示变
量i x 与变量i y 之间关系越疏远。
聚类时,关系密切的变量应归于一类,反之关系疏远的变量归于不同类。
常用的相似系数有夹角余弦和相关系数等。
(1)夹角余弦
在p 维空间中,向量i x 与j x 的夹角为ij α,则夹角余弦为:
2
1
12121cos ⎥
⎦
⎤⎢⎣⎡⎪⎭⎫ ⎝⎛⋅⎪⎭⎫ ⎝⎛⋅=
∑∑∑===n
k kj n
k ki n
k kj
ki
ij x x x x
α
它是i 和j 两个指标向量在原点处的夹角ij α的余弦,当i =j 时,夹角为
0,故夹角余弦为1,说明两个指标极相似,当i 与j 两个指标正交时,夹角为
90,故夹角余弦为0,说明两者不相关。
(2)相关系数
相关系数为数据作标准化处理后的夹角余弦,设ij r 表示变量i x 与j x 之间的相关系数,则
()()
()()2
1
121
21
⎭⎬
⎫⎩⎨⎧⎥⎦⎤⎢⎣⎡-⋅⎥⎦⎤⎢⎣⎡---=
∑∑∑===n
k j kj n k i ki n
k j kj i ki
ij x x x x x x x x
r
当i =j 时,表示指标的自相关系数,ij r =1;当i ≠j 时,相关系数ij r 的取值在-1~1之间。
相关系数的绝对值越接近1,表示两变量之间的相关程度越大。
(3)指数相似系数
设p S S S 21,表示变量p x x x 21,的样本标准差,则变量i x 与j x 之间的指数相似系数为:
()()∑=--=
p
k S x x ij k
jk
ik e p c r 1
4322
1
指数相似系数不受变量量纲的影响。
(4)相似系数的非参数方法
非参数方法主要应用于{}
ij x 大于零的情况,常用的相似系数有:
①()()()
∑∑===
m k jk ik
p
k jk ik
ij x x x x
g r 11
,max ,min
②()()
()∑∑==+=
m
k jk ik p
k jk ik
ij x x x x
c r 1
1
21,min
③()()
()n j i x x x x
r p
k jk
ik p
k jk ik
ij ,2,1,,min 01
1=⋅=
∑
∑==
4、距离以及相似系数的选择原则
一般说来,同一批数据采用不同的相似性尺度,就会得到不同的分类结果。
产生不同分类结果的原因,主要是不同指标代表了不同意义上的相似性。
因此我们在进行数值分类时,应注意相似性尺度的选择,选择的基本原则是:
(1) 所选择的相似性尺度在实际应用中应有明确的意义。
(2) 根据原始数据的性质,选择适当的变换方法,再根据不同的变换方法选择不同的距离或相似系数。
如标准化变换处理下,相关相似系数和夹角余弦一致;又如原始数据在进行聚类分析之前已经对变量的相关性作了处理,则通常可采用欧氏距离而不必选用斜交空间距离。
再如选择距离时,还须和选用的聚类方法相一致,如聚类方法选用离差平方和法时,距离只能选用欧氏距离。
(3) 适当地考虑计算量的大小,如对样品量较多的聚类问题,不适宜选择斜交空间距离,
因采用该距离处理时,计算工作量太大。
一般情况下,相关系数比相似系数具有更强的不变性,但相关系数比相似系数有较弱的分辨力。
使用距离与使用相似系数所得到的结果对比,相似系数的计算数值由大到小单调地减少,故聚类谱系图反映分群情况比较明显。
而使用距离的数据呈现非单调性增加。
聚类谱系图反映的分群情况不够明显。
距离的选择是一个比较复杂、带主观性的问题。
我们应根据研究对象,作具体分析,在多次进行聚类分析过程中,逐步总结经验以选择合适的距离在初次进行聚类分析处理时,不妨多试探选择几个距离进行聚类,作对比、分析,以确定合适的距离系数。
第二节 系统聚类分析
一、系统聚类分析的基本思想和分析步骤
(一)基本思想
系统聚类分析(Hierachical C1uster Analysis)是在样品距离的基础上,定义类与类之间的距离,首先将n 个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一个聚类谱系图。
这种方法即系统聚类分析。
系统聚类分析的基本思想是,把n 个样品看成p 维(p 个指标)空间的点,而把每个变量看成p 维空间的坐标轴,根据空间上点与点的距离来进行分类。
系统聚类分析的具体方法是,将n 个样品自成一类,先计算
()12
1
-n n 个相似性测度或距离,并且把具有最小测度的两个样品合并成两个元素的类,然后按照某种聚类方法计算这个类和其余()2-n 个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品,样品与类、类与类)都要使测度在系统中保持最小,每次减少一类,直到所有样品都归为一类为止。
(二)系统聚类分析的一般步骤 1、对数据进行变换处理;
2、计算各样品之间的距离,并将距离最近的两个样品合并成一类;
3、选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类,直至所有样品归为一类为止;
4、最后绘制系统聚类谱系图 ,按不同的分类标准或不同的分类原则,得出不同的分类
结果;
二、常用系统聚类分析方法
进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。
常用的系统聚类方法有8种。
即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法等。
尽管系统聚类分析方法很多,但每种方法的归类步骤基本是一样的,所不同的主要是对类与类之间的距离的定义不同。
设ij d 表示样品i x 与j x 之间的距离,ij D 表示类i G 与j G 之间的距离。
(一)最短距离法
最短距离法是把两个类之间的距离定义为一个类中的所有样品与另—个类中所有样品之间距离中最近者。
即类p G 与q G 之间的距离pq D 定义为;
ij G x G x pq d D q
j p i ∈∈=
,min
用最短距离法的聚类主要步骤如下:
1、计算样品之间的距离,得到n 个样品之间的距离矩阵为()0D ,这时每一个样品自成一类,有ij pq d D =,显然该距离矩阵是一个对称矩阵;
2、选择()0D 非主对角线上最小元素,设为pq D ,则将对应的两个样品p G 与q G 合并为一个新类,记为类r G ,即{}
q p r G G G ,=。
3、计算新类r G 与其他类k G (r k ≠)之间的距离,并得到新的距离矩阵()1D 。
其中新类r G 与其他类k G (r k ≠)之间的距离为
rj G x G x rk d D k
j r r ∈∈=
,min
⎭
⎬⎫⎩⎨⎧=∈∈∈∈ij G x G x ij G x G x d d k j q i k j p i ,,min ,min min ={}
qk pk D D ,min
4、对()1D 重复进行上述步骤,得到新的距离矩阵()2D ,对()2D 重复进行上述步骤,得到新的距离矩阵()3D ……这样一直下去,直到所有的样品都归为一类为止。
例:设抽取5个样品,每个样品只测量一个指标1x
表5.1 数据表
用最短距离法对5个样品进行聚类。
1、 计算5个样品两两之间的距离ij d (采用绝对值距离),记为距离矩阵()0D
表5.2 距离矩阵表(()0D )
2、 ()0D 中非主对角线上最小元素为112=D ,于是我们将1G 与2G 合并成新的一类,记为{}216,G G G =。
计算新类6G 与当前各类的距离:
{}{}44,5min ,min 231363===d d D
{}6,m i n 241464==d d D {}9,m i n 251565==d d D 得新距离矩阵()1D 为
表5.3 距离矩阵表(()1D )
3、()1D 中非主对角线上最小元素为234=D ,于是我们将3G 与4G 合并成新类,记为
{}437,G G G =。
同样计算新类7G 与当前各类的距离:
{}4,min 463676==d d D {}3,m i n 4535
75==d d D
得新距离矩阵()2D 为
表5.4 距离矩阵表(()2D ) 4、()2D 中的最小元素为357=D ,将5G 与7G 合并成新类,记为
{}758,G G G =。
得新距离矩阵()3D
表5.5 距离矩阵表(()3D )
5、最后将6G 和8G 合并成新类,记为
{}869,G G G =
此时五个样品都已经聚为一类,整个聚类过程终止。
按照上述聚类过程画聚类谱系图,如图5.1。
纵坐标表示的是距离,横坐标表示样品序号。
根据聚类谱系图可看出最短距离法并类的距离是单调增加的。
根据具体情况我们可以把5个样品分为{}21,G G 、{}43,G G 和{}5G 三类;也可以把5个样品分为{}21,G G 和
{}543,,G G G 两类。
图5.1 最短距离法聚类谱系图
(二)最长距离法
最长距离法与最短距离法在并类步骤上是完全一致的,而是在定义类与类之间的距离是相反的,类与类之间的距离定义为两类之间所有样品间距离最大者,即类p G 与q G 之间的距离为:
ij G x G x pq d D q
j p i ∈∈
=
,max
例:对上例样品采用最长距离法进行分类,主要过程为: 1、计算距离矩阵()0D ,得到()0D 与最短距离法的一致。
2、()0D 非主对角线上最小元素为112=D ,于是我们将1G 与2G 合并成新的一类,记为{}216,G G G =。
计算新类6G 与当前各类的距离:
{}{}54,5max ,max 231363===d d D
{}7,max 241464==d d D {}10,max 251565==d d D 得新距离矩阵()1D 为
表5.6 距离矩阵表(()1D )
3、()1D 中非主对角线上最小元素为234=D ,于是我们将3G 与4G 合并成新类,记为
{}437,G G G =。
计算新类7G 与当前各类的距离:
{}7,max 463676==d d D {}5,m a x 45
3575==d d D 得新距离矩阵()2D 为
表5.7 距离矩阵表(()2D )
4、()2D 中的最小元素为557=D ,将5G 与7G 合并成新类,记为
{}758,G G G =。
计算类8G 与当前各类的距离:{}7,max 765668==d d D
得新距离矩阵()3D 为
表5.8距离矩阵表(()3D )
5、最后将6G 和8G 合并成一类,记为
{}869,G G G =
此时五个样品都已经聚为一类,整个聚类过程终止。
6、根据上述聚类过程得聚类谱系图如图5.2所示。
图5.2最长距离法聚类谱系图
根据聚类谱系图,将五个样品分为{}21,G G 、{}43,G G 和{}5G 三类或者把5个样品分为{}21,G G 和{}543,,G G G 两类。
(三)中间距离法(Gower ,1966年)
该法是在定义类与类之间的距离时,既不采用两类样品之间的最近距离,也不采用两类样品之间最远距离,而是采用介于两者之间的中间距离,即当类p G 与
q G 合并为一新类
{}q p r G G G ,=,任一类i G 与r G 的距离定义为中线距离ir D :
2
224
12121pq iq ip ir D D D D -+=
用由ip D ,iq D 和pq D 为边组成的三角形,取pq D 边的中线作为ir D ,具体如图5.3所示:
图5.3 中间距离图
具体分类过程与前面最短和最长距离分类方法步骤相同,只是在定义的距离为中间距离。
(四)重心法
以上三种方法在定义类与类之间距离时,没有考虑每一类所包含的样品数。
因此,在定义类与类的距离时,把每一类中所包括的样品数目也考虑进去,把两个类重心之间的距离定义为类与类的距离,用这种距离分类的方法就称为重心法。
所谓每一类的重心就是该类样品的均值。
其中单个样品的重心就是它本身,两个样品的类的重心就是两点连线的中点。
设p G 与q G 合并为一新类{}q p r G G G ,=,它们各含有p n 、q n 和r n ()
q p r n n n +=个样品,它们的重心分别为p x 、q x 和r x ,()q q p p r
r x n x n n x +=1。
任一类i G 的重心为与i x ,它与r G 的距离ir D 定义为:
2
2
22
pq r
q r p iq r
q ip r
p ir D n n n n D n n D n n D ⋅-
+
=
重心法的归类步骤与以上三种方法基本一样,所不同的是每合并一次类,就要重新计算一次新类的重心以及与与其他各类的距离。
(五)类平均法
该方法定义类与类的距离时,不仅把每一类中所包括的样品数目考虑进来,而且把各样
品的信息都充分地考虑进来,而把两个类之间的距离平方定义为两类元素两两之间距离平方的平均。
设p G 与q G 合并为一新类{}q p r G G G ,=,它们各含有p n 、q n 和r n ()
q p r n n n +=个样品。
任一类k G 含有k n 个样品,它与r G 的距离ir D 定义为:
∑∈∈⋅=
r
k G j G i ij
r
i kr d
n n D ,22
1
⎪⎪⎭⎫ ⎝⎛+⋅=
∑∑∈∈∈∈p
k q k G j G i G j G i ij ij r
k d d n n ,,221 22kq r
q kp
r
p D n n D n n +
=
(六)可变类平均法
由于类平均法公式中没有反映p G 与q G 之间的距离pq D 的影响,所以又给出可变类平均法。
此法定义两类之间的距离同上,只是将任一类k G 与r G 的距离ir D 定义改为:
()()2
22
2
11pq kq r
q kp r
p kr D D n n D n n D βββ+-+
-=
其中β是可变的且1<β,称为聚集强度系数,随着β的取值的不同,会有不同的聚类结果。
一般的情况下,β均取负值,β值的绝对值越大,其扩张性越强,空间扩张的性质使分辨能力提高,一般选取4
1
-
=β。
(七)可变法
此法定义两类之间的距离同上,只是将任一类k G 与r G 的距离ir D 定义改为:
()
2
2222
1pq kq kp kr D D D D ββ++-=
其中β是可变的且1<β,一般选取4
1
-=β。
(八)离差平方和法(Ward 法)
基本思想是,基于方差分析的思想,如果类分得合理,则同类样品之间离差平方和应当较小,类与类之间的离差平方和应当较大。
设将n 个样品分成为k 类,表示为1G ,2G …k G ,it x 表示第t G 类中的第i 个样品,t
n
表示类t G 中样品的个数,t x 表示t G 的重心。
则t G 中样品的离差平方和为:
()()'
--=∑=t it n i t it t x x x x S t
1
k 个类的总的类内离差平方和为:
()()∑∑∑==='
--==k
t n i t it t it k t i t
x x x x S S 11
1
Ward 方法的基本思想是将两类合并后所增加的离差平方和看成类之间的距离,先将n 个样品各自成一类,然后每次缩小一类,每缩小一次离差平方和就会增加,选择使S 增加最小的两类合并,直到所有的样品归为一类为止。
设2
pq D 表示类p G 与q G 之间的距离,则根据定义有
q P t pq S S S D --=2
任一类i G 与新类r G ={}
q p G G ,的距离递推公式为:
2
2
2
2
pq
i
r i iq i
r q i ip i
r p i ir D n n n D n n n n D n n n n D +-
+++
++=
实际应用中,离差平方和法应用比较广泛,分类效果比较好。
离差平方和法要求样品之间的距离必须是欧氏距离。
三、系统聚类分析方法的统一公式
由于上述聚类方法的合并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,所以可得到不同的递推公式。
1969年维希特提出了统一的公式,这为编制统一的计算机程序提供了极大的方便性。
具体公式为:
设p G 与q G 合并为一新类{}q p r G G G ,=,任一类i G 与新类r G ={}
q p G G ,的距离为:
2
22222iq ip pq iq q ip p ir D D D D D D -+++=γβαα
其中系数p α、q α、β、γ对不同聚类方法有不同的取值。
如下表5.9,
表5.9 系统聚类法参数表
四、系统聚类分析方法的性质 1、关于并类时距离的单调性
设k D 是系统聚类法中第k 次并类时的距离,如果 <<21D D ,则称并类距离具有单调性。
经过证明最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法都具有单调性,只有重心法和中间距离法不具有单调性。
具有单调性画出的聚类图符合系统聚类的思想,先并类的类关系较近,后并类的类关系较远。
2、关于两种聚类方法之间距离矩阵的比较:空间扩张、空间收缩
设()A D ,()B D 为两个同阶的距离矩阵,如果()A D 的每一个元素不小于()B D 的相应元素,则记为()A D ≥()B D ,特别是,这里D 的元素是非负的,则有0≥D 。
如果()A D ≥0,()B D ≥0,()A D
2
表示将()A D 的每个元素进行平方,则。