五种常用系统聚类分析方法及其比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
五种常用系统聚类分析方法及其比较
胡雷芳
一、系统聚类分析概述
聚类分析是研究如何将对象按照多个方面的特征进行综合分类的一种统计方法[1]。然而在以往的分类学中,人们主要靠经验和专业知识作定性分类处理,许多分类不可避免地带有主观性和任意性,不能揭示客观事物内在的本质差别和联系;或者人们只根据事物单方面的特征进行分类,这些分类虽然可以反映事物某些方面的区别,但却往往难以反映各类事物之间的综合差异。聚类分析方法有效地解决了科学研究中多因素、多指标的分类问题[2]。
在目前的实际应用中,系统聚类法和K均值聚类法是聚类分析中最常用的两种方法。其中,K均值聚类法虽计算速度快,但需要事先根据样本空间分布指定分类的数目,而当样本的变量数超过3个时,该方法的可行性就较差。
而系统聚类法(Hierarchicalclusteringmethods,也称层次聚类法)由于类与类之间的距离计算方法灵活多样,使其适应不同的要求。该方法是目前实践中使用最多的。这该方法的基本思想是:先将n个样本各自看成一类,并规定样本与样本之间的距离和类与类之间的距离。开始时,因每个样本自成一类,类与类之间的距离与样本之间的距离是相同的。然后,在所有的类中,选择距离最小的两个类合并成一个新类,并计算出所得新类和其它各类的距离;接着再将距离最近的两类合并,这样每次合并两类,直至将所有的样本都合并成一类为止。这样一种连续并类的过程可用一种类似于树状结构的图形即聚类谱系图(俗称树状图)来表示,由聚类谱系图可清楚地看出全部样本的聚集过程,从而可做出对全部样本的分类[3]。
二、五种常用系统聚类分析方法
系统聚类法在进行聚类的过程中,需要计算类与类之间的距离。根据类与类之间的距离计算方法的不同,我们可以将系统聚类法分为单连接法、完全连接法、平均连接法、组平均连接法与离差平方和法等。
1.单连接法(Singlelinkage)
单连接法又称最短距离法。该方法首先将距离最近的样本归入一类,即合并的前两个样本是它们之间有最小距离和最大相似性;然后计算新类和单个样本间的距离作为单个样本和类中的样本间的最小距离,尚未合并的样本间的距离并未改变。在每一步,两类之间的距离是它们两个最近点间的距离。
用dij表示样本i和样本j的距离,G1、G2、…表示类,在单连接法定义类Gp与类Gq之间的距离为两类最近样本间的距离,用Dpq表示Gp与Gq的距离,则有式(1):
(1)
由于单连接法每次并类后都是将该类与其它类中距离最近的两个样本之间的距离作为该类与其它类的距离,所以此聚类方法的逐次并类距离之间的差距一般来说可能会越来越小。因此,该方法具有距离收缩的性质。
但是单连接方法认为,只要单个样本之间的相异度小,就认为两个组就是紧密靠拢的,而不管组间其他样本的相异度如何。这倾向于合并由一系列本身位置(原始数据集中样本的排列)靠近的样本。这种现象称为“链条”(chainning)[4],常常被认为
●经济研究
11
是该方法的不足之处。故单连接方法产生的聚类可能破坏类的“紧凑性”。
2.完全连接法(Completelinkage)
完全连接法又称最长距离法。该方法对距离的定义刚好与最短距离法相反,它是按两个最远样本间的距离进行类的归并,即两类之间的距离被计算作为它们的两个最远点间的距离。该方法与单连接法在的并类步骤完全一样,也是将各样本先看作自成一类,然后将距离最小的两类合并,设某一步将类Gp与Gq合并为Gr,则类Gr与其它任意一类Gk的距离为:
;然后再找距离最小的两类合并,直至将所有的样本合并为一类。
完全连接法由于每次并类后都是将该类与其它类中距离最远的两个样本之间的距离作为该类与其它类的距离,所以此聚类方法的逐次并类距离之间的差距一般来说可能会越来越大。因此该方法具有并类距离扩张的性质。
对于完全连接方法,只有当两个组的并集中所有的样本都相对近似时才被认为是靠近的。这将倾向于产生具有小直径的紧凑类。然而,它可能产生违背“闭合性”(closeness)的类[5]。也就是说,分配到某个类的样本距其他类成员的距离可能比距离本类中的某些成员的距离更短。
3.平均连接法(Averagelinkage)
平均连接法是苟沃(Gower,1966)提出的方法。此聚类方法在定义类与类之间的距离时,既不采用两类之间的最近距离,也不采用最远距离,而是采用介于两者之间的中间距离,故该方法也称为中间距离法。它避免了最远距离与最短距离计算上的弊端。
设某步将Gp与Gq合并为Gr,Gr与任意一类Gk的距离可以通过图1所示:
以Dkp,Dkq,Dpq为边做三角形,
若按最短距离法,则。
若按最长距离法,则。
而中间距离法则是取其中线,将此中线作为两类之间的距离Dkr,由初等几何知识可知
(2)
4.组平均连接法(Averagegrouplinkage)
组平均连接法采用的距离定义为两类之间的平均平方距离如公式(3)所示:
(3)
递推公式为:(4)
5.离差平方和法(Ward’smethod)
离差平方和的思想来自于方差分析,是由Ward于1936年提出,1967年经Orloci等人发展建立起来的一种系统聚类方法。该方法认为,如果分类正确,同类样本的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是先将n个样本看成一类,然后每次缩小一类。每缩小一类,离差平方和就要增大,选择使S增加最小的两类合并,直到所有的样本归为一类。对每一类计算所有变量的均值,然后对每一样本计算到类均值的距离平方,再对所有样本求这些距离之和。在每一步,合并的两类是使类内距离总平方和增加最小的类。
假定已经将n个样本分成了k类G1,G2,…,Gk,用Xit表示Gt中的第i个样本的变量指标值向量,nt表示类Gt中样本的个数,xt表示Gt的重心,则Gt中样本的离差平方和公式如(5)所示:
(5)
全部类内离差平方和公式为(6)所示:
(6)
当n很大时,要给出全部样本的所有可能的分类,并从中选择出使S达到极小的分类,一般是不可能的。于是人们只好放弃寻找最优的分类。为此,Ward提出了这种聚类方法。此方法类似于前面描述的几种聚类方法,都是先将n个样本自成一类,此时S=0,然后将其中两类合并成一类,即每次缩小一类。每缩小一类离差平方和S就要增大,每次都是选择使S增加最小的两类合并,直至所有的样本归为一类为止。
采用离差平方和法,样本间的距离必须采用欧氏距离。在实际应用中,离差平方和分类效果较好,应用也比较广泛[4][5]。
三、系统聚类分析方法的比较与选择
对于同一份样本,分别运用上述五种不同的系统聚类方法进行聚类,所得结果一般来说并不完全相同。于是就产生了一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,根据这些性质对各种聚类方法进行比较。
1.单调性
令Dk是系统聚类法中第k次并类时的距离,如果有D1≦
●经济研究
图1单连接法、完全连接法与平均连接法的几何距离示意图12