聚类分析的方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析的方法

一、系统聚类法

系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的自然谱系,它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类目的不同,系统聚类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型分析。系统聚类分析法基本步骤如下(许志友,1988)。

(一)数据的正规化和标准化

由于监测时所得到的数值各变量之间相差较大,或因各变量所取的度量单位不同,使数值差别增大,如果不对原始数据进行变换处理,势必会突出监测数据中数值较大的一些变量的作用,而消弱数值较小的另一些变量的作用,克服这种弊病的办法是对原始数据正规化或标准化,得到的数据均与监测时所取的度量单位无关。

设原始监测数据为Xij (i=1,2,…,n;j=1,2,…,m;n为样品个数,m为变量个数),正规化或标准化处理后的数据为Zij (i=1,2,…,n;j=1,2,…,m)。

1. 正规化计算公式如下:

(7-32)

(i=1,2,…,n;j=1,2,…,m)

2. 标准化计算公式如下:

(7-33)

(i=1,2,…,n;j=1,2,…,m)

其中:

(二)数据分类尺度计算

为了对数据Zij进行分类,须对该数据进一步处理,以便从中确定出分类的尺度,下列出分类尺度计算的四种方法。

1.相关系数R

两两变量间简单相关系数定义为:

(7-34)

(i,j=1,2,…,m)

其中

一般用于变量的分类(R型)。有一1≤≤1且愈接近1时,则此两变量愈亲近,

愈接近-1,则关系愈疏远。

2.相似系数

相似系数的意义是,把每个样品看做m维空间中的一个向量,n个样品相当于m维空间中的n个向量。第i个样品与第j个样品之间的相似系数是用两个向量之间的夹角余弦来定义,即:

(7

-35)

(i,j=1,2,…,m)

常用于样品间的分类(Q型)。有一1≤≤1,且的值愈大,愈接近l,两个样品关系愈亲近。

3.欧氏距离

欧氏距离含义为,对每个样品,把它的m个因素(变量)的值看做m维空间中的一个点,则,2个样品就是7n维系空间中n个点,则第i个样品与第j个样品之间的距离

为:

(7-36)

(i,j=1,2,…,m)

一般用做样品间的分类。显然有0≤≤1,距离愈小,表示两个样品愈亲密,反之则疏远。

4.斜交空间距离

由于变量间往往存在程度不同的相关关系,以欧氏距离计算距离,会使结果发生偏差,因而对样品i,j之间的距离可用更广义的斜交空间距离作为分类尺度。

(7-37)

(i,j=1,2,…,n)

其中

(k,L=1,2,…,m)

一般用于样品的分类。有0≤≤1,且距离愈小表示两个样品愈亲密。

(三)分类树形图的绘制

绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集中在一起,用较短的线联结起来,而相似程度低的样本或类之间用较长的线联结。绘制分类树形图可采用两种方法。

1.一次形成分类法

首先选出相关系数最大的元素对(或距离矩阵中最小的元素对),然后选出次大的元素对(或距离矩阵中次小的元素对),依次类推。选出元素对后,将各元素对按下列准则连接成群:

若两个元素在已形成的群中没有出现过,则形成一个独立的新群;

若两个元素中有一个是在已经分好的群中出现过,则另一个加入该群;

若两个元素都在已分好的两群中,则把两群连一起;

若两个元素都在同一群中,则这对元素就不再作处理。

这样反复进行,直到所有的元素都分群完毕为止,形成一个树形图。

2.逐步形成分类法

假设分类是对样品进行的,且采用的分类尺度是距离。从距离矩阵中选出最小的元素,这说明第k个样品与第L个样品距离最近(关系最亲密)应首先归入一组,然后按下面方法进行计算:

首先,把第五个样品与第L个样品的相应的各个变量取平均值,用它代替第k个样品,并取消第j个样品,形成新的样品数据,它比归并前的样品数目减少一个(当为组合变量时应取加权平均值)。

其次,根据新的样品数据,重新计算距离矩阵。

再从新的距离矩阵中选出最小的,说明新的样品数据中第个样品与第个样品距离最近(关系最密切),应将它们归为一组,然后重复进行上述(1)、(2)、(3)步工作。

以上各步重复进行n-1次则全部样品最后归并为一组,最后按归组的先后顺序及相应的距离大小作出分类树形图。

(四)类别的划分

对于已建立的相似性矩阵,即可根据不同的且置信水平进行分类。分类时应先求出R的λ截矩阵。

(7-38)

其中:

显然=1时,i与j应归为同一类,否则为不同类。对于不同的又,可得到不同的分类方案,看0≤≤≤1,则所分出的每一类必是的某一类的子类。

图7-3分类树形图左边的每一个分支代表一个成员,而右边的“根”则代表全部成员的总体。由分支向根移动时,成员聚合成点群的程度愈来愈高。

以图7-3为例,有5个原始成员,可能的点群有:五个点群,每个点群中成员之间的相似程度最高(只有一个成员);4个点群,即成员(1、2)合并为一个点群,再加上余3

个成员;3个点群,即(1、2),(3、4),(5);两个点群,即(1、2),(3、4、5)最后为一个点群,包括所有5个成员。点群愈少,则点群中成员之间的相似程度愈差,这就可以根据所研究问题的需要而选取。

运用Q式分类树形图进行地下水化学污染综合分类时,还应结合地区的水文地质条件分析判断,才能达到较好的效果。

相关文档
最新文档