聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。聚类分析内容非常丰富,按照分类对象的不同可分为样品分类(Q-型聚类分析)和指标或变量分类(R-型聚类分析);按照分类方法可分为系统聚类法和快速聚类法。
1. 系统聚类分析
先将n 个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。系统聚类法直观易懂。
1.1系统聚类法的基本步骤:
第一,计算n 个样品两两间的距离 ,记作D= 。
第二,构造n 个类,每个类只包含一个样品。
第三,合并距离最近的两类为一新类。
第四,计算新类与各当前类的距离。
第五,重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
第六,画聚类谱系图。
第七,确定类的个数和类。
1.2 系统聚类方法:
1.2.1最短距离法
1.2.2最长距离法
1.2.3中间距离法
1.2.4重心法
1.2.5类平均法
1.2.6离差平方和法(Ward 法)
上述6种方法归类的基本步骤一致,只是类与类之间的距离有不同的定义。最常用的就是最短距离法。
1.3 最短距离法
以下用ij d 表示样品i X 与j X 之间距离,用ij D 表示类i G 与j G 之间的距离。定义类i G 与j G 之间的距离为两类最近样品的距离,即
ij G G G G ij d D j J i i ∈∈=,min
设类p G 与q G 合并成一个新类记为r G ,则任一类k G 与r G 的距离是:
ij G X G X kr d D j j i i ∈∈=,min ⎭⎬⎫⎩⎨⎧=∈∈∈∈ij G X G X ij G X G X d d q j k i p j k i ,,min ,min min {}
kq kp D D ,min = 最短距离法聚类的步骤如下:
ij d {}ij d
(1)定义样品之间距离,计算样品两两距离,得一距离阵记为)0(D ,开始每个样品自成一类,显然这时ij ij d D =。
(2)找出)0(D 的非对角线最小元素,设为pq D ,则将p G 和q G 合并成一个新类,记为r G ,即{}q p r G G G ,=。
(3)给出计算新类与其它类的距离公式:{}kq kp kr D D D ,min =,将)0(D 中第p 、q 行及p 、q 列用上面公式并成一个新行新列,新行新列对应r G ,所得到的矩阵记为)1(D 。
(4)对)1(D 重复上述对)0(D 的(2)、(3)两步得)2(D ;如此下去,直到所有的元素并成一类为止。如果某一步)(k D 中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。
最短距离法也可用于指标(变量)分类,分类时可以用距离,也可以用相似系数。但用相似系数时应找最大的元素并类,也就是把公式),min(iq ip ik D D D =中的min 换成max 。
2. 快速聚类分析
选取若干个样品作为凝聚点,计算每个样品和凝聚点的距离,进行初始分类,然后根据初始分类计算其重心,再进行第二次分类,一直到所有样品不再调整为止。动态聚类法计算简单,分类迅速,占用计算机内存少,特别是当样品数较大时,采用动态聚类法比较有利;但动态聚类法的分类结果与最初凝聚点的选择有关,有较大的不确定性。聚类过程如下图所示:
2.1
第一,选择凝聚点;
第二,初始分类,对于取定的凝聚点,视每个凝聚点为一类,将每个样品根据定义的距离向最近的凝聚点归类。
第三,修改分类,得到初始分类,计算各类的重心,以这些重心作为新的凝聚点,重新进行分类,重复步骤二,三,直到分类的结果与上一步的分类结果相同,表明分类已经合理为止。凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。故选择时要慎重。
2.2 通常选择凝聚点的方法
(1)人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。
(2)重心法,将数据人为地分为A 类,计算每一类的重心,将重心作为凝聚
点。
(3)密度法,以某个正数d 为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)称为这个样品的密度。计算所有样品点的密度后,首先选择密度最大的样品为第一凝聚点。然后选出密度次大的样品点,若它与第一个凝 聚点的距离大于2d ,则将其作为第二个凝聚点;否则舍去这点。这样,按密度由大到小依次考查,直至全部样品考查完毕为止.此方法中,d 要给得合适,太大了使凝聚点个数太 少,太小了使凝聚点个数太多。
(4)人为地选择一正数d ,首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品,若某样品与已选定的凝聚点的距 离均大于d ,该样品作为新的凝聚点,否则考察下一个样品。
3.聚类分析度量方法:距离和相似系数
为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P 维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。
设有n 个样品,每个样品测得p 项指标(变量),原始资料阵为
p
x x x np n n p p n x x x x x x x x x X X X X 2122221112112
1
21 ⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎣⎡= 其中),,1;,,1(p j n i x ij ==为第i 个样品的第j 个指标的观测数据。第i 个样品X i 为矩阵X 的第i 行所描述,所以任何两个样品K K 与X L 之间的相似性,可以通过矩阵X 中的第K 行与第L 行的相似程度来刻划;任何两个变量K x 与L x 之间的相似性,可以通过第K 列与第L 列的相似程度来刻划。
3.1 距离
如果把n 个样品(X 中的n 个行)看成p 维空间中n 个点,则两个样品间相似程度可用p 维空间中两点的距离来度量。令d ij 表示样品X i 与X j 的距离。常用的距离有:
3.1.1明氏(Minkowski )距离
q p
a q ja ia ij x x q d 11)(⎪⎪⎭⎫ ⎝⎛-=∑=
当q =1时,∑=-=p
a ja ia ij x x d 1)1( 即绝对距离
当q =2时,112)()2(⎪⎪⎭⎫ ⎝⎛-=∑=p a ja ia ij x x d 即欧氏距离