聚类分析1

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

聚

聚类分析又称群分析，是根据“物以类聚”的道理，对样品或变量进行分类的一种多元统计分析方法。也就是根据样品的或变量的数据特征，把相似的样品或变量倾向于分在同一类中，把不相似的样品或变量倾向于分在不同类中。

聚类分析应用于很多方面，在商业上，聚类分析被用来发现不同的客户群；在生物上，聚类分析被用来对动植物分类和对基因进行分类，获取对种群固有结构的认识；在医学中，对各种疾病进行分类分析等。

聚类分析根据分类对象的不同，可分为Q 型聚类分析和R 型聚类分析。Q 型聚类分析是根据被观测的样本的各种特征，将特征相似的样品归并一类；R 型聚类分析是根据被观测的变量之间的的相似性，将特征相似的变量归并一类。聚类分析根据分类方法的不同，可分为系统聚类法和动态聚类法。系统聚类分析的思想是；开始将样品或各类变量各视为一类，根据类与类之间的距离或相似程度将最相似的类加以合并，再计算新类与其他类之间的相似程度，并选择最相似的类加以合并，这样每合并一次就减少一类，不断连续这一过程，直到所有样品或变量合并为一类为止；动态聚类法的思想是；按照一定方法选取一批聚类中心，让样品向最近的聚心凝聚，形成初始分类，然后按照最近距离分类原则不断修改不合理分类，直到合理为止。

在进行聚类分析时，样品间的相似度或变量之间的相似程度都需要一个衡量指标，我们称之为相似性的度量。一般我们用距离来度量样品之间的相似性，用相似系数来度量变量之间的相似性。

距离：

距离的定义有多种，在聚类分析中常用的是欧式距离。

选取n 个样品，每个样品有p 个变量，则可以构成一个n p ⨯的数据矩阵，记为X

111212122212

p p n n np x x x x x x X x x x ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭ ，其中ij x 表示为第i j 个样品的第个的变量，则距离ij d ；

=1=[(x -x )]p

ij ik jk k d ∑，

当各变量的单位不同或测量值范围相差很大时，应先对各变量的数据作标准化处理，最常用的标准化处理方法是，

*-=

,ij j ij

x x x s 2=1=1

11=,s =(x -).-1n n

j ij jj ij j i i x x x n n ∑∑其中

相似系数：

用ij c 表示第i j 个变量与第个变量的相似系数，其值越大，表明变量之间的关系越密切，有时也会用其绝对值的大小来度量其相似性，且|c | 1.ij ≤ 常用的相似系数：（1）.夹角余弦;

变量i j x x 与变量夹角余弦定义为：

=11222

,[()()]

ki kj k ij n n

ki kj k k x

c x x ∑∑∑

它是n R 变量1212,,,,,,i i i ni j j j nj x 的观测向量（x x x ）与变量x 的观测向量（x x x ）之间.=cos ij ij ij c θθ的夹角的余弦函数，即（2）.皮尔逊相关系数：

=11

222

-)(x -)

,[(x -)(x -)]

i kj j k ij n n

ki i kj j k k x x c x x ∑∑∑

若,i j x x 是已经标准化的，则他们间的夹角余弦就是皮尔逊相关系数。

系统聚类法

步骤：

（1）.构造n 个类，每个类只包含一个样品；

（2）.计算n 个类两两之间的距离，并得出最初的距离矩阵；（3）.将距离最近的两类合并为一个新类；（4）.计算新类与剩下各类两两之间的距离，若类的个数等于1，转步骤（5），否则，回到步骤（3）：（5）.画聚类图：

（6）.决定类的个数和类。几种常见的系统聚类方法： 1.最短距离法

定义类与类之间的距离为两类最近样品之间的距离，即,=min ,p q

pq ij x G x G D d ∈∈

设类p q G G 与合并成为一个新类别r G ，则任一类k G 与r G 的距离是

,,,=m i n {m i n d ,m i n d }=m i n {,}

k r k p k

q k r i j i j

k p

k q x G x G x G x G

x G x

D D D ∈∈

∈∈∈∈

，

最短距离法聚类的步骤：

(1). 规定样品之间的距离，计算n 个样品的距离矩阵(0)D ,它是一个对称矩阵; (2). 找出(0)D 的非对角线最小元素，设为pq d ，则将p q G G 和合并成一个新类，

记为r G ，即={G ,G }r p q G ；

(3). 计算新类r G 与任一类k G 之间距离，其递推公式为

,,,=min {min d ,min d }=min{,}k r

k p

k q

kr ij ij kp kq x G x G x G x G x G x G D D D ∈∈∈∈∈∈

（4）.在(0)D 中第,p q 行及,p q 列所在的行和列通过上面的公式合并成一个新行新列，对应r G ，通过计算行列上的新距离值，这样就得到新的距离矩阵，记作1D （）

； (5).对1D （）重复上述对(0)D 的两步得到2D （）

，如此下去直至所有元素合并成一类为止；

（6）.如果某一步D （n ）

中最小的元素不止一个，则称此现象为结(tie)，对应这些最小元素的类可以任选一对合并或同时合并。

为便于理解最短距离法德计算步骤，现例举一个简单的数字例子进行说明。设抽取五个样品，每个样品只测一个指标，他们是1,2,3.5,7.9.试用最短距离法对五个样品进行分类。

（1）.开始五个样品构成5类，12345{1},{2},{3.5},{7},{9}G G G G G =====; （2）定义样品间距离采用绝对距离，计算样品两两距离，得到距离矩阵(0)D