聚类分析1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析又称群分析,是根据“物以类聚”的道理,对样品或变量进行分类的一种多元统计分析方法。也就是根据样品的或变量的数据特征,把相似的样品或变量倾向于分在同一类中,把不相似的样品或变量倾向于分在不同类中。

聚类分析应用于很多方面,在商业上,聚类分析被用来发现不同的客户群;在生物上,聚类分析被用来对动植物分类和对基因进行分类,获取对种群固有结构的认识;在医学中,对各种疾病进行分类分析等。

聚类分析根据分类对象的不同,可分为Q 型聚类分析和R 型聚类分析。Q 型聚类分析是根据被观测的样本的各种特征,将特征相似的样品归并一类;R 型聚类分析是根据被观测的变量之间的的相似性,将特征相似的变量归并一类。聚类分析根据分类方法的不同,可分为系统聚类法和动态聚类法。系统聚类分析的思想是;开始将样品或各类变量各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断连续这一过程,直到所有样品或变量合并为一类为止;动态聚类法的思想是;按照一定方法选取一批聚类中心,让样品向最近的聚心凝聚,形成初始分类,然后按照最近距离分类原则不断修改不合理分类,直到合理为止。

在进行聚类分析时,样品间的相似度或变量之间的相似程度都需要一个衡量指标,我们称之为相似性的度量。一般我们用距离来度量样品之间的相似性,用相似系数来度量变量之间的相似性。

距离:

距离的定义有多种,在聚类分析中常用的是欧式距离。

选取n 个样品,每个样品有p 个变量,则可以构成一个n p ⨯的数据矩阵,记为X

111212122212

p p n n np x x x x x x X x x x ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭ , 其中ij x 表示为第i j 个样品的第个的变量,则距离ij d ;

1

22

=1=[(x -x )]p

ij ik jk k d ∑,

当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理,最常用的标准化处理方法是,

*-=

,ij j ij

jj

x x x s 2=1=1

11=,s =(x -).-1n n

j ij jj ij j i i x x x n n ∑∑其中

相似系数:

用ij c 表示第i j 个变量与第个变量的相似系数,其值越大,表明变量之间的关系越密切,有时也会用其绝对值的大小来度量其相似性,且|c | 1.ij ≤ 常用的相似系数: (1).夹角余弦;

变量i j x x 与变量夹角余弦定义为:

=11222

=1

=1

=

,[()()]

n

ki kj k ij n n

ki kj k k x

x

c x x ∑∑∑

它是n R 变量1212,,,,,,i i i ni j j j nj x 的观测向量(x x x )与变量x 的观测向量(x x x )之间.=cos ij ij ij c θθ的夹角的余弦函数,即 (2).皮尔逊相关系数:

=11

222

=1

=1

(x

-)(x -)

=

,[(x -)(x -)]

n

ki

i kj j k ij n n

ki i kj j k k x x c x x ∑∑∑

若,i j x x 是已经标准化的,则他们间的夹角余弦就是皮尔逊相关系数。

系统聚类法

步骤:

(1).构造n 个类,每个类只包含一个样品;

(2).计算n 个类两两之间的距离,并得出最初的距离矩阵; (3).将距离最近的两类合并为一个新类; (4).计算新类与剩下各类两两之间的距离,若类的个数等于1,转步骤(5),否则,回到步骤(3): (5).画聚类图:

(6).决定类的个数和类。 几种常见的系统聚类方法: 1.最短距离法

定义类与类之间的距离为两类最近样品之间的距离,即,=min ,p q

pq ij x G x G D d ∈∈

设类p q G G 与合并成为一个新类别r G ,则任一类k G 与r G 的距离是

,,,=m i n {m i n d ,m i n d }=m i n {,}

k r k p k

q k r i j i j

k p

k q x G x G x G x G

x G x

G

D D D ∈∈

∈∈∈∈

最短距离法聚类的步骤:

(1). 规定样品之间的距离,计算n 个样品的距离矩阵(0)D ,它是一个对称矩阵; (2). 找出(0)D 的非对角线最小元素,设为pq d ,则将p q G G 和合并成一个新类,

记为r G ,即={G ,G }r p q G ;

(3). 计算新类r G 与任一类k G 之间距离,其递推公式为

,,,=min {min d ,min d }=min{,}k r

k p

k q

kr ij ij kp kq x G x G x G x G x G x G D D D ∈∈∈∈∈∈

(4).在(0)D 中第,p q 行及,p q 列所在的行和列通过上面的公式合并成一个新行 新列,对应r G ,通过计算行列上的新距离值,这样就得到新的距离矩阵, 记作1D ()

; (5).对1D ()重复上述对(0)D 的两步得到2D ()

,如此下去直至所有元素合并成一类为止;

(6).如果某一步D (n )

中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。

为便于理解最短距离法德计算步骤,现例举一个简单的数字例子进行说明。 设抽取五个样品,每个样品只测一个指标,他们是1,2,3.5,7.9.试用最短距离法对五个样品进行分类。

(1).开始五个样品构成5类,12345{1},{2},{3.5},{7},{9}G G G G G =====; (2)定义样品间距离采用绝对距离,计算样品两两距离,得到距离矩阵(0)D

相关文档
最新文档