聚类分析1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚
聚类分析又称群分析,是根据“物以类聚”的道理,对样品或变量进行分类的一种多元统计分析方法。也就是根据样品的或变量的数据特征,把相似的样品或变量倾向于分在同一类中,把不相似的样品或变量倾向于分在不同类中。
聚类分析应用于很多方面,在商业上,聚类分析被用来发现不同的客户群;在生物上,聚类分析被用来对动植物分类和对基因进行分类,获取对种群固有结构的认识;在医学中,对各种疾病进行分类分析等。
聚类分析根据分类对象的不同,可分为Q 型聚类分析和R 型聚类分析。Q 型聚类分析是根据被观测的样本的各种特征,将特征相似的样品归并一类;R 型聚类分析是根据被观测的变量之间的的相似性,将特征相似的变量归并一类。聚类分析根据分类方法的不同,可分为系统聚类法和动态聚类法。系统聚类分析的思想是;开始将样品或各类变量各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断连续这一过程,直到所有样品或变量合并为一类为止;动态聚类法的思想是;按照一定方法选取一批聚类中心,让样品向最近的聚心凝聚,形成初始分类,然后按照最近距离分类原则不断修改不合理分类,直到合理为止。
在进行聚类分析时,样品间的相似度或变量之间的相似程度都需要一个衡量指标,我们称之为相似性的度量。一般我们用距离来度量样品之间的相似性,用相似系数来度量变量之间的相似性。
距离:
距离的定义有多种,在聚类分析中常用的是欧式距离。
选取n 个样品,每个样品有p 个变量,则可以构成一个n p ⨯的数据矩阵,记为X
111212122212
p p n n np x x x x x x X x x x ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭ , 其中ij x 表示为第i j 个样品的第个的变量,则距离ij d ;
1
22
=1=[(x -x )]p
ij ik jk k d ∑,
当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理,最常用的标准化处理方法是,
*-=
,ij j ij
jj
x x x s 2=1=1
11=,s =(x -).-1n n
j ij jj ij j i i x x x n n ∑∑其中
相似系数:
用ij c 表示第i j 个变量与第个变量的相似系数,其值越大,表明变量之间的关系越密切,有时也会用其绝对值的大小来度量其相似性,且|c | 1.ij ≤ 常用的相似系数: (1).夹角余弦;
变量i j x x 与变量夹角余弦定义为:
=11222
=1
=1
=
,[()()]
n
ki kj k ij n n
ki kj k k x
x
c x x ∑∑∑
它是n R 变量1212,,,,,,i i i ni j j j nj x 的观测向量(x x x )与变量x 的观测向量(x x x )之间.=cos ij ij ij c θθ的夹角的余弦函数,即 (2).皮尔逊相关系数:
=11
222
=1
=1
(x
-)(x -)
=
,[(x -)(x -)]
n
ki
i kj j k ij n n
ki i kj j k k x x c x x ∑∑∑
若,i j x x 是已经标准化的,则他们间的夹角余弦就是皮尔逊相关系数。
系统聚类法
步骤:
(1).构造n 个类,每个类只包含一个样品;
(2).计算n 个类两两之间的距离,并得出最初的距离矩阵; (3).将距离最近的两类合并为一个新类; (4).计算新类与剩下各类两两之间的距离,若类的个数等于1,转步骤(5),否则,回到步骤(3): (5).画聚类图:
(6).决定类的个数和类。 几种常见的系统聚类方法: 1.最短距离法
定义类与类之间的距离为两类最近样品之间的距离,即,=min ,p q
pq ij x G x G D d ∈∈
设类p q G G 与合并成为一个新类别r G ,则任一类k G 与r G 的距离是
,,,=m i n {m i n d ,m i n d }=m i n {,}
k r k p k
q k r i j i j
k p
k q x G x G x G x G
x G x
G
D D D ∈∈
∈∈∈∈
,
最短距离法聚类的步骤:
(1). 规定样品之间的距离,计算n 个样品的距离矩阵(0)D ,它是一个对称矩阵; (2). 找出(0)D 的非对角线最小元素,设为pq d ,则将p q G G 和合并成一个新类,
记为r G ,即={G ,G }r p q G ;
(3). 计算新类r G 与任一类k G 之间距离,其递推公式为
,,,=min {min d ,min d }=min{,}k r
k p
k q
kr ij ij kp kq x G x G x G x G x G x G D D D ∈∈∈∈∈∈
(4).在(0)D 中第,p q 行及,p q 列所在的行和列通过上面的公式合并成一个新行 新列,对应r G ,通过计算行列上的新距离值,这样就得到新的距离矩阵, 记作1D ()
; (5).对1D ()重复上述对(0)D 的两步得到2D ()
,如此下去直至所有元素合并成一类为止;
(6).如果某一步D (n )
中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。
为便于理解最短距离法德计算步骤,现例举一个简单的数字例子进行说明。 设抽取五个样品,每个样品只测一个指标,他们是1,2,3.5,7.9.试用最短距离法对五个样品进行分类。
(1).开始五个样品构成5类,12345{1},{2},{3.5},{7},{9}G G G G G =====; (2)定义样品间距离采用绝对距离,计算样品两两距离,得到距离矩阵(0)D