第十九章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.
9
Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相 似系数,距离越小表明两样品间相似程度越高。 (1)欧氏距离: 欧氏距离(Euclidean distance)
d i j( X i X j ) 2
(2)绝对距离:绝对距离(Manhattan distance)
.
10
(4)马氏距离:用S 表示m个变量间的样本协方差矩阵,马氏 距离(Mahalanobis distance)的计算公式为
d i j X S 1 X
( 1 9 - 6 )
其中向量 X ( X i 1 X j 1 ,X i 2 X j 2 ,L ,X i m X j m ) 。不难看出,当 s I (单位矩阵)时,马氏距离就是欧氏距离的平方。
.
6
聚类统计量
指标聚类(R型聚类)的聚类统计量:指标间的相似系 数。0≤C≤1; C越大越相似。大则同类,小则异类。
(1)定量指标:用简单相关系数定义为相似系数。(定 量指标包含定性指标转化成0,1变量和等级指标转化 成的1,2,…变量)
(2)定性指标或等级指标(包括含有定量指标转换成的
等级指标),可用列联系数定义为 x i 和 x j 指标的相似
( 1 9 -7 )
注意距离最小即相似系数最大。 2.最小相似系数法 类间相似系数计算公式为
D p q i M G p ,a j x G q (d ij), 样 品 聚 类
r p q i G M p ,ij n G q (r ij)
1)开始将各个样品(或变量)独自视为一类,即各类 只含一 个样品(或变量),计算类间相似系数矩阵,其中的元素是样
品(或变量)间的相似系数。相似系数矩阵是对称矩阵;
2)将相似系数最大(距离最小或相关系数最大)的两类合并 成新类,计算新类与其余类间相似系数;
重复第二步,直至全部样品(或变量)被并为一类。
系数:
cij
x2 x2 n
.
7
R型(指标)聚类的相似系数 X1,X2,…,Xm表示m个变量,R型聚类常用简单 相关系数的绝对值定义变量与间的相似系数:
绝对值r ij 越 大 表(X (i X 明 i X 两i X ) 2 i) 变(X ( 量j X jX 间j X )相j) 2似程度越高。
以上定义的4种距离适用于定量变量,对于定性变量和有 序变量必须在数量化后方能应用。
.
11
说明:当样品各指标的单位不同时,或各指标单位
虽相同(包括各指标都无单位),但数量级相差大
时,应先将各指标标准化,在计算距离。
标准化方法:
x
' i
xi xi si
.
12
第二节 系统聚类
系统聚类(hierarchical clustering analysis)是将相似的样品或 变量归类的最常用方法,聚类过程如下:
归类的方法,其目的是找出样品间的共性。
.
3
指标聚类
目的:把多个指标按相似程度聚成几类,每类 找一个典型指标来代表原来的多个指标。 资料要求:指标是定量的,理论上也可以全部 是定性的或等级的(要少用)效果不好。 用途:1.分类找典型指标
2.可与回归分析合用找典型自变量;可与 判别分析合用找典型指标。
( 1 9 - 1 )
同样也可考虑用Spearman秩相关系数定义非正态
变量之间的相似系数。当变量均为定性变量时,最好
用列联系数定义类间的相似系数。
.
8
样品聚类(Q型聚类)的聚类统计量(相似
系数):2个样品间距离,越短越接近,
短则同类,长则异类。
样品聚类的基本原则:把距离短的样品归在
相同类,距离长的样品归在不同类。
( 1 9 - 3 )
d i j|X i X j|
(3)Minkowski距离:
( 1 9 - 4 )
d i j q |X i X j|q
( 1 9 - 5 )
绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的 Minkowski距离。Minkowski距离的优点是定义直观,计算简单; 缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。
二者都是研究分类问题的多元统计分析方法。
.
2
聚类分析属于探索性统计分析方法,按照分类目
的可分为两大类。
例如测量了n个病例(样品)的m个变量(指
标),可进行:
(1)R型聚类: 又称指标聚类,是指将m个指标
归类的方法,其目的是将指标降维从而选择有代
表性的指标。
(2)Q型聚类: 又称样品聚类,是指将n个样品
第十九章 聚类分析 (clustering analysis)
.
来自百度文库
1
判别分析:在已知分为若干个类的前提下,获得 判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不 知道应分多少类合适的情况下,试图借助数理 统计的方法用已收集到的资料找出研究对象的 适当归类方法。已成为发掘海量基因信息的首 选工具。
.
4
样品聚类
目的:把多个样品按照相近样品聚成几类, 作分类比较研究。需要时也可每类找一 个典型样品来代表各类样品。
资料要求:描述样品的指标全部定量。 用途:分类
.
5
无论是R型聚类或是Q型聚类的 关键是如何定义相似性,即如何把 相似性数量化。聚类的第一步需要 给出两个指标或两个样品间相似性 的度量——相似系数(similarity coefficient)的定义。
.
15
1.最大相似系数法 G p类中的np个样品或变量与Gq类中的nq个样品或变量两 两间共有npnq个相似系数,以其中最大者定义为G p与Gq的类间相似系数。
D p q i G M p ,ij n G q (d ij), 样 品 聚 类 r p q i M G p ,a j x G q (r ij) , 指 标 聚 类
.
13
一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数
(即:新形成的类别与其他类之间的类间相似 系数的确定),当两类各自仅含一个样品或变 量时,两类间的相似系数即是两样品或变量间 的相似系数 d ij 或 r i j ,按第一节的定义计算。
.
14
当类内含有两个或两个以上样品或变量时,计算类间相 似系数有多种方法可供选择,下面列出5种计算方法。 用 G p,Gq 分别表示两类,各自含有np,nq个样品或 变量。
相关文档
最新文档