聚类分析模型 ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4. 重心法 每一类都有一个重心(即该类样品的均值 点),将类与类间的距离定义为它们重心间的距 离。记Gp 、Gq 的重心分别为xp 、xq则 Dpq ˆ dxp,xq
4.类平均法
将两类距离的平方定义为两类中的样品两两
间距离平方的均值,即
1 2
2
D d pq
ij
N N p q xiGp x jGq
dX,Y
1
p
p i1
xi xi
yi yi
,(适用于样品各分量皆非负的情形)
在对一个实际分类问题选定了一种最能刻划样品间相 似、相近程度的距离(也称分类统计量)以后,接下来就是 制定分类规则。
系 统 聚 类 法 的 基 本 思 想 是 : 先 将n 个 样 品 各 自 看 成 一 类 , 共 有 n 个 类 。然 后 计 算 类 与 类 间 的 距 离 ,选 择 距 离 最 小 的 两 类 合 并 成 一 个 新 类 ,使 总 类 数 减 少 为 n 1 。接 着 再 计 算 这n 1 类 两两间的距离,从中找出距离最近的两类合并,总类数又减 少一个,剩下n 2 个类。照此下去,每合并一次,减少一类, 直至所以样品都合并成一类为止。
d X , Z d X ,Y d Y , Z
有时为了某种特殊的需要而定义的距离可能不满足上 面的三角不等式,特称为广义距离,在聚类分析中也会用 到。
常用的距离有以下几种:
设 X x1, , x p ,Y y1 , , y p 是两p个 维样品,
p
1 绝对距离 dX ,Y xi yi
聚类分析模型
聚类分析模型
聚类分析研究一组多维样品的分类问题。 但在分类之前,对类的个数、类的属性并不清楚,只是 希望通过样品间的相似、相近或相互关系的密切程度等较为 模糊的概念将它们加以适当的归类。 首先需要引入一个适当的规则来度量样品间的相似、相 近或相关的程度。 “ 距 离 ”是 一 个 合 适 的 选 择 。但 这 里 的“ 距 离 ”并 不 局 限 于传统意义上的欧氏距离,只要能在一定意义上刻划出样品 间的相似、相近或相互关系密切程度的量都可称为距离,因 此距离的定义有很大的灵活性。
为了实现上述思想 ,还要考虑类与类间的距离如 何定义。
在上述聚类过程的第一步 ,由于每一类中的样品 都只有一个,因此可以用样品间的距离来定义类间 的距离。可是第一次并类以后,某些类中所包含的 样品数将多于一个,在这种情况下,如何合理的定 义类间的距离就是一个必须解决的问题。事实上, 用不同的方式定义类间的距离就随之产生了不同的 系统聚类法。
当然将全部样品合并成一类并不是我们 的目的,我们的目的在于,通过上述逐渐 并类的过程,我们有可能找到最佳的分类 方案。具体讲,通过上述并类过程,我们 可以根据聚类的先后以及并类时两类间的 距离,画出能直观反映各样品间相近和疏 远 程 度 的 聚 类 图 ( 也 称 谱 系 图 )。 根 据 这 张聚类图有可能找到最合适的分类方案。
下面的三条原则是任何一种合理的距离定义应满足的:
用 d X , Y 表 示 按 某 种 方 式 定 义 的 样 品X 与Y 间 的 距
离,则
1 非 负 性 d X ,Y 0 且 d X ,Y 0 X Y 2 对 称 性 d X ,Y d Y , X
3 三 角 不 等 式 : 对 任 意 三 个 样 品X 、 Y 、 Z , 有
i 1
1
2
欧氏距离
d X
,Y
p
i1
xi
yi
2
2
3
契比雪夫距离
dX ,Y
max
1i p
xi
yi
1
4
闵可夫斯基距离
dX ,Y
p
i1
xi
yi
,q
0
1
5 马氏距离 d X ,Y X Y 1X Y 2 ,其中
是所有样品的样本协差阵。
6 兰氏(Lance---William)距离
其中N p 、Nq 分别表示类Gp 、Gq 中样品的个数。
在合理地选定(或定义)样品间的距离以 后,再适当定义类间的距离,就确定了一种聚 类规则,接下来就可以按照系统聚类法的一般 步骤加以聚类了。
下面通过一个简单的例子来具体说明聚类 过程以及聚类图的画法。
例 . 分 别 测 试 了 10 名 运 动 员 的 3 项 指 标 , 如 表 所 示 。 ( 指 标 v1 = 肩 宽 / 髋 宽 × 1 0 0 , 指 标v 2 = 胸 厚 / 胸 围 × 1 0 0 , 指 标v 3 = 腿 长 / 身 长 × 100) .样 品 间 的 距 离 取 欧 氏 距 离 , 类 间 的 距 离 取 最 短 距 离 , 聚 类 分 析 的 过程将通过列表的形式给出。
样本数据表:
v1
v2
v3
X1 125 20
44
X2 121 18
43
X3 120 17
42
X4 124 20
45
X5 122 18
43
Fra Baidu bibliotek
X6 120 19
44
X7 121 17
41
X8 122 19
43
X9 122 17
42
x10 121 19
45
样品间的距离矩阵:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 X1 .00 4.58 6.16 1.41 3.74 5.10 5.83 3.32 4.69 4.24 X2 4.58 .00 1.73 4.12 1.00 1.73 2.24 1.41 1.73 2.24 X3 6.16 1.73 .00 5.83 2.45 2.83 1.41 3.00 2.00 3.74 X4 1.41 4.12 5.83 .00 3.46 4.24 5.83 3.00 4.69 3.16 X5 3.74 1.00 2.45 3.46 .00 2.45 2.45 1.00 1.41 2.45 X6 5.10 1.73 2.83 4.24 2.45 .00 3.74 2.24 3.46 1.41 X7 5.83 2.24 1.41 5.83 2.45 3.74 .00 3.00 1.41 4.47 X8 3.32 1.41 3.00 3.00 1.00 2.24 3.00 .00 2.24 2.24 X9 4.69 1.73 2.00 4.69 1.41 3.46 1.41 2.24 .00 3.74 x10 4.24 2.24 3.74 3.16 2.45 1.41 4.47 2.24 3.74 .00