第十一章 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
体育
60 92 73 61 60 74 67 83 77 67 71.4 100.64 60 32
英语 (Ⅱ) 84 91 82 85 70 77 85 83 85 81 82.3 28.21 70 21
平均 分数 80.625 85.125 80.000 75.125 68.000 74.500 80.375 76.625 74.375 70.500 平均
第一节 聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
5. 马氏距离
wk.baidu.com
dij ( xi x j ) S ( xi x j )
1
' 1/ 2
6. 明可夫斯基距离 (公式族)
dij ( | xik x jk | ) dij | xik x jk |
2 (3,4) 7 1.5 例9.4 有5个事例,各观察了1个指标的资料,数据为 3 (5,7) 8 2 1,2,4.5,64和 8。如果我们想用绝对距离系数来衡 (6,8) 9 2.5 量事例之间的距离,并对这5个事例进行分类。 先计算出5个事例间的距离系数矩阵(表8.9)。 将表中距离最近的两事例合并为一类; 用最小距离法公式计算4个类之间的距离系数矩阵; 重复上述操作,进行下去,直到全部合成一类为止。 1 2 3 4 5 类号
第十一章 聚类分析 Chap. XI Clustering Analysis
第一节 聚类分析的一些基本概念 第二节 系统聚类方法(Cluster) 第三节 动态聚类方法(FastClus)
第四节 变量聚类法(VarClus)
第十一章 聚类分析 Chap. XI Clustering Analysis
例1 收集了10个学生8门课程的学习成绩,如下表 二、利用所收集到的学生成绩将8门课程分为若干类,也 一、利用所收集到的成绩将10个学生分为若干类,也许 第一节 聚类分析的一些基本概念 所示。按一般习惯,我们称学生为观测事例,称课 许有一类课程需要抽象思维比较多些,而一类课程需 有一类学生是门门功课都学得比较好的,可能有一类 Basic Concepts of等等。 程为变量。于是现在有10个事例,8个变量的观察值, 要形象思维比较多些, Clustering Analysis 学生是门门功课都学得比较差的,还可能有一类学生 或称为十组观察值。 是文科课程学得比较好但理科课程学得比较差,有些 则情况相反,等等。 对于聚类分析,可能有两种分类的目的: 分类对象和分类依据
相异系数(即距离系数)
第一节 聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
任何符合下述三个条件的统计量 cij 均可被定义为事
例 i 和事例 j 之间的相似系数: ⑴ 当且仅当xi=axj时,cij =1,其中xi和xj分别是第 i 事 例和第 j 事例的观察值向量,a≠0并为常数; ⑵ 对于一切xi和xj,cij 的绝对值| cij |≤1;
种指标来衡量事例之间关系的密切程度,以便将关 系密切的事例归为一类,关系不那么密切的归到不 同的类。衡量事例之间关系密切程度的指标统称关 系系数,它主要包括相似系数和相异系数两大类, 相异系数又称为距离系数。 用户可以根据研究的目的选用不同的关系系数,也 可以根据相似系数或相异系数的条件自行定义符合 研究目的要求的关系系数。 下面介绍常用的关系系数。 相似系数
第二节 系统聚类方法 Hierarchical Clustering Methods
最常用的方法是系统聚类方法。
系统聚类方法的基本思路都相同。首先把每个事例
看作为一类,计算出各类之间的距离(或相似)系 数。把距离系数最小(或相似系数最大)的两类合 并为一个新类,于是原来的 n 类便变成为 n-1类; 计算这n-1类之间的距离(或相似)系数,将距离 系数最小(或相似系数最大)的两类合并为一个新 类,于是原来的n-1类便变成为n-2类;…,如此 一直做下去,直到所有事例都合并为一类为止。
体育
60 92 73 61 60 74 67 83 77 67 71.4 100.64 60 32
英语 (Ⅱ) 84 91 82 85 70 77 85 83 85 81 82.3 28.21 70 21
平均 分数 80.625 85.125 80.000 75.125 68.000 74.500 80.375 76.625 74.375 70.500 平均
例 i 和事例 j 之间的相异系数(即距离系数): ⑴ 当且仅当xi=xj时,dij=0,其中xi和xj分别是第i事 例和第j事例的观察值向量; ⑵ 对于一切xi和xj,dij ≥0; ⑶ 对于一切xi和xj,dij =dji; ⑷ 对于一切xi,xj和xk,dij ≤dik +djk; 常用的距离系数有以下几种: m 1. 欧氏距离 dij ( X ik X jk )2 i 1 2. 欧氏距离平方 3. 平均欧氏距离 4. 平均欧氏距离平方
1 王子安 2 李友奇 3 冯元楷 4 刘祖承 5 陈耀明 6 吴勇仁 7 许东立 8 孙自强 9 周而复 10 张汉威 平均分数 总体方差 最低分数 极差
这时,学生 这时,课程 (事例号)是分类对 (变量)是分类对象 象,课程(变量)是 学生(事例号)是 分类依据;
为简明起见,我们先讨论第一种分类目的,即把事例
化学
95 74 77 79 80 71 85 69 64 71 76.5 71.25 64 31
英语 (Ⅰ) 83 86 88 83 70 76 86 83 72 75 80.2 36.76 70 18
线性 代数 76 89 77 61 53 76 76 73 61 60 70.2 107.76 53 36
这 9 种聚类方法分别是:
1. 最短距离法(SINgle) 2. 最长距离法(COMplete) 的计算过程。
3. 类平均法(AVErage)
4. 重心法(CENtroid) 5. 密度估计法(DENsity) 6. 中间距离法(MEDian) 7. 可变类平均法(FLExible) 8. 最大似然法(EML) 9. 离差平方和法(WARD)
1 王子安 2 李友奇 3 冯元楷 4 刘祖承 5 陈耀明 6 吴勇仁 7 许东立 8 孙自强 9 周而复 10 张汉威 平均分数 总体方差 最低分数 极差
第一节 聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
要把众多的事例归属到不同的类别中,必须指定一
i 1 i 1 m
m
q 1/ q
7. 绝对距离
8. 切比雪夫距离 10. 兰氏距离
9. Orloci 距离 11.不匹配百分率
第一节 聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
前面介绍的那些事例间关系系数都是对所有变量求
和的,但由于不同变量常常具有不同的单位和不同 的自身变异程度。 因此聚类分析之 不同变量自身具有相差较大的变异时,会使在计算 前,常需对数据 出的关系系数中,不同变量所占的比重大不相同。 进行标准化处理 例:如果第1变量(两水稻品种米粒中的脂肪含量) 的数值都在3%到4%之间,而第2变量(两水稻品种 的亩产量)的数值范围都在500与1200kg之间。可以 想象,计算关系系数时,第1变量对关系系数的影 响微乎其微,而第2变量对关系系数的影响将被过 分夸大。
第一节 聚类分析的一些基本概念 本例特殊情 观测号当做分类对象,而把变量当作为分类依据。并记 Basic Concepts of Clustering Analysis 况,它所有变量的 事例的数目为n,变量的数目为m,那么第i个事例的观 单位相同且变异程 察值将是一个1×m的行向量,记为xi=(xi1, xi2, …, xim), 度也基本一致 其中i =1,2,…,n。 在大多数情况下具有不同的单 注意:xi1和xi2,…,xim 位和有不同的变异程度(方差)。 10个学生8门课程的学习成绩
聚类分析是一种应用变量的数值特征来对研究对象
进行分类的非常有用的统计分析方法。
第一节 聚类分析的一些基本概念 但可以比较不同方法得到的划分结果,即可以从实践
的角度来确定那个分类结果比较合理,那个分类结果 Basic Concepts of Clustering Analysis 不那么理想。
学生 编号 学生 姓名 中 国 革命史 80 87 85 78 72 69 89 73 81 78 79.2 39.16 69 20 微积 植物学 分学 76 81 75 63 65 73 75 67 68 66 70.9 31.09 63 18 91 81 83 91 74 80 80 82 87 66 81.5 51.45 66 25
本章拟将应用得较广的聚类分析方法逐一介绍,让大 聚类分析就是按研究的目的根据研究对象的某些数
家能用多种方法来对自己的数据进行分析,并从中选 量特征把观察对象分成若干类型的方法。 出比较合理的分析结果。 分配在同一类内的观察对象应相对地互相相似(或 互相接近),而分配在不同类的观察对象应相对地 不那么相似。 分类的结果强烈地依赖于所收集到的性状,而收集 的性状又强烈地依赖于研究者的选择。 此外对于同样一套数据资料,使用不同的方法进行 分类,其划分结果也会有所不同。 很难用一种通用的数学方法来确定那种方法最好, 那种方法不好。
意类 k 之间的距离系数为: drk=pdkp+q dkq+ dpq+ | dkp- dkq |
各个系数(p、q、 和 ) 取不同
的值便构成了不同的聚类方法。 课本p.211的表9.16列出了9种系统 聚类方法的公式中的相应系数值。
p
dkp k drk
r dpq q
dkq
第二节 系统聚类方法 用一个简单例子 Hierarchical Clustering Methods 说明最短距离法
10个学生8门课程的学习成绩 学生 编号 学生 姓名 中 国 革命史 80 87 85 78 72 69 89 73 81 78 79.2 39.16 69 20 微积 植物学 分学 76 81 75 63 65 73 75 67 68 66 70.9 31.09 63 18 91 81 83 91 74 80 80 82 87 66 81.5 51.45 66 25
化学
95 74 77 79 80 71 85 69 64 71 76.5 71.25 64 31
英语 (Ⅰ) 83 86 88 83 70 76 86 83 72 75 80.2 36.76 70 18
线性 代数 76 89 77 61 53 76 76 73 61 60 70.2 107.76 53 36
⑶ 对于一切xi和xj,cij =cji。 常用的相似系数有以下4种(P190): 1. 相关系数 2. 夹角余弦 3. 指数相似系数 4. 绝对值指数尺度
第一节 聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
任何符合下述四个条件的统计量 dij 均可被定义为事
物以类聚,人以群分——朴素的聚类分析思想。肿
瘤病症的分类、大气污染的轻重、学习成绩的分几 等以及社会经济发展状况的分类等等。
以往,人们对研究对象的分类(例如将植物分为不
同的门、纲、目、科、属、种)大都只凭这些研究 对象的直观形态描述来进行。但随着分类工作变得 更细致时,往往要求从数值上进行考虑。这时需要 用到聚类分析方法。
第二节 系统聚类方法 Hierarchical Clustering Methods
系统聚类包含多种不同聚类方法,各方法之间的主要
区别只在于计算新类与旧类之间的距离(或相似)系 数的方法不同。 所有的系统聚类方法可以统一用下面的式子表示:
设有两个类 p 和 q 合并为新类 r, 新类 r 与其它的任