第十一章聚类分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

物以类聚，人以群分——朴素的聚类分析思想。肿
瘤病症的分类、大气污染的轻重、学习成绩的分几等以及社会经济发展状况的分类等等。
以往，人们对研究对象的分类（例如将植物分为不
同的门、纲、目、科、属、种）大都只凭这些研究对象的直观形态描述来进行。但随着分类工作变得更细致时，往往要求从数值上进行考虑。这时需要用到聚类分析方法。
第一节聚类分析的一些基本概念本例特殊情观测号当做分类对象，而把变量当作为分类依据。并记 Basic Concepts of Clustering Analysis 况，它所有变量的事例的数目为n，变量的数目为m，那么第i个事例的观单位相同且变异程察值将是一个1×m的行向量，记为xi＝(xi1, xi2， …, xim)，度也基本一致其中i ＝1，2，…，n。在大多数情况下具有不同的单注意：xi1和xi2，…，xim 位和有不同的变异程度（方差）。 10个学生8门课程的学习成绩
⑶ 对于一切xi和xj，cij =cji。常用的相似系数有以下4种（P190）： 1. 相关系数 2. 夹角余弦 3. 指数相似系数 4. 绝对值指数尺度
第一节聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
任何符合下述四个条件的统计量 dij 均可被定义为事
聚类分析是一种应用变量的数值特征来对研究对象
进行分类的非常有用的统计分析方法。
第一节聚类分析的一些基本概念但可以比较不同方法得到的划分结果，即可以从实践
的角度来确定那个分类结果比较合理，那个分类结果 Basic Concepts of Clustering Analysis 不那么理想。
意类 k 之间的距离系数为： drk＝pdkp＋q dkq＋ dpq＋ | dkp－ dkq |
各个系数(p、q、和 ) 取不同
的值便构成了不同的聚类方法。课本p.211的表9.16列出了9种系统聚类方法的公式中的相应系数值。
p
dkp k drk
r dpq q
dkq
第二节系统聚类方法用一个简单例子 Hierarchical Clustering Methods 说明最短距离法
学生编号学生姓名中国革命史 80 87 85 78 72 69 89 73 81 78 79.2 39.16 69 20 微积植物学分学 76 81 75 63 65 73 75 67 68 66 70.9 31.09 63 18 91 81 83 91 74 80 80 82 87 66 81.5 51.45 66 25
例1 收集了10个学生8门课程的学习成绩，如下表二、利用所收集到的学生成绩将8门课程分为若干类，也一、利用所收集到的成绩将10个学生分为若干类，也许第一节聚类分析的一些基本概念所示。按一般习惯，我们称学生为观测事例，称课许有一类课程需要抽象思维比较多些，而一类课程需有一类学生是门门功课都学得比较好的，可能有一类 Basic Concepts of等等。程为变量。于是现在有10个事例，8个变量的观察值，要形象思维比较多些, Clustering Analysis 学生是门门功课都学得比较差的，还可能有一类学生或称为十组观察值。是文科课程学得比较好但理科课程学得比较差，有些则情况相反，等等。对于聚类分析，可能有两种分类的目的：分类对象和分类依据
i 1 i 1 m
m
q 1/ q
7. 绝对距离
8. 切比雪夫距离 10. 兰氏距离
9. Orloci 距离 11.不匹配百分率
第一节聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
前面介绍的那些事例间关系系数都是对所有变量求
和的，但由于不同变量常常具有不同的单位和不同的自身变异程度。因此聚类分析之不同变量自身具有相差较大的变异时，会使在计算前，常需对数据出的关系系数中，不同变量所占的比重大不相同。进行标准化处理例：如果第1变量（两水稻品种米粒中的脂肪含量）的数值都在3%到4%之间，而第2变量（两水稻品种的亩产量）的数值范围都在500与1200kg之间。可以想象，计算关系系数时，第1变量对关系系数的影响微乎其微，而第2变量对关系系数的影响将被过分夸大。
这 9 种聚类方法分别是：
1. 最短距离法（SINgle） 2. 最长距离法（COMplete）的计算过程。
3. 类平均法（AVErage）
4. 重心法（CENtroid） 5. 密度估计法（DENsity） 6. 中间距离法（MEDian） 7. 可变类平均法（FLExible） 8. 最大似然法（EML） 9. 离差平方和法（WARD）
体育
60 92 73 61 60 74 67 83 77 67 71.4 100.64 60 32
英语 (Ⅱ) 84 91 82 85 70 77 85 83 85 81 82.3 28.21 70 21
平均分数 80.625 85.125 80.000 75.125 68.000 74.500 80.375 76.625 74.375 70.500 平均
相异系数(即距离系数）
第一节聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
任何符合下述三个条件的统计量 cij 均可被定义为事
例 i 和事例 j 之间的相似系数： ⑴ 当且仅当xi=axj时，cij =1，其中xi和xj分别是第 i 事例和第 j 事例的观察值向量，a≠0并为常数； ⑵ 对于一切xi和xj，cij 的绝对值| cij |≤1；
本章拟将应用得较广的聚类分析方法逐一介绍，让大聚类分析就是按研究的目的根据研究对象的某些数
家能用多种方法来对自己的数据进行分析，并从中选量特征把观察对象分成若干类型的方法。出比较合理的分析结果。分配在同一类内的观察对象应相对地互相相似（或互相接近），而分配在不同类的观察对象应相对地不那么相似。分类的结果强烈地依赖于所收集到的性状，而收集的性状又强烈地依赖于研究者的选择。此外对于同样一套数据资料，使用不同的方法进行分类，其划分结果也会有所不同。很难用一种通用的数学方法来确定那种方法最好，那种方法不好。
化学
95 74 77 79 80 71 85 69 64 71 76.5 71.25 64 31
英语 (Ⅰ) 83 86 88 83 70 76 86 83 72 75 80.2 36.76 70 18
线性代数 76 89 77 61 53 76 76 73 61 60 70.2 107.76 53 36
2 （3，4） 7 1.5 例9.4 有5个事例，各观察了1个指标的资料，数据为 3 （5，7） 8 2 1，2，4.5，64和 8。如果我们想用绝对距离系数来衡（6，8） 9 2.5 量事例之间的距离，并对这5个事例进行分类。先计算出5个事例间的距离系数矩阵(表8.9)。将表中距离最近的两事例合并为一类；用最小距离法公式计算4个类之间的距离系数矩阵；重复上述操作，进行下去，直到全部合成一类为止。 1 2 3 4 5 类号
化学
95 74 77 79 80 71 85 69 64 71 76.5 71.25 64 31
英语 (Ⅰ) 83 86 88 83 70 76 86 83 72 75 80.2 36.76 70 18
线性代数 76 89 77 61 53 76 76 73 61 60 70.2 107.76 53 36
10个学生8门课程的学习成绩学生编号学生姓名中国革命史 80 87 85 78 72 69 89 73 81 78 79.2 39.16 69 20 微积植物学分学 76 81 75 63 65 73 75 67 68 66 70.9 31.09 63 18 91 81 83 91 74 80 80 82 87 66 81.5 51.45 66 25
第一节聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
5. 马氏ห้องสมุดไป่ตู้离
dij ( xi x j ) S ( xi x j )
1
' 1/ 2
6. 明可夫斯基距离（公式族）
dij ( | xik x jk | ) dij | xik x jk |
例 i 和事例 j 之间的相异系数（即距离系数）： ⑴ 当且仅当xi＝xj时，dij＝0，其中xi和xj分别是第i事例和第j事例的观察值向量； ⑵ 对于一切xi和xj，dij ≥0； ⑶ 对于一切xi和xj，dij ＝dji； ⑷ 对于一切xi，xj和xk，dij ≤dik ＋djk；常用的距离系数有以下几种： m 1. 欧氏距离 dij ( X ik X jk )2 i 1 2. 欧氏距离平方 3. 平均欧氏距离 4. 平均欧氏距离平方
1 王子安 2 李友奇 3 冯元楷 4 刘祖承 5 陈耀明 6 吴勇仁 7 许东立 8 孙自强 9 周而复 10 张汉威平均分数总体方差最低分数极差
这时，学生这时，课程 (事例号)是分类对 (变量)是分类对象象，课程(变量)是学生(事例号)是分类依据；
为简明起见，我们先讨论第一种分类目的，即把事例
体育
60 92 73 61 60 74 67 83 77 67 71.4 100.64 60 32
英语 (Ⅱ) 84 91 82 85 70 77 85 83 85 81 82.3 28.21 70 21
平均分数 80.625 85.125 80.000 75.125 68.000 74.500 80.375 76.625 74.375 70.500 平均
1 王子安 2 李友奇 3 冯元楷 4 刘祖承 5 陈耀明 6 吴勇仁 7 许东立 8 孙自强 9 周而复 10 张汉威平均分数总体方差最低分数极差
第一节聚类分析的一些基本概念 Basic Concepts of Clustering Analysis
要把众多的事例归属到不同的类别中，必须指定一
第二节系统聚类方法 Hierarchical Clustering Methods
最常用的方法是系统聚类方法。
系统聚类方法的基本思路都相同。首先把每个事例
看作为一类，计算出各类之间的距离（或相似）系数。把距离系数最小（或相似系数最大）的两类合并为一个新类，于是原来的 n 类便变成为 n－1类；计算这n－1类之间的距离（或相似）系数，将距离系数最小（或相似系数最大）的两类合并为一个新类，于是原来的n－1类便变成为n－2类；…，如此一直做下去，直到所有事例都合并为一类为止。
第二节系统聚类方法 Hierarchical Clustering Methods
系统聚类包含多种不同聚类方法，各方法之间的主要
区别只在于计算新类与旧类之间的距离（或相似）系数的方法不同。所有的系统聚类方法可以统一用下面的式子表示：
设有两个类 p 和 q 合并为新类 r，新类 r 与其它的任
第十一章聚类分析 Chap. XI Clustering Analysis
第一节聚类分析的一些基本概念第二节系统聚类方法（Cluster）第三节动态聚类方法（FastClus）
第四节变量聚类法（VarClus）
第十一章聚类分析 Chap. XI Clustering Analysis
种指标来衡量事例之间关系的密切程度，以便将关系密切的事例归为一类，关系不那么密切的归到不同的类。衡量事例之间关系密切程度的指标统称关系系数，它主要包括相似系数和相异系数两大类，相异系数又称为距离系数。用户可以根据研究的目的选用不同的关系系数，也可以根据相似系数或相异系数的条件自行定义符合研究目的要求的关系系数。下面介绍常用的关系系数。相似系数

第十一章 聚类分析

第十一章聚类分析