第十一章 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4、重复第2步和第3步骤n-1次,直到所有的事物并入同一“类”为止。
集结式层次聚类方法之连锁法(linkage methods)
1、单一连锁法。 以最小的点际距离作为“类”间的距离,故又称为最小距离法或最 近邻法。 2、完全连锁法。 以最大的点际距离为“类”间的距离,故又称为最大距离法或最远 邻法。 3、平均连锁法。 以平均点际距离作为“类”间的距离,故又称为平均距离法。
ij
k 1
ik
jk
欧氏距离平方:公式略。 绝对值距离:两个体在每一个变量上取值之差的绝对值的总和。 切比雪夫距离:两个体在任意一个变量上取值之差的绝对值的最大值。 等等;
2、计数数据: 卡方相似性测度:公式略。 等等; 3、二分变量: 二值 欧氏距离、二值欧氏距离平方 等等。
d ij max X ik X jk
在此一新的矩阵中, d ( ba )( cd) 5最小,故将(ba)与(cd)合并成 “类”(ba , cd),再计算(ba , cd)到“类” e的最小距离: d ( ba ,cd) e mind (ba)e , d ( cd) e min(6,10) 6 (ba D (ba e cd) 0 6 0 cd) e 又可得一新的矩阵:
所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异 无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类, 就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养 方式。
简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越 准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。
1、聚类分析,又称集群分析(Cluster Analysis),是一种常用的多元统计方法,是根 据事物之间的相似性和相异性,将事物归入到不同的“类”中去的过程。 这里的“类”,数学上也叫“集群”,是指由某方面性质相同或相似的事物组成的集 合。
2、“物以类聚,人以群分”。在科学研究工作中,最基础的一项工作就是对研究对象进 行分类,以便更好地把握对象的实质规律。聚类分析能够很好地帮助人们对研究对象进行 数值分类。
返回二级菜单
聚类分析的基本流程
(一)研究问题(探索性的还是验证性的?) (二)变量的选择 (三)相似性的衡量 (四)聚类方法的选择 (五)“类数” 的决定 (六)“类”的解释 (七)“类”的验证
返回二级菜单
(二)变量的选择
不论研究的目的是探索性的还是验证性的,进行聚类分析,首先应建立由某些事物属性 构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧 面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。
三、层次聚类分析
将成对事物间的相似性加以衡量后,接着应利用聚类方法将各事物归入““类”” 中。聚类的方法有好多种,常见的有层次聚类和非层次聚类两大类,后者以K平 均数法(K-Means methods)应用较广,又称快速聚类法。 **层次聚类方法: 通常是把观测样本中的每一个个案或指标体系中的每一个变量看作是一个独 立的小类,计算它们所有的两两之间的距离,在比较这些距离后把距离最小的两 个聚为一个小类。然后计算这个新类与其他各类之间的距离,再把其中距离最小 的聚为一类,如此不断地进行下去,直到所有个体或所有变量聚为一个大类为止。 当然,也可以用相反的过程,即,先把所有的事物视为一个大类,然后再依据相 似性的准则把各事物划分成较不相似的两个类,如此继续下去直到所有的事物都 自成一个类为止。 这两种过程,前者称为“集结式层次聚类方法”,后者称为 “区分式层次聚类方法” 层次聚类不仅可以将个案或变量分为若干类,而且可以形成一个类属间的 层次关系,还可以依据分类的过程绘制个体或变量的谱系关系图。
3、在心理学研究中, 经常遇到的分类包括两种情况:一是对研究样本或个案的分类, 即根 据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类, 将那 些在这些观测量方面的表现很不相同的个案归为不同类;二是对观测量的分类,即将一系 列的观测量归类合并为性质明显不同的少数几个方面。 也就是说,在SPSS的聚类分析功能中,可以对数据文件的“行”进行分类,也可以对 数据文件的“列”进行分类。
dij X ik X jk
k 1
m
关联衡量
1、个案之间的相似性:如果事物的属性全部以名义变量来表示时,则两事物之间的相似性可 以用配合系数(matching coefficient)或相似比(similarity ratio)来衡量。 配合系数: Sij a b , 式中, a为i和j这两个事物共同具有的 属性数目, b为i和j共同不具有的属性数目 ,m为属性总数。
第十一章 聚类分析
一、聚类分析概述
二、相似性的衡量 三、层次聚类分析 四、非层次聚类分析
五、聚类分析的SPSS过程
一、聚类分析概述
(一)什么是聚类分析
(二)聚类分析的目的与原则 (三)聚类分析的性质 (四)聚类分析要解决的基本问题 (五)聚类分析的基本流程
什么是聚类分析?
(ba) c d e (ba) 0 D d ik c 6 0 d 5 3 0 e 6 10 11 0 在此一新的距离矩阵, 因为d cd 3为最小,故将c与d合并得一“类”( c, d), 再计算(c, d)到其他“类”的最小 距离: d (c,d)(b, a) min(d c(ba) , d d(ba) ) min(6,5) 5 d (c,d)e min(d ce , d de ) min(10,11) 10 可得一新的距离矩阵如 下: (ba) (cBiblioteka Baidu) e (ba) 0 D d ik (cd) 5 0 e 6 10 0
有时也可基于实际考量而设定某些决定“类”数目的准则,例如:“如果 “类”数介于3-6之间,则研究发现将较易处理和沟通”。等等。
返回
“类”的解释
一旦经由聚类分析而找出“类”后,我们应设法来描述这些“类”。 常用的一种方法是以“类”的重心——即“类”内的各事物点在各变量上的平均 数值,来描述该“类”。(条件:等距资料,在原始变量的空间上进行聚类。) 此外,我们还可以计算“类”的变异情形,如“类”内各点间的平均距离或各点 与重心间的平均距离,来辅助描述该“类”。
返回
(三)相似性的衡量
各事物间相似程度的衡量方法有好多种,大致可分成两大类: 1、距离衡量(distance measures)。 2、关联衡量(association measures) 。
返回
距离衡量
很多相似性的衡量是以点与点间的距离为代表。点与点间距离的计算方法有很多,根据数据的不同类 型,可以选择不同的计算距离: 1、连续的等距数据: 欧几里得距离: d m ( X X ) 2
返回
距离矩阵
如前所述,相似性的衡量方法有两种:距离衡量和关联衡量。 相似性衡量的结果可以表现为“距离矩阵”。其形如下表。聚类分析以距离矩阵为 基础进行。
设有一包含五个事物点 的距离矩阵如下: a b c d e a 0 b 2 0 c 6 9 0 d 7 5 3 0 e 6 8 10 11 0
m
相似比:
SRij
a 事物i和j都拥有的属性数目 m b i或j至少有一个事物拥有的 属性数目
2、变量之间的相似性:如果要描述测量指标之间的亲疏程度,则可用相似性系数来表示。 其取值范围为(-1,+1)。最常用的相似性系数为积差相关系数。其次有cosine向量夹 角余弦等。
欧氏距离平方图解
聚类分析要解决的基本问题
主要解决三个基本问题: 1、我们如何衡量各事物之间的相似性? 2、假设我们能衡量每一个事物与其他事物的相对相似性, 我们又要如何将相似的事物归入同一“类”内? 3、当聚类完成后,如何来描述这些“类”?同时又如何 知道所得到的类别(集群)是真实的,而不是某种统计上 的加工品?
返回
“类”的验证
聚类分析将各事物分别归入““类””之后,还需要就聚类的结果对一般总体 的代表性如何加以验证,这样才能使聚类的结果适用到其他的事物。 最直接的方法就是对不同的样本进行聚类分析,比较其结果并估计其一致性; 不过,由于时间或成本的限制,或找不到所需的事物供多次聚类分析之用,上 述方法往往是不切实际的。常用的一种方法是将样本分成两群,分别做聚类分 析,然后比较其结果。
集结式层次聚类方法的演算步骤
1、设有n个事物,首先每个事物均自成一个“类”,并列成一个n×n的对称 距离(或相似)矩阵D={dik}。 2、从距离矩阵中找出最近的(最相似的)两个“类”u和v,设其距离为duv。 3、将u和v 这两个“类”合并,成为“类”(uv)。将原距离矩阵中相对应于 “类”u 和“类”v的行和列删除,然后加上一个新的行和列,表明“类” (uv)和其他“类”之间的距离。
层次聚类分析 聚类分析
R聚类分析:对观察变量进行分类。
非层次聚类分析:它先对数据进行初始分类,然后逐步调整,得到最后分类。
以快速聚类法(K- Means methods)应用最广泛,是由研究者 指定类别数的大样本资料的逐步聚类分析, 。
返回
类数的决定
“类”数目的决定是聚类分析的一项重要决策。但尚无一个客观的标准程 序可供遵循,通常,以各连续分类步骤下“类”间的距离作为参考。例如, 可以事先设定一个距离,一旦“类”间的实际距离超过此一预定的距离时 就停止继续聚类;或是当两个聚类步骤间的“类”距离剧增时就停止聚类。
返回二级菜单
聚类分析的目的与原则
聚类分析的目的是:辨认在某些特性上相似的事物, 并将这些事物按照这些特性划分成几个“类”,使得 同一类中的事物具有高度的同质性,不同类之间的事 物具有高度的异质性。
上述红色字体部分体现了聚类分析的基本原则。
返回二级菜单
聚类分析的性质
1、是一种数值分类法。它与传统分类方法的不同之处在于,传统的 分类方法的分类准则是事先决定的,而聚类分析是按照“自然类别” 将分布于某一数量空间的点予以分类,使分类后的“类”(集群)具 有同质性。
2、不是一种统计推论技术。而是将一组观察值的结构特性予以数量 化的一种客观方法。因此,在推论统计中非常重要的正态性、线性和 方差齐性等要求,对聚类分析几乎没什么作用。但如果变量间有多重 共线性,则会影响聚类分析的结果。
返回二级菜单
多重共线性是指特征变量之间存在精确的相关关系或高度相关关系。
Id 1 2 3 4 5 6 7 8 9 10 11 12 a b c d e f g h i j k l X1 24 20 20 25 22 21 21 22 21 24 22 21 X2 20 17 19 20 18 17 19 17 18 20 19 17 X3 25 22 24 24 23 21 25 22 23 25 23 22
单一连锁法举例
设有一包含五个事物点 的距离矩阵如下: a a b D d ik c d e 0 2 6 7 6 0 9 5 0 3 0 b c d e
8 10 11 0
首先将最近的两个事物 合并,因为d ba 2最小,故得 一“类”(b,a)。然后计算( b,a)到其他“类”的最小 距离: d (b,a)c min(d bc , d ac ) min(9,6) 6 d (b,a)d min(d bd , d ad ) min(5,7) 5 d (b,a)e min(d be 5, d ae ) min(8,6) 6 得一新的距离矩阵如下 :
1. 聚类分析的前期准备工作 聚类分析是以完备的数据文件为基础的,一般还要求各个观 测变量的量纲一致,即各变量取值的数量级一致。
所以,聚类分析前要检查各变量的量纲是否一致,不一致则 需进行转换,如将各变量均作标准化转换就可保证量纲一致。
2. 聚类分析的主要方法 Q聚类分析:
对个案进行分类。使具有共同特征的个案 聚集在一起。