第十章--聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数或
等级相关系数。个体间的差异程度通常通过某种距离来测度。
为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与 点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间 的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。
中个体距离采用平方欧式距离,类间距离采用平均组间链锁距离,
由于数据不存在数量级上的差异,因此无需进行进行标准化处理。
48
49
较早聚为一类省份有: 甘肃、江西、贵州一类; 安徽、广西、河南、云南一类;
黑龙江、吉林一类;
河南、四川一类; 湖北、陕西、内蒙古、山西、重庆一类; 北京、上海一类; 浙江、广东一类;
当各指标的测量值相差悬殊时,可以先 对数据标准化,然后用标准化后的数据 计算距离
2、计数变量个体间距离的计算方式
17
3、二值(Binary)变量个体间距离的计算方式
18
10.1.3 聚类分析的几点说明
所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映我们
研究的目的;
各变量的变量值不应有数量级上的差异(对数据进行标准化处理):聚类 分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种距离的定 义看,数量级将对距离产生较大的影响,并影响最终的聚类结果。
当以“元”为单位时,(2,3)距离最小,其次(1,2),最后(1,3) 当以“十万元”为单位时,(1,2)距离最小,其次(1,3),最后(2,3) 因此,聚类分析之前首先消除数量级对聚类的影响,常用方法是标准化处理
各变量间不应有较强的线性相关关系
Βιβλιοθήκη Baidu
20
10.2.1 层次聚类的两种类型和两种方式
层次聚类又称系统聚类,简单地讲是指聚类过程是按照一定层次进行的。 层次聚类有两种类型,分别是Q型聚类和R型聚类;层次聚类的聚类方式 又有两种,分别是凝聚方式聚类和分解方式聚类。
例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面 的平均得分,现希望根据这批数据将五座商场分类。
编号 A商场 B商场 C商场 D商场 E商场
购物环境 73 66 84 91 94
服务质量 68 64 82 88 90
10.1.2 聚类分析中“亲疏程度”的度量方法
聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚 类结果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;
学校 参加科研 人数 (人) 410 336 490 投入经费 (元) 4380000 1730000 220000 立项课题 数(项) 19 21 8
1 2 3
对投入经费分别以“元”和“十万元”为计量单位,计算两两学校之间的欧
式距离:
样本的欧氏距离 元 (1,2) (1,3) (2,3) 265000 416000 151000 十万元 74.07 80.86 154.56
不同地区城镇居民收入和消费状况的分类研究。 区域经济及社会发展水平的分析及全国区域经济综合评价 产品市场细分:按照消费者的需求特征分成不同的细分市 场 在儿童生长发育研究中,把以形态学为主的指标归于一类, 以机能为主的指标归于另一类
例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很 少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、
A、B、C与O的最近邻居距离:26.907、34.655、9.22
A、B、C与O的最远邻居距离:30.414、38.21、12.806 A、B、C与O的组间平均链锁距离:(26.907+30.414)/2、(34.655+38.21)/2、(9.22+12.806)/2
A、B、C与O的组内平均链锁距离:(26.907+30.414+3.606)/3、(34.655+38.21+3.606)/3、
类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步 中用到。
聚成3类时:A、B为一类;C为一类;D、E为一类 聚成2类时:A、B为一类;C、D、E为一类
9、单击【图】按钮指定输出哪种聚类分析图。
【谱系图】选项表示输出聚类分析树形图;在【冰柱图】框中指定
输出冰挂图,其中,【全部聚类】表示输出聚类分析每个阶段的冰
样本所属类,【单个解】表示指定输出当分成n类时各样本所属类,
是单一解。【解的范围】表示指定输出当分成m至n类(m小于等于n) 时各样本所属类,是多个解。
上表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两 个样本或小类聚成一类;第四列式个体距离或小类距离;第五、六列表示
本步聚类中参与聚类的是个体还是小类,0表示样本,非0表示由第n步聚
挂图,【指定范围内的聚类】表示只输出某个阶段的冰挂图,输入 从第几步开始,到第几步结束,中间间隔几步;在【方向】框中指 定如何显示冰挂图,其中,【垂直】表示纵向显示,【水平】表示 横向水平显示。
首先:D、E聚在一类,其次:
A、B聚在一类;然后:C和
{D、E}聚在 一类;最后: {A、B}和{C、D、E}聚在一 类。 因此,聚成2类时: {A、B} 和{C、D、E}两类;聚成3类 时: {A、B}、{D、E}、{C}
10.2.3 层次聚类的基本操作
33
商厦评分.sav
【分析】-【分类】-【系统聚类】
变量:购物环境、服务质量
个案标注依据:商厦编号
35
2、把参与层次聚类分析的变量选到【变量】框中。
3、把一个字符型变量作为标记变量选到【个案标注依
据】框中,它将大大增强聚类分析结果的可读性。
4、在【聚类】框中选择聚类类型。其中【个案】表示进
7、如果参与聚类分析的变量存在数量级上的差异,应在【转换值】 框中的【标准化】选项中选择消除数量级差的方法。并指定处理是 针对变量的还是针对样本的。【按变量】表示针对变量,适于 Q
型聚类分析;【按个案】表示针对样本,适于R型聚类分析。
8、单击【统计】按钮指定输出哪些统计量
【集中计划】表示输出聚类分析的凝聚状态表;【近似值矩阵】表 示输出个体间的距离矩阵;【聚类成员】框中,【无】表示不输出
(9.22+12.806+3.606)/3
6个民族的粗死亡率与期望寿命
哈萨克与藏族的距离最短, 最先合并形成新类CL7
新类CL7和其 余四类的距离
第二次合并
新类和各类的距离
D8i min(D4i, D7i) i 1,2,3
第三次合并
第四次合并
最后合并成一类
树状图
谱系图不显示实 际距离,显示025的比例距离
10.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法
SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”
的方法。与个体间“亲疏程度”的测度方法类似,应首先定义
个体与小类、小类与小类的距离。距离小的关系亲密,距离大 的关系疏远。这里的距离是在个体间距离的基础上定义的,常 见的距离有:
三类
45
冰挂图:
聚成4类时: {A}、{B} {C}、
{D、E}四类
聚成3类时: {A、B}、{D、
E}、{C}三类 聚成2类时: {A、B}和{C、 D、E}两类;
10.2.3 层次聚类的应用举例
1、利用31个省市自治区小康和现代化指数数据进行层次聚类分 析。
利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析。其
Q型聚类:对样本进行聚类,使具有相似特征的样本聚集在一起,差异性
大的样本分离开来。
R型聚类:对变量进行聚类,使具有相似性的变量聚集在一起,差异性大 的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分 析,实现减少变量个数,达到变量降维的目的。
凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种方法 度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成 n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密 的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。 这种聚类方式对n个个体通过n-1步可凝聚成一大类。
最近邻居(Nearest Neighbor)距离:个体与小类中每个个体距离的最小
值。
最远邻居(Furthest Neighbor )距离:个体与小类中每个个体距离的最 大值。 组间平均链锁(Between-groups linkage)距离:个体与小类中每个个体 距离的平均值。 组内平均链锁(Within-groups linkage)距离:个体与小类中每个个体距 离以及小类内各个体间距离的平均值。
行Q型聚类(默认类型);【变量】表示进行R型聚类。
5、在【显示】框中选择输出内容。其中【统计】表示输 出聚类分析的相关统计量;【图】表示输出聚类分析的相 关图形。
6、单击【方法】按钮指定距离的计算方法。
【测量】框中给出的是不同变量类型下的个体距离的计算方法。其
中【区间】框中的方法适用于连续型定距变量;【计数】框中的方 法适用于品质型变量;【二元】框中的方法适用于二值变量。【聚 类方法】框中给出的是计算个体与小类、小类与小类间距离的方法。
p
当q=2,即为欧式距离
当q=∞,有 dij () max xik x jk 1 k p (Chebychev)距离 , 称为切比雪夫
k 1
各指标同等对待(权数相同),不能反映各指标变
异程度上的差异 距离的大小与各指标的观测单位有关,有时会出现 不合理结果 没有考虑指标之间的相关性
1、定距型变量个体间距离的计算方式
8
9
品
距离矩阵
品
dij (1) xik x jk
k 1
p
2
dij [ xik x jk ]
k 1
p
1 q q
q=2
q=1 q=∞
当q=1, dij (1) xik x jk 为绝对值距离,SPSS称为block
性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在
这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等 是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,
进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就
可采用聚类分析方法。
50
51
将所有省份聚为3类,统计它们各个指数的 均值、标准差、最大值和最小值
52
2、利用裁判打分数据进行聚类分析。
分解方式聚类:其过程是,首先,所有个体都属一大类;然后,按照某种方
法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去, 形成两类(其中一类只有一个个体);接下来,再次度量类中剩余个体间的
亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,
直到所有个体自成一类为止。这种聚类方式对包含n个个体的大类通过n-1步 可分解成n个个体。
五 座 商 场 两 两 个 体 欧 氏 距 离 的 矩 阵 Proximi t y Matrix Euclidean Distance 2:B商 厦 3:C 商 厦 4:D 商 厦 8.062 17.804 26.907 .000 25.456 34.655 25.456 .000 9.220 34.655 9.220 .000 38.210 12.806 3.606
Case 1:A商 厦 2:B商 厦 3:C 商 厦 4:D 商 厦 5:E商 厦
1:A商 厦 .000 8.062 17.804 26.907 30.414
5:E商 厦 30.414 38.210 12.806 3.606 .000
This is a dissimilarity matrix
5个商厦,D和E的距离最小,现将它们聚为一个小类O={D, E}
10.1 10.2 10.3
聚类分析的一般问题 层次聚类
K-Means聚类
10.1.1 聚类分析的意义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。
聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或
变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上 的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况 下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似 性,不同类间个体特征的差异性较大。