第三章 聚类分析 多元统计分析课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 为此最常用的技巧是聚类分析,聚类分析将个体或对 象分类,使得同一类中的对象之间的相似性比与其他 类的对象的相似性更强。目的在于使类间对象的同质 性最大化和类与类间对象的异质性最大化。本章将介 绍聚类分析的性质和目的,并且引导研究者使用各种 聚类分析方法。
2020/10/10
中国人民大学六西格玛质量管理研究中心
多元统计分析
何晓群
中国人民大学出版社
2020/10/10
中国人民大学六西格玛质量管理研究中心
1
第三章 聚类分析
• §3.1 聚类分析的思想
• §3.2 相似性度量
• §3.3 类和类的特征
• §3.4 系统聚类法
• §3.5 模糊聚类分析
• §3.6 K-均值聚类和有序样本聚类
• §3.7 计算步骤与上机实现
• 当对样品进行聚类时,“靠近”往往由某种距离来 刻画。另一方面,当对指标聚类时,根据相关系数 或某种关联性度量来聚类。
2020/10/10
中国人民大学六西格玛质量管理研究中心
12
目录 上页 下页 返回 结束
§3.2 相似性度量
2020/10/10
中国人民大学六西格玛质量管理研究中心
13
目录 上页 下页 返回 结束
(2)一种改进的距离就是在前面曾讨论过 的马氏距离,它对一切线性变换是不变 的,不受指标量纲的影响。它对指标的 相关性也作了考虑,我们仅用一个例子 来说明。
2020/10/10
中国人民大学六西格玛质量管理研究中心
16
目录 上页 下页 返回 结束
§3.2 相似性度量
• 在一些社会、经济问题中,我们面临的往往是比较 复杂的研究对象,如果能把相似的样品(或指标) 归成类,处理起来就大为方便,聚类分析的目的就 是把相似的研究对象归成类。
• 【例3.1】若我们需要将下列11户城镇居民按户主
个人的收入进行分类,对每户作了如下的统计,结
果列于表3.1。在表中,“标准工资收入” 、“职
工奖金” 、“职工津贴” 、“性别” 、“就业
身份”等称为指标,每户称为样品。若对户主进行
分类,还可以采用其他指标,如“子女个数” 、
“政治面貌” 等,指标如何选择取决于聚类的目
的。 2020/10/10
中国人民大学六西格玛质量管理研究中心
8
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
2020/10/10
• 第一位重要的问题是“什么是类”?粗糙地讲 ,相似样品(或指标)的集合称作类。由于经 济问题的复杂性,欲给类下一个严格的定义是 困难的,在§3.2中,我们将给类一些待探讨的 定义。
• 聚类分析给人们提供了丰富多采的方法进行分 类,这些方法大致可归纳为:(1) 系统聚类法 。(2)模糊聚类法。(3) K-均值法。(4) 有序样 品的聚类。(5) 分解法。(6) 加入法。
• §3.8 社会经济案例研究
2020/10/10
中国人民大学六西格玛质量管理研究中心
2
第三章 聚类分析
• 人们往往会碰到通过划分同种属性的对象很好地解决 问题的情形,而不论这些对象是个体、公司、产品甚 至行为。如果没有一种客观的方法,基于在总体内区 分群体的战略选择,比如市场细分将不可能,其他领 域也会遇到类似的问题,研究者都在基于一个多维剖 面的观测中寻找某种“自然”结构。
2020/10/10
中国人民大学六西格玛质量管理研究中心
11
目录 上页 下页 返回 结束
§3.2 相似性度量
• 从一组复杂Biblioteka Baidu据产生一个相当简单的类结构,必然 要求进行“相关性”或“相似性“度量。在相似性 度量的选择中,常常包含许多主观上的考虑,但是 最重要的考虑是指标(包括离散的、连续的和二态 的)性质或观测的尺度(名义的、次序的、间隔的 和比率的)以及有关的知识。
• 与多元分析的其他方法相比,聚类分析的方法是 很粗糙的,理论上还不完善,但由于它能解决许 多实际问题,很受人们的重视,和回归分析、判 别分析一起被称为多元分析的三大方法。
2020/10/10
中国人民大学六西格玛质量管理研究中心
7
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 3.1.2 聚类的目的
等级关系也没有数量关系。 • 不同类型的指标,在聚类分析中,处理的方式是大
不一样的。总的来说,提供给间隔尺度的指标的方 法较多,对另两种尺度的变量处理的方法不多。
2020/10/10
中国人民大学六西格玛质量管理研究中心
10
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 聚类分析根据实际的需要可能有两个方向,一 是对样品(如例3.1中的户主),一是对指标聚 类。
中国人民大学六西格玛质量管理研究中心
9
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 例3.1中的8个指标,前6个是定量的,后2个是定性 的。如果分得更细一些,指标的类型有三种尺度
• 间隔尺度。变量用连续的量来表示。 • 有序尺度。指标用有序的等级来表示,有次序关系
,但没有数量表示。 • 名义尺度。指标用一些类来表示,这些类之间没有
3
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 在经济、社会、人口研究中,存在着大量 分类研究、构造分类模式的问题。过去人 们主要靠经验和专业知识,作定性分类处 理,致使许多分类带有主观性和任意性, 不能很好的提示客观事物内在的本质差别 和联系,特别是对于多因素、多指标的分 类问题,定性分类更难以实现准确分类。
§3.2 相似性度量
2020/10/10
中国人民大学六西格玛质量管理研究中心
14
目录 上页 下页 返回 结束
§3.2 相似性度量
2020/10/10
中国人民大学六西格玛质量管理研究中心
15
目录 上页 下页 返回 结束
§3.2 相似性度量
(1)当各指标的测量值相差悬殊时,先对 数据标准化,然后用标准化后的数据计 算距离,即兰氏距离。
2020/10/10
中国人民大学六西格玛质量管理研究中心
6
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 为了克服定性分类时存在的不足,数学这个有用 的工具逐渐被引进到分类学中,形成数值分类学。 后来随着多元分析的引进,聚类分析可以用来对 案例进行分类,也可以用来对变量进行分类。
• 对样品的分类常称为Q型聚类分析,对变量的分类 常称为R型聚类分析。
相关文档
最新文档