第三章聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国人民大学六西格玛质量管理研究中心
9
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 例3.1中的8个指标,前6个是定量的,后2个是定性 的。如果分得更细一些,指标的类型有三种尺度
• 间隔尺度。变量用连续的量来表示。 • 有序尺度。指标用有序的等级来表示,有次序关系
,但没有数量表示。 • 名义尺度。指标用一些类来表示,这些类之间没有
工奖金” 、“职工津贴” 、“性别” 、“就业
身份”等称为指标,每户称为样品。若对户主进行
分类,还可以采用其他指标,如“子女个数” 、
“政治面貌” 等,指标如何选择取决于聚类的目
的。 2020/9/19
中国人民大学六西格玛质量管理研究中心
8
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
2020/9/19
类系统。最后再把整个分类系统画成一张分群图(又 称谱系图),用它把所有的样品(或指标)间的亲疏 关系表示出来。
2020/9/19
中国人民大学六西格玛质量管理研究中心
5
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 在经济、社会、人口研究中,存在着大量 分类研究、构造分类模式的问题。过去人 们主要靠经验和专业知识,作定性分类处 理,致使许多分类带有主观性和任意性, 不能很好的提示客观事物内在的本质差别 和联系,特别是对于多因素、多指标的分 类问题,定性分类更难以实现准确分类。
2020/9/19
中国人民大学六西格玛质量管理研究中心
6
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 为了克服定性分类时存在的不足,数学这个有用 的工具逐渐被引进到分类学中,形成数值分类学。 后来随着多元分析的引进,聚类分析可以用来对 案例进行分类,也可以用来对变量进行分类。
• 对样品的分类常称为Q型聚类分析,对变量的分类 常称为R型聚类分析。
多元统计分析
何晓群
中国人民大学出版社
2020/9/19
来自百度文库
中国人民大学六西格玛质量管理研究中心
1
第三章 聚类分析
• §3.1 聚类分析的思想
• §3.2 相似性度量
• §3.3 类和类的特征
• §3.4 系统聚类法
• §3.5 模糊聚类分析
• §3.6 K-均值聚类和有序样本聚类
• §3.7 计算步骤与上机实现
2020/9/19
中国人民大学六西格玛质量管理研究中心
4
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 我们认为,所研究的样品或指标(变量)之间是存在 着程度不同的相似性(亲疏关系)。于是根据一批样 品的多个观测指标,具体找出一些能够度量样品或指
标之间的相似程度的统计量,以这些统计量为划分类 型的依据,把一些相似程度较大的样品(或指标)聚 合为一类,把另外一些彼此之间相似程度较大的样品 (或指标)又聚合为另外一类,…。关系密切的聚合 到一个小的分类单位,关系疏远的聚合到一个大的分 类单位,直到把所有的样品(或指标)都聚合完毕, 把不同的类型一一划分出来,形成一个由小到大的分
• 在一些社会、经济问题中,我们面临的往往是比较 复杂的研究对象,如果能把相似的样品(或指标) 归成类,处理起来就大为方便,聚类分析的目的就 是把相似的研究对象归成类。
• 【例3.1】若我们需要将下列11户城镇居民按户主
个人的收入进行分类,对每户作了如下的统计,结
果列于表3.1。在表中,“标准工资收入” 、“职
3
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 3.1.1 导言
• 在古老的分类学中,人们主要靠经验和专业知识, 很少利用数学方法。随着生产技术和科学的发展, 分类越来越细,以致有时仅凭经验和专业知识还 不能进行确切分类,于是数学这个有用的工具逐 渐被引进到分类学中,形成了数值分类学。近些 年来,数理统计的多元分析方法有了迅速的发展, 多元分析的技术自然被引用到分类学中,于是从 数值分类学中逐渐的分离出聚类分析这个新的分 支。
• 与多元分析的其他方法相比,聚类分析的方法是 很粗糙的,理论上还不完善,但由于它能解决许 多实际问题,很受人们的重视,和回归分析、判 别分析一起被称为多元分析的三大方法。
2020/9/19
中国人民大学六西格玛质量管理研究中心
7
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 3.1.2 聚类的目的
• §3.8 社会经济案例研究
2020/9/19
中国人民大学六西格玛质量管理研究中心
2
第三章 聚类分析
• 人们往往会碰到通过划分同种属性的对象很好地解决 问题的情形,而不论这些对象是个体、公司、产品甚 至行为。如果没有一种客观的方法,基于在总体内区 分群体的战略选择,比如市场细分将不可能,其他领 域也会遇到类似的问题,研究者都在基于一个多维剖 面的观测中寻找某种“自然”结构。
2020/9/19
中国人民大学六西格玛质量管理研究中心
11
目录 上页 下页 返回 结束
§3.2 相似性度量
• 第一位重要的问题是“什么是类”?粗糙地讲 ,相似样品(或指标)的集合称作类。由于经 济问题的复杂性,欲给类下一个严格的定义是 困难的,在§3.2中,我们将给类一些待探讨的 定义。
• 聚类分析给人们提供了丰富多采的方法进行分 类,这些方法大致可归纳为:(1) 系统聚类法 。(2)模糊聚类法。(3) K-均值法。(4) 有序样 品的聚类。(5) 分解法。(6) 加入法。
等级关系也没有数量关系。 • 不同类型的指标,在聚类分析中,处理的方式是大
不一样的。总的来说,提供给间隔尺度的指标的方 法较多,对另两种尺度的变量处理的方法不多。
2020/9/19
中国人民大学六西格玛质量管理研究中心
10
目录 上页 下页 返回 结束
§3.1 聚类分析的思想
• 聚类分析根据实际的需要可能有两个方向,一 是对样品(如例3.1中的户主),一是对指标聚 类。
• 为此最常用的技巧是聚类分析,聚类分析将个体或对 象分类,使得同一类中的对象之间的相似性比与其他 类的对象的相似性更强。目的在于使类间对象的同质 性最大化和类与类间对象的异质性最大化。本章将介 绍聚类分析的性质和目的,并且引导研究者使用各种 聚类分析方法。
2020/9/19
中国人民大学六西格玛质量管理研究中心
相关文档
最新文档