聚类分析具体操作步骤如何聚类讲课文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可 以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这 两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距 离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选 项实现的。不同的选择的结果会不同,但一般不会差太多。
聚类分析具体操作步骤如何聚类
现在一页,总共十九页。
(优选)聚类分析具体操作步骤 如何聚类.
现在二页,总共十九页。
• 俗语说,物以类聚、人以群分。 • 但什么是分类的根据呢? • 举ຫໍສະໝຸດ :要想把中国的县分成若干类,就有很多种
分类法; • 可以按照自然条件来分, • 比如考虑降水、土地、日照、湿度等各方面; • 也可以考虑收入、教育水准、医疗条件、基础设
现在十一页,总共十九页。
• 注意
1. 聚类分析主要用于探索性研究,其分析结果可提供多 个可能的解,最终解的选择需要研究者的主观判断和 后续分析
2. 聚类分析的解完全依赖于研究者所选择的聚类变量, 增加或删除一些变量对最终解都可能产生实质性的影 响
3. 不管实际数据中是否存在不同的类别,利用聚类分析 都能得到分成若干类别的解
• 单一方案:输入一个具体数值n,n小于样本总数, 表示仅显示聚类成n类时,个各类的成员构成
• 方案范围:指定显示聚成n1类到n2类时,个各类 的成员构成。
现在十九页,总共十九页。
现在十页,总共十九页。
• 特点
1. 聚类分析前所有个体所属的类别是未知的,类别个数 一般也是未知的,分析的依据只有原始数据,可能事 先没有任何有关类别的信息可参考
2. 严格地,聚类分析并不是纯粹的统计技术,不象其他 多元分析,需要从样本去推断总体
• 一般不涉及统计量分布,也不需显著性检验
聚类分析更象是一种建立假设的方法,而对相关假设 的检验还需要借助其他统计方法
• 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种 子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每 一类的基石。
• 然后,根据和这三个点的距离远近,把所有点分成三类。再把 这三类的中心(均值)作为新的基石或种子(原来的“种子”就 没用了),重新按照距离分类。
• 如此叠代下去,直到达到停止叠代的要求. • 适合处理大样本数据。
现在四页,总共十九页。
(二)“亲疏”程度的衡量 (1)衡量指标
–相似性:数据间相似程度的度量 –距离: 数据间差异程度的度量.距离越近,越“亲密”,
聚成一类;距离越远,越“疏远”,分别属于不同的类
(2)衡量对象
–个体间距离 –个体和小类间、小类和小类间的距离
现在五页,总共十九页。
两个距离概念
• 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离, 一个是类和类之间的距离。
• 度量标准 计算样本距离的方法
现在十六页,总共十九页。
点击“继续”接下来指定SPSS分析图形输出
属性图以树的形式展现聚类
分析的每一次合并过程。冰 柱图通过表格中的冰柱显 示。 可以指定并主图的输出 方向,纵向和横向
现在十七页,总共十九页。
显示凝聚状态表,单击“统计量”
现在十八页,总共十九页。
• 比如学生成绩数据就可以对学生按照理科或文科 成绩(或者综合考虑各科成绩)分类,
• 当然,并不一定事先假定有多少类,完全可以按 照数据本身的规律来分类。
现在九页,总共十九页。
快速聚类
• k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)却要 求你先说好要分多少类。看起来有些主观
• 它第一步先把最近的两类(点)合并成一类,然 后再把剩下的最近的两类合并成一类;
• 这样下去,每次都少一类,直到最后只有一大类 为止。显然,越是后来合并的类,距离就越远。 再对饮料例子来实施分层聚类。
现在八页,总共十九页。
• 对于一个数据,人们既可以对变量(指标)进行 分类(相当于对数据中的列分类),也可以对观测 值(事件,样品)来分类(相当于对数据中的行 分类)。
现在十二页,总共十九页。
下面以对观测值聚类即Q型聚类为例 演示用spss进行聚类分析的具体步骤:
对一个班的数学水平进行聚类
现在十三页,总共十九页。
• Q型聚类,对样本也就是观察个案的聚类
现在十四页,总共十九页。
单击“方法”按钮弹出对话框
• 下拉框指定的是小类之间的距离计算方法7种供用 户选择
现在十五页,总共十九页。
• 点间距离有很多定义方式。最简单的是 欧 式 距离,还有其他
的距离。 • 当然还有一些和距离相反但起同样作用的概念,比如相似性等,
两点越相似度越大,就相当于距离越短。 • 由一个点组成的类是最基本的类;如果每一类都由一个点组成
,那么点间的距离就是类间距离。但是如果某一类包含不止一 个点,那么就要确定类间距离,
施等指标; • 既可以用某一项来分类,也可以同时考虑多项指
标来分类。
现在三页,总共十九页。
聚类分析概述
(一)概念 • (1)聚类分析是统计学中研究“物以类聚”的一种
方法,属多元统计分析方法.
– 例如:细分市场、消费行为划分
• 聚类分析是建立一种分类,是将一批样本(或变量) 按照在性质上的“亲疏”程度,在没有先验知识的 情况下自动进行分类的方法.其中:类内个体具有 较高的相似性,类间的差异性较大.
现在六页,总共十九页。
SPSS中聚类分析分类
(一)按分类对象 对变量的聚类称为R型聚类 对观测值聚类称为Q型聚类 这两种聚类在数学上是对称的,没有什么不同。
(二)按聚类的方法分类 分层聚类或系统聚类分析 快速聚类分析 两步聚类分析:新型的
现在七页,总共十九页。
事先不用确定分多少类:分层聚类
分层聚类或系统聚类(hierarchical cluster)。开始 时,有多少点就是多少类。
相关文档
最新文档