第九章SPSS的聚类案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本j
J (i, j) b c abc
样本i 1
10 ab
a为样本i与样本j在所有变量上同时 取1的个数;d为同时取0的个数
特点:排除同时不拥有某特征的情
0 c d 况;取1的状态比取0更有意义(如:
临床检验中的阳性特征);编码方
案会引起系数的变化
分层聚类
(四)品质数据个体间的距离
雅科比(Jaccard)系数:适用二值变量 姓名 手机上网 无线音乐 手机报
一般不涉及统计量分布,也不需显著性检验
3. 聚类分析更象是一种建立假设的方法,而对 相关假设的检验还需要借助其他统计方法
聚类分析概述
(三)注意
1. 聚类分析主要用于探索性研究,其分析结果可 提供多个可能的解,最终解的选择需要研究者 的主观判断和后续分析
2. 聚类分析的解完全依赖于研究者所选择的聚类 变量,增加或删除一些变量对最终解都可能产 生实质性的影响
体
距
003 17.8 22.2 0
离
004 26.91 31.4 9.22 0
矩
005 30.41 35.0 12.81 3.61 0
阵
结论:由于3.61距离最小,因此(004,005)首先聚成一类
分层聚类
(四)品质数据个体间的距离
简单匹配(simple matching)系数:适用二值变量。
样本j
姓名 手机上网 无线音乐 选某门课程
张三
1
1
1
李四
1
1
0
王五
0
0
1
(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3
张三距李四近
分层聚类
(四)品质数据个体间的距离
雅科比(Jaccard)系数:适用二值变量
去 重复上述过程,即:把类分解成越来越小的小类,直到
所有的个体自成一类为止
可见,随着聚类的进行,类内的亲密性在逐渐增 强
分层聚类
(二)“亲疏”程度的衡量 (1)衡量指标
相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离越近,
越“亲密”,聚成一类;距离越远,越“疏远 ”,分别属于不同的类 (2)衡量对象 个体间距离 个体和小类间、小类和小类间的距离
3. 不管实际数据中是否存在不同的类别,利用聚 类分析都能得到分成若干类别的解
分层聚类
(一)思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用)
首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越
聚类分析概述
(2)例如 学 号
数学
计算机
001
73
68
002
66
69
003
84
82
004
91
88
005
94
90
两类:(001 002) (003 004 005) 三类:(001 002) (003) (004 005)
聚类分析概述
(3)总结
上述分类的原则:依据学生成绩的差距,差距较小的 为一类
来越大的类,直到所有的个体都到一起(一大类)为 止 可见,随着聚类的进行,类内的“亲密”性在逐渐减 低
——一旦个案(变量)被聚为一类,以后分类结果不 会改变
分层聚类
(一)思路
以分解的方式聚类
首先,所有个体都属于一类 其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出
张三
1 (0)
1(0)
1(0)
李四
1 (0)
1(0)
0(1)
王五
0 (1)
0(1)
1(0)
(张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同)
(张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3
d (i, j) b c abcd
样本i 1 0
10 ab cd
a为样本i与样本j在所有变量上同 时取1的个数;d为同时取0的个数
特点:排除同时拥有或同时不拥 有某特征的情况;取0和1地位等 价,编码方案的变化不会引起系 数的变化。
分层聚类
(四)品质数据个体间的距离
简单匹配(simple matching)系数:适用二值变量
(张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同)
(Jaccard) (Jaccard)
分层聚类
(四)品质数据个体间的距离
Jaccard系数举例:根据临床表现研究病人是否有类似的病
姓名 张三 李四 王五
性别 男 女 男
发烧 咳嗽 检查1 检查2 检查3 检查4
i1
切比雪夫距离(CHEBYCHEV)
C(x, y) Max | xi yi |
明考斯基绝对值幂距离(POWER)
k
MINKOSKI (x, y) p | xi yi |p
i1
分层聚类
(三)定距数据个体间的距离
欧氏距离举例
001 002 003 004 005
001 0
个
002 7.07 0
第八章 SPSS的聚类分析
聚类分析概述
(一)概念
(1)聚类分析是统计学中研究“物以类聚”的一种 方法,属多元统计分析方法.
例如:细分市场、消费行为划分
聚类分析是建立一种分类,是将一批样本(或变量) 按照在性质上的“亲疏”程度,在没有先验知识 的情况下自动进行分类的方法.其中:类内个体 具有较高的相似性,类间的差异性较大.
分类过程中,没பைடு நூலகம்事先指定分类的标准.完全根据样 本数据客观产生分类结果.
(4)SPSS中的聚类方法
分层聚类 K-MEANS快速聚类
聚类分析概述
(二)特点
1. 聚类分析前所有个体所属的类别是未知的, 类别个数一般也是未知的,分析的依据只有 原始数据,可能事先没有任何有关类别的信 息可参考
2. 严格地,聚类分析并不是纯粹的统计技术, 不象其他多元分析,需要从样本去推断总体
10 10 0
0
10 10 1
分层聚类
(三)定距数据个体间的距离
把每个个案数据看成是k维空间上的点,在点和点之间定
义某种距离.一般适用于定距数据
欧氏距离(EUCLID) 平方欧氏距离(SEUCLID) 马氏距离(BLOCK)
k
EUCLID(x, y) (xi yi )2
i1
k
BLOCK (x, y) | xi yi |