薛薇第四版SPSS第十章

相关主题

薛薇第四版spss第七章

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

0
c
d
聚类分析概述
•
品质型个体间的距离
•
简单匹配(simple matching)系数:适用二值变量。
姓名授课方式上机时间选某门课程
张三
李四王五
1
1 0
1
1 0
1
0 1
（张三，李四）：a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
（张三，王五）：a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3 张三距李四近

聚类分析概述
依据平均得分的
差距,差距较小的为一类.
分类过程中,没有
编号 A B C D E
购物环境服务质量 73 68 66 84 91 94 69 82 88 90
事先指定分类的标准.完全根据样本数据客观产生分类结果.
两类:(A B) (C D E) 三类:(A B) (C) (D E)
分层聚类

聚类数目的确定聚类数目确定尚无统一标准，一般原则：各类所包含的元素都不应过多分类数目应符合分析的目的分层聚类中可以将类间距离作为确定类数目的辅助工具聚类过程中类间距离呈增加趋势类间距离小，类的相似性大；距离大，相似性小绘制碎石图（X轴为类距离，Y轴为类数）
聚类分析概述
•
品质型个体间的距离
姓名
张三李四王五
授课方式上机时间选某门课程
1 1 0 1 1 0 1 0 1
聚类分析概述

品质型个体间的距离

简单匹配(simple matching)系数:适用二值变量。
d (i , j ) bc abcd
个体j
1
个体i
0 b
1
a
a为个体i与个体j在所有变量上同时取1的个数；d为同时取0的个数特点：排除同时拥有或同时不拥有某特征的情况；取0和1地位等价，编码方案的变化不会引起系数的变化。
分层聚类

聚类过程具有一定的层次性，某个类是另个类的子类以合并(凝聚)的方式聚类(SPSS采用) 首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即：把所有的个体和小类聚集成越来越大的类，直到所有的个体都到一起(一大类) 为止随着聚类的进行,类内的“亲密”性在逐渐减低
5.重复3步和4步，直到达到指定的迭代次数或达到终止迭代的条件

达到指定迭代次数(maximum iteration),默认10次。收敛标准(convergence),默认0.02，即：本次迭代产生的任意新类,各中心位置变化较小.其中最大的变化率小于2%.

K-means快速聚类
……..
聚类分析概述

品质型个体间的距离 –卡方距离:计数变量
姓名选修课门数（期望频数）专业课门数（期望频数）得优门数（期望频数）合计
张三
9（8.5）
6（6）
4（4.5）
19
李四
8（8.5）
6（6）
5（4.5）
19
合计
17
12
9
38
(
(9 8.5) 2 (6 6) 2 (4 4.5) 2 8 8.5) 2 (6 6) 2 (5 4.5) 2 )( ) 4.12 8.5 6 4.5 8.5 6 4.5
分层聚类

个体和小类、类和类间的距离平均链锁法(within-groups linkage) 两类之间的距离定义为两类个案之间距离的平均值。包括：组间平均链锁法(between-groups linkage) :只考虑两类间个案的距离组内平均链锁法（With-groups linage)：考虑所有个案间的距离
K-means快速聚类

出发点：希望克服分层聚类在大样本时产生的困难，提高聚类效率
做法：通过用户事先指定聚类数目的方式提高效率因此，分层聚类可以对不同的聚类数而产生一系列的聚类解，而快速聚类只能产生单一的聚类解

思路： 1.指定最后要聚成K类

2.指定k个样本作为初始类中心
3.按照距k个中心距离最近的原则把每个样本分派到各中心所在的类中去,形成一个新的k类，完成一次迭代 4.重新计算k个类的类中心(计算每类各变量的均值,以均值点作为类中心)
聚类分析概述

亲疏远程度的衡量指标相似性:数据间相似程度的度量距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类定距型个体间的距离：把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据 k 欧氏距离(EUCLID) EUCLID( x, y ) ( xi yi )2 i 1 平方欧氏距离(SEUCLID)
聚类分析概述

说明：聚类过程中如果数据在数量级上存在差异时，应进行标准化处理。例如:
样本号社科活动人研究与发展年研究与发展员数(人) 投入经费(元) 课题数(项) 1 410 4380000 19 2 336 1730000 21 3 490 220000 8
（1，2）（1，3）（2，3）
性别
男女
姓名
张三李四
发烧咳嗽检查1 检查2 检查3 检查4
1 1 0 0 1 1 0 0 0 1 0 0
王五
d (张三 , 李四)
男
1
1
0
0
wenku.baidu.com
0
0
0 1 11 0.33 d (张三 , 王五 ) 0.67 2 0 1 1 0 1 1 2 结论:张三和李四最有可能得类似 d (李四, 王五 ) 0.75 11 2 的病;李四和王五不太有可能
聚类分析概述

品质型个体间的距离

根据临床表现研究病人是否有类似的病
性别
男女
姓名
张三李四
发烧咳嗽检查1 检查2 检查3 检查4
1 1 0 0 1 1 0 0 0 1 0 0
王五
……..
男
1
1
0
0
0
0
聚类分析概述

品质型个体间的距离

雅科比（Jaccard）系数:适用二值变量
J (i , j ) bc abc

“亲疏”程度的衡量对象个体间距离个体和小类间、小类和小类间的距离最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法(furthest neighbor) ：两类间的距离定义为两类中距离最远的两个个案之间的距离
样本的欧氏距离元十万元 265000 74.07 416000 80.86 151000 154.56
聚类分析概述

说明：聚类分析中的变量选择问题变量应和聚类分析的目标密切相关，聚类结果仅是所选定变量所具数据特点的反应变量之间不应具有高度相关性 ,否则相当于给这些变量进行了加权聚类分析包括：个案聚类(Q型)和变量聚类(R型)
第十章
SPSS的聚类分析
聚类分析概述

概念：聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如：细分市场、消费行为划分聚类分析是建立一种分类，是将一批样本(或变量) 按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.
分层聚类

以分解的方式聚类首先,所有个体都属于一类其次,将大类中最“疏远”的小类或个体分离出去然后,分别将小类中最“疏远”的小类或个体再分离出去重复上述过程,即：把类分解成越来越小的小类，直到所有的个体自成一类为止随着聚类的进行,类内的亲密性在逐渐增强
分层聚类
个体j
a为个体i与个体j在所有变量上同时取1的个数；d为同时取0的个数
1
个体i
0 b
1
a
0
c
d
特点：排除同时不拥有某特征的情况；取1的状态比取0更有意义(如: 临床检验中的阳性特征)；编码方案会引起系数的变化
聚类分析概述

品质型个体间的距离

Jaccard系数举例:根据临床表现研究病人是否有类似的病