SPSS 聚类和判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SPSS16.0与统计数据分析
10.1两步聚类
(4) SPSS实现举例
【例10-1】1985年中国学生体质调查,各省19-22岁年龄 组城市男学生身体形态指标的平均值,身高,坐高,体重,胸 围,肩宽及骨盆宽的数据如下表所示,试根据身体形态指标进 行样本聚类分析。
省份 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 山东 陕西 甘肃 宁夏 新疆 上海 身高 173.28 172.09 171.46 170.08 170.61 171.69 171.46 171.6 171.6 171.16 170.04 170.61 171.39 171.83 坐高 93.62 92.83 92.73 92.25 92.36 92.85 92.93 93.28 92.26 92.62 92.17 92.5 92.44 92.79 体重 60.1 60.38 59.74 58.04 59.67 59.44 58.7 59.75 60.5 58.72 56.95 57.34 58.92 56.85 胸围 86.72 87.39 85.59 85.92 87.46 87.45 87.06 88.03 87.63 87.11 88.08 85.61 85.37 85.35 肩宽 38.97 38.62 38.83 38.33 38.38 38.19 38.58 38.68 38.79 38.19 38.24 38.52 38.83 38.58 骨盆宽 27.51 27.82 27.46 27.29 27.14 27.1 27.36 27.22 26.63 27.18 27.65 27.36 26.47 27.03 省份 江苏 浙江 安徽 河南 青海 福建 江西 湖北 湖南 广东 广西 四川 贵州 云南 身高 171.36 171.24 170.49 170.43 170.27 169.43 168.57 169.88 167.94 168.82 168.02 167.87 168.15 168.99 坐高 92.53 92.61 92.03 92.38 91.94 91.67 91.4 91.89 90.91 91.3 91.26 90.96 91.5 91.52 体重 58.39 57.69 57.56 57.87 56 57.22 55.96 56.87 55.97 56.07 55.28 55.79 54.56 55.11 胸围 87.09 83.98 87.18 84.87 84.52 83.87 83.02 86.34 86.77 85.87 85.63 84.92 84.81 86.23 肩宽 38.23 39.04 38.54 38.78 37.16 38.41 38.74 38.37 38.17 37.61 39.66 38.2 38.44 38.3 骨盆宽 27.04 27.07 27.57 27.37 26.81 26.6 26.97 27.19 27.16 26.67 28.07 26.53 27.38 27.14
编号 1 2 3 4 5 6 7 8 9 10 11 12 学习动机 40 37 43 50 47 67 77 80 83 87 60 70 学习态度 80 73 70 77 87 70 37 37 40 43 57 50 自我感觉 54 56 75 85 89 84 57 73 76 75 70 69 学习效果 44 46 58 77 63 69 100 82 96 91 85 90
3
西南财经大学出版社
SPSS16.0与统计数据分析
主要内容
10.0 聚类与判别分析概述 10.1两步聚类 10.2 快速聚类 10.3 分层聚类 10.4 判别分析
4
西南财经大学出版社
SPSS16.0与统பைடு நூலகம்数据分析
10.1两步聚类
(1)基本概念
两步聚类(TwoStep Cluster)是一个探索性的分析工具, 为揭示自然的分类或分组而设计,是数据集内部的而不是外观 上的分类。它是一种新型的分层聚类算法(Hierarchical Algorithms),目前主要应用到数据挖掘(Data Mining)和多 元数据统计的交叉领域——模式分类中。该过程主要有以下几 个特点: 分类变量和连续变量均可以参与两步聚类分析; 该过程可以自动确定分类数; 可以高效率地分析大数据集; 用户可以自己定制用于运算的内存容量。
(2) 统计原理
如果选择了n个数值型变量参与聚类分析,最后要求聚类数 为k。 由系统首先选择k个观测量(也可以是用户指定)作为聚类的目 标,n个变量组成n维空间。每个观测量在n维空间中是一个点。 K个事先选定的观测量就是k个聚类中心,也称为初始类中心。 按照距这几个类中心的距离最小的原则把观测量分派到各类 中心所在的类中去;形成第一次迭代形成的k类。
Cluster 1 2 Combined
9
西南财经大学出版社
SPSS16.0与统计数据分析
10.1两步聚类
聚类中心表
Centroids 身高 Mean Std. Deviation Cluster 1 171.2456 .79081 2 168.7940 .84647 Combined 170.3700 1.43652 坐高 Mean Std. Deviation 92.6211 .39608 91.4350 .34642 92.1975 .68829 体重 Mean Std. Deviation 58.7006 1.17870 55.8830 .78486 57.6943 1.72344 胸围 Mean Std. Deviation 86.5494 1.18307 85.1980 1.18666 86.0668 1.33623 肩宽 Mean Std. Deviation 38.5733 .26938 38.3060 .65676 38.4779 .45441 骨盆宽 Mean Std. Deviation 27.2372 .33382 27.0520 .45587 27.1711 .38419
左表显示了聚类的数 目及各类所占的比例
Total
Centroids 身高 Mean Std. Deviation 171.2456 .79081 168.7940 .84647 170.3700 1.43652 坐高 Mean Std. Deviation 92.6211 .39608 91.4350 .34642 92.1975 .68829 体重 Mean Std. Deviation 58.7006 1.17870 55.8830 .78486 57.6943 1.72344 胸围 Mean Std. Deviation 86.5494 1.18307 85.1980 1.18666 86.0668 1.33623 肩宽 Mean Std. Deviation 38.5733 .26938 38.3060 .65676 38.4779 .45441 骨盆宽 Mean Std. Deviation 27.2372 .33382 27.0520 .45587 27.1711 .38419
西南财经大学出版社
SPSS16.0与统计数据分析
第十章
聚类和判别分析
1
西南财经大学出版社
SPSS16.0与统计数据分析
主要内容
10.0 聚类与判别分析概述 10.1两步聚类 10.2 快速聚类 10.3 分层聚类 10.4 判别分析
2
西南财经大学出版社
SPSS16.0与统计数据分析
10.0 聚类与判别分析概述
7
西南财经大学出版社
SPSS16.0与统计数据分析
10.1两步聚类
(4) SPSS实现举例
第1步 分析:本例采用两阶段聚类分析。 第2步 数据组织:按如上表的表头定义变量,输入数据并保 存。 第3步 两步聚类设置:按Analyze→Classify→TwoStep Cluster打开TwoStep Cluster Analyze主对话框,并按如下图所 示设置。
14
西南财经大学出版社
SPSS16.0与统计数据分析
10.2 快速聚类
根据组成每一类的观测量计算每个变量的均值,每一类中的n 个均值在n维空间中又形成k个点,这就是第二次迭代的类中心。 按照这种方法迭代下去,直到达到指定 的迭代次数或达到中 止迭代的判据要求时,迭代就停止了,聚类过程也就结束了。
16
西南财经大学出版社
SPSS16.0与统计数据分析
10.2 快速聚类
第1步 分析:由于已知分成3类,故可采用快速分类法。 第2步 数据组织:按如上表的表头所示建立变量,将“编号” 变量的数据类型设为字符型。 第3步 快速聚类设置,主要按如下图所示设置,并打开Save 对话框,将运行结果保存下来。
(3)分析步骤
第1步 预聚类:对每个观测变量考察一遍,确定类中心。根 据相近者为同一类的原则,计算距离并把与类中心距离最小的 观测量分到相应的各类中去。这个过程称为构建一个分类的特 征树(CF)。 第2步 正式聚类:使用凝聚算法对特征树的叶节点分组,凝 聚算法可用来产生一个结果范围。
6
西南财经大学出版社
(1) 聚类分析
聚类分析的基本思想是找出一些能够度量样本或指标之间相 似程度的统计量,以这些统计量为划分类型的依据,把一些相 似程度较大的样本(或指标)聚合为一类,把另外一些彼此之 间相似程度较大的样本又聚合为一类。
(2) 判别分析
判别分析是判别样本所属类型的一种统计方法。
(3) 二者区别
不同之处在于,判别分析是在已知研究对象分为若干类型 (或组别)并已取得各种类型的一批已知样本的观测量数据的 基础上,根据某些准则建立判别式,然后对未知类型的样本进 行差别分析。
8
西南财经大学出版社
SPSS16.0与统计数据分析
10.1两步聚类
打开Plot和Output对话框,并作相应设置。 第4步:主要结果及分析。 类别分布表
Cluster Distribution N Cluster 1 2 Combined 18 10 28 28 % of Combined 64.3% 35.7% 100.0% % of T otal 64.3% 35.7% 100.0% 100.0%
(3) 分析步骤
第1步 第2步 第3步 第4步 第5步 指定聚类数目k; 确定k个初始类中心; 根据距离最近原则进行分类; 重新确定k个类中心; 迭代计算。
15
西南财经大学出版社
SPSS16.0与统计数据分析
10.2 快速聚类
(4) SPSS实现举例
【例10-2】测量12名大学生对《高等数学》的心理状况和学习 效果,主要包括四个因素:学习动机、学习态度、自我感觉、 学习效果,具体数据如下表所示。试将该12名学生分成3类以分 析不同心理状况下学生的学习效果。
用于输出连续变量在每个类别中的均值和标准差。
10
西南财经大学出版社
SPSS16.0与统计数据分析
10.1两步聚类
聚类饼图
两个类分布及所 占比例的pie图
11
西南财经大学出版社
SPSS16.0与统计数据分析
10.1两步聚类
聚类条形图
从左图可看出体重、 身高和坐高对两分 类的贡献较大,而 其他变量无显著性 差异。
12
西南财经大学出版社
SPSS16.0与统计数据分析
主要内容
10.0 聚类与判别分析概述 10.1两步聚类 10.2 快速聚类 10.3 分层聚类 10.4 判别分析
13
西南财经大学出版社
SPSS16.0与统计数据分析
10.2 快速聚类
(1)基本概念
快速聚类是由用户指定类别数的大样本资料的逐步聚类分 析。它先对数据进行初始分类,然后逐步调整,得到最终分类 数。快速聚类分析的实质是K-Means聚类。分类变量和连续变量 均可以参与两步聚类分析。
5
西南财经大学出版社
SPSS16.0与统计数据分析
10.1两步聚类
(2) 统计原理
两步法的功能非常强大,而原理又较为复杂。他在聚类过 程中除了使用传统的欧氏距离外,为了处理分类变量和连续变 量,它用似然距离测度,它要求模型中的变量是独立的,分类 变量是多项式分布,连续变量是正态分布的。分类变量和连续 变量均可以参与两步聚类分析。
相关文档
最新文档