最新《统计分析与SPSS的应用(第五版)》课后练习答案(第10章)资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《统计分析与SPSS的应用(第五版)》(薛薇)
课后练习答案
第10章SPSS的聚类分析
1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求:
1)根据凝聚状态表利用碎石图对聚类类数进行研究。
2)绘制聚类树形图,说明哪些省市聚在一起。
3)绘制各类的科研指标的均值对比图。
4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法
利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4类。步骤:分析→分类→系统聚类→按如下方式设置……
结果:
凝聚计划
阶段
组合的集群
系数
首次出现阶段集群
下一个阶段集群 1 集群 2 集群 1 集群 2
1 26 30 328.189 0 0 2
2
26
29 638.295
1 0
7
3 20 25 1053.423
5
4
4 12 1209.922 0
15
5
8
20 1505.035
3
6
6 8 16 1760.170 5 0 9
7 24 26 1831.926 0 2 10
8 7 11 1929.891 0 0 11
9 5 8 2302.024 0 6 22
10 24 31 2487.209 7 0 22
11 2 7 2709.887 0 8 16
12 22 28 2897.106 0 0 19
13 6 23 2916.551 0 0 17
14 10 19 3280.752 0 0 25
15 4 21 3491.585 4 0 21
16 2 3 4229.375 11 0 21
17 6 13 4612.423 13 0 20
18 9 18 5377.253 0 0 25
19 14 22 5622.415 0 12 24
20 6 15 5933.518 17 0 23
21 2 4 6827.276 16 15 26
22 5 24 7930.765 9 10 24
23 6 27 9475.498 20 0 26
24 5 14 14959.704 22 19 28
25 9 10 19623.050 18 14 27
26 2 6 24042.669 21 23 28
27 9 17 32829.466 25 0 29
28 2 5 48360.854 26 24 29
29 2 9 91313.530 28 27 30
30 1 2 293834.503 0 29 0
将系数复制下来后,在EXCEL中建立工作表。选中数据列,点击“插入”菜单 拆线图……
碎石图:
由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其他略。
接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据→汇总→设置……→确定。
均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值
方差分析结果:分析→比较均值→单因素ANOVA→设置……→确定
不同组在各个聚类变量上的均值均存在显著差异。
2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?
因为数量级将对距离产生较大影响,并影响最终聚类结果。
3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?为什么?
会。如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复
“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。
4、试说明K-Mean聚类分析的基本步骤。
K-Means聚类分析步骤:
确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。
是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。
5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为:“消费结构.sav”,变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服
务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制的碎石图如下:
(1)依据上图,数据聚成几类较为恰当?
(2)试采用K-MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。
(1)聚成3类较为恰当。
注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。
步骤:分析→降维→因子分析→导入全部变量到变量框中(地区变量除外)→抽取:选中碎石图→继续→确定。
得到:(可以看出,分成3类恰当)
(2)用K-MEANS聚类方法进行分类,比较分类数为2、3、4时的差别。
步骤:分析→分类→K-平均聚类→地区变量导入到标注个案,其他变量全部导入到变量框中→聚类数填2→选项:选中初始聚类中心和ANOVA→继续→确定。
得到:
ANOVA
聚类错误
均方df 均方df
F 显著性
食品13927902.967 1 246753.779 29 56.445 .000 衣着278718.565 1 37555.425 29 7.422 .011 居住667583.436 1 31940.764 29 20.901 .000 家庭设备用品及服务411657.258 1 14558.041 29 28.277 .000 医疗保健325304.302 1 34400.296 29 9.456 .005 交通和通信10285607.457 1 57486.400 29 178.922 .000 教育文化娱乐服务5226361.465 1 69080.933 29 75.656 .000 杂项商品和服务248312.931 1 6496.550 29 38.222 .000 仅当出于描述目的时才应该使用 F 检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。
每个聚类中的个案数量
聚类 1 4.000
2 27.000
有效31.000
缺失.000
ANOVA
聚类错误
F 显著性
均方df 均方df
食品8311754.509 2 159294.770 28 52.178 .000