多元统计分析 K聚类(方法+步骤+分析 总结)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K聚类
一、实验过程
1.将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区
放到label cases中,设定聚类数=3。
2.点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续
3.点击“保存”,选择“聚类成员”及“与聚类中心的距离”
4.点击“选项”,选择如下
点击继续
5.点击确定后,得到如下实验结果:
二、实验结果分析:
1. 给出初始的聚类中心
初始聚类中心
聚类
2. 给出每次迭代结束后类中心的变动
从表中可以看出共经历了4次迭代,即4次迭代后,聚类中心的变化为0,迭代停止。
表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。
综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。这一类聚类中心8个产业的产值分别为1165.95,
143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。第二类包括天津和上海,剩下的24个地区为第三类。
表中给出的是三类聚类中心间的距离
6. 进行单因素方差分析
结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。
7. 最终分类各类中的地区数
每个聚类中的案例数
聚类 1 5.000
2 2.000
3 24.000
有效31.000
缺失.000
综合上述表格,按照个产业的发展水平将中国31个地区分成3类:
第一类为北京,江苏,浙江,山东,广东,属于经济发达地区。该类中心的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。
第二类为天津和上海,属于较发达地区。该类中心的产值分别为
2064.94,170.58,272.73,445.55,80.96,266.19,251.86,717.59亿元。
第三类为余下的24个地区,属于欠发达地区。该类中心的产值分别为
428.07,82.50,73.91,89.18,26.04,28.29,38.64,185.03亿元。