多元统计分析 K聚类(方法+步骤+分析 总结)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

K聚类

一、实验过程

1.将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区

放到label cases中,设定聚类数=3。

2.点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续

3.点击“保存”,选择“聚类成员”及“与聚类中心的距离”

4.点击“选项”,选择如下

点击继续

5.点击确定后,得到如下实验结果:

二、实验结果分析:

1. 给出初始的聚类中心

初始聚类中心

聚类

2. 给出每次迭代结束后类中心的变动

从表中可以看出共经历了4次迭代,即4次迭代后,聚类中心的变化为0,迭代停止。

表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。

综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。这一类聚类中心8个产业的产值分别为1165.95,

143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。第二类包括天津和上海,剩下的24个地区为第三类。

表中给出的是三类聚类中心间的距离

6. 进行单因素方差分析

结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。

7. 最终分类各类中的地区数

每个聚类中的案例数

聚类 1 5.000

2 2.000

3 24.000

有效31.000

缺失.000

综合上述表格,按照个产业的发展水平将中国31个地区分成3类:

第一类为北京,江苏,浙江,山东,广东,属于经济发达地区。该类中心的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。

第二类为天津和上海,属于较发达地区。该类中心的产值分别为

2064.94,170.58,272.73,445.55,80.96,266.19,251.86,717.59亿元。

第三类为余下的24个地区,属于欠发达地区。该类中心的产值分别为

428.07,82.50,73.91,89.18,26.04,28.29,38.64,185.03亿元。

相关文档
最新文档