多元统计分析(聚类分析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用多元统计分析第五章聚类分析

主讲:孔幸

组员:杨海生

王晶晶

田艳霞

龚禄娃

第五章聚类分析

习题5.8

试使用系统聚类法和K-均值法分别对这些地区进行聚类分析,并对结果进行比较分析。

将数据导入SPSS,分析得到以下结果:

5.8.1 系统聚类分析(类平均法)

1.系统聚类分析树状图

使用平均联接(组间)的树状图

重新调整距离聚类合并

图5.8-1系统聚类法树状图

如图5.8-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。从树状图可见,将16个地区分成4类:第一类:上海,经济相对发达地区,农民每人平均生活消费支出情况的六个经济指标相对于16个地区来说都比较大,说明上海农民的平均生活消费水平在

16个地区中最高的。

第二类:北京和浙江,经济中上等地区,农民每人平均生活消费支出的六个经济指标相对于其他的13个地区(除上海外)都比较高,说明北京和浙江地区农民的平均生活消费水平在16个地区中属于中上等水平。

第三类:天津、江苏、辽宁、福建、江西、安徽、内蒙古、黑龙江和吉林,经济中等地区,这7个地区农民的平均生活消费水平在16个地区中属于中等水平。

第四类:河北、河南、山西和山东,经济中下等地区,这4个地区农民的平均生活消费水平在16个地区中中下等水平,即在16个地区中是相对较低的。

5.8.2 K-均值法

通过上述的系统聚类分析(类平均法)我们发现,16个地区农民的平均生活消费水平可以分成4类,因此,我们运用K-均值法做快速聚类分析时,将16个地区聚成的类数设定为4类。在SPSS中的运行结果解释具体如下:

1.首先分析方差分析表,见表5.8-1

表5.8-1 方差分析表

聚类误差

F Sig.

均方df 均方df

食品5127.237 3 96.784 12 52.976 0.000

衣着100.666 3 28.916 12 3.481 0.050

燃料24.794 3 11.122 12 2.229 0.137

住房3015.542 3 124.862 12 24.151 0.000 交通和通讯341.567 3 60.105 12 5.683 0.012

娱乐教育文化 4.539 3 2.555 12 1.777 0.205

从表5.8-1中可见,聚成的四类在食品、衣着、燃料、住房、交通和通讯以及娱乐教育文化六个经济指标的均值间无差异的原假设下,出现目前值或更极端值的概率分别为0.000、0.050、0.137、0.000、0.012和0.205,故变量食品、衣着、住房以及交通和通讯在分类过程中均在统计学上有显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娱乐教育文化变量无统计学上的显著性意义(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娱乐教育文化变量后重新做聚类分析。

剔除燃料和娱乐教育文化后重新做的聚类分析结果解释如下:

2.迭代过程分析

表5.8-2 迭代过程中类中心得变化量

迭代聚类中心内的更改

1 2 3 4

1 15.305 0.000 12.195 22.664

2 0.000 0.000 0.000 0.000

表5.8-2显示了迭代过程的基本情况,它表明迭代到第二次时,类中心点已没有太大变化达到收敛。

3.给出个观测量所属的类及与所属类中心的距离

表5.8-3 各观测量所属类成员表

表5.8-3中聚类列给出了观测量所属的类别,距离列给出了观测量与所属类中心的距离。

4.给出聚类结果形成的中心的各变量值

表5.8-4 最终的类中心表

聚类

1 2 3 4

食品180.13 221.11 106.65 141.78

衣着38.17 38.64 26.23 28.15

住房53.83 115.65 19.98 25.09 交通和通讯41.68 50.82 23.4 26.01 结合表5.8-3和表5.8-4,我们可以看出16个地区被分成4类,第一类包括:北京和浙江,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为180.13、38.17、53.83和41.68,这类地区农民每人平均生活消费水平在16个地区中属于中上等。第二类为上海,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为221.11、38.64、115.65和50.82,上海农民每人平均生活消费水平在16个地区中属于最高的。第三类包括:河北、山西、黑龙江、

山东和河南,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为106.65、26.23、19.98和23.4,这类地区农民每人平均生活消费水平在16个地区中属于中等。第四类包括:天津、内蒙古、辽宁、吉林、江苏、安徽、福建和江西,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为141.78、28.15、25.09和26.01,这类地区农民每人平均生活消费水平在16个地区中是相对较低的。

5.给出分类变量的方差分析表

表5.8-5 方差分析表

聚类误差

F Sig.

均方df 均方df

食品5127.237 3 96.784 12 52.976 0.000

衣着100.666 3 28.916 12 3.481 0.050

住房3015.542 3 124.862 12 24.151 0.000 交通和通讯341.567 3 60.105 12 5.683 0.012

表5.8-5给出了分类变量的方差分析表,从表中可见用来聚类的4个变量食品、衣着、住房以及交通和通讯在分四类过程中,均有统计学上的显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),表明用这4个变量将16各地区分成四类的快速聚类过程是成功的,聚类效果有统计学意义。

综上所述,将我国16个地区农民支出情况的抽样调查数据通过系统聚类分析和K-均值法聚类分析可以看出,运用这两种方法分析得出的结果基本上一致,但是也有两点不同:

(1)在系统分类法分析的结果中,将黑龙江地区与天津、内蒙古和江西等地区归为一类,而在K-均值法聚类分析结果中,将黑龙江地区与河南、河北、山东和山西等地区归为一类。

(2)在系统分类法分析的结果中,将上海地区分成第一类,北京和浙江地区分成第二类,天津、内蒙古和江西等地区分成第三类,河南、河北、山东和山西等地区分成第四类;而在K-均值法聚类分析结果中,北京和浙江地区分成第一类,上海地区分成第二类,河南、河北、山东和山西等地区分成第三类,天津、内蒙古和江西等地区分成第四类。

习题5.9

试利用两种不同的聚类法对城市进行聚类分析。

将数据导入SPSS,分析得到以下结果:

相关文档
最新文档