聚类分析大作业

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全国各地区农民家庭收支的聚类与判别分析

摘要

本文引用某年全国各地区农民家庭收支的抽样调查资料,运用SPSS统计软件中的聚类分析与判别分析对这些原始数据进行分类处理,旨在研究全国各地区农民家庭收支的分布规律,并对此进行简要讨论。

关键词:农民家庭收支,聚类分析,判别分析

1引言

随着中国经济的发展和社会的进步,人民的生活水平日益提高,特别是在我国广大农村,农民的生活水平更是上了一个大台阶,这主要有以下三个原因:第一是中国城镇化水平的提高和农村剩余劳动力的大量转移,许多农民也像城镇人

口一样取得了固定性的工资收入;第二是农民不再单纯地依靠种植收入,而是进行家庭经营取得经营收入;第三也是最重要的是政府意识到“三农”问题的重要性,加大了对农业、农村、农民的投入力度。正因为如此,近年来各地农民家庭收入逐年递增,正朝着小康水平迈进。农民家庭的收入增加,必然会导致家庭消费支出总额的增加和家庭消费支出结构的变化。从最近几年的统计数据可以看出农村地区对吃穿等基本生活资料的消费呈下降趋势,而对于文化教育及医疗保健的支出消费逐年递增。从农村家庭收支的变化情况可以看出整个国家的经济增长状况,以小见大,为政府决策提供一定的依据。

为了研究我国各地的农民家庭收支情况,现抽取了28个省、市、自治区的样品,每个样本有6个指标,即食品、衣着、燃料、住房、生活用品及其他和文化生活服务支出6个指标,对其进行分析。

原始数据如表1所示:

经济研究过去常常采用定性分析,根据经验进行经济决策,这种方法有很多的弊端,因而人们越来越多地采用定性与定量分析相结合,以事实说话,更客观地反映经济变化的规律。这里我们利用已有的统计数据,运用SPSS统计软件对其进行分析,主要进行的是聚类和判别分析。

2聚类分析

聚类分析是在不知道类别数目的情况下对样本数据进行分类。它是根据“物以类聚”的道理,对样品和指标进行分类的一种多元统计分析方法。聚类分析要讨论的对象是一大堆样品,要求能合理地按它们各自的特性来进行合理的分类。这里没有任何模式可供参考或依循,也就是说是在没有先验知识的情况下进行的。

聚类分析的基本程序是:首先根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。

具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法。其中系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本思想是:设有n

个样品,认为它们各自为一类,并对样品之间的距离和类与类之间的距离做出规定。首先计算样品之间的距离,开始因每个样品自成一类,类与类之间的距离就是样品之间的距离,将距离最小的类并为一类,再计算并类后的新类与其它类的距离,接着将距离最小的两类合并为一新类,这样每次减少一类,直到将n个样

品合为一类为止。最后将上述并类过程画成一张聚类图,按一定原则决定分为几类。

我们现就上述数据中剔除安徽省以外的27个省、市、自治区的数据,对地区进行聚类分析。由于是对个案聚类,采用R型聚类。运用SPSS统计软件运行结果如下所示:

2.1个案处理综述表

表2为个案处理综述表,表中有效个案(Valid )为27个;缺失个案(Missing)为0个,即没有缺失个案;个案总数(Total )为27个,说明所选随机样本100%有效,都进入了聚类分析。

2.2凝聚状态表

表3为层次聚类分析的凝聚状态表,表中第一列表示聚类分析的步骤;第二列和第三列表示某步聚类分析中,哪两个样本或类聚成了一类,女口:第一步第23 和24个样本聚成了一类,第二步第11和20个样本聚成了一类,第八步则表示第1 个样本和第二步聚类形成的类进行了聚类,依次类推,聚类过程共进行了26步,

所有的样本聚成了一大类;第四列表示两个样本或类间的距离,从表中可以看出,距离小的样本之间先聚类;第五和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n (非零)表示第n步聚类产生的类参与了本步聚类;第七列表示本步聚类结果在下面聚类的第几步中用到。

2.3树状图

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Den drogram using Average Lin kage (Betwee n Groups)

Rescaled Dista nee Cluster Comb ine

Label Num +--

贵州23

云南24

黑龙江8

内蒙16

新疆15

河北10

河南17

山西11

陕西20

宁夏1

青海4

江西6

四川21

广西14

湖北5

福建19

湖南3

安徽9

吉林22

天津2

江苏13

辽宁18

山东7

浙江12

广州27

北京25

上海26

上面的树状图清晰地表示了聚类的全过程。它将实际的距离按比例调整到0至25的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。如图所示,将所选指标进行粗分,分为三类,北京、浙江和广州作为一类,上海单独作为一类,其它地区并为一类。

2.4聚类分析结果

最终聚类结果如表3所示,我们可以很清楚地看到上述27个地区共分为三类:第一类:宁夏、天津、湖南、青海、甘肃、湖北、江西、山东、黑龙江、河北、山西、江苏、广西、新疆、内蒙、河南、辽宁、福建、陕西、四川、吉林、贵州、云南;

第二类:浙江、广州、北京;

第三类:上海。

这个结果从一个侧面反映出了我国经济发展的水平和结构。经济水平有了较大的提高,但经济重心仍然集中在几个发达的主要省市,如北京、上海等。中国实行改革开放政策以来,经济有了突飞猛进的增长,特别是农村经济的迅速发展,但经济发展不平衡的问题也一直伴随着,并且还有越演越烈的趋势,东部发达地区和南方一些经济基础较好的省市的发展已经达到中等发达国家的水平,但是广大中西部地区的经济水平特别是西部内陆地区的经济远远落后于经济发达地区。

国家也意识到这个问题,因而提出西部大开发的伟大战略,东部帮助西部,共同走

相关文档
最新文档