中国各地区按行业分就业人数统计与区域经济发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河南大学
数学与信息科学学院2012~2013学年第二学期
统计软件与模型
实验论文
中国各地区按行业分就业人数统计与区域经济的发展
摘要:本文简单地对2011年全国各地区按行业分私营企业及个体的就业人数进行统计和研究,利用基础的统计学知识和统计学软件进行分析,从而发现不同行业在不同地区就业人数的一些特征,并得出当年全国各地区民营企业的就业情况及就业人数的分布对当地经济发展情况是否有影响。为推测我国市场经济的发展趋势及合理分配人力资源等问题提供可靠的信息和依据。
关键词:城市私营企业和个体就业人数相关性聚类分析
一、引言
近几年来,中国的经济发展迅猛,一方面当然是我国的社会主义市场经济体制优越性的体现,另一方面则是第三产业和民营企业对国民经济发展的带动作用。众所周知,一国市场经济的健康发展与就业问题是密不可分的,因此本人利用对我国各地区不同行业的就业人数的情况进行统计和分析,发现其中的一些关联,从而可以看出我国的人力资源在各地区不同行业下的分布情况,进而分析我国的经济发展现状和预测未来的发展趋势。
二、模型概述
本人将运用多元统计学中的一种比较基础也是比较常用的方法——聚类分析法,来进行分析和研究。
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。聚类分析包含系统聚类法、样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。为了将样品(或指标)进行分类,就需要研究样品之间的关系。主要采用两种方法:
相似系数法,即性质越接近的样品,它们的相似系数的绝对值越接近1,
而彼此无关的样品,它们的相似系数的绝对值越接近于0。比较相似的样品
归为一类,其他的归为一类。
距离法,即将一个样品看做P维空间的一个点,并在空间定义距离,距离较近的点归为一类,距离较远的点归为不同类。
三、实证分析
*以下采用的统计数据资料全部来源于《2012年中国统计年鉴》
4-6 各地区按行业分私营企业和个体就业人数(2011年底)
单位: 万人
以上是关于截止到2011年底全国各地区按行业分私营企业和个体的就业人数(单位:万人)的统计数据,由于数据是来自中国统计年鉴的官方数据,个人认为该数据的说服力和权威性是比较强的。但由于数据较多,在这里根据研究需求,本人仅选取了共8列31行数据进行分析,其中包括城市、制造业、建筑业、交通运输仓储和邮政业、批发和零售业、住宿和餐饮业、租赁和商品服务业、居民服务和其他服务业等8个变量以及其具体的数据,下
面是利用SPSS统计软件进行的分析过程。
图1-1
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
制造业31 2.70 879.80 139.2710 197.70021
建筑业31 3.90 171.10 24.9258 30.96426
交通运输仓储和邮政业31 .90 68.70 16.5097 14.39816
批发和零售业31 19.40 698.40 239.5355 171.99604
住宿和餐饮业31 5.30 88.30 34.5935 20.55067
租赁和商品服务业31 .90 106.60 31.2935 29.22208
居民服务和其他服务业31 3.90 85.10 34.9419 22.91213
Valid N (listwise) 31
首先将所有数据进行描述性分析,也就是将其标准化,这是为了消除单位的干扰,为后面进一步的数据分析做准备工作。
图2-2
Proximity Matrix
Correlation between Vectors of Values
制造业建筑业交通运输仓
储和邮政业
批发和零
售业
住宿和餐
饮业
租赁和商品
服务业
居民服务和
其他服务业
制造业 1.000 .874 .566 .812 .623 .621 .724 建筑业.874 1.000 .586 .692 .517 .571 .599 交通运输仓储
和邮政业
.566 .586 1.000 .685 .619 .502 .645
批发和零售业.812 .692 .685 1.000 .909 .742 .922 住宿和餐饮业.623 .517 .619 .909 1.000 .560 .920 租赁和商品服
务业
.621 .571 .502 .742 .560 1.000 .552
居民服务和其
他服务业
.724 .599 .645 .922 .920 .552 1.000 This is a similarity matrix
然后再进行相关性分析检验,从输出的变量之间的相似矩阵可以观察出变量之间的距离关系的强弱,例如,批发和零售业与居民服务和其他服务业之间的距离相关系数为0.922,说明此两个变量之间的距离关系很强。又如租赁和商品服务业与交通运输、仓储和邮政业之间的相关系数仅为0.502,说明此两个变量间的距离关系不是很强,但通过观察可以发现,整体这些所有变量间的关系都是比较紧密的,其距离相关系数平均都在0.5以上,说明各个地区的不同行业间是存在着一定内在联系的。
下面就开始最重要的聚类分析了——利用K均值聚类法。
图3-1
Initial Cluster Centers
Cluster
1 2 3
Zscore(制造业) 3.74572 -.69080 .07956
Zscore(建筑业) 4.72074 -.63059 .49328
Zscore(交通运输仓储和邮政
业)
1.59675 -1.08414 3.62479
Zscore(批发和零售业) 2.32310 -1.27989 .28003
Zscore(住宿和餐饮业) 1.46012 -1.36704 .26308
Zscore(租赁和商品服务业) 1.58464 -1.00587 .07208
Zscore(居民服务和其他服务
业)
2.04076 -1.35483 .29496
上图是输出的初始聚类中心的表格,初始聚类中心是在没有事先指定时,SPSS 会按照一定的方法从当前数据集中选取初始聚类中心。
图3-2
Iteration History a
Iteratio n
Change in Cluster Centers 1 2 3
1 2.940 1.796 2.778
2 .000 .000 .000
a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 2. The minimum distance between initial centers is 5.745.