SPSS国家经济发展水平区域划分分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

SPSS分析方法在国家经济发展水平区域划分中的应用
10数计系《2》班:陈东东学号:1006111002
摘要:本文运用数理统计方法对中国经济发展水平进行评价和区域划分。

首先采用各项统计指标建立指标体系,运用SPSS软件进行聚类分析,对我国的27个省和直辖市进行研究,分析各自的经济发展特点。

根据已有信息,利用判别分析的方法来建立判别函数,并对选择的对象进行回报判别,用回报率说明了方法的合理性;再对我国的另外4个省和直辖市进行判别归类,宏观分析验证通过Fisher判别建立的线性判别函数的正确性。

《1》问题概述:
随着中国经济的发展和社会的进步,人民的生活水平日益提高,城镇居民的生活水平更是上了一个大台阶.由于改革开放以来,城镇的投资的加大和企业的增加,近年来各地城镇家庭收入逐年递增。

城镇家庭的收入增加,必然会导致家庭消费支出总额的增加和家庭消费支出结构的变化。

从最近几年的统计数据可以看出:城镇地区对吃穿等基本生活资料的消费呈下降趋势,而对于文化教育及医疗保健的支出消费逐年递增。

从城镇家庭收支的变化情况可以看出整个国家的经济增长状况,以小见大,为决策提供一定的依据。

聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础学科。

平时我们对事物的认识都需要对其进行分类。

为了研究现阶段的全国经济发展各时间段的差异,我们需要对时期的经济指标进行分类,以便更好的做出下一步的经济策略。

聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

判别分析则先根据已知的类别的事物的性质,利用某种技术建立函数式,然后对未知类型的新事物进行判断,将其归为已知的类别中。

聚类分析事先并不知道对象的类别的面貌,甚至连共有几个类别也不确定。

判别分析事先知道已知的对象的类别和类别数。

本文以2010年国家统计年鉴上公布的全国各地区城镇居民家庭平均每人全年消费性支出(2009年)作为数据源,将聚类分析和判别分析的原理运用到各个时期经济发展水平分类的研究上,对此问题进行统计分析。

《2》模型的建立和聚类分析:
本文采用《中国统计年鉴( 2010)》中的“中国各地区城镇居民家庭平均每人全年消费性支出(2009年)”的七项数据,即:食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务,运用SPSS19采用聚类分析方法,对全国城镇居民的消费结构进行了地区差异的分析。

表1.1 中国各地区城镇居民家庭平均每人全年消费性支出(单位:元)
地区食品衣着居住
家庭设备
用品及服务
医疗保健交通和通信
教育文化
娱乐服务
全国4478.54 1284.20 1228.91 786.94 856.41 1682.57 1472.76 北京5936.11 1795.68 1290.22 1225.68 1389.45 2767.85 2654.98 天津5404.53 1362.56 1505.70 911.92 1273.38 1968.37 1740.85 河北3250.77 1190.19 1142.83 628.49 971.29 1151.15 982.21 山西3071.93 1162.00 1319.45 563.82 789.92 1095.77 1070.60 内蒙古3772.63 1857.19 1246.21 797.77 992.73 1557.03 1504.36 吉林3637.32 1419.12 1394.94 543.69 1120.44 1305.45 1028.06 黑龙江3397.41 1403.72 1026.77 547.87 978.79 922.77 956.85 上海7344.83 1593.08 1913.22 1365.39 1002.14 3498.65 3138.98 江苏4773.67 1297.95 1148.85 923.32 808.37 1721.87 1968.03 浙江5604.72 1614.66 1485.90 828.96 984.62 3290.63 2295.32 安徽4051.40 1080.06 1219.83 589.73 716.87 1013.38 1225.36 福建5336.36 1171.88 1394.91 859.06 591.50 1993.77 1504.96 江西3881.56 1053.01 935.44 761.85 550.25 1145.16 1066.94 山东3954.34 1548.75 1280.04 885.04 885.16 1719.68 1332.97 河南3272.75 1270.74 1004.37 684.79 875.52 1033.99 1048.14 湖北4160.51 1210.32 999.49 759.24 694.61 953.69 1208.46 湖南4174.55 1146.25 1074.69 798.40 784.66 1233.82 1207.72 广西4129.55 855.60 1021.11 754.79 538.17 1598.68 1111.13 四川4391.73 1178.38 973.02 679.16 648.31 1416.49 1150.73 贵州3755.61 1012.14 747.57 589.35 535.43 983.13 1146.35 云南4460.58 1102.14 943.67 393.22 708.78 1587.19 798.69 西藏4581.60 1086.42 689.76 356.86 352.31 1062.83 465.84
陕西3988.57 1209.96 1018.23 683.51 863.36 1071.48 1430.22 甘肃3359.30 1169.70 801.21 559.06 746.77 894.35 1025.47
青海3548.85 1043.40 790.50 505.32 701.37 975.91 889.32 宁夏3432.23 1260.58 1128.12 636.88 921.86 1363.63 1075.88 新疆3386.33 1357.05 856.78 552.50 684.01 1198.65 855.53
参考表1.1中全国城镇居民平均每人全年消费性支出的数据,将我国经济发展区域划分为3类,即经济一般发达地区、比较发达地区、发达地区。

在应用SPSS软件采用系统聚类方法进行聚类时,将聚类数定义为3,运行SPSS软件,输出结果如下:
表1.2 案例处理摘要(a)
上表是样品的处理概要,从中可以看出27个样品的数据全都有效,均用于系统聚类分析过程。

表1.3系统聚类过程表

群集组合
系数
首次出现阶群集
下一阶群集 1 群集 2 群集 1 群集 2
1 9 23 .323 0 0 5
2 5 11 .452 0 0 5
3 8 16 .61
4 0 0 11
4 7 14 .681 0 0 9
5 5 9 .697 2 1 8
6 15 19 .703 0 0 10
7 12 20 .826 0 0 14
8 5 10 1.050 5 0 13
9 7 21 1.070 4 0 12
10 15 18 1.218 6 0 19
11 8 13 1.292 3 0 14
12 7 17 1.338 9 0 15
13 4 5 1.449 0 8 15
14 8 12 1.822 11 7 17
15 4 7 1.910 13 12 17
16 25 26 2.342 0 0 21
17 4 8 2.457 15 14 18
18 4 24 3.087 17 0 19
19 4 15 3.446 18 10 22
20 6 22 5.162 0 0 22
21 25 27 6.989 16 0 25
22 4 6 7.145 19 20 25
23 2 3 9.025 0 0 24
24 1 2 12.236 0 23 26
25 4 25 12.437 22 21 26
26 1 4 46.995 24 25 0
上表是样品的凝聚进度,从中可以看出系统聚类分析过程中的每一步。

由于有27个样品,所以总共进行了26步,并在每一步中给出了凝聚过程中两类之间的相关系数。

阶(Stage)表示聚类的先后顺序
群集组合(Cluster Combined)表示在某步中合并的个案,合并后用第一项的个案号表示生成的新类。

系数(Coefficients)为相似系数。

据聚类分析的基本原理,个案之间的亲密程度最高即相似系数最接近于1,最先合并。

因此该列中的系数与第一列的聚类步骤相对应,系数从小到大。

首次出现的阶聚集(Stage Cluster First Appears)表示新类首次出现的步骤。

对应于各聚类步骤参与合并的两项中,如果有一个是新生成的类,则在对应的列中显示出该新类在哪一步中第一次生成。

下一阶(Next Stage)为新类下一次出现的步骤,表示对应步骤生成的新类将在第几步与其它个案或新类合并。

表1.4群集成员
上表表明聚类成员,给出了每一个样品为所分三类中哪一类的成员,即系统聚类分析的最终结果。

聚类分析结论:
对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.1,即聚类效果好。

这样,原有27类(即原有的27个省区分组)聚合成3类,第一类含有3个地区,第二类含3有个地区,第三类含有21个地区。

总结得出:
第一类:3个地区北京市、浙江省、上海市;
第二类:3个地区天津市、福建省、江苏省;
第三类:21个地区河南省、甘肃省等其它地区。

这与我们直观上得出的结论并比较吻合,第一类的北京为中国政治经济文化中心,浙江和上海为沿海经济迅速发展区,地处经济发达地区;第二类的天津市、福建和江苏省也都属于经
济较发达地区,故经济入选较为发达类型;而第三类的河南省、甘肃省等其它地区则同属于经济一般发达类型。

这个结果从一个侧面反映出了我国经济发展的水平和结构。

经济水平有了较大的提高,但经济重心仍然集中在几个发达的主要省市,如北京、上海等。

中国实行改革开放政策以来.经济有了突飞猛进的增长.特别是城镇经济的迅速发展,但经济发展不平衡的问题也一直伴随着.
《3》模型的判别分析
根据聚类分析的结果,将各地区共分为3类,编号分别为1,2和3。

在SPSS中添加新的一列资源分类来表示类别,将这27个已分类的地区作为“训练样本”,用7组预测变量来建立判别准则来对27个地区进行判别分析;同时根据所建立的判别准则判别辽宁、广东、海南、重庆4个省区,即“待判样本”属于哪一类经济发展区域;原始数据如下表2.1所示:
表2.1分类后的数据
序号地区食品衣着居住家庭设备医疗保健交通通信教育文化聚类
1 北京4560.5
2 1442.42 977.47 1322.36 2173.26 2514.76 1212.89 1
2 上海5248.95 1026.87 877.59 762.92 2332.8
3 2431.7
4 1435.72 1
3 浙江4393.40 1383.63 615.45 852.27 2492.01 1946.15 1229.25 1
4 福建3854.26 784.71 525.6
5 513.61 1232.70 1321.33 1233.49 2
5 江苏3462.6
6 886.82 647.52 600.69 1203.45 1467.36 997.53 2
6 天津3680.22 864.89 634.39 1049.33 1092.8
7 1452.17 1368.20 2
7 安徽3091.28 869.55 336.99 441.42 788.25 869.23 694.17 3
8 甘肃2408.37 854.00 403.80 562.74 703.07 1034.42 716.35 3
9 广西2857.40 477.67 360.62 401.06 785.01 850.90 826.86 3
10 贵州2649.02 832.74 446.53 329.77 775.07 938.37 627.23 3
11 河北2492.26 849.58 460.27 737.43 875.43 827.72 864.92 3
12 河南2215.32 919.31 431.02 520.57 762.08 847.12 737.00 3
13 黑龙江2215.68 971.44 319.37 634.30 665.01 843.94 755.32 3
14 湖北2868.39 877.01 401.22 517.19 763.14 997.74 752.56 3
15 湖南2850.94 868.23 513.63 632.52 965.09 1182.18 871.70 3
16 吉林2457.21 907.61 318.65 671.44 815.02 890.22 984.95 3
17 江西2636.93 725.72 451.32 357.03 600.16 894.58 742.93 3
18 内蒙古2323.55 1168.93 464.55 555.00 928.48 1052.65 802.26 3
19 宁夏2444.98 874.39 480.70 578.75 774.57 846.72 890.97 3
20 青海2366.42 724.96 420.31 542.93 753.07 793.72 653.04 3
21 山东2711.65 1091.22 526.29 624.06 1175.57 1201.97 838.17 3
22 山西2252.50 1016.69 441.82 589.97 825.18 1007.92 830.38 3
23 陕西2588.91 768.47 478.58 612.30 824.46 1280.14 746.59 3
24 四川2838.22 754.93 505.83 449.87 1009.35 976.33 728.43 3
25 西藏3107.90 734.83 211.10 221.70 694.21 359.34 612.67 3
26 新疆2386.97 953.03 364.11 472.35 765.72 819.72 698.66 3
27 云南3102.46 745.08 335.14 600.08 1076.93 754.69 585.35 3
28 广东6225.22 1064.33 1814.00 1052.57 925.62 2979.88 2168.88 待判别
29 海南4507.81 581.66 1000.32 585.72 604.15 1548.76 961.95 待判别
30 辽宁4680.85 1338.84 1293.00 607.51 1018.44 1493.17 1283.68 待判别
31 重庆4576.23 1503.49 1120.60 1043.06 982.73 1189.03 1351.90 待判别2.1SPSS软件分析后的结果如下:
表2.2 特征值
从表中可以看出SPSS给出了两个判别函数,它们的特征值分别为23.382和1.099。

因为函数1的特征值(即组间平方和与组内平方和之比值,即B0/E0)最大,且贡献率为95.5%(>85%),说明所选择的典型变量互不相关,可以对样本进行距离判别;函数1的正则相关性(是组间平方和与总平方和之比的平方根)接近1,说明组间差异较大;所以函数1最具判别力。

表2.3 Wilks 的Lambda
函数检验Wilks 的 Lambda 卡方df Sig.
1 到
2 .020 82.638 14 .000
2 .476 15.568 6 .016
函数检验的零假设是各组变量均值相等。

Lambda接近0表示组均值不同,接近1表示组均值没有不同。

lambda的卡方转换(Chi-square)用于确定其显著性,由表中数据可知具有显著性(sig. < 0.01)。

表2.4典型判别式函数系数
函数
1 2
食品.002 .002
衣着.003 .000
家庭设备-.001 .006
医疗保健.000 .000
交通和通信.003 -.004
教育文化.002 -.003
居住.002 .007
(常量) -15.968 -6.337
非标准化系数
上表是根据7组预测变量建立的两个典则判别函数的各个变量的系数,通过这个系数可以得到Fisher得分。

表2.5 组质心处的函数
Average Linkage (Between Groups)函数
1 2
发达12.051 -.994
较发达 3.044 2.716
一般-2.156 -.246
在组均值处评估的非标准化典型判别式函数
上表给出了每个典则判别函数在每一组(类)中的质心,结合判别函数1和判别函数2可以对训练样本进行判别分析,将训练样本的变量带入函数,得到的值与哪一组质心最接近,则判断就属于此组,经过SPSS软件计算,如图2.1所示:
图 2.1 所有组的散点图
根据表2.4所建立的2个典则判别函数,把这两个函数当成该观测值的坐标,这样表2.1中的31个观测值(包括4个“待判样本”)就是二维平面上的31个点;它们的点位投影到二维空间之后,再根据各点的位置远近算出具体的判别公式,进行距离判别。

2.2 采用Fisher判别,分类统计量为:
表2.6 组的先验概率
上表是每一类的先验概率是根据组的大小进行计算所得。

表2.7 分类函数系数
Average Linkage (Between Groups)
发达较发达一般食品.094 .080 .064
衣着.150 .128 .114
家庭设备.052 .080 .067
医疗保健.001 -.003 -.003
交通和通信.038 -.008 -.013
教育文化.002 -.023 -.024
居住.089 .097 .065
(常量) -448.251 -263.140 -153.414 上表为每类的分类函数系数,即Fisher线形判别函数。

该表给出了三个线性分类函数的系数。

通过将一个新的样品的各个指标(变量)代入这些函数,经计算,就可以得到分别代表三类的三个值,哪个值最大,该样品就属于相应的那一类;也就是说,将该样品判定属于该类。

各类Fisher线形判别函数为:
F1= -448.251+0.094·食品+0.150·衣着+0.052·家庭设备+0.001·医疗保健+0.038·交通和通信+0.002·教育文化+0.089·居住;
F2= -263.140+0.080·食品+0.128·衣着+0.080·家庭设备-0.003·医疗保健-0.008·交通和通信-0.023·教育文化+0.097·居住;
F3= -153.414+0.064·食品+0.114·衣着+0.067·家庭设备-0.003·医疗保健-0.013·交通和通信-0.024·教育文化+0.065·居住。

现由所建立的Fisher线形判别函数可以直接对27个训练样本和4个待判样本进行判别归类,同时可以得到回报率和判别得分,最终结果如表2.8、表2.9所示:
表2.8 判别结果
案例数目实际组
最高组判别式得分
预测组
P(D>d | G=g)
P(G=g | D=d)
到质心的平方
Mahalanobis
距离
函数 1 函数 2 p df
初始1 3 3 .718 2 1.000 .662 -1.364 -.063
2 3 3 .663 2 1.000 .823 -2.908 -.754
3 3 3 .633 2 1.000 .915 -2.672 .560
4 3 3 .787 2 1.000 .479 -2.636 -.746
5 3 3 .733 2 1.000 .620 -2.17
6 .541
6 3 3 .520 2 1.000 1.308 -3.283 -.443
7 3 3 .486 2 1.000 1.441 -3.323 -.528
8 3 3 .814 2 1.000 .411 -1.614 .095
9 3 3 .229 2 1.000 2.952 -.481 .137
10 3 3 .610 2 1.000 .988 -1.861 .703
11 3 3 .250 2 1.000 2.772 -3.348 .917
12 3 3 .636 2 1.000 .905 -1.376 -.790
13 3 3 .316 2 1.000 2.303 -2.536 1.224
14 3 3 .254 2 1.000 2.742 -3.721 -.788
15 3 3 .024 2 1.000 7.444 .432 -1.108
16 3 3 .990 2 1.000 .019 -2.257 -.342
17 3 3 .672 2 1.000 .795 -1.874 -1.092
18 3 3 .685 2 1.000 .758 -1.349 -.572
19 3 3 .533 2 1.000 1.258 -2.990 .504
20 3 3 .679 2 1.000 .775 -2.892 -.731
21 3 3 .141 2 1.000 3.915 -1.055 -1.890
22 2 2 .919 2 1.000 .168 3.414 2.893
23 2 2 .176 2 .999 3.475 2.376 .976
24 2 2 .282 2 1.000 2.534 3.342 4.280
25 1 1 .942 2 1.000 .119 11.709 -.959
26 1 1 .142 2 1.000 3.904 12.975 .752
27 1 1 .173 2 1.000 3.513 11.470 -2.776 28(广东)未分组的 1 .027 2 1.000 7.259 9.478 -1.791 29(海南)未分组的 3 .648 2 1.000 .868 -1.468 -.873 30(辽宁)未分组的 3 .089 2 1.000 4.843 -.855 1.529 31(重庆)未分组的 2 .219 2 .997 3.038 1.825 1.470
表2.9 分类结果
a
Average Linkage (Between Groups)
预测组成员
合计发达较发达一般
初始计数发达 3 0 0 3 较发达0 3 0 3
一般0 0 21 21
未分组的案例 1 1 2 4 % 发达100.0 .0 .0 100.0 较发达.0 100.0 .0 100.0
一般.0 .0 100.0 100.0
未分组的案例25.0 25.0 50.0 100.0 a. 已对初始分组案例中的 100.0% 个进行了正确分类。

上表给出了分类结果,可以看出原始分类完全正确,回报率为100%,即验证的结果与先前聚类所得结果完全吻合。

此外,对4个待判样本可以通过表2.8直接看到判别的结果,也可在根据Fisher线性判别函数计算得:
广东:属于第一类(发达地区);
重庆:属于第二类(较发达地区);
辽宁、海南:属于第三类(一般地区)。

结合广东省、重庆市、辽宁省和海南省的近年经济发展实际,对其的判别归类符合宏观分析结果,具有实际意义。

结论
通过使用SPSS可以方便、直观地进行聚类分析和判别分析。

通过聚类分析,全国各地区的服务业发展水平可按照7个指标:食品、衣着、家庭设备用品及服务、医疗保健、交通和通
信、教育文化娱乐服务、居住分为发达、较发达、一般发达3类。

具体的聚类分析的结果在前边已经详细地进行了分析,下面将主要就判别分析的结果进行分析。

在本次判别分析过程中使用Fisher判别,得出了各类的Fisher线形判别函数,并且对所有样品进行了回报判别,回报率均为100%,说明建立的判别分析方法适用。

也可以通过之前给出的典则判别函数,将待检验的样品的各指标带入其中,然后将计算所得结果与表中给出的典则判别函数在每一组中的重心值进行比较,与哪一组的重心最接近就属于哪一组。

通过聚类分析和判别分析,中国的经济发展水平可分为三个层次,在空间上表现为三个地理区域。

形成中国经济地域差异的原因是多种多样的。

中国经济的发展应针对这些经济区域各自的特点,进行规划,制定发展战略,实现中国区域经济的相对均衡和协调发展。

经济发展不平衡已成为我国经济建设中的一大阻碍,东部与中西部的差距成逐年扩大趋势。

政府早已意识到这个问题的严重性.因而很早就提出西部大开发的战略,逐渐转移投资重心,加大对西部的资金、技术和人员投入。

给予西部以强大的政策支持,鼓励外商到西部投资,加强西部各省市的招商引资实力,特别是加大对西部的教育投资.培养建设人才.让西部人民依靠自己的力量建设自己的家园。

相关文档
最新文档