用spss分析我国各省城镇居民消费水平差异
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用spss分析我国各省城镇居民消费水平差异分析
文章结构
1 研究背景及意义 (1)
2 研究方法 (1)
3 数据来源与数据处理 (2)
4. 实证分析 (3)
4.1因子分析 (3)
4.2 聚类分析 (8)
5 结论 (11)
1 研究背景及意义
我国地域广阔,各省份的经济发展很不平衡,各省之间的居民消费水平差距较大。
经济快速发展的同时
我国居民收入稳步增加,各省居民的消费支出也强劲增长,消费结构发生了巨大变化。
为了正确引导消费,进一步改善消费结构,提高我国城市居民的消费水平和生活的质量,有必要对全国各省居民消费结构之间的异同进行考察并做比较研究,以期发现经济水平和城市居民的消费水平之间的关系.
2 研究方法
本文运用多元统计分析中的主成分分析方法和聚类分析方法,将描述各省份城镇居民全年现金消费支出的八个指标压缩成两个综合指标( 称为主成分) , 这两个主成分保留了原始八个指标的绝大部分信息,在指标压缩的同时能够最大限度地反映出各省份城镇居民消费水平差异。
在综合因子基础上进行层次聚类分析,根据消费差异将全国31个省分为四类。
因子分析模型是根据变量间的相关性大小,把变量分组,利用同组内的变量之间相关性较高而不同组的变量之间相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。
因子分析的出发点是
用较少的相互独立的因子变量来代替原来变量的大部分信息,可以通过下面的数学模型来表示:
X1=α11F1+α12F2+…+α1m Fm+α1ε1,
X2=α21F1+α222+…+α2m Fm+α2ε2,
…
Xp=αp1F1+αp2F2+…+αpm Fm+αpεp,
其中:x1,x2,x3,…,xp 为p 个原有变量,是均值为零、标准差为1 的标准化变量;F1,F2,F3,…,Fm 为m 个因子变量,m 小于p,表示成矩阵形式为
X=AF+αε,
其中:F=(F1,F2,…,Fm)为因子变量或公共因子;ε=(ε1,ε2,…,εp)为特殊因子;F 与ε均为不可观测的随机变量. A=(αij)p×m 为因子载荷矩阵,αj 称为第j 个因子对第i 个变量的载荷系数. 在模型中,特殊因子起着残差的作用,被定义为彼此不相关且与公因子也不相关。
系统聚类分析的基本思想是认为所研究的样品(或指标)之间存在不同程度的相似性. 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类,关系
密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样品都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。
利用SPSS 中的聚类分析,以层次分析法结果中的因子得分为基础,在聚类分析中采用离差平方和法及欧氏平方距离对综合因子得分进行最优分割,将31个省按城市居民消费水平的高低分成4类。
3 数据来源与数据处理
2012年我国“分地区城镇居民家庭平均每人全年现金消费支出”,来自于中国统计年鉴全国31 个省、直辖市和自治区(港、澳、台不在其中)的城镇居民年平均现金消费支出的97项主要指标(单位:元) ,指标代码和指标名称列于表1,原始数据列于表2。
表1 指标名称及代码
指标代码指标名称指标代码指标名称
X1食品X5交通通讯
X2衣服X6文教娱乐
X3居住X7医疗保险
X4家庭设备
表2 原始数据
地区X1 X2 X3 X4 X5 X6 X7
上海9655.6 2111.17 1790.48 1906.49 4563.8 3723.74 1016.65
北京7535.29 2638.9 1970.94 1610.7 3781.51 3695.98 1658.37
广东8258.44 1520.59 2099.75 1467.2 4176.66 2954.13 1048.28
浙江7552.02 2109.58 1551.69 1161.39 4133.5 2996.59 1228.02
天津7343.64 1881.43 1854.22 1151.16 3083.37 2254.22 1556.35
江苏6658.37 1915.97 1437.08 1288.42 2689.51 3077.76 1058.11
内蒙古5463.18 2730.23 1583.56 1242.64 2572.93 1971.78 1354.09
福建7317.42 1634.21 1753.86 1254.71 2961.78 2104.83 773.22
辽宁5809.39 2042.4 1433.28 1069.65 2323.29 1843.89 1309.62
山东5201.32 2196.98 1572.35 1125.99 2370.23 1655.91 1005.25
重庆6870.23 2228.76 1177.02 1196.03 1903.24 1470.64 1101.56
吉林4635.27 2044.8 1594.14 871.46 1780.67 1642.7 1447.5
陕西5550.71 1789.06 1322.22 986.82 1788.38 2078.52 1212.44
安徽5814.92 1540.66 1396.97 811.23 1809.72 1932.74 1142.96
湖南5441.63 1624.57 1301.6 1034.3 2084.15 1737.64 918.41
湖北5837.93 1783.41 1371.15 978.26 1476.98 1651.92 1029.55
四川6073.86 1651.14 1284.09 1097.93 1946.72 1587.43 772.75
广西5552.56 1146.46 1377.26 1125.39 2088.64 1626.05 883.56
河南4607.47 1885.99 1190.81 1145.42 1730.35 1525.33 1085.47
宁夏4768.91 1875.7 1193.37 929.01 2110.41 1515.91 1063.09
海南6556.1 864.96 1521.04 777.2 2004.34 1319.54 993.24
新疆5238.89 2031.14 1166.59 950.17 1660.27 1280.81 1027.6
河北4211.16 1541.99 1502.41 876.1 1723.75 1203.8 1047.28
黑龙江4687.23 1806.92 1336.85 742.22 1462.61 1216.56 1180.67
甘肃4602.33 1631.4 1287.93 833.15 1575.67 1388.21 1049.65
山西3855.56 1529.47 1438.88 832.52 1672.29 1506.2 905.88
云南5468.17 1759.89 973.76 634.09 2264.23 1434.3 939.13
江西5071.61 1476.63 1173.91 966.23 1501.34 1487.3 670.71
青海4667.34 1512.24 1232.39 923.7 1549.76 1097.21 906.14
贵州4992.85 1399 1013.53 849.94 1891.03 1396 654.53
西藏5517.69 1361.57 845.18 474.69 1387.45 550.48 467.23
4. 实证分析
4.1因子分析
表3 描述统计量
均值标准差分析N
食品5832.8094 1299.82194 31
衣服1782.8135 388.89271 31
居住1411.2358 283.12264 31
家庭设
备
1042.3939 283.24540 31
交通通
讯
2260.2768 861.61451 31
文教娱
乐
1836.3910 739.15111 31
医疗保
险
1048.6229 253.74984 31
食品、衣服等七个消费支出指标的描述性统计量,可以看出,食品支出消费所占的比重最大,其次是交通通讯。
在所有的消费支出中,医疗保险支出所占比重最小。
表4 KMO 和Bartlett 的检验
取样足够度的Kaiser-Meyer-Olkin 度
量。
.698
Bartlett 的球形度检验近似卡方187.287 df 21 Sig. .000
表5 公因子方差
初始提取
食品 1.000 .865
衣服 1.000 .780
居住 1.000 .706
家庭设
备
1.000 .829
交通通
讯
1.000 .911
文教娱
乐
1.000 .902
医疗保
险
1.000 .844
提取方法:主成份分析。
通过SPSS软件得出Bartlett值为21,P值<0.05,可考虑进行因子分析;KMO值为0.698,接近1,适合进行因子分析。
变量的绝大部分信息(70%以上)都可以被因子解释,这些变量信息丢失较少,本次因子提取的总体效果理想。
表6 解释的总方差
成份
初始特征值提取平方和载入旋转平方和载入
合计
方差
的% 累积% 合计
方差
的% 累积% 合计
方差
的% 累积%
1 4.623 66.048 66.048 4.623 66.048 66.048 3.881 55.448 55.448
2 1.214 17.345 83.392 1.214 17.345 83.392 1.956 27.945 83.392
3 .563 8.042 91.435
4 .257 3.667 95.102
5 .148 2.109 97.211
6 .140 1.994 99.204
7 .056 .796 100.000
提取方法:主成份分析。
第一个因子的特征根值为4.623,解释了原有8个变量总方差的55.448%,第二个因子的特征根值为
1.214,解释了原有8个变量总方差的27.945,前两个因子的累计方差贡献率为83.392%,并且只有他们的取值大于1,说明前两个公因子基本上包含来全部变量的主要信息,选择前两个因子为主因子即可。
图1 碎石图
碎石图横坐标为因子数目,纵坐标为特征根,可以看出第一个因子的特征值很高,对解释原油变量的贡献率极大,第二个以后的特征根值都很小,取值都小于1,说明他们对解释原有变量的共享率极小。
旋转前的因子载荷矩阵,从结果看,大部分因子解释性很好,但是仍有少部分指标解释能力较差。
如医
疗保险和衣服在两个因子的载荷系数区别不大,因此接着采用因子旋转方法使得因子载荷系数向着0和1
两极分化,使大的载荷更大,小的载荷更小,使结果更具有解释性。
表8 旋转成份矩阵a
成份
1 2
交通通
.933 .203
讯
食品.930 .000
文教娱
.882 .351
乐
家庭设
.854 .315
备
居住.747 .385
医疗保
.202 .896
险
衣服.197 .861
提取方法:主成份。
旋转法:具有Kaiser 标准
化的正交旋转法。
a. 旋转在3 次迭代后收
敛。
旋转后因子载荷矩阵,因子载荷系数向着0和1两极分化,更有意义。
可以看出,第一个公因子主要反映了交通通讯、食品、文教娱乐、家庭设备和居住上有较大的载荷,说明第一个公因子主要反映这几方面的差异情况。
其中,差异大小排序依次为交通通讯>食品>文教娱乐>家庭设备>居住;第二个因子反映了在医疗保险和衣服上有较大的载荷,说明第二公因子主要反映医疗保险和衣服两方面的差异情况,其中医疗保险>衣服。
表9 成份得分系数矩阵
成份
1 2
食品.324 -.233
衣服-.147 .546
居住.164 .079
家庭设
.219 .004
备
交通通
.274 -.093
讯
文教娱
.220 .021
乐
医疗保
-.154 .569
险
提取方法:主成份。
旋转法:具有Kaiser 标准
化的正交旋转法。
构成得分。
根据表中的内容,可以写出以下因子得分函数:
F1=0.324*X1-0.147*X2+0.164*X3+0.219*X4+0.274*X5+0.220*X6-0.154*X7
F2=-0.233*X1+0.546*X2+0.079*X3+0.004*X4-0.093*X5+0.021*X6+0.569*X7
有了F1和F2的合理解释,可以将各省的相关数据代入因子模型中计算出各因子得分. 同时,以各因子的方差贡献率占2个因子总方差贡献率的比重为权重加权汇总,得出各省的综合因子得分F,即F=0.55448F1+0.27945 F2得到的各因子及综合因子的得分数值及排序见表. 表中因子得分情况及其正负仅表示该城市与平均水平的相对位置。
F1 F2 F
上海 3.02862 1 -0.37344 21 1.57 1
北京 1.5295 3 2.31666 1 1.5 2
广东 2.37253 2 -0.78112 24 1.1 3
浙江 1.30964 4 0.4249 11 0.84 4
天津0.75736 7 1.05422 4 0.71 5
江苏0.85997 6 0.06022 14 0.49 6
内蒙古-0.24202 15 2.10182 2 0.45 7
福建 1.25892 5 -1.06226 26 0.4 8
辽宁-0.20651 14 0.9538 5 0.15 9
山东-0.14855 12 0.62602 6 0.09 10
重庆-0.18138 13 0.52346 8 0.05 11
吉林-0.87617 29 1.57183 3 -0.05 12
陕西-0.34483 17 0.45924 9 -0.06 13
安徽-0.27165 16 -0.08056 18 -0.17 14
湖南-0.11365 11 -0.4585 22 -0.19 15
湖北-0.36402 18 0.02441 16 -0.2 16
四川0.0731 10 -0.85478 25 -0.2 17
广西0.19853 8 -1.20919 28 -0.23 18
河南-0.67591 22 0.43522 10 -0.25 19
宁夏-0.6658 21 0.29833 13 -0.29 20
海南0.18502 9 -1.50236 30 -0.32 21
新疆-0.79803 27 0.38729 12 -0.33 22
河北-0.74658 26 0.01241 17 -0.41 23
黑龙江-1.08771 31 0.57895 7 -0.44 24
甘肃-0.83402 28 0.03426 15 -0.45 25
山西-0.74158 24 -0.26244 19 -0.48 26
云南-0.70268 23 -0.35135 20 -0.49 27
江西-0.38569 19 -1.13609 27 -0.53 28
青海-0.74245 25 -0.48647 23 -0.55 29
贵州-0.45204 20 -1.35804 29 -0.63 30
西藏-0.99194 30 -1.94644 31 -1.09 31
分析F1,上海、广东、北京具有较高的消费水平,公共因子得分为正的城市有10 个城市,且都具有比较发达的经济发展水平,在经济发展到一定水平后,人们的消费理念也上升到了较高的层次。
黑龙江、
西藏等经济欠发达的省份,居民的消费也会受到一定的制约。
居民在食品、交通通讯、家庭设备、居住和文教娱乐5 个方面的消费水平与经济发展水平有密切的相关性。
分析F2,北京、内蒙古、吉林和天津等省市的消费水平高,西藏、海南、贵州和广西等地区消费水平低。
而上海、广东两个较为发达的省市排在第21、24 位. 这说明衣服和医疗保险等方面的消费水平与地区的经济水平虽然有一定的相关性,但也受其它因素的影响。
分析分析综合因子得分F,居民消费水平较高的是上海、北京、广东、浙江和天津等省市,较低的为西藏、贵州、青海和江西等省,得分为正的有11个省,说明各省城市居民消费水平发展不均衡。
4.2 聚类分析
表11 聚类表
阶群集组合
系数首次出现阶群集
下一阶
群集 1 群集 2 群集 1 群集 2
1 19 20 .003 0 0 17
2 16 25 .005 0 0 3
3 16 22 .010 2 0 9
4 7 1
5 .020 0 0 11
5 23 27 .033 0 0 17
6 3 9 .046 0 0 22
7 12 30 .060 0 0 13
8 10 28 .080 0 0 18
9 16 18 .104 3 0 18
10 2 14 .137 0 0 15
11 7 17 .173 4 0 21
12 6 8 .211 0 0 16
13 12 13 .249 7 0 23
14 1 21 .313 0 0 28
15 2 26 .380 10 0 25
16 5 6 .456 0 12 22
17 19 23 .534 1 5 20
18 10 16 .620 8 9 23
19 4 11 .725 0 0 24
20 19 29 .857 17 0 21
21 7 19 1.050 11 20 26
22 3 5 1.289 6 16 27
23 10 12 1.550 18 13 27
24 4 24 1.856 19 0 25
25 2 4 2.655 15 24 28
26 7 31 3.456 21 0 29
27 3 10 4.498 22 23 29
28 1 2 6.219 14 25 30
29 3 7 8.444 27 26 30
30 1 3 16.162 28 29 0
Spss首先给出了进行系统聚类分析过程表,第一列列出了聚类过程的步骤号,第二列和第三列列出了某一步骤中那些省市进行了合并,例如从结果中可以看出,19和20首先被合并在一起。
第四列列出每一步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小,第五列和第六列表示参与合并的省市在第几步中第一次出现,0代表该记录是第一次出现在聚类过程中,第七列表示在这一过程中合并的类别,下一次将在第几步中与其他类进行再一次合并。
得到以下结果:
表12 群集成员
案例 4 群
集
1:北京 1
2:内蒙古 2
3:吉林 3
4:天津 2
5:辽宁 3
6:山东 3
7:黑龙江 4
8:重庆 3
9:陕西 3
10:河南 3
11:浙江 2
12:新疆 3
13:宁夏 3
14:江苏 2
15:甘肃 4
16:湖北 3
17:河北 4
18:安徽 3
19:山西 4
20:云南 4
21:上海 1
22:湖南 3
23:青海 4
24:广东 2
25:四川 3
26:福建 2
27:江西 4
28:广西 3
29:贵州 4
30:海南 3
31:西藏 4
图2 树状图
第一类:北京、上海
第二类:内蒙古、天津、浙江、江苏、广东、福建
第三类:吉林、辽宁、山东、重庆、陕西、河南、新疆、宁夏、湖北、安徽、湖南、四川、广西、海南第四类:黑龙江、甘肃、河北、山西、云南、青海、江西、贵州、西藏
为了进一步分析4大类省市在各个消费领域支出的变化情况,计算各类省市在各个消费领域的平均支出。
表13 4大类省市在各个消费领域支出情况
地区X1 X2 X3 X4 X5 X6 X7
第一类支出8595.445 2375.035 1880.71 1758.595 4172.655 3709.86 1337.51 比重0.360701 0.099667 0.078923 0.073798 0.175102 0.155681 0.056128
第二类支出5722.438 1711.903 1363.402 1016.387 2573.515 2067.53 994.965 比重0.370381 0.110802 0.088245 0.065785 0.166569 0.133819 0.064398
第三类支出5568.514 1764.716 1350.135 1007.061 1934.099 1633.502 1070.929 比重0.38862 0.123157 0.094224 0.070282 0.134978 0.114 0.074739
第四类支出4785.993 1557.679 1200.538 792.5156 1669.792 1253.34 869.0244 比重0.394595 0.128427 0.098982 0.065341 0.137671 0.103335 0.071649
图3 四大类省市各项指标平均消费比重
随着消费水平的提高,4大类省市居民在反映生活水平高低的重要指标食品支出方面虽然在总量上呈现下降趋势,但相对于总消费支出的比重却呈不断上升趋势,在衣着、居住方面的支出也有相同的变化趋势;在家庭设备、医疗保健、交通通信、娱乐文教等方面的支出无论是总量还是比重都呈现出不断下降的趋势. 由此可见,随着经济发展水平和消费水平的提高,人们不仅物质生活质量不断提高,而且更加注重精神文化生活方面的消费,在保证生存型消费的基础上,更注重发展型和享受型消费,消费结构逐渐趋向合理化。
但同时也应看到,我国居民总体消费水平还不高,处于第3类的省市仍较多,处于第4类的省市各个领域消费水平都很低。
5 结论
(1)因子分析:
F1=0.324*X1-0.147*X2+0.164*X3+0.219*X4+0.274*X5+0.220*X6-0.154*X7
F2=-0.233*X1+0.546*X2+0.079*X3+0.004*X4-0.093*X5+0.021*X6+0.569*X7
F=0.55448F1+0.27945 F2
上海、广东、北京具有较高的消费水平,公共因子得分为正的城市有10 个城市,且都具有比较发达的经济发展水平,在经济发展到一定水平后,人们的消费理念也上升到了较高的层次。
黑龙江、西藏等经济欠发达的省份,居民的消费也会受到一定的制约。
居民在食品、交通通讯、家庭设备、居住和文教娱乐5 个方面的消费水平与经济发展水平有密切的相关性。
北京、内蒙古、吉林和天津等省市的消费水平高,西藏、海南、贵州和广西等地区消费水平低。
而上海、广东两个较为发达的省市排在第21、24 位. 这说明衣服和医疗保险等方面的消费水平与地区的经济水平虽然有一定的相关性,但也受其它因素的影响。
分析分析综合因子得分F,居民消费水平较高的是上海、北京、广东、浙江和天津等省市,较低的为西藏、贵州、青海和江西等省,得分为正的有11个省,说明各省城市居民消费水平发展不均衡。
(2)聚类分析
第一类:北京、上海
第二类:内蒙古、天津、浙江、江苏、广东、福建
第三类:吉林、辽宁、山东、重庆、陕西、河南、新疆、宁夏、湖北、安徽、湖南、四川、广西、海南第四类:黑龙江、甘肃、河北、山西、云南、青海、江西、贵州、西藏
随着消费水平的提高,4大类省市居民在反映生活水平高低的重要指标食品支出方面虽然在总量上呈现下降趋势,但相对于总消费支出的比重却呈不断上升趋势,在衣着、居住方面的支出也有相同的变化趋势;在家庭设备、医疗保健、交通通信、娱乐文教等方面的支出无论是总量还是比重都呈现出不断下降的趋势. 由此可见,随着经济发展水平和消费水平的提高,人们不仅物质生活质量不断提高,而且更加注重精神文化生活方面的消费,在保证生存型消费的基础上,更注重发展型和享受型消费,消费结构逐渐趋向合理化。
但同时也应看到,我国居民总体消费水平还不高,处于第3类的省市仍较多,处于第4类的省市各个领域消费水平都很低。