基于SPSS的西南三省(云贵川)经济发展区域差异分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子分析:
因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素
之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
因子分析特点:
(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。
聚类分析:
聚类算法,它是通过将数据组织为若干组并形成一个相应的树来进行聚类的。根据层次是自底向上还是自顶而下形成,层次聚类算法可以进一步分为凝聚型的聚类算法和分裂型的聚类算法。一个完全层次聚类的质量由于无法对已经做的合并或分解进行调整而受到影响。但是层次聚类算法没有使用准则函数,它所含的对数据结构的假设更少,所以它的通用性更强。
指标的选取:
以省级单位作为区域分析的对象,利用多云统计分析方法对云贵川3个省级区域经济发展状况进行分析。其指标的选择主要根据代表性原则、综合性原则、系统性原则、易获得性原则。选取2012年云贵川三省社会经济发展指标因子31项,组成一个原始数据矩阵X,作为分析的依据。所选取的指标有:人均生活用水量(X1)、城市绿地面积(X2)、客运量(X3)、铁路客运量(X4)等。
因子分析过程
利用SPSS软件中的因子分析方法,对2012年云贵川3个省级区域社会经
济发展的4项指标数据进行处理,求出主因子的特征值、贡献率和累积贡献率。具体操作步骤为:将数据导入spss12.0中,在“分析”菜单栏下的“降维”中选取“因子分析”,进而选取相对应的变量“人均生活用水量”、“城市绿地面积”、“客运量”、“铁路客运量”四个变量,在此过程中,对因子分析中的描述、抽取、旋转、得分、选项进行相应的定义。
步骤1:
步骤2:
步骤3:
计算结果如下表1所示:
表1 云贵川三省经济发展水平因子特征值、贡献率、累积贡献率 %
因子 1 2 3 4 5 6 特征值 29.193
3.807
1
1
1
1
贡献值 88.464 11.536 3.221e-15 2.258e-15 1.704e-15 1.498e-15 累积贡献值
88.464
100
100
100
100
100
由表1可知,变量相关系数矩阵的特征值大于1的6个主因子,累积贡献率达到88.44%,可以代表云贵川的经济发展信息。本文以6个因子的贡献为全数,定义云贵川三省的经济发展综合得分为:
1
2
3
4
5
6
Y 0.88464Y +Y +Y +Y +Y +Y =∑
一般来说,在分析过程中,综合得分越高,三省区域经济发展水平越好,得分大于0意味着该区域经济发展水平在平均经济发展水平之上,反之则在平均水平之下,需要积极调整发展思路以及促进区域经济发展快速、协调的发展。
聚类分析
因子分析的结果可以较为清楚的反映云贵川三省社会经济综合发展水平,但不能进行确切的类型划分。为此,将利用因子分析得到的因素得分作为新变量,利用皮尔逊相关系数进行Q型聚类分析,采用组间连接法进行分析。具体操作步骤为:将excel数据导入spss 12.0软件中,在“分析”菜单栏中选取“分类”→“系统聚类”,选取变量“分均生活用水量”、“城市绿地面积”以及标注个案“省份”。并且对统计量、绘制、方法进行相应的设置。
步骤1:
步骤2:
得出如下所示的表2聚类表。
表2 聚类表
图1 三省区域经济发展水平聚类谱系图
综合因子分析和聚类分析的结果,可以看出四川省的经济发展水平发达区,处于末尾的是云南省。