多元统计分析论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
河北联合大学
多元统计课程论文
论文题目:对中国各地区综合实力测评
学院:理学院
专业:统计学
班级:统计1班
姓名:侯雅琴
学号:
指导教师:高艳
目录
摘要、关键字、引言 (1)
1 数据说明 (2)
2 因子分析 (2)
3 聚类分析 (7)
4 判别分析 (9)
5 结果分析 (12)
6 参考文献 (13)
附表 (14)
对中国各地区综合实力测评
【摘要】本文对中国各地区综合实力进行测评,以31个地区2010年的10项
指标数据为样本,采用因子分析对描述各地区的实力的各项指标变量进行分析,
以聚类分析和判别分析相结合对地区发展类型进行分析,再利用各指标变量间的
相关性进行分析,得出相关结论以分析各地区的发展情况。
【关键词】各地区综合实力测评因子分析聚类分析判别分析
引言:在这样一个信息时代,只有全面的可持续的发展才是衡量一个地区综合实力的指标,仅仅是经济发展情况不再能全面具体的体现一个地区的综合实力,经济发展水平、科技发展水平、能源储量和利用率、基础设施建设、文化发展水平等等,这些综合的因素才是体现一个地区真正的面貌,单纯的GDP指标并不能完全反映一个地区的经济发展水平,为了克服单纯GDP指标的缺陷,我们在GDP指标的基础上,综合考虑其他各方面的发展指数,本文就外商投资进出口总额、地区生产总值、地区运输路线总长度、医疗卫生室数量、创新产品项目数、创新经费、高校数目、等10个指标变量对31地区的综合实力进行测评,通过因子分析、聚类分析、等多元统计方法对各指标变量以及各地区进行统筹分析,以总结促进各地区和谐可持续发展的原因。
一、数据说明
对各地区进行综合测评的各指标变量:
原始数据来源:《中国统计年鉴——2010》原始数据见附录表-1
二、因子分析:
1.考察原有指标变量是否适合因子分析(原有变量之间是否存在一定的线性关系):借助变量的相关系数矩阵,KMO和巴特利特球度检验,进行分析。
表—2
由相关矩阵可以看出外商投资进出口总额与地区生产总值、创新产品项目数、创新经费、社会服务设施数的相关系数较高(相关系数值均大于0.5),五个变量间呈现较强的线性关系,农业用地面积和林地面积高度相关,医疗卫生室数量和运输路线长度也具有较高的相关性,都可从中提取公共因子,进行因子分析。表—3
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。.748
Bartlett 的球形度检验近似卡方391.067
df 45
Sig. .000
根据KMO检验,KMO值(小于1)越大表示数据适合做因子分析,由表可知,KMO 值为0.748,根据KMO度量标准可知原始变量适合进行因子分析,同时Bartlett泅渡检验统计的观测值为391.067,相应的p值为0,表明变量间存在较强的相关性,适合做因子分析。
2.提取因子:根据原有变量的相关矩阵,采用主成分分析法提取因子,并选取特征值大于1的特征根。
表—4
由上表各因子的累积方差贡献率一列可以看出,前三个因子已经可以解释
90.739%的信息量。因此提取三个主成分已经可以抓住指标变量所表达的内容
表—5
旋转成份矩阵a
成份
1 2 3
外商投资进出口总额.924-.142 -.063
地区生产总值.901.386 -.104
运输路线长度.184 .870.334
医疗卫生室数量.076 .938-.043
创新产品项目数.966.161 -.156
创新经费.963.126 -.175
高校数目.626 .647-.240
社会服务设施数.821.317 -.117
林地面积-.150 .175 .922
农业用地面积-.179 -.067 .938
提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法。
a. 旋转在 5 次迭代后收敛。
从上表可知:对因子进行旋转后每个变量仅在一个公共因子上有较大的载荷,效果更佳,所以有因子旋转的必要,从旋转成分矩阵可得,外商投资进出口总额、地区生产总值、创新产品项目数、创新经费、社会服务设施数在第一公共因子上
有较大的载荷,可以归为一类:科技增长型经济指标;运输路线总长度和医疗卫生室数量以及高校数目在第二公共因子上有较大的载荷,可以归为一类:社会基础设施指标;同理,林地面积和农业用地面积归为:土地资源指标。
图—1
图—1:旋转后的因子(成分)载荷图,分别以第一主成分和第二主成分第三主成分为轴坐标,按表中数据作图得到主成分图。从图中可以看出旋转后各成分的变量更集中了。从图中也可以更具象的看出各指标变量间的关系。
表—7为因子得分系数矩阵。根据因子得分系数和原始变量的标准化值,可以计算每个观测量的各因子的得分数,并可以据此对观测量进行进一步的分析。旋转后的因子表达式可以写成:
FACT:
10 9
8
7
6
5
4
3
2
1
100
.0 064
.0
170
.0
036
.0
236
.0
234
.0
147
.0
047
.0
183
.0
288
.0
1
X X
X
X
X
X
X
X
X
X FACT
+
+
+
+
+
+
-
-
+
=
10 9
8
7
6
5
4
3
2
1
120
.0
020
.0
034
.0
253
.0
084
.0
068
.0
478
.0
385
.0
054
.0
288
.0
2
X X
X
X
X
X
X
X
X
X FACT
-
+
+
+
-
-
+
+
+
-=
10 9
8
7
6
5
4
3
2
1
525
.0 495
.0
022
.0
113
.0
030
.0
038
.0
112
.0
130
.0
035
.0
177
.0
3
X X
X
X
X
X
X
X
X
X FACT
+
+
+
-
+
+
-
+
+
=