数理统计第二次大作业——聚类与判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
地区生产总值及经济发展状况的统计分析
学号:姓名:
摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。
对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。
关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析
1.引言
国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。
地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。
本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。
2.地区经济发展的聚类和判别分析
分地区生产总值主要包括的内容有:
(1)第一产业: 包括农、林、牧、渔业。
(2)第二产业: 包括工业及建筑业。
(3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融
业、房地产业及其他产业。
(一)相关自变量的选择
本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐
饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市(不包括港澳台地区)。
我们选用2006和2007年度地区生产总值的数据进行分析(2006年度数据来自中国统计年鉴2007,2007年度数据来自中国统计年鉴2008,见附件)。
(二)聚类分析
首先采取系统聚类法(hierarchical cluster)进行对所有31个地区聚类分析(数据为2007年度地区生产总值):
表1 处理过程汇总
表1表示所有观测量都加入聚类判别分析,没有遗漏。
表2 聚类过程小结
聚类进度表,表中列出了观测量或类合并的详细步骤。
图1 树状谱系图
图中横向聚类表示差异的大小,从图中可以清晰的看出整个的观测量的聚类过程。
分析结果显示,青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类,它们在经济发展中处于不利地位,是经济欠发达地区。北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区,可以划归另一类。其余省份划归第三类,为经济中等发达地区。
下面基于做好的分类对结果进行判别分析,确定聚类结果的准确性。
(三)判别分析
为了鉴别聚类分析结果的准确性,我们选用2006年相同地区的数据对上述分类进行判别分析。
在这里我们选用Fisher判别法构造判别函数。
分析结果如下:
表3 案例分析过程
表3表明所有变量都进入了判别分析。
表4 变量表
用逐步分析方法选择用于构造判别函数的变量。
表5 逐步分析法变量表
表6 特征值
Eigenvalues代表用于分析的前两个典则判别函数的特征值, 是组间平方和与组内平方
和之比值。最大特征值与组均值最大的向量对应, 第二大特征值对应着次大的组均值向量。
表7标准化的典则判别式函数系数
标准化的典则判别式函数系数(使用时必须用标准化的自变量)。由图可知Fisher判别法构造的两个典则判别函数为:
Y1=1.275X1+1.824X2-1.654X3
Y2=-0.639X1-0.815X2-0.065X3
表8 结果
预测分类结果小结,可以看出初始分组的正确率。
表9 详细分类结果
从图中我们可以看出,有一个观测量被错误地分到了第1类上,这个观测量是16山东。预测结果应是第二类,但不排除是此地区2006年的发展使其经济状况改善的结果。
上图为观测量分类点图,从图中我们可以清楚地看到观测量的分类情况,可见三个类型
的中心点距离较远,区分效果较好。
3.问题的总结及研究意义
本文以SPSS 16.0为分析工具,通过地区生产总值对地区经济发展进行了聚类和判别分析,对我国各地区经济发展状况有了初步的了解。
总体来说,我国经济发展东强西弱的结果没有改变。我国东部沿海各省份的经济发展明显强于中西部地区;中部地区经济地位近年来不上不下;而位于我国西部偏远地区的青海、西藏等省份,在我国经济发展格局中明显处于不利地位。
当然,我们也应该欣喜地看到,国家西部大开发战略和中部崛起战略的实施必然会对中西部地区经济的发展起着巨大的促进作用。
总之,采用聚类和判别分析分析地区经济发展状况所得的模型符合我国当前实际情况,其结果具有统计学和现实意义,因此有比较实际的应用和研究价值。
参考文献
[1] 孙海燕, 周梦, 李卫国, 冯伟, 应用数理统计, 北京航空航天大学, 2004.9
[2] 周复恭, 黄运成, 应用线性回归分析, 中国人民大学出版社, 1989.8
[3] 中华人民共和国国家统计局, 中国统计年鉴-2008
[4] 中华人民共和国国家统计局, 中国统计年鉴-2007
[5] 倪青山, 刘小丹, SPSS 应用•实验教程, 湖南大学出版社, 2007