各省份发展水平的主成分及聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
各省份发展水平的主成分及聚类分析
运用数理统计方法对全国29个省份的综合发展水平进行综合评价,建立评价指标体系,运用主成分方法对原始数据进行数学处理,得出省份综合发展水平的综合指标,再用聚类分析方法进行指标聚类分析,找出影响城市发展的主要因素,并对如何提高城市发展提出合理性建议。
标签:主成分分析;聚类分析;综合发展
引言
如今,一句“你幸福吗?”已是全中国老百姓最常被问到的话题,然而现在人们的幸福感已经不单单是几十年前的吃得饱、穿得暖,人们对待幸福的定义更加注重于民生,医疗、教育、经济、环境、食品等等,已成为人们判定幸福的新标准。
据统计,浙江杭州连续7年蝉联“最幸福感城市”桂冠,其次是成都、长沙,相反对于中国的顶级城市上海和北京却很少入围,近10年中仅一次入围“最幸福感城市”,因此一个城市发展得好坏已从从前单一的经济时期过渡到了如今的综合发展阶段,为全面具体地了解一个省份的发展水平,现我们将从6个方面来综合地分析全国29个省份的综合发展情况,并根据得出的客观结果提出可行性建议。
一、方法介绍
(一)主成分分析
主成分分析也称主分量分析,旨在利用降维的思想,是把多指标转化为少数几个综合指标的一种多元统计分析方法。
在用统计分析方法研究多变量的课题时,变量个数太多会增加课题的复杂性,因此,人们自然希望用较少的综合变量来代替。
在很多情形下,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息[1]。
主成分分析是设法将原来众多具有一定相关性的(比如p个)指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。
通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表全体数据信息,则可逐步增加第二、第三等主成分,共同表示总体信息。
(二)聚类分析
1.聚类分析的概念
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
聚类是将数据分类到不同的类或者簇这样的一个过程[2],所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析的目的是把类对象按照一定的规则分成若干类,这些类不是事先给定的,而是根据数据的征确定的,对类的数目和类的结构不必做任何假定。
聚类分析依赖于对观测间的近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。
聚类分析的内容十分丰富,按其聚类的方法可分为:系统聚类法,动态聚类法,有序样品聚类法,模糊聚类法,图论聚类法,聚类预报法。
2.系统聚类法
系统聚类又称谱系聚类,是一种逐次合并类的聚类分析方法,最后得到一个聚类的谱系图,可以把系统聚类的过程形象地表示出来。
系统聚类法是目前在实际应用中使用最多的一类方法。
二、实例分析
(一)指标选取
根据综合评价的代表性原则、综合性原则、系统性原则以及我国各地区经济发展的实际,选取以下6个指标:x1为人均gdp(元)反映区域经济平均发展水平;x2为建设总规模(亿元),反映区域内设施建设能力;x3为平均工资income (元),反映职工工资水平的主要指标;x5为教育经费(万元),反映区域文化教育资金投入;x6为城镇人均医疗保健支出(元),数据汇总如下表所示:
(二)主成分分析
将上述数据整理后运用SAS软件进行主成分分析后得到方差分解主成分提取表(如表2)。
相关系数的特征值及各主成分的方差,可以看出第一主成分的方差为55.4%,第二主成分的方差为29.8%,第三主成分的方差为8.21%,前两个主成分的累计贡献率为85.26%,可见前两个主成分已经具有足够多的方差贡献率来概括该组数据。
根据所选主成分所代表的主轴长度之和占了所有主轴长度之和的大部分的原则我们选取了4个主成分,分别用prin1,prin2,prin3,prin,4表示。
可见第一主成分中NETINC最高gdp、income、capital系数相对较高,且系数均为正数,第二主成分中eduheal具有较高的整系数,由此可以把第一主成分
看成由gdp、capital、income、netinc所刻画的反映经济发展水平的综合指标;将第二主成分看成由education、healcare所刻画的人民生活水平有关的综合指标。
前两个主成分的表达式为:
prin1=0.456x1+0.40166x2+0.42775x3+0.49016x4+
0.37929x5+0.25201x6
prin2=-0.36478x1+0.3218x2+0.32456x3+0.30117x4+
0.45361x5+0.60129x6
其次,计算出各成分的因子得分。
可以得出第一主成分中上海得分为5.4317,以绝对的优势高于其他城市,其次北京、江苏、广东也分别位于前列,说明这些城市的经济综合发展水平要高于其他城市,而相反甘肃、宁夏、青海第一主成分最低,说明这些城市的经济发展水平明显落后于上海、北京等城市,国家应该加大对这些城市的经济建设,改善其经济环境。
第二主成分中上海的主成分得分反而最少,为-2.347,说明上海市对于教育和医疗的关注度较其他方面偏低;四川对于教育和医疗的投入力度最大,其次是江苏、山东、河南、河北;江苏对于第一第二主成分而言,均在前列,说明江苏省综合全面发展水平要好于其他省份。
尽管各主成分综合信息的能力较强,分别从经济水平和人民生活水平分析了全国29个城市的发展情况,但是单独使用某个主成分并不能对各省份整体综合发展水平做出一个综合评价,因此,我们按主成分和的方差贡献率占个因子总方差贡献率的比重作为权重进行加权汇总,得出各省份综合发展水平的综合得分。
且综合得分表示如下:
Y=0.5541prin1+0.2984prin2
(三)聚类分析
为了验证上述指标的划分是否合理,我们采用层次分析中的系统聚类方法来对29个省份的主成分因子进行聚类分析,分类表如下:
(四)分类结果分析
第一类为综合发展水平最高的地区,包括北京、上海、浙江、广东、天津,多位于沿海地区。
是我国经济、文化中心,也是我国目前综合实力最强的区域。
科技能力强,科技成果转化成现实生产力的水平高,北京、浙江等地财政科技拨
款占该地区财政总支出的比例在全国省际区域排名中名列前茅,同时,这些区域注重教育,民生政策落实比较好,因而其循环经济发展水平在国内相对最高,即综合发展水平最高。
第二类为统筹可持续发展水平较高的地区,包括河北、湖北、河南、黑龙江,安徽、湖南、辽宁、山东、江苏、四川,其中江苏的部分地区处在“长三角”黄金地带,“珠三角”外向型经济发展迅速,辽宁的铁矿石资源储量丰富,但由于科技成果转化能力相对较弱,加之对环保不够重视,因而其循环经济发展水平相对稍逊一筹。
四川、湖南、安徽则更注重发展教育、文化、医疗卫生和社会保障事业,对外开放越来越积极,以上省区是我国经济发展较快和很有潜力的地区,教育水平较高,是中国人才集聚、科技发展的窗口[4]。
第三类为综合发展水平很低的地区,包括海南,贵州、云南、甘肃、青海,新疆、山西、内蒙古、江西、吉林、陕西、福建、广西、宁。