聚类分析与判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用聚类分析和判别分析对我国各省市经济发展状况的分析
统计081 许建霞 089114284
摘要:转变经济发展方式是我国未来经济发展过程中一项重要而十分艰巨的任务,《中共中央关于制定国民经济和社会发展第十二个五年规划的建议》更是提出“十二五”时期要以加快转变经济发展方式为主线。要实现这一转变,它与调整经济结构是高度相关、相辅相成的,其中,产业结构的转型升级更是经济发展方式转变的体现和依托。当前我国经济发展方式粗放与面临着的诸多结构性矛盾,在很大程度上根源于我国经济发展过程中的“三个过度和一个缺失”,即:经济增长过度依赖投资、全球分工中过度依赖加工制造环节和加工贸易、竞争战略过度依赖成本价格,而产业链和价值链中研发设计、营销、品牌和供应链管理等高端环节缺失。要加快转变经济发展方式,就必须改变上述“三个过度和一个缺失”,促进产业结构转型升级,这也关系到当前战略性新兴产业发展是否能够摆脱过去发展模式,走出一条可持续发展的道路。 关键词: 聚类分析 判别分析 经济发展
一.研究背景
我国产业结构基本上分享了经济的增长效应,但协调效应、分配效应和就业效应不理想,环境效应问题比较突出,并且在总体上具有名义高度化较快而实际高度化不足的特征,我们必须紧紧抓住机遇,承担起历史使命,把加快经济发展方式转变作为深入贯彻落实科学发展观的重要目标和战略举措,毫不动摇地加快经济发展方式转变,不断提高经济发展质量和效益,不断提高我国经济的国际竞争力和抗风险能力,使我国发展质量越来越高、发展空间越来越大、发展道路越走越宽。
二.方法介绍
1.聚类分析方法介绍
聚类分析是从事物数量上的特征出发对事物进行分类,是事物分类学和多元统计技术结合的结果,是一种较为粗糙的,理论并非完善的分析方法,但是其使用简便,分类效果较好,其内容也在不断丰富中,是常用的数据探索性分析工具。 聚类分析(Cluster Analysis )又称为集群分析,其分析的基本思想是依照事物的数值特征,来观察各样品之间的亲疏关系。而样品之间的亲疏关系则是由样品之间的距离来衡量的,一旦样品之间的距离定义之后,则把距离近的样品归为一类 。聚类分析既可以对样品聚类,又可以对变量聚类,样品聚类也称为Q 型聚类,变量聚类也称为R 型聚类。本文先采用样品聚类,然后再采用变量聚类。 2.判别分析方法介绍
费希尔判别的基本思想是投影。将k 组m 元数据投影到某一个方向,使得投影后组与组之间尽可能地分开。而衡量组与组之间是否分开的方法借助于一元方差分析的思想。利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是很一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出。
设从总体),,1(k t G t 分别抽取m 元样本如下:
),,1;,,1()',,()
()(1)()(t t im t i t i n i k t x x X ===。
令)',,(1m a a a =为m 维空间任一向量,X a x u ')(=为X 向量以a 为法线方向上的投影。上述k 个组中的m 元数据投影后为
∑==111)1()(1)
1()1()
()
1()
1(11,',,':n j j n X n X
X
a X a G 记 ∑==111
)()(1)
()()
()()
1(1,',,':n j k j k k n k k X n X
X
a X
a G 记 每个总体的数据投影后均为一元数据。对这k 组一元数据进行一元方差分析,其组间平方和为:
∑=-=k
t t t X a X
a n B 12
)
(0)''(Ba a a X X X X n a t k
t t t ')'()(')(1
)(=--=∑=
其中)
(t X
和X 分别为t G 的样本均值和总体样本均值,并记∑∑===k t n j t j t X n X 11
)
()(1
合并的组内平方和为2)(11
)()(0)''(t k
t n j t j X a X a A t
-=∑∑==
Aa a a X X X X a t t j t k t n j t j t
')')((')()()()(11
)()(=--=∑∑==
其中合并的组内离差阵A 为)')(()()()()(11
)()(t t j t k t n j t j X X X X A t
--=∑∑==
因此,若k 个总体的均值有显著差异,则比值
)(ˆ''a Aa
a Ba
a ∇=,应充分大。利用方差分析的思想,此问题化为求投影方向a ,使)(a ∇达极大值。显然使)(a ∇达极大的解a 不唯一。若a 使)(a ∇达极大,则Ca 也使)(⋅∇达极大,故对a 附加一约束条件,即选取a ,使1'=Aa a 。因此,问题又化为求a 使)('a Ba a ∇=在1'=Aa a 条件下达极大。
三.聚类分析和判别分析具体应用 1.数据来源与指标变量选取
本文所采用的数据全部来自2010年中国统计年鉴,我们选取的十个指标,选取的指标有:居民消费价格指数累计x1(上年同期=100),单位地区生产总值能耗x2(吨标准煤/万元),生活消费支出总计x3(元),农村人口比重x4(%),自然增长率x5(‰),2000年预期寿命x6(岁),自然保护区面积x7(万公顷),工业总产值x8(亿元),本、专科在校学生数x9(人),地区总产值x10(亿元)。
我们采用的数据如下表1。
表1 各省市的各项指标值