各省市经济类型聚类分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

各省市经济类型分析

SY0906611 陆启超

摘要

判别分析(Discriminate)和聚类分析(Hierarchical Cluster)是进行统计分类的两种常用方法,本文利用这两种方法对于全国几个省市的按经济类和经济状况进行分类,并制定一定的分类规则(即判别函数),以便对于新加的样品能够按照这些规则进行很快的分类。

一个省市的经济类型和地区生产总值、三种产业在国内生产总值占的比重等因素相关。本文利用统计软件SPSS对全国各省市以上各方面2007年的统计数据进行聚类分析,得到了对各省市经济类型的分类结果,并通过验证三个特殊省份的经济类型,保证结果的正确性。分析结果反映了这些省市的经济类型和经济特点。关键字:聚类分析判别分析经济类型MATLAB

引言

中国经济在总体上发展迅速,但是区域发展不平衡的矛盾也日益突出,各地区由于各种因素经济类型呈现出巨大差异。英国经济统计学家,从若干国家经济统计数据中证明了随着经济的发展,人口的就业结构亦将发生相应变化。美国著名经济学家S.Kuznetz又对产业结构与经济发展的关系作了更深入的研究,在《现代经济增长》和《各国经济增长的数量分析》中指出经济的发展也必将引起产值结构的变化。

1聚类分析方法简介

聚类分析的基本思想是,从一批样品的多个观测指标变量中,定义能度量样品间相似程度的统计量,在此基础上求出各个样品之间的相似程度的度量值,按

相似程度的大小,将样品逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样品都聚集完毕,把不同类型一一划分出来,形成一个亲疏关系谱系图,用以更加直观的显示分类对象的差异和联系。聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。

根据分类对象不同,聚类分析分为样本聚类和变量聚类,即统计学上的Q 型聚类和R型聚类。常见的聚类分析方法有快速样本聚类和分层聚类。

快速样本聚类的前提是要已知将要聚成的类数,这样在使用这种聚类法的过程中能够很快的将观测量分到各类中去。

分层聚类方法根据聚类过程不同分为凝聚法和分解法。分解法,就是在聚类开始的时候,把所有个体都视为属于一个大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止;而凝聚法刚好相反,它是在一开始把参与聚类的每个个体视为一类,根据两类之间的距离或相似性逐步合并,直到合并成一个大类为止。

1.1直接聚类法

先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每次归并,都划去该对象所在的列与列序相同的行。经过没m-1次就可以把全部分类对象归类,这样就可以根据归并的先后顺序作出聚类谱系图。

1.2最短距离聚类法

最短距离聚类法在原来的m×m矩阵的非对角元素中找出,把分类对象Gp 和Gq归并为新类Gr,然后按计算公式计算原来原来各类与新类之间的距离,这样就得到一个新的m-1阶的距离矩阵;再从新矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,知道各分类对象被归为一类。

1.3最远距离聚类法

其与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。其使用的是最远距离来衡量样本之间的距离。

2 对各省市经济类型的聚类分析

一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件MATLAB 7.0,对北京市等省市2008年的人均地区生产总值(亿元)、职工平均工资(元)、从事第一、二、三产业的人的比例作为判别经济类型的五个因素,进行聚类分析。

根据地区发展的特点大概把我国划分为八大经济区域:南部沿海地区、东部沿海地区、北部沿海地区、东北地区、长江中游地区、黄河中游地区、西南地区、西北地区。希望通过这八大经济区的划分,来进行经济区的统一考虑,加强区域间的联系。

2.1 数据整理

下表是全国所有省市的相关统计数据,数据来源为《中国统计年鉴2009》。其中浙江、辽宁、云南三省的数据留作判别分析用。

地区地区生产

总值(亿

元)人口(人)职工平均工

资(元)

第一产业

(%)

第二产业

(%)

第三产业

(%)

北京9353.32 1695 55844 5.6 21.8 72.5 天津5050.40 1176 39990 15.5 40.5 44.0 河北13709.50 6989 24276 40.8 32.7 26.5 山西5733.35 3411 25489 40.6 26.4 33.0 内蒙古6091.12 2414 25949 50.5 16.9 32.7

辽宁11023.49 4315 27179 33.3 25.5 41.2 吉林5284.69 2734 23294 44.7 19.9 35.4 黑龙江7065.00 3825 21764 46.4 20.5 33.0

上海12188.85 1888 52122 5.5 39.3 55.2 江苏25741.15 7677 31297 20.9 44.4 34.7 浙江18780.44 5120 33622 18.2 46.5 35.3

安徽7364.18 6135 25703 44.7 27.0 28.3 福建9249.13 3604 25555 31.1 35.6 33.3 江西5500.25 4400 20597 40.7 27.4 31.9 山东25965.91 9417 26234 37.4 31.6 31.0

河南15012.46 9429 24438 48.8 26.8 24.4 湖北9230.68 5711 22384 35.4 24.6 40.1 湖南9200.00 6380 24146 49.6 20.0 30.4 广东31084.40 9544 33282 28.3 33.4 38.2 广西5955.65 4816 24798 55.2 20.0 24.8 海南1223.28 854 21767 53.8 11.3 34.9

重庆4122.51 2839 26640 37.1 26.6 36.3 四川10505.30 8138 24725 45.0 21.9 33.1 贵州2741.90 3793 23979 52.4 11.3 36.3 云南4741.31 4543 23305 62.6 12.2 25.1 西藏342.19 287 44055 55.7 10.4 33.9

陕西5465.79 3762 25478 46.8 20.7 32.5 甘肃2702.40 2628 23632 52.9 14.3 32.8 青海783.61 554 30101 44.5 21.3 34.2 宁夏889.20 618 30050 44.9 25.1 30.1 新疆3523.16 2131 24686 51.6 13.7 34.7

2.2 聚类分析

利用统计软件matlab 7.0对以上数据进行聚类分析,样品之间的距离采用欧式距离(Euclidean distance),聚类方法采用重心聚类法(Centroid clustering),

Matlab提供了两种方法进行聚类分析。

一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离,用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。

本文采用分步聚类的方法实现类别划分。实现的程序代码为:

结果:

相关文档
最新文档