北航数理统计聚类分析大作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用数理统计大作业(二)
部分省市经济类型的聚类和判别分析
学院:学号:姓名:班级:
机械工程及自动化学院
SY1007???
XXXXX
51班
2011年1月7日
目录
摘要 (1)
符号说明 (1)
0 引言 (1)
1 源数据的提取 (1)
2 聚类分析过程 (2)
2.1 基本概念 (2)
2.2 聚类分析过程 (2)
2.3判别分析 (5)
2.4分类结果分析 (7)
3 结论 (7)
参考文献 (8)
部分省市经济类型的聚类和判别分析
摘要
一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。
关键词:经济类型,聚类分析,判别分析,SPSS
符号说明
符号说明
X1 地区生产总值
X2职工人均工资
X3第一产业在国民生产总值中占的比重
X4第二产业在国民生产总值中占的比重
X5第三产业在国民生产总值中占的比重0 引言
随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。
1 源数据的提取
本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、
河南省、广东省、四川省和山东省总计13省2008年的五种数据。分别为:地区生产总值(亿元)X1、职工人均工资(元)X2、第一、二、三产业(X3、X4、X5)各自在国民生产总值中占的比重。
分析用到的源数据如表1所示。
表1 分析用到的源数据
地区生产总值
(亿元)
职工人均工资
(元)
第一产业第二产业第三产业
北京10488.03 56328 1.1 25.7 73.2 天津6354.38 41748 1.9 60.1 37.9 河北16188.61 24756 12.6 54.2 33.2 辽宁13461.57 27729 9.7 55.8 34.5 江苏30312.61 31667 6.9 55.0 38.1 浙江21486.92 34146 5.1 53.9 41.0 安徽8874.17 26363 16.0 46.6 37.4 湖北11330.38 22739 15.7 43.8 40.5 湖南11156.64 24870 18.0 44.2 37.8 河南18407.78 24816 14.4 56.9 28.6 广东35696.46 33110 5.5 51.6 42.9 四川12506.25 25038 18.9 46.3 34.8 山东31072.06 26404 9.7 57.0 33.4
2 聚类分析过程
2.1 基本概念
聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。
判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。
2.2 聚类分析过程
进入SPSS18.0程序,选择分析→分类→系统聚类,进行系统聚类分析
(Hierarchical Cluster Analysis),引入的变量是X1至X5。采取对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。聚类方法使用类间平均链锁法,距离测量技术选择距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类,得出以下计算结果。
法为默认设置,即欧氏距离平方值。
表3显示了各地区经济类型的相近程度,越接近于1,说明相近程度越高。
表3 相似矩阵
表4所列各项的意义如下:阶-----聚类步骤号;群集组合-----在某步中合并的个案;系数-----距离或相似系数;首次出现阶群集-----新生成聚类;下一阶-----对应步骤生成的新类将在第几步与其它个案或新类合并。
图1 分析得到的树状结构图
图2 聚类分析结果
图2显示了聚类分析结果。北京市和天津市分为一类,河北省、浙江省和河南省分为一类,辽宁省、安徽省、湖南省、湖北省、四川省分为一类,江苏省、山东省、广东省分为一类。
2.3判别分析
进入SPSS18.0程序,选择分析→分类→判别,采用自变量全进入模型来进行判别分析,由于在聚类分析中将13省市的经济类型分为四类,定义分组变量的取值范围为1~4。得到以下分析结果。