各省市经济类型聚类分析

合集下载

中国各省经济发展状况分析——基于聚类分析

中国产经CHINESE INDUSTRY &ECONOMY中国产经Chinese Industry &Economy摘要：近年来，我国经济快速发展，人民生活幸福感也不断提高，但不同地域的人民幸福感仍有较大差别。

经济的发展状况与人民幸福指数相关联，因此认清目前我国各省的经济发展状况显得尤为重要。

本文通过变量聚类法将搜集到的11个指标聚为知足充裕体验指数、公共服务体验指数和社会信心体验指数。

通过IML 计算3个类成分得分，对各省在3个类成分上分别排名，运用类成分进行系统聚类，将我国各省的经济发展水平划分为4类。

济发展水平最高的北京、上海归属第一类；经济发展水平较高的河北、天津等24个省份为第二类；经济发展水平一般的内蒙古、新疆等4个省为第三类；发展水平较低的西藏为第四类。

本文基于研究结果提出了相应的对策及建议，为进一步提高各省经济发展水平，提高人民幸福指数提供理论依据。

关键词：变量聚类；系统聚类；幸福指数一、问题背景（一）选题背景自改革开放至今，虽然我国的经济有了快速健康的发展，但各地区仍存有发展不平衡的态势。

党在十七大报告中明确指出：“逐步提高居民收入在国民收入分配中的比重，整顿分配秩序，逐步扭转收入分配差距扩大超势。

”为此，我们根据居民收入的不同种类，将收入状况趋同的地区进行了系统地分类，以找到解决当前面临的增加居民收入问题的突破口。

（二）选题意义为了更好地提高我国城乡居民的幸福感，清楚地认识我国各省的经济发展状况。

本文采用聚类分析法，对2017年我国31个省、市、自治区的经济发展状况进行了系统性的研究。

通过变量聚类法对我国各省的居民的可支配收入情况进行聚类。

通过选择合理的反应幸福指数的变量用主成分分析法进行排名，并用聚类分析法将幸福指数划分为生活质量与幸福、社会环境与幸福和自然环境与幸福三部分，合理地透视我国经济发展的区域性差异。

并基于研究结果，提出了相应的建议，为进一步提高人民生活幸福指数提供理论依据。

各省份发展水平的主成分及聚类分析

各省份发展水平的主成分及聚类分析运用数理统计方法对全国29个省份的综合发展水平进行综合评价，建立评价指标体系，运用主成分方法对原始数据进行数学处理，得出省份综合发展水平的综合指标，再用聚类分析方法进行指标聚类分析，找出影响城市发展的主要因素，并对如何提高城市发展提出合理性建议。

标签：主成分分析；聚类分析；综合发展引言如今，一句“你幸福吗？”已是全中国老百姓最常被问到的话题，然而现在人们的幸福感已经不单单是几十年前的吃得饱、穿得暖，人们对待幸福的定义更加注重于民生，医疗、教育、经济、环境、食品等等，已成为人们判定幸福的新标准。

据统计，浙江杭州连续7年蝉联“最幸福感城市”桂冠，其次是成都、长沙，相反对于中国的顶级城市上海和北京却很少入围，近10年中仅一次入围“最幸福感城市”，因此一个城市发展得好坏已从从前单一的经济时期过渡到了如今的综合发展阶段，为全面具体地了解一个省份的发展水平，现我们将从6个方面来综合地分析全国29个省份的综合发展情况，并根据得出的客观结果提出可行性建议。

一、方法介绍（一）主成分分析主成分分析也称主分量分析，旨在利用降维的思想，是把多指标转化为少数几个综合指标的一种多元统计分析方法。

在用统计分析方法研究多变量的课题时，变量个数太多会增加课题的复杂性，因此，人们自然希望用较少的综合变量来代替。

在很多情形下，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息[1]。

主成分分析是设法将原来众多具有一定相关性的（比如p个）指标，重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来p个指标做线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var（F1）越大，表示F1包含的信息越多。

案例分析江苏省各市经济发展水平的聚类分析

案例分析江苏省各市经济发展水平的聚类分析标题：案例分析：江苏省各市经济发展水平的聚类分析一、引言江苏省作为中国的重要经济大省，其各市的经济发展水平一直以来备受。

对江苏省各市经济发展水平进行准确的评估，不仅有助于我们理解各市的经济现状，也有助于制定针对性的经济发展策略。

本文采用聚类分析的方法，对江苏省各市的经济发展水平进行分类，并对其结果进行深入剖析。

二、数据来源与方法1、数据来源我们选取了江苏省各市的GDP、人均GDP、工业增加值、固定资产投资、社会消费品零售总额、出口总额、地方财政收入等经济指标作为数据来源。

这些数据均来自江苏省统计局发布的年度报告，具有权威性和准确性。

2、方法选择考虑到数据的复杂性和多元性，我们选择采用聚类分析的方法对江苏省各市的经济发展水平进行分类。

聚类分析是一种无监督学习的方法，能够根据数据的相似性将数据集划分为不同的类别。

在聚类分析中，我们使用了K-means算法，这是一种常见的聚类算法，能够根据设定的类别数，将数据集划分为不同的类别。

三、结果与分析1、数据预处理在进行聚类分析之前，我们首先对收集到的数据进行预处理，包括缺失值填充、异常值处理以及标准化处理等。

经过预处理后的数据，能够更好地反映江苏省各市的经济发展水平。

2、聚类分析结果我们设定类别数为3，对江苏省各市的经济发展水平进行聚类分析。

经过多次尝试和调整，最终得到了较为合理的聚类结果。

该结果将江苏省各市划分为三个类别：高发展水平市、中发展水平市和低发展水平市。

3、结果分析（1）高发展水平市：这一类别的城市主要包括南京、苏州和无锡等城市。

这些城市的经济发展水平较高，各项经济指标均高于全省平均水平。

这些城市的经济结构较为合理，工业增加值和地方财政收入较高，显示出较强的经济实力和竞争力。

（2）中发展水平市：这一类别的城市主要包括常州、南通、徐州等城市。

这些城市的经济发展水平处于全省平均水平之上，但相较于高发展水平市还存在一定差距。

基于主成分分析和聚类分析的我国各省市经济效益研究PPT课件

主成分分析
原理及思想： • 主成分分析就是将众多具有一定相关性的指标（p个
指标），重新组合成一组相互无关的几个综合指标来代替原来的指标。通常数学上的处理就是将原来的指标做线性组合，作为新的综合指标。 • 主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。
Y2=-0.2595x2+0.13437x2+0.265284x3+ 0.711303x4+0.491309x5-0.16495x5-0.22539x6 0.05236x7-0.05236x8-0.12675x9
对所选主成分做经济解释：
第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外，其余变量的系数相当，所以第一主成分可看成x1、x2、x3、 x6、x7、x8、x9的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果，它是投入与产出之比。第一主成分所占信息总量为68.3%，在我国目前的工业企业中，经济效益首先反应在投入与产出之比上，中固定资产所产生的经济效益更大一些。第二主成分是把工业生产中所得总量（即工业总产值和销售收入）与局部量（即利税）进行比较，反映了产出对国家所做的贡献。这样，在抓企业经济效益活动中，就应注重投入与产出之比和产出对国家所做的贡献，抓住了这两方面，经济效益就一定会提高。
聚类分析
原理及思想：聚类分析将个体或对象分类，使得同一类
中的对象之间的相似性比与其他类的对象的相似性更强。样品或指标（变量）之间存在着程度不同的相似性（亲疏关系），根据一批样品的多个观测指标，找出一些能够度量样品或指标之间的相似程度的量，以这些量为划分类型的依据，把相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另外一类，…。

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析近年来，我国经济发展迅速，全国各地区也呈现出不同程度的经济发展水平。

为了对全国30个市自治区的经济发展水平进行综合评价，基于因子分析和聚类分析的方法被广泛应用。

首先，我们通过因子分析的方法对数据进行降维和综合评价。

因子分析将多个变量综合为少数几个因子，并可以解释这些因子与原始变量之间的关系。

我们选择了GDP总量、人均GDP、产业结构、基础设施建设、外资吸引等指标作为评价经济发展水平的变量。

通过因子分析，我们可以得到几个综合指标，用于评价各个市自治区的经济发展水平。

接着，我们可以利用聚类分析的方法进行分类。

聚类分析是将样本划分为几个相似的类别，每个类别内的样本相似度高，而类别间的相似度较低。

我们可以通过聚类分析得到若干个类别，这些类别可以代表不同的经济发展水平。

通过将市自治区进行分类，可以更加直观地展示各地区之间的差异，也可以为地方政府提供参考。

最后，我们可以将因子分析和聚类分析的结果进行综合。

通过对因子得分和聚类结果的比较，可以得到更加准确的综合评价。

在综合评价的过程中，我们可以进一步分析各个市自治区的优势和劣势，以及存在的问题和潜在的发展机会。

这些分析结果可以为地方政府提供经济发展策略和政策的参考。

在实施全国30市自治区经济发展水平综合评价的过程中，我们需要充分考虑指标的选择和权重的确定。

指标的选择应当代表经济发展的各个方面，权重的确定应当根据实际情况和专家意见综合考虑。

另外，我们需要注意数据的可靠性和准确性，以及分析方法的合理性和可操作性。

总之，基于因子分析和聚类分析的方法可以对全国30市自治区的经济发展水平进行综合评价。

这种方法能够降低数据的维度，提取出关键的因子，并对样本进行分类。

通过综合分析和评价，可以为决策者提供参考，促进经济发展水平的提高。

对我国各地经济发展水平进行聚类分析

对我国各地经济发展水平进行聚类分析对我国各地经济发展水平进行聚类分析摘要：区域经济协调发展对于一个国家的长期发展具有深远的战略影响。

本文根据《中国统计年鉴》选用人均GDP、居民消费水平、人均进出口总额等指标，采用聚类的方法对我国各地区经济进行聚类，并根据结果分析特点，得出具有现实意义的结果，以供有关部门参考。

关键字：聚类分析区域经济发展水平分类国家经济发展不仅要看总体GDP的高速的增长，应考虑到居民生活水平、各个产业的发展情况、人民收入等各个方面。

同时，各地区经济水平的协调发展更是不可忽视的一方面，了解区域发展情况，并对其进行分类对我国经济发展战略的制定等具有重要而深远的意义。

聚类分析就是根据事物的某方面特征把他们划分为若干小类，使得隶属同一类的个体具有较高的相似度或类似的性质，而不属于同一类的个体具有较低的相似度的分析过程【1】。

在地区经济发展水平的分析中，可以利用聚类分析的方法，根据一定的具有代表性的指标将不同的地区进行分类。

从而制定相应的发展策略。

一区域经济水平策聚类分析的指标选择及所所选数据反映地区经济发展状况的指标种类多样,所以所选的指标不仅要有明确的社会和经济意义,而且要能代表地区经济发展水平的某一个方面。

指标选择要有代表性和针对行，本文根据经济发展状况选用了八个指标进行聚类分析，各地人均GDP用以代表各地区经济的总体发展状况，第一二三产业人均GDP用以代表各地不同产业的发展水平，人均进出口总额用以表示各地区的对外贸易情况，居民消费水平用以表示各地居民的生活水平，在岗职工平均工资用以反映地区职工工资水平，人均财政收入用以反映地区公共建设投资能力等。

本文根据《中国统计年鉴》对2008年各地区降级指标数据的统计，直接引用其中指标或根据其中相关指标换算获取所需指标，如下表：表1二中国各地区经济发展水平的聚类分析（一）聚类方法概述在进行聚类分析时本文采用K-means聚类方法，K-means聚类方法又被称为逐个修改法。

应用聚类分析对部分省市经济类型的分类研究

应用聚类分析对部分省市经济类型的分类研究宜春学院数学与计算机科学学院　戚　珉　宜春学院生物工程研究所　王　霏[摘　要]一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS11.0,对北京市等省市2002年的人均国民生产总值(元)、职工平均工资(元)、第一二三产业在国民生产总值占的比例作为判别经济类型的五个因素,进行聚类分析,分析了分类结果,证明和我们的直观判断相吻合。

说明进行本文的分析在一定程度上反映了这些省市的经济类型和经济特点。

[关键词]经济类型　聚类分析　SP SS 1引言随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。

通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。

一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大统计软件SP SS 11.0,对北京市、天津市、辽宁省、黑龙江省、广东省、浙江省、陕西省和甘肃省2002年的人均国民生产总值(元)、职工平均工资(元)、第一二三产业在国民生产总值占的比例作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,辽宁省和黑龙江省属于一类,广东省和浙江省属于一类,陕西省和甘肃省属于一类,这个结果和我们的直观判断一致。

这个结果充分说明了本文进行的分析是合理的,具有一定的科学性。

2聚类分析过程2.1基本概念聚类分析是根据事物本身的特性研究个体分类的方法。

聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。

根据分类对象不同分为样品聚类和变量聚类。

样品聚类在统计学中又称为Q 型聚类。

是根据被观测对象的各种特征,即反映被观测对象的特征的各变量值进行分类。

变量聚类在统计学中又称为R 型聚类。

反映事物的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。

2.2原始数据本文的数据均来自2003年出版的《中国统计年鉴》,通过对北京市、天津市、辽宁省、黑龙江省、广东省、浙江省、陕西省和甘肃省2002年的人均国民生产总值(元)、职工平均工资(元)、第一二三产业在国民生产总值占的比例作为进行判别经济类型的五个因素,进行了聚类分析。

全国30省市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30省市自治区经济发展水平综合评价——基于因子分析和聚类分析王喆[摘要] 衡量一个地区的经济发展程度，要从其生产、消费等各个方面进行综合评价。

本文基于全国30省市自治区的GDP、CPI等8个经济指标的数据，应用因子分析的方法对其经济发展水平进行了排名和聚类分析的方法将其分为一线、二线、三线地区。

根据排名及分类结果，本文对各类地区的经济发展状况进行了全面评价，并提出了相关建议。

[关键词]因子分析；聚类分析；经济发展；综合评价一、数据背景1.变量选取本文选取了国民生产总值、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品价格指数、工业总产值等8个指标进行量化评价我国30个省、市、自治区（不包括重庆、香港、澳门、台湾）的经济发展水平状况。

二、数据描述1.描述统计本文计算了各变量的极大值、极小值、均值、标准差等指标（表1），计算结果表明，各变量均不存在缺失值，数据的完整性较好。

各地区的的居民消费价格指数、商品价格指数这两个指标差异不大，但是其他指标的差异很明显，这也符合我国经济发展不平衡、地区差异显著的特点。

表1 各变量的一般统计量描述表2.相关性分析根据各变量的经济含义，许多变量之间应该存在高度相关，为了更好的看出各变量的相关关系，本文计算了各变量之间的Pearson相关系数及相关的显著性检验（表2）。

结果表明，许多变量之间存在较强的相关关系，比如国民生产总值与固定资产投资之间的相关系数高达0.951，居民消费价格指数与商品价格指数之间的相关系数高达0.763。

**表示在0.01 水平（双侧）上显著相关。

*表示在0.05 水平（双侧）上显著相关。

三、因子分析1.KMO 和 Bartlett 的检验做因子分析之前，首先要进行KMO检验或Bartlett检验，只有当检验通过之后才能进行因子分析，一般认为KMO检验的结果大于0.5或Bartlett检验通过即适合进行因子分析。

各经济的聚类分析

关于全国各省经济经济类型的聚类分析系：工商管理系专业：11 统计学姓名：李良摘要：改革开放以来,中国各省市在经济发展方面都取得了显着的成绩。

这篇论文利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析，将其经济分成4种类型，并对浙江、湖南、甘肃进行类型判别分析。

通过这两个方法对全国各省进行经济分类。

本文选取了7项经济指标作为决定经济类型的影响因素，各项数据均来自2010年国家统计年鉴。

分析结果表明：北京市和上海市为第一类经济类型；江苏省和山东省为第三类型；广东省为第四类经济；其他25个省、直辖市、自治区均属于第二类型。

关键词：聚类分析、经济类型引言：一聚类分析(cluster analysis)是一组将研究对象分为的群组(clusters)的统计分析技术。

聚类分析区别于分类分析(classification analysis) ，后者是有监督的学习。

它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

系统聚类分析又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。

二聚类分析的优点:聚类分析简单、直观;主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。

研究者在使用聚类分析时应特别注意可能影响结果的各个因素。

三聚类分析相比较于其他分析方法而言：(1)聚类分析一般寻求客观的分类方法，在进行聚类分析以前，对总体到底有几种类型并不知道。

(2)两类方法的建立的模型不一样，因此在处理某些特定的问题时，就会得出不一样的结果，就本题看来，出现了经济类型上的判别不一致的细微差异，但是作为分类方法来说，两种方法在大部分情况下都能取得一致的效果。

聚类分析-全国各省经济

全国各省经济的聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。

它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类，从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品，希望根据这些历史的经验（样品），总结出分类的规律性（判别函数）来指导未来的分类。

聚类分析与判别分析都是研究分类的，但是它们有所区别：(1)聚类分析一般寻求客观的分类方法，在进行聚类分析以前，对总体到底有几种类型并不知道。

判别分析则是在总体类型划分已知，在各总体分布或来自总体训练样本的基础上，对当前的新样本判定它们属于哪个总体。

(3)聚类分析与判别分析也是有联系的。

如我们对研究的多元数据的特征不熟悉，当然要先进行聚类分析，才能考虑判别分析的问题。

分析背景随着改革开放的进行，我国进入了一个前所未有的经济飞速发展时期，整体经济实力与日俱增。

但是，我们也应该看到各个地区的发展不平衡，沿海地区发展较快，经济增长也较快，而中西部发展相对较慢。

因此，基于这种现状，本文对全国各地区的经济进行聚类分析。

首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类，然后对浙江、湖南、甘肃三省的经济类型进行判别分析。

通过本文的分析研究，可以清楚地认识到我国经济类型构成，以及各地区的发展差异，最终对国家以及各地区的发展及政策制定实施起到指导作用。

安徽省各市经济发展的聚类分析

安徽省各市经济发展的聚类分析段凤君(安徽师范大学，芜湖市 241000)关键词：区域差异；主成分分析；指标体系；聚类分析摘要：本文着力于实现对安徽省各市按其经济发展水平进行聚类，以本省17个市为研究对象，选取衡量地区经济发展状况的经济规模、经济结构、居民生活水平、对外经济贸易及科学教育水平5个方面共14项指标，建立相应的统计指标体系。

首先，为遵循选取指标体系时的无重复性原则，本文对14项指标进行了主成分分析，得出14项指标中可以提取出3个主成分，其累积方差贡献率达93.486%。

其次，借助主成分函数给出了综合评价函数，对本省17个市进行了综合评价，并给出了排序。

最后，借助各市的主成分得分、依据多元统计分析中的聚类分析方法，对17个市进行了聚类分析，最终将17个市分成5类地区，并结合分类结果提出了一些促进本省经济发展、缩小省内市间发展差异的建议。

The Cluster Analysis of the Economic Growth of Each City in Anhui ProvinceFengjun Duan(Anhui Normal University,Wuhu 241000)Key words: Regional differences; Principal Component Analysis; Index System; Cluster AnalysisAbstract: This paper focuses on the realization of clustering of the cities in Anhui province according to their level of economic development, making the 17 city in the province be the research object, selecting 14 indicators in 5 aspects including economic scale, economic structure, the living standards of residents, foreign economic trade and science education level as full measure of regional economic development to establish the corresponding statistical index system. First of all, in order to follow the principle without repeatability when select the index system, this paper goes on principal component analysis with 14 indicators, getting the result 14 indicators can extract 3 principal components, and their cumulative variance contribution rate reaches 93.486%. Secondly, this paper gives the comprehensive evaluation function by means of the principal component functions, making comprehensive evaluation of 17 c ities in the province, and giving the sort. Finally, 17 cities’ cluster analysis was carried out with the principal component scores of cities, basing on the cluster analysis method in multivariate statistical analysis, getting the results 17 cities are divided into 5 areas, and the paper puts forward some suggestions to promote the economic development and narrow the development difference between the cities combined with the classification results.1 引言1.1研究背景与研究意义1.1.1选题的背景[1]最近十几年来，安徽省经济的总体水平不断提高，经济实力不断增强，居民生活水平日益提高。

经济区划的聚类分析.doc

从各项指标来看除个人购买商品房住宅面积比重比较高以外其余各项指标均处于中下游位置。

4）经济较落后区：安黴、江西、、、黑龙江、、、内、宁夏、吉林、。

这些省市地区也大多分布在我国中西部地区，房地受制于当地经济条件和经济环境的影响也比较缓慢,从各项指标情况来看，除房屋建筑面积竣工率最高外，其他指标基本都处于下游水平。

这四类区中经济较发达区与经济潜在区之间区域差异相对来说较小，经济发达区又与其他三大区距离拉开较大.2历年的主要研究结果３．1水平的总体趋势分析我们将这30个省市地区的１１项指标值的期望和标准差系数进行汇总见表３），指标的期望值用来说明当年在该指标上的一般水平，标准差系数用来说明当年水平在地区间差异程度。

从表３可知，11项指标当中有１0项都是逐年递增的，只有变量V4房屋建筑面积竣工率)呈现出下降的趋势，这表明我国1９９9-20０3这几年总体来说处于上升的势头.从标准差系数来看，各项指标值的绝对数值仍然保持较高的水平，但是从以时间为轴的动态变化过程来看，除V4房屋建筑面积竣工率)基本持平，Ｖ7竣工房屋造价)在2０03年有一个较大的上升反弹外,其余九项指标都从19９9－2００3年均处于下降趋势，这表明我国的虽然还是存在严重的地区之间的不平衡,但这种不平衡程度是在逐年下降的。

ﻭ3。

２经济区划的聚类结果比较分析ﻭ通过将19９9—２０03年的聚类结果对比分析见表4),再结合各年的聚类图谱由于篇幅限制没有将各年的聚类图谱一一列出)，我们发现在这五年里的呈现ﻭ出以下几个特点和趋势：1)各年的水平的区域分布结构有变动，但变动不大，总体来看,呈现出由头轻脚重发达区太少而较落后区太多）向均衡的方向的趋势.、广在19９9—2002年一直雄居榜首，而在这四年内落后地区所占比重有增无减,直到2003年、、山、浙江才进入发达地区行列,较落后地区所占比重也开始下降，ﻭ整体开始呈现出向均衡方向的趋势。

２)1999—２0０2年期间发达区和较发达区之间距离较小，同时潜在区和较落后区之间又比较接近，而在这两者之间存在比较大的差距ﻭ此系由聚类图的分析比较而得）。

全国21个城市社会经济发展指标的聚类分析

全国21个城市社会经济发展指标的聚类分析社会经济发展是一个复杂而多样的过程，可以用各种指标来反映不同城市的发展水平和特点。

通过对全国21个城市的社会经济发展指标进行聚类分析，可以帮助我们更好地了解城市发展的现状和趋势。

首先，我们需要选择适当的指标来衡量城市的社会经济发展。

常见的指标包括人均GDP、城市化率、人口规模、教育水平、就业率、收入水平等。

这些指标代表了一个城市的经济实力、人口规模、教育质量和就业机会等重要方面。

接下来，我们可以使用聚类分析方法对这些指标进行分析。

聚类分析是一种无监督学习的方法，它基于样本间的相似性将样本划分为多个组别。

在这个问题中，我们的样本是21个城市，指标是城市的社会经济发展指标。

聚类分析的主要步骤包括：1.数据准备：将21个城市的社会经济发展指标整理成一个数据矩阵，每个城市对应一行数据，每个指标对应一列数据。

2.数据标准化：对于不同的指标，它们的量纲、单位和范围可能不同，为了进行比较和分析，我们需要对数据进行标准化处理，使得每个指标都具有相同的量纲和范围。

3. 聚类方法选择：选择适当的聚类方法来对数据进行分组。

常见的聚类方法包括K-means聚类、层次聚类等。

不同的聚类方法有不同的特点和适用性，需要根据实际情况选择。

4.聚类分析：根据选择的聚类方法，将数据进行聚类分析。

聚类分析的目标是将21个城市划分为几个组别，使得同一组别内的城市相似度较高，而不同组别之间的城市相似度较低。

5.分析结果解释：对聚类结果进行解释和分析。

可以对每个组别的城市进行比较，分析它们的特点和发展趋势。

也可以对不同指标的贡献度进行分析，找出主要影响城市发展的指标。

通过以上步骤，我们可以对全国21个城市的社会经济发展指标进行聚类分析，得到一些有关城市发展的重要结论。

这些结论可以为政府和决策者提供信息和参考，帮助他们了解不同城市的发展状况和问题，并采取有效的措施来促进城市的发展和改善。

中国区域经济发展的聚类分析

２．１最短距离法
类与类之间的距离为两类最近样品间的距离，即Ｄ＝ｉｎｄ，其树形图如图１所示。
三三三亍———＝三三三三；｝一…一］ｉ
三三三三
｛ｌ
｝
பைடு நூலகம்
在坚持区域经济协调发展的大环境下，该问题具有较强的实际意义。通过上面的聚类分析，根据各省（直辖）市综合实力发展的主要指标，结合ＳＡＳ软件的应用，我们将２０１２年全国各省（直辖）市的综合实力发展水平划分为４类水平，属于高生活水平的省（直辖）市有３个，属于较高生活水平的省（直辖）市有７个，属于较低生活水平的省（直辖）市有１７个，属于低生活水平的省（直辖）市有４个。（作者单位：南京师范大学数学科学学院）
ｌ｝ … ｛ｌ
｝』ｌ
ｌ
ｔ４ ’ ■
Ｉ
三三兰三三三三三三三二二二＝ …一卜…一
■ … 口ｆ１Ｉ … ｈｔ一 ●
图ｌ
［１］王学艮应用多元分析［Ｍ］．中国：上海财经大学出版社，２０Ｏ９．［２］傅丽萍，孙秋碧．中国区域经济发展环境分类研究［Ｊ］．福州大学学报（哲学社会科学版），２００８，（８４）：４７—５２［３］游中胜．我国大陆各地区居民生活水平分类［Ｊ］．重庆工学院学报，２００９，２３（８）：６３—６６［４］万丽娟．全国地区经济发展水平的统计分析［Ｊ］．经济观察，２００８，（４）：９—１０［５］祝新亚，李许坚．基于聚类分析和判别分析的我国主要省市综合实力状况评价［Ｊ］．北方经济，２０１１，（４）：１６—１８

基于主成分分析和聚类分析的我国各省市经济效益研究

基于主成分分析和聚类分析的我国各省市经济效益研究近年来，我国各省市经济效益差异逐渐凸显。

为了深入了解和研究各省市的经济效益，可以采用主成分分析和聚类分析的方法来进行研究。

主成分分析可以用来降维和提取数据特征，聚类分析可以用来发现数据之间的相似性和差异性。

首先，我们需要收集一些数据，例如各省市的GDP、人均收入、产业结构、消费水平、教育水平等指标，这些指标可以用来反映各省市的经济效益情况。

然后，我们可以利用主成分分析来降维和提取数据特征。

主成分分析是一种常用的降维方法，通过线性变换将原始数据映射到一个低维空间中，同时尽量保留原始数据的信息。

在这个过程中，我们可以得到一些主成分，主成分代表了原始数据中的一部分变异性。

通过主成分分析，我们可以将原始数据从多个指标中压缩为少数几个主成分。

通过主成分分析后，我们得到了一些主成分，每个主成分代表了原始数据中的一部分变异性。

接下来，我们可以利用聚类分析来发现数据之间的相似性和差异性。

聚类分析的目的是将数据集中的样本划分为不同的组别，每个组别内的样本应该尽可能相似，而不同组别之间的样本应该尽可能不相似。

在这个过程中，我们可以使用一些相似度或距离度量方法，例如欧氏距离或相关系数等。

通过聚类分析，我们可以将各省市划分为不同的类别，每个类别代表了一组经济效益相似的省市。

这样可以帮助我们更好地理解和分析各省市之间的经济效益差异，并挖掘出其中的规律和问题。

例如，我们可以找出经济效益较高的省市的共同特征，进而分析这些特征对经济效益的影响因素。

最后，我们可以通过可视化的方式展示各省市的经济效益研究结果。

例如，可以使用散点图来展示各省市在主成分空间中的分布情况，以及不同类别的省市的分布情况。

这样可以更直观地展示各省市之间的经济效益差异和相似性。

总之，基于主成分分析和聚类分析的研究可以帮助我们深入了解和分析我国各省市的经济效益。

通过这种研究方法，可以有效地发现各省市的经济效益差异以及其中的规律和问题，为相关决策提供科学的依据和参考。

spss数据分析作业-中国区域经济类型的聚类和判别分析

应用数理统计（论文）中国区域经济类型的聚类和判别分析指导老师：**院系名称：材料科学与工程学号：SY********名：***2014年12月20日摘要区域经济发展的指标体系，包括人口总数、第一产业总产值、第二产业总产值、第三产业总产值、财政收入、社会消费品零售总额、货物进出口总额、平均工资、人均可支配收入和居民消费水平等。

本文主要通过系统类聚的方法，将全国31 个省市（自治区）的2013年经济发展状况进行归类分析，得出全国区域经济发展水平的一些基本情况，并进行了相应的判别分析，为我国经济在快速发展的前提下，做好协调发展提供一些启示。

关键字：区域经济聚类分析判别分析中国区域经济类型的聚类和判别分析目录1引言 (4)2数据收集 (5)3聚类分析 (8)3.1聚类分析概述 (8)3.2聚类分析过程及结果输出 (8)3.3讨论 (12)4判别分析 (14)4.1判别分析概述 (14)4.2判别分析过程及结果输出 (14)4.3讨论 (17)5结论 (18)参考文献 (19)应用数理统计（论文）1引言在制定国民经济和社会发展规划时，通常需要按照行政区域进行经济类型的划分，这有助于对不同地区经济发展存在的差异进行宏观调控，从而因地制宜出台相应的经济政策，促进各地区经济的协调发展，为国民经济持续协调健康发展奠定了坚实基础。

明确当前我国发达地区和落后地区的区间格局, 对于进一步的研究和分析我国各区域间经济发展的状况，并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。

在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。

在事先并不知道应将样品或指标分为几类的情况下，可以使用聚类分析根据样本或指标的相似程度，将样本或指标归组分类；而在事先已经建立了样品分类，需要将新样本归入到已知分类的样本组中时，就可以使用判别分析。

本文试图通过聚类分析的方法，分析2013 年中国31 个省市（区域）经济发展发展状况和差异情况，从中寻找一些有用的信息，提出对我国经济如何在快速发展的基础上，做到协调发展的一些思考。

判别聚类

中国省级经济类型分类与判别摘要: 进入二十一世纪后，中国经济继续保持稳步高速增长。

目前社会主义市场经济体制已经初步建立，市场在资源配置中的基础作用显著增强，宏观调控体系日趋完善；以公有制经济为主体、个体和私营等非公有制经济共同发展的格局基本形成，经济增长方式逐步由粗放型向集约型转变。

我国不同地区间有着较大的差异，这些差异使得我国的不同地区有着不同的经济发展类型。

本文通过各类生产总值和支出情况对各地区经济类型进行了聚类和判别分析。

关键词聚类分析判别分析经济类别1.引言我国不同地区间的经济发展水平有较大差异。

为了更好的发展各地区经济，我们应首先较好的分析出不同地区所属的经济类型，而后我们才有可能根据各地区特点，推动经济更好发展。

本文通过选取第一产业、第二产业、第三产业生成总值，人均生产总值和居民、政府消费支出作为判别经济类型的依据，使用聚类的方法对我国各省和直辖市经济类型做出分类，然后使用Fisher判别对各地区经济类别进行了判断。

首先本文介绍了聚类分析和判别分析的基础概念，然后说明了选取的变量和数据以及使用SPSS进行聚类、判别的结果，并完成了相应分析，最后总结了聚类和判别分析产生的结果的意义。

2.聚类和判别分析简述2.1.聚类世界上有许多事物，根据它们的共同特征我们可以把这些事物分为不同的种类。

有些事物的特征比较明显，例如动物可分为无脊椎动物、鱼类、鸟类、爬行类、哺乳类等，但是有些事物间并没有明显的区别，我们需要更标准的分类方法，聚类便是合理分类的统计方法。

聚类的基本思想是把某种性质相似的对象归为一类，而使不同类间有较大差异，更加不同的相似性的定义有不同的聚类方法，如Q聚类和R聚类。

系统聚类法师最常用的一种聚类方法。

初始时先把各个对象各自视为一类，然后逐步把关系密切的两类合并，直到最后把所有类合并为一类。

2.2.判别判别就是通过已知对象的类别和对象的一些属性，求出判别函数，之后可以根据判别函数来判断未知类别的对象。

基于聚类分析的我国各地GDP及影响因素分析

题目基于聚类分析的我国各地GDP及影响因素分析学生姓名陈煌学号1109014042所在学院数学与计算机科学学院专业班级数学与应用数学专业2011级数应1班指导教师李晓康基于聚类分析的我国各地GDP及影响因素分析陈煌（陕西理工学院数学与计算机科学学院数学与应用数学1101班,陕西汉中723001）指导教师:李晓康[摘要]:利用SPSS软件对全国30个省、直辖市、自治区的主要经济指标进行聚类分析,将其经济分成按照不同的分析方法可分为不同的几种类型.通过这种方法对全国各省进行经济分类.本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴.分析结果表明：北京市和上海市稳居第一类经济类型；江苏省和、山东省、广东省和浙江多数处于第四类经济；其他25个省、直辖市、自治区基本在第二类型与第三类型变化.[关键词]:SPSS软件;聚类分析;经济类型;GDP1.引言在当今欧美主导的经济发展理论下,衡量一个国家的综合实力看的不仅是国家的军事实力、国家影响力,而更看重国家的经济实力,而GDP代表一国或一个地区所有常住单位和个人在一定时期内全部生产活动的最终成果,是当期新创造财富的价值总量,它是一个国家经济实力的最好体现,具有国际可比性,是联合国国民经济核算体系(SNA)中最重要的总量指标,为世界各国广泛使用并用于国际比较.众所周知2008年我国GDP跃居世界第三位,是仅次于美国、日本的第三大经济国,而2009年在金融危机的影响下我国GDP稳中求进,依然保持着9.0%的增长态势.提高GDP已经成为经济发展的潮流,利用国家的各种有限资源,在最大程度上发挥资源的利用率,推动经济的发展是势在必行的,因为资源一直在减少,而人口一直在增加,要保持经济的增长就必要抓住主要因素,提高GDP.但是如果研究我国整体的GDP的意义就不大了，所以我选择了对中国各地的GDP进行研究.为了我国能够均衡发展.2.预备知识2.1聚类分析的概述聚类分析是研究（样品或变量）分析问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合.严格的数学定义是较麻烦的，在不同问题中类的定义是不同的.为了将样品（或变量）进行分类，就需要研究样品之间的关系.目前用得最多的方法有两个：一种方法是用相似系数，性质越接近的样品.另一种方法是将一个样品看作p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离越远的点归为不同的类.聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里.分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差.（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法.这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类.（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度.（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法. 聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据.几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类.但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同.结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息.为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式.对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）.最终，将需要经验可信度通过序列比较来指导聚类解释. 第二个局限由线性相关产生.上述的所有聚类方法分析的仅是简单的一对一的关系.因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点. 从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等. 从机器学习的角度讲，簇相当于隐藏模式.聚类是搜索簇的无监督学习过程.与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记.聚类是观察式学习，而不是示例式的学习. 从实际应用的角度看，聚类分析是数据挖掘的主要任务之一.就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析. 聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤.一般的,聚类分析有二阶聚类分析（TwoStep Cluster Analysis）、逐步聚类分析（K-Means Cluster）和系统聚类分析；聚类分析（Cluster Analysis）又称集群分析,它是按“物以类聚”的原则研究事物分类的一种多元统计分析方法,根据样品的多指标（变量）、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并根据此连结这些样品或指标归成大小类群,构成分类树状图（Dendrogram）或冰柱图（Icicle）.聚类分析的优点是简单直观,大部分用于探讨研究,可以提供多种分析的结果,并且可以让研究人员根据自己的研究方向进行判断与选择.聚类分析完全依赖于研究人员对该分析所选择的相关聚类变量,变量的选择或增减都有可能会对结果造成实质性的影响,总的来说聚类分析对研究人员的研究十分方便！3.我国各地GDP及影响因素分析3.1问题提出与分析随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增.但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢.因此,基于这种现状,本文对全国各地区的经济进行聚类分析.我选取了各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7这7个指标进行聚类分析.根据2010年国家统计年鉴,选取了2009年30个省、直辖市、自治区的7项经济指标,如下表.2009年我国30个省、直辖市、自治区的各项经济指标数据统计单位：亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03315.011039.1334297216533414822558.0341.7天津7521.85281.713083.631564191744880518599.562.6河北17235.483640.924062.762332805513435582730.626.5山西7358.31908.79249.98165014631631502705.044.9内蒙古9740.251570.610699.4491292641086941487.641.1辽宁15212.492704.628152.732855778530768826428.793.3吉林7278.751734.310026.55102412355557471049.418.2黑龙江8587.002251.17301.6012351015783452028.327.4上海15046.45283.224091.26324765451867021520170.8292.6江苏34457.303816.073200.03892893532596971215364.8205.2浙江22990.351873.441035.2988614109692914813888.0166.5安徽10062.822569.513312.59195980715231402937.041.2福建12236.532001.216762.821941583843774554617.180.5江西7655.181733.89783.96118532947706071002.824.7山东33896.656003.171209.424051631775598357584.4262.6河南19480.464871.527708.15322011973766123083.098.7湖北12961.102985.215567.02304684097037724259.081.4湖南13059.693207.913507.64232347341821771643.965.3广东39482.563337.668275.77298060433824131818599.1384.4广西7759.162377.26880.0487587303677651464.017.6海南1654.21705.01057.451366053301396517.58.4重庆6530.01913.16772.90175240462950472864.073.7四川14151.283689.818071.68290037109364692570.694.2贵州3912.68875.23426.69506015818647825.89.5云南6169.751706.25197.4510774227435932591.017.0西藏441.3693.451.609102749933.20.4陕西8169.801337.28470.40220527622526261956.276.1甘肃3387.56876.33770.385243473106931205.812.8青海1081.27157.31080.35184815619432184.2 2.6宁夏1353.31243.51461.58232358622142373.68.0新疆4277.051297.64001.127258850273622511.87.03.2 描述性统计分析描述性（Descriptives）过程可以在一个统计表中显示多个变量的单变量综合统计量,其中包括样本大小（sample size）、均值（mean）、最小值（minimum）、最大值（maximum）、标准差（standard deviation）、方差（variance）、偏度（skewness）及其标准误差（std.error）.通过spss statistics 21软件在数据编辑窗口的主菜单中选择“分析(A)”→“描述统计”→“描述性分析(D)”将左侧框中的全部变量依次选入右侧框中,点击“选项(O)”按钮,在“选项”对话框中,选择自己需要分析的统计量,这里我们选择极小值、极大值、均值、标准偏差、方差和偏度.最后点击“确定”按钮.分析结果如表3.2所示：由表3.2可知分析描述统计量的输出结果可知,统计量共为11个,在所有指标中,极大值最大的经济指标是建筑业生产总值（X1）(89289353.00) 极小值最小的经济指标是餐饮业（X7）(.40) 平均人均经济指标较高的三个指标分别是进出口总值(X5) 3927349.5806建筑业生产总值(X4) 21924060.8065工业生产总值(X3) 17687.4648标准偏差较大的三个经济指标是进出口总值(X5) 3927349.5806建筑业生产总值(X4) 21924060.8065工业生产总值(X3) 17687.46483.3 系统聚类分析PASW/SPSS Statistics 的系统聚类分析（Hierarchical Cluster ）或称分层聚类分析,其统计结果与图形有合并进程表（Agglomeration schedule ）、距离（相似性）矩阵、聚类成员（cluster membership ）结果的范畴,并可绘制垂直冰柱图（Vicicle ）、水平冰柱图（Hicicle ）或树状图（Dendrogram ）等,聚类分析根据用户选择不同的聚类方法（Method ）、不同的测度（Measure ）、是否标准化、不同连结的图形（Plots ）,其分类的结果是不尽相同的.在本文中所采用的是Q 型聚类.具体方法采用欧式距离（Euclidean 距离）和Ward 法（Ward 离均差平方和法）.在系统聚类分析中,欧式距离平方运用的最为广泛,它的表达式如下：ij d =其中ik X 表示第i 个样品的第k 个指标的观测值, jk X 表示第j 个样品的第k 个指标的观测值, ij d 为第i 个样品与第j 个样品之间的欧氏距离. ij d 如果越来越下,那么第i 与j 两个样品之间的性质就相对更接近,性质接近的样品就可以划为一类.Ward 法（Ward 离均差平方和法）,定义类间距离等于两类中所有样本的离均差平方和,此方法在实际应用中分类效果比较好,应用广泛,但是要求样品间的距离必须是欧式距离.3.4 输出结果分析：3.3个案处理摘要a个案有效缺失总计数字百分比数字百分比数字百分比有效 N （成列）(X7)31表3.4显示的是凝聚计划,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第2列和第3列表示的是聚合的类.从表中可知聚类共进行了10步,第一步首先合并距离最近的5号和7号样本,形成类G1,又因为下一阶为2,所以在第2步G1又与4号样本进行复聚类,形成G2,在首次出现阶群集里显示的群集1和群集2分别是0和1,在第一次出现的类的合并就在第6步,其中群集1和群集2分别是2和4,那么表示第2步和第4步合并形成的类在第6步合并；其余的类似,不再详细叙述.另外,系数值伴随着聚类的进行逐渐增大,开始增加的慢,后来增加的快,表明聚类开始时类与类之间的差异小,结束时类与类之间的差异大,这正是分层聚类所表现出来的特征.3.4凝聚计划阶段组合的集群系数首次出现阶段集群下一个阶段集群1集群2集群1集群212428.008007 22930.009004 3714.012008 42629.0240212 5820.0620011 6422.1020010 72124.1140112 857.1250311 92531.1560015 10427.2276017 1158.2668515 122126.3087421 131723.3530014 141718.35413018 15525.40011917 161213.6460020 1745.806101520 18317.81901419 1936 1.18718022 20412 1.225171621 21421 2.060201223 22316 2.10619025 2324 2.839021252419 3.32200292523 5.95223222926101110.869002727101516.2912602828101922.28027030291222.5112425303011040.02229280下表是冰柱图,是反映各个样本的聚类情况并显示包括所有聚类和聚类范围的图.可以显示个案合并到聚类的过程,若是依照设定的类数,在那类数的行上从左到右就能够找到各类所包含的样本.由图可知：最先聚类的是序号24和28 ,其余的各自为一类,这时聚集数目为30.下表是用“Ward连结法”聚类法生成的树状聚类图.可以直观地显示聚类的整个过程,当要分类的观测值（变量）个案较多时,就会比冰状图更加的清晰,并且树状图的上方横轴方向,标示出了各个指标类别之间的相对距离的大小,根据树状图还可以方便地了解指定聚类个数的分类结果,最简单的判断方法就是：可以在此图上垂直放一把尺子,将其左右移动,图中与尺子相交的每一根横线就是一类,每根横线左端与之联系的各个变量（指标）就是该分类里面的成员.通过上面结果可以看出：(1)使用聚类分析可以看出大致可以分为四个类型.第一类：北京市、上海市(2个)第二类：天津市、山西省、内蒙古、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、广西省、海南省、重庆市、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(19个)第三类：河北省、湖北省、四川省、湖南省、辽宁省(5个)第四类：江苏省、山东省、浙江省、广东省(4个)3.5分类结果分析与建议根据聚类分析的结果可知,以上分类结果大致反映了全国各省、直辖市、自治区所属的经济类型.北京市和上海市分别作为全国的政治、经济中心,综合经济实力较为突出,各个领域均衡发展,所以被一起划分为第一类经济类型.江苏省和山东省都是经济较为发达的地区,都为第三类型.它们的经济实力都很强,而且交通便利,拥有良好的发展空间和机遇.第四类经济类型仅为广东省,这可能是因为广东省的国民生产总值为39482.56亿元,位居全国首位.其他省、直辖市、自治区均属于第二类型.这些地区发展较为缓慢,甚至有的地区的经济相对第一、第三、第四类型的省相差很多.这也说明我国的经济发展还存在很大的不平衡性,还需要国家投入更多的力量在发展第二类省份当中.当然,在上述分析中也存在一些问题,在选择变量时没有综合考虑其他因素等对经济的影响,分析结果可能存在较大偏差.但还是存在很好的参考价值.参考文献[1]任雪松,于秀林.多元统计分析[M].北京:中国统计出版社,2010.12.[2]李志辉,罗平.PASW/SPSS Staistics中文版统计分析教程[M].电子工业出版社,2010.419-425.[3]贾俊平.统计学（第二版）[M].北京:清华大学出版社,2006.[4]中华人民共和国国家统计局编.中国统计年鉴2013[M].北京:中国统计出版社.[5]李晓松.医学统计学[M].北京:高等教育出版社,2008.[6]周衍庆.SAS的聚类分析功能在经济地理分区中的应用[J].枣庄师范专科学校学报,2003,(5):10-15．[7]白永秀,岳利萍.陕西城乡一体化水平判别与区域经济协调发展模式研究[J].嘉兴学院学报,2005,(1):76-86.[8]罗姗,朱国会.全国区域经济发展水平的聚类分析[J].重庆交通学院学报,2005,(4):78-81.[9]Podolny,J.M.,Baron,J.N.Relationships and resources:Social networks and mobility in the workplace[J]. American Sociological Review,1997,(62).[10]陈瑶，周建萌，我国人均消费和人均国内生产总值关系的实证研究[J]企业导报，2012，（16）Analysis of GDP and its influencing factors in China based onclustering analysisChen Huang(School of mathematics and computer science (shaanxi institute of mathematics and applied mathematics class1101, shaanxi hanzhong 723001).Tutor: xiao-kang li[abstract] : With the use of SPSS software to analyze the main economic index of the 30 provinces, municipalities directly under the central government and autonomous regions, its economy can be divided into several different types according to the corresponding methods of analysis. These provinces over our country can be classified from the economy through this way.This paper chooses the seven indicators as to decide theinfluenial factors of economic type. And all the data are from the national statistical yearbook in 2010. The results of analysis show that Beijing and Shanghai ranks in the first kind of economic type while Jiangsu, Shandong, Guangdong and Zhejiang provinces or other most in the fourth class economy; Other 25 provinces, municipalities directly under the central government and autonomous regions basicly range from the second type to the third type change.Key words: SPSS software;Clustering analysis;Economic type;GDP。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

各省市经济类型分析SY0906611 陆启超摘要判别分析（Discriminate）和聚类分析（Hierarchical Cluster）是进行统计分类的两种常用方法，本文利用这两种方法对于全国几个省市的按经济类和经济状况进行分类，并制定一定的分类规则（即判别函数），以便对于新加的样品能够按照这些规则进行很快的分类。

一个省市的经济类型和地区生产总值、三种产业在国内生产总值占的比重等因素相关。

本文利用统计软件SPSS对全国各省市以上各方面2007年的统计数据进行聚类分析，得到了对各省市经济类型的分类结果，并通过验证三个特殊省份的经济类型，保证结果的正确性。

分析结果反映了这些省市的经济类型和经济特点。

关键字：聚类分析判别分析经济类型MATLAB引言中国经济在总体上发展迅速，但是区域发展不平衡的矛盾也日益突出，各地区由于各种因素经济类型呈现出巨大差异。

英国经济统计学家，从若干国家经济统计数据中证明了随着经济的发展，人口的就业结构亦将发生相应变化。

美国著名经济学家S.Kuznetz又对产业结构与经济发展的关系作了更深入的研究，在《现代经济增长》和《各国经济增长的数量分析》中指出经济的发展也必将引起产值结构的变化。

1聚类分析方法简介聚类分析的基本思想是，从一批样品的多个观测指标变量中，定义能度量样品间相似程度的统计量，在此基础上求出各个样品之间的相似程度的度量值，按相似程度的大小，将样品逐一归类，关系密切的聚集到一个小的分类单位，关系疏远的聚集到一个大的分类单位，直到所有的样品都聚集完毕，把不同类型一一划分出来，形成一个亲疏关系谱系图，用以更加直观的显示分类对象的差异和联系。

聚类分析的原则是同一类中的个体有较大的相似性，不同类的个体差异很大。

根据分类对象不同，聚类分析分为样本聚类和变量聚类，即统计学上的Q 型聚类和R型聚类。

常见的聚类分析方法有快速样本聚类和分层聚类。

快速样本聚类的前提是要已知将要聚成的类数，这样在使用这种聚类法的过程中能够很快的将观测量分到各类中去。

分层聚类方法根据聚类过程不同分为凝聚法和分解法。

分解法，就是在聚类开始的时候，把所有个体都视为属于一个大类，然后根据距离和相似性逐层分解，直到参与聚类的每个个体自成一类为止；而凝聚法刚好相反，它是在一开始把参与聚类的每个个体视为一类，根据两类之间的距离或相似性逐步合并，直到合并成一个大类为止。

1.1直接聚类法先把各个分类对象单独视为一类，然后根据距离最小的原则，依次选出一对分类对象，并成新类。

如果其中一个分类对象已归于一类，则把另一个也归入该类；如果一对分类对象正好属于已归的两类，则把这两类并为一类。

每次归并，都划去该对象所在的列与列序相同的行。

经过没m-1次就可以把全部分类对象归类，这样就可以根据归并的先后顺序作出聚类谱系图。

1.2最短距离聚类法最短距离聚类法在原来的m×m矩阵的非对角元素中找出，把分类对象Gp 和Gq归并为新类Gr，然后按计算公式计算原来原来各类与新类之间的距离，这样就得到一个新的m－1阶的距离矩阵；再从新矩阵中选出最小者dij，把Gi和Gj归并成新类；再计算各类与新类的距离，这样一直下去，知道各分类对象被归为一类。

1.3最远距离聚类法其与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。

其使用的是最远距离来衡量样本之间的距离。

2 对各省市经济类型的聚类分析一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件MATLAB 7.0,对北京市等省市2008年的人均地区生产总值(亿元)、职工平均工资(元)、从事第一、二、三产业的人的比例作为判别经济类型的五个因素,进行聚类分析。

根据地区发展的特点大概把我国划分为八大经济区域：南部沿海地区、东部沿海地区、北部沿海地区、东北地区、长江中游地区、黄河中游地区、西南地区、西北地区。

希望通过这八大经济区的划分，来进行经济区的统一考虑，加强区域间的联系。

2.1 数据整理下表是全国所有省市的相关统计数据，数据来源为《中国统计年鉴2009》。

其中浙江、辽宁、云南三省的数据留作判别分析用。

地区地区生产总值（亿元）人口（人）职工平均工资（元）第一产业(%)第二产业(%)第三产业(%)北京9353.32 1695 55844 5.6 21.8 72.5 天津5050.40 1176 39990 15.5 40.5 44.0 河北13709.50 6989 24276 40.8 32.7 26.5 山西5733.35 3411 25489 40.6 26.4 33.0 内蒙古6091.12 2414 25949 50.5 16.9 32.7辽宁11023.49 4315 27179 33.3 25.5 41.2 吉林5284.69 2734 23294 44.7 19.9 35.4 黑龙江7065.00 3825 21764 46.4 20.5 33.0上海12188.85 1888 52122 5.5 39.3 55.2 江苏25741.15 7677 31297 20.9 44.4 34.7 浙江18780.44 5120 33622 18.2 46.5 35.3安徽7364.18 6135 25703 44.7 27.0 28.3 福建9249.13 3604 25555 31.1 35.6 33.3 江西5500.25 4400 20597 40.7 27.4 31.9 山东25965.91 9417 26234 37.4 31.6 31.0河南15012.46 9429 24438 48.8 26.8 24.4 湖北9230.68 5711 22384 35.4 24.6 40.1 湖南9200.00 6380 24146 49.6 20.0 30.4 广东31084.40 9544 33282 28.3 33.4 38.2 广西5955.65 4816 24798 55.2 20.0 24.8 海南1223.28 854 21767 53.8 11.3 34.9重庆4122.51 2839 26640 37.1 26.6 36.3 四川10505.30 8138 24725 45.0 21.9 33.1 贵州2741.90 3793 23979 52.4 11.3 36.3 云南4741.31 4543 23305 62.6 12.2 25.1 西藏342.19 287 44055 55.7 10.4 33.9陕西5465.79 3762 25478 46.8 20.7 32.5 甘肃2702.40 2628 23632 52.9 14.3 32.8 青海783.61 554 30101 44.5 21.3 34.2 宁夏889.20 618 30050 44.9 25.1 30.1 新疆3523.16 2131 24686 51.6 13.7 34.72.2 聚类分析利用统计软件matlab 7.0对以上数据进行聚类分析，样品之间的距离采用欧式距离(Euclidean distance)，聚类方法采用重心聚类法(Centroid clustering)，Matlab提供了两种方法进行聚类分析。

一种是利用 clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法；另一种是分步聚类：（1）找到数据集合中变量两两之间的相似性和非相似性，用pdist函数计算变量之间的距离，用pdist函数计算相似矩阵，有多种方法可以计算距离，进行计算之前最好先将数据用zscore函数进行标准化；（2）用 linkage函数定义变量之间的连接；（3）用 cophenetic函数评价聚类信息；（4）用cluster函数创建聚类。

本文采用分步聚类的方法实现类别划分。

实现的程序代码为：结果：聚类谱系图为：即分类结果为：2.3 判别分析判别分析模型：设有 k 个总体 G1，G2，…，Gk，它们都是p元总体，其数量指标是设总体 Gi 的分布函数是 Fi(x)=Fi(x1，x2，…，xp)，i=1,2,…,k，通常是连续型总体，即 Gi 具有概率密度 fi(x)=fi(x1，x2，…，xp)。

对于任一新样品数据x=(x1，x2，…，xp)T,要判断它来自哪一个总体 Gi。

通常各个总体Gi 的分布是未知的，它需要由各总体 Gi取得的样本数据资料来估计。

一般，先要估计各个总体的均值向量与协方差矩阵。

从每个总体 Gi取得的样本叫训练样本。

判别分析从各训练样本中的提取各总体的信息，构造一定的判别准则，判断新样品属于哪个总体。

从统计学的角度，要求判别准则在某种准则下是最优的，例如错判的概率最小或错判的损失最小等。

由于判别准则的不同，有各种不同的判别分析方法：距离判别、Bayes判别和Fisher判别等。

本文进行判别分析使用的是距离判别法。

留待检验判别的三个省的数据为下表：地区地区生产人口（人）职工平均工第一产业第二产业第三产业总值（亿资（元）(%) (%) (%) 元）辽宁11023.49 4315 27179 33.3 25.5 41.2 浙江18780.44 5120 33622 18.2 46.5 35.3 云南4741.31 4543 23305 62.6 12.2 25.1 实现的程序代码：结果：即应将辽宁化分到第2类，浙江化分到第5类，云南化分到第4类。

2.4 结果分析直观上从各省的经济水平看，分类还是基本合理的。

但与初始设想的八大经济区域的划分还有一定的出入。

分析其原因，主要是八大经济区域的划分主要是从地理区域上考虑的划分，而所选择的样本数据基本上与各省的地理位置无关。

总结本文首先通过地区生产总值、地区人口、职工平均工资和三大产业从业人数占总就业人口6个经济特征，采用分层聚类分析的方法，最终把28个省市的经济类型分成了4类。

然后以这28个样本为参考，通过逐步判别方法建立判别方程。

通过本文对各省市经济类型的聚类分析，我们可以看到，区域间经济发展的不平衡也表现在产业结构具有不同的形式，经济比较发达的地区，其产业结构比较高级化，经济相对落后的地区，其产业结构也相对初级。

要实现经济的高速发展，就要不失时机地调整产业结构，使产业结构的演化适应经济发展的需要。

我国疆域辽阔，经济发展与产业结构的地域差异是十分显著的，但是各地的共同特点是第三产业发展不足，纵观发达国家产业结构转化历史及现状，英、法、德、美、日等都先后在本世纪50～70年代实现了产业结构的转化和升级。

为了推进我国国民经济的发展和产业结构升级，国家的产业政策正在进行逐步调整，大力推进第三产业的发展，推进产业结构升级和社会经济的协调发展。