全国各省经济的聚类分析及判别分析

合集下载

聚类分析和判别分析实验报告

聚类分析和判别分析实验报告

聚类分析实验报告一、实验数据2013年,在国内外形势错综复杂的情况下,我国经济实现了平稳较快发展。

全年国内生产总值568845亿元,比上年增长7.7%。

其中第三产业增加值262204亿元,增长8.3%,其在国内生产总值中的占比达到了46.1%,首次超过第二产业。

经济的快速发展也带来了就业的持续增加,年末全国就业人员76977万人,其中城镇就业人员38240万人,全年城镇新增就业1310万人。

随着我国城镇化进程的不断加快,加之农业用地量的不断衰减,工业不断的转型升级,使得劳动力就业压力的缓解需要更多的依靠服务业的发展。

(一)指标选择根据指标选择的可行性、针对性、科学性等原则,分别从服务业的发展规模、发展结构、发展效益以及发展潜力等方面选择14个指标来衡量服务业的发展水平,指标体系如表1所示:表1 服务业发展水平指标体系(二)指标数据本次实验采用的数据是我国31个省(市、自治区)2012年的数据,原数据均来自《2013中国统计年鉴》以及2013年各省(市、自治区)统计年鉴,不能直接获得的指标数据是通过对相关原始数据的换算求得。

原始数据如表2所示:表2(续)二、实验步骤本次实验是在SPSS中分别利用系统聚类法和K均值法进行聚类分析,具体步骤如下:(一)系统聚类法⒈在SPSS窗口中选择Analyze—Classify—Hierachical Cluster,调出系统聚类分析主界面,将变量X1-X14移入Variables框中。

在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。

在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

⒉点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。

这里选择系统默认值,点击Continue按钮,返回主界面。

⒊点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。

经济统计学中的聚类分析方法

经济统计学中的聚类分析方法

经济统计学中的聚类分析方法聚类分析是一种常用的数据分析方法,它在经济统计学中有着广泛的应用。

聚类分析的目标是将一组数据划分为若干个相似的子集,每个子集内的数据相似度高,而不同子集之间的数据相似度低。

这种方法可以帮助经济学家发现数据中的规律和模式,从而更好地理解经济现象。

聚类分析的基本原理是通过计算数据点之间的相似度或距离来确定数据的分组。

常用的相似度度量方法包括欧氏距离、曼哈顿距离和余弦相似度等。

欧氏距离是最常用的相似度度量方法,它计算两个数据点之间的直线距离。

曼哈顿距离则是计算两个数据点在坐标轴上的距离之和。

余弦相似度是通过计算两个向量之间的夹角来度量它们的相似度。

在经济统计学中,聚类分析可以用于多个方面的研究。

首先,它可以帮助经济学家对经济发展水平进行分类。

通过对不同国家或地区的经济指标进行聚类分析,可以将它们划分为不同的发展水平组别。

这有助于我们了解不同地区的经济特点和发展趋势,为政府制定相关政策提供参考。

其次,聚类分析可以用于市场细分。

市场细分是指将一个大市场划分为若干个小市场,每个小市场具有相似的需求和行为特征。

通过对消费者的购买行为和偏好进行聚类分析,可以将消费者划分为不同的群体,从而更好地满足他们的需求。

这对企业来说是非常重要的,可以帮助它们制定更精准的市场营销策略。

此外,聚类分析还可以用于金融风险管理。

金融市场中的数据非常庞大复杂,通过对金融市场数据进行聚类分析,可以将相似的金融资产或交易划分为同一类别。

这有助于金融机构更好地评估风险和制定风险管理策略,从而提高金融市场的稳定性和安全性。

聚类分析方法还可以与其他经济统计学方法相结合,如主成分分析和因子分析。

主成分分析可以用于降维,将高维数据转化为低维数据,而聚类分析可以在降维后的数据上进行分组。

因子分析可以用于提取数据的主要因素,而聚类分析可以将具有相似因素的数据进行分组。

这些方法的结合可以更全面地分析经济数据,提高分析的准确性和可解释性。

中国区域经济发展环境分类研究——基于聚类和判别分析

中国区域经济发展环境分类研究——基于聚类和判别分析
境 进行 分 类 对 比研 究 。
关键词 : 区域经济 ; 发展 环境指标体 系; 聚类分析 ; 判别分析 中图分类号 :0 15 F 6 . 文 献标 识码 : 文章编号 :10 A 0 2—32 (0 8 0 3 1 20 )2—0 4 0 7—0 6


研 究 背景
目前 , 在经 济发 展 环境 指 标 体 系的 研究 方 面 ,
No 2 2 o8 . o
S r l .8 e a i No 4
中国区域经济发 展环 境分 类研 究
基 于聚 类和 判 别 分析
傅 丽 萍, 孙秋 碧
( 州大 学管 理 学 院 , 福 福建 福 州

300 ) 5 18
要: 选取 一组反映经 济发展 环境的指标 , 用聚类 分析和 判别 分析 相结合 的方 法 , 中国各地 区经济发展 环 采 对
作者简介 : 丽萍(93一 , , 建光泽人 , 州大 学管理 学院硕 士研 究生 ; 傅 18 ) 女 福 福 孙秋碧 (98 ) , 15 一 女 福建福 州人 , 州大学管理 学院教授 , 福 经济学博士 。

4 ・ 7
维普资讯
文章的具体分析数据 主要来源于/0 6年 中 {0 2 国统计年鉴》 并根据分析要求进行。人 口密度数 , 据来 自第五次全 国人 口普查资料。中国统计年鉴 上 缺少 20 04年 重 庆 市 的耕 地 面 积 总 资 源 ( 公 千

重叠。为了简化 问题 的分析 , 下面对变量进行降 维, 提炼 能够 反 映原 始 变量 绝 大部 分信 息 的主 成分。
0 2 — 0
_
0 0
_

O 0 0 0

聚类分析与判别分析区别

聚类分析与判别分析区别
ij
表示

cos
!
ij





!

ia

ja




!







!


"
ia
ja


cos
!
ij



cos
!
ij
=1

说明两个样品





完全相似

cos
!
ij




















cos
!
ij
=0

说明





完全不一样

cos
!
ij
接近









差别大。把所有两两样品的相似系数都
通过聚类分析可以达到简化数据的目的


众多的样品先聚集成比较好处理的几个类别或子


然后再进行后续的多元分析。
比如在回归分析


有时不对原始数据进行拟合

而是对这些子集
的中心作拟合

可能会更有意义。又比如

为了研
究不同消费者群体的消费行为特征

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析

全国30市自治区经济发展水平综合评价——基于因子分析和聚类分析近年来,我国经济发展迅速,全国各地区也呈现出不同程度的经济发展水平。

为了对全国30个市自治区的经济发展水平进行综合评价,基于因子分析和聚类分析的方法被广泛应用。

首先,我们通过因子分析的方法对数据进行降维和综合评价。

因子分析将多个变量综合为少数几个因子,并可以解释这些因子与原始变量之间的关系。

我们选择了GDP总量、人均GDP、产业结构、基础设施建设、外资吸引等指标作为评价经济发展水平的变量。

通过因子分析,我们可以得到几个综合指标,用于评价各个市自治区的经济发展水平。

接着,我们可以利用聚类分析的方法进行分类。

聚类分析是将样本划分为几个相似的类别,每个类别内的样本相似度高,而类别间的相似度较低。

我们可以通过聚类分析得到若干个类别,这些类别可以代表不同的经济发展水平。

通过将市自治区进行分类,可以更加直观地展示各地区之间的差异,也可以为地方政府提供参考。

最后,我们可以将因子分析和聚类分析的结果进行综合。

通过对因子得分和聚类结果的比较,可以得到更加准确的综合评价。

在综合评价的过程中,我们可以进一步分析各个市自治区的优势和劣势,以及存在的问题和潜在的发展机会。

这些分析结果可以为地方政府提供经济发展策略和政策的参考。

在实施全国30市自治区经济发展水平综合评价的过程中,我们需要充分考虑指标的选择和权重的确定。

指标的选择应当代表经济发展的各个方面,权重的确定应当根据实际情况和专家意见综合考虑。

另外,我们需要注意数据的可靠性和准确性,以及分析方法的合理性和可操作性。

总之,基于因子分析和聚类分析的方法可以对全国30市自治区的经济发展水平进行综合评价。

这种方法能够降低数据的维度,提取出关键的因子,并对样本进行分类。

通过综合分析和评价,可以为决策者提供参考,促进经济发展水平的提高。

聚类分析方法详细介绍和举例

聚类分析方法详细介绍和举例

聚类分析⽅法详细介绍和举例聚类分析例如:下表是1999年中国省、⾃治区的城市规模结构特征的⼀些数据,可通过聚类分析将这些省、⾃治区进⾏分类,具体过程如下:省、⾃治区⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)京津冀699.70 1.4371 0.9364 0.7804 10.880 ⼭西179.46 1.8982 1.0006 0.5870 11.780 内蒙古111.13 1.4180 0.6772 0.5158 17.775 辽宁389.60 1.9182 0.8541 0.5762 26.320 吉林211.34 1.7880 1.0798 0.4569 19.705 ⿊龙江259.00 2.3059 0.3417 0.5076 23.480⼀、聚类分析的数据处理1、地理数据的对数变换:原始数据⾃然对数变换省、⾃治区⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)京津冀699.7 1.4371 0.9364 0.7804 10.88 6.5507 0.3626 -0.0657 -0.2479 2.3869 ⼭西179.46 1.8982 1.0006 0.587 11.78 5.1900 0.6409 0.0006 -0.5327 2.4664 内蒙古111.13 1.418 0.6772 0.5158 17.775 4.7107 0.3492 -0.3898 -0.6620 2.8778 辽宁389.6 1.9182 0.8541 0.5762 26.32 5.9651 0.6514 -0.1577 -0.5513 3.2703 吉林211.34 1.788 1.0798 0.4569 19.705 5.3535 0.5811 0.0768 -0.7833 2.9809 ⿊龙江259 2.3059 0.3417 0.5076 23.48 5.5568 0.8355 -1.0738 -0.6781 3.1561 2、地理数据标准化:⾃然对数变换标准差标准化数据⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)⾸位城市规模(万⼈)城市⾸位度四城市指数基尼系数城市规模中位值(万⼈)6.5507 0.3626 -0.0657 -0.2479 2.3869 1.5572 -1.1123 0.4753 1.7739 -1.30255.1900 0.6409 0.0006 -0.5327 2.4664 -0.5698 0.3795 0.6309 0.2335 -1.08204.7107 0.3492 -0.3898 -0.6620 2.8778 -1.3189 -1.1841 -0.2851 -0.4660 0.05935.9651 0.6514 -0.1577 -0.5513 3.2703 0.6419 0.4356 0.2594 0.1330 1.14835.3535 0.5811 0.0768 -0.7833 2.9809 -0.3142 0.0588 0.8096 -1.1218 0.34535.5568 0.8355 -1.0738 -0.6781 3.1561 0.0037 1.4225 -1.8900 -0.5526 0.8316⼆、采⽤欧⽒距离,求出欧式距离系数欧式距离系数表d1 d2 d3 d4 d5 d6 d1 0d2 1.3561 0d3 1.7735 1.0618 0d4 1.5479 1.1484 1.2891 0d5 1.7936 0.9027 0.9235 0.8460 0d6 2.2091 1.5525 1.5312 1.1464 1.4006 0三、最短距离法进⾏聚类分析如下:第⼀步:以欧式距离作为分类统计量,得出初始距离矩阵D(0)D(0)表G1 G2 G3 G4 G5 G2 1.3561G3 1.7735 1.0618G4 1.5479 1.1484 1.2891G5 1.7936 0.9027 0.9235 0.8460G6 2.2091 1.5525 1.5312 1.1464 1.4006第⼆步:在D(0)中,最⼩元素为D54=0.846,将G5与G4合并成⼀新类G7,G7={G5,G4},然后在计算新类G7与其它各类间的距离D7,1= min(d41,d51)=min(1.5479, 1.7936)= 1.5479D7,2= min(d42,d52) = min(1.1484,0.9027)= 0.9027D7,3= min(d43,d53) = min(1.2891, 0.9235)= 0.9235D7,6= min(d64,d65) = min(1.1464, 1.4006)= 1.1464第三步:作D (1)表,先从D(0)表中删除G4,G5类所在⾏列的所有元素,然后再把新计算出来的G7与其它类间的距离D71,D72,D73填到D (0)中,得D(I)表第四步:在D (1)中,最⼩元素为D72=0.9027,将G7与G2合并成⼀新类G8,G8={G2,G7}={G2,G4,G5},然后在计算新类G8与其它各类间的距离D8,1= min(d21,d71)= min(1.3561, 1.5479)= 1.3561 D8,3= min(d23,d73) = min(1.0618, 0.9235)= 0.9235 D8,6= min(d62,d76)= min(1.5525, 1.1464)= 1.1464第五步:作D (2)表,先从D(1)表中删除G2,G7类所在⾏列的所有元素,然后再把新计算出来的G8与其它类间的距离D81,D83,D86填到D (2)中,得D(2)表D (2)表G1 G3 G6 G3 1.7735 G6 2.2091 1.5312 G81.35610.92351.1464第六步:在D (2)中,最⼩元素为D38=0.9235,将G8与G3合并成⼀新类G9,G9={G3,G8},然后在计算新类G9与其它各类间的距离D9,1= min(d13,d18) = min(1.7735, 1.3561)= 1.3561 D9,6= min(d36,d86) = min(1.5312, 1.1464)= 1.1464第七步:作D (3)表,先从D(2)表中删除G3,G8类所在⾏列的所有元素,然后再把新计算出来的G9与其它类间的距离D91 ,D96填到D (3)中,得D(3)表第⼋步:在D (3)中,最⼩元素为D69= 1.1464,将G6与G9合并成⼀新类G10,G10={G6,G9},然后在计算新类G10与其它各类间的距离D10,1= min(d16,d69) = min(2.2091, 1.1464)= 1.1464第九步:作D (4)表,先从D(3)表中删除G6,G9类所在⾏列的所有元素,然后再把新计算出来的G10与其它类间的距离D10,1填到D (4)中,得D(4)表D (1)表G1 G2 G3G6G2 1.3561 G3 1.7735 1.0618 G6 2.2091 1.5525 1.5312 G71.54790.90270.9235 1.1464D (3)表G1 G6 G6 2.2091 G9 1.3561 1.1464D(4)表G1G10 1.1464G11={G10.G1}由此表可知,G10和G1类最后合成了⼀类,计算过程结束。

中国区域经济发展环境分类研究——基于聚类和判别分析

中国区域经济发展环境分类研究——基于聚类和判别分析

中国区域经济发展环境分类研究——基于聚类和判别分析随着中国经济的飞速发展,中国区域经济的研究变得越来越受到重视。

本文旨在研究中国区域经济发展环境分类问题,并采用聚类和判别分析方法进行分析。

一、研究背景经济学研究领域中,区域经济发展环境的分类是一个非常重要的研究课题。

在中国,由于地理位置、自然条件以及政策环境等因素的影响,各个地区的经济发展水平差异巨大。

因此,研究中国区域经济发展环境的分类问题对于制定针对性的政策和促进区域发展具有重要的意义。

二、研究方法本文采用聚类和判别分析方法对中国不同的经济发展环境进行分类研究。

1.聚类分析聚类分析是一种无监督学习方法,它可以将数据分为多个不同的类别,每个类别内部的数据相似度较高,不同类别之间的相似度较低。

本文采用聚类分析方法,将中国不同地区的经济发展环境进行划分。

2.判别分析判别分析是一种有监督学习方法,它可以将数据根据所属类别进行分类。

其基本思想是在将数据投影到一个新的空间中时,能够在新的空间分类的同时最大化类别之间的间隔。

本文采用判别分析方法,对聚类结果进行进一步的分类研究。

三、实证分析1.数据源本文采用的数据来自国家统计局公开数据,涵盖了中国不同地区的经济发展环境的各项指标,包括GDP、人均收入、工业产值等。

2.聚类分析结果本文采用Ward 法进行聚类分析,得到了3 个不同的类别,分别为东部沿海发达地区、中部发展中地区和西部欠发达地区。

这三个类别代表了不同的经济发展环境。

具体聚类结果如下:东部沿海发达地区:包括北京、上海、广东、浙江等地,这些地区经济发达,GDP 占全国的比重较高,人均收入较高,工业产值也比较大。

中部发展中地区:包括湖南、湖北、江西等地,这些地区的经济发展水平处于中等水平,GDP 占比较少,但是发展潜力较大。

西部欠发达地区:包括西藏、青海、甘肃等地,这些地区的经济发展水平相对较低,GDP 占比较少,人均收入较低,工业产值也比较小。

3.判别分析结果本文采用线性判别分析进行分类。

聚类分析与判别分析操作及案例

聚类分析与判别分析操作及案例

北京航空航天大学研究生课程《数理统计B》论文地区生产总值的聚类分析与判别分析姓名:***学号:SY*******授课教师:***日期:2011-1-2地区生产总值的聚类分析与判别分析姓名:王青云学号:SY1001243摘要:为了了解全国各地区的经济类型,需要对地区进行分类,可以利用社会科学统计软件包(简称SPSS)对地区经济情况进行聚类分析和判别分析。

该工作依据地区生产总值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业八个指标对2009年全国31个省和直辖市的经济类型进行了聚类分析,将不同地区的经济类型划分类别;并随机抽取了北京、福建、山东三省进行判别分析。

关键词:经济类型,聚类分析,判别分析,SPSS一引言人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。

统计学中常用的分类统计方法主要是聚类分析与判别分析。

聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。

聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类[1]。

二分析方法问题:根据地区各行业收入对全国各地区经济类型进行分类。

方法:先进行聚类分析,再进行判别分析,采用SPSS软件进行。

2009年全国31个省市的地区总产值、第一产业、工业、建筑业、交通运仓储及邮电通讯业、批发零售贸易及餐饮业、金融保险业、房地产业、其他行业表1所示[2]。

2.1聚类分析(1)在SPSS数据编辑窗口中输入表1中数据:表1 2009年地区生产收入地区地区生第一第二产业第三产业工业建筑业交通运输和邮政业批发和零售业住宿和餐饮业金融业房地产业其他北京12153.03118.292303.08552.47556.641525.03262.511603.631062.474168.91天津7521.85128.853622.11365.73471.01836.84131.84461.2308.731195.54河北17235.482207.347983.86975.971491.921157.8247.14525.67612.42033.38山西7358.31477.593518.88474.92523.38557.86203.58361.64173.311067.15内蒙古9740.25929.64503.33610.67773.29915.89294.73291.1286.651134.99辽宁15212.491414.96925.63980.71790.561410.33318.8560.2605.272206.09吉林7278.75980.573054.6487.32341.76673.12157.73180.83200.141202.68黑龙江85871154.333549.73510.99433.55757.36211227.54301.181441.32上海15046.45113.825408.75593.03635.012183.85238.361804.281237.562831.79江苏34457.32261.8616464.942101.431423.253579.81678.361596.982025.394325.28浙江22990.351163.0810518.211390.28888.022119.39416.841899.331316.833278.36安徽10062.821495.454064.72840.5467.92733.19157.14359.6497.941446.36福建12236.531182.745106.38898.92751.421043.42235.98612.2656.611748.86江西7655.181098.663196.56722.89394.9553.89167.59165.1305.91049.69山东33896.653226.6416896.142005.691742.333106.24594.51044.91329.593950.63河南19480.462769.059900.271110.23823.571057.81526.51499.92622.982170.12湖北12961.11795.95183.68854.4642.72979.14337.81479.11546.112142.23湖南13059.691969.694819.4867.79704.831221.2304.93402.57400.112369.17广东39482.562010.2718091.561328.141595.343907.43945.762283.292470.636850.14广西7759.161458.492863.84517.7378.75551.14208336.82348.981095.45海南1654.21462.19300.63142.888.68168.7560.2265.73121.76243.45重庆6530.01606.82917.4531.37347.98524.36132.88389.97229.09850.16四川14151.282240.615678.241033.63520.71868.98405.45524.63548.142330.89贵州3912.68550.271252.67223.95399.77293.53153.41194.44136.15708.49云南6169.751067.62088.17494.36179.45571.03162.1351.74205.141050.16西藏441.3663.8833.11103.5221.1927.0614.723.1713.28141.45陕西8169.8789.643501.25735.17423.24707.39175.01336.21239.921261.97甘肃3387.56497.051203.7323.54213.64231.2188.5288.27101.37640.26青海1081.27107.4470.3310549.3266.1314.5445.6323.05199.87宁夏1353.31127.25520.38141.94114.7774.5225.5975.5447.56225.76新疆4277.05759.741555.84373.75209.095253.662.25198.87115.23748.67(2)定义聚类类型:在“Analyze”菜单“Classify”中选择Hierarchical命令,在弹出的Hierarchical Cluster Analysis 对话框中,从对话框左侧的变量列表中选择地区变量,使之添加到Lable Cases by框中,同样将指标第一产业,工业,建筑业,交通运仓储及邮电通讯业,批发零售贸易及餐饮业,金融保险业,房地产业,其他行业添加到Variable(s)框中。

主成分分析与聚类分析和判别分析

主成分分析与聚类分析和判别分析

实验三主成分分析、聚类分析和判别分析学院:地理科学学院专业:自然地理学姓名:郭国洋实验内容(1)中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标。

(2)用主成分分析剖析出影响中国大陆经济状况的主要指标,并对中国大陆的经济综合实力进行排序。

(3)用主成分剖析出的指标,用聚类分析对中国大陆的经济状况进行评价,并对每类的经济综合状况进行评价。

(4)结合本题,谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。

实验目的(1)巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。

(2)用SPSS软件完成地理的主成分分析和聚类分析。

第一部分主成分分析1 实验数据查阅2012年中国统计年鉴,数据表示2011年的指标。

得到中国31个省份、直辖市、自治区(不含港澳台)的7项经济统计指标数据,包括:总人口/10^4人,城镇人口比例/%,第一产业总产值/10^8元,工业生产总值/10^8元,公共财政预算收入/10^8元,城乡居民储蓄余额/10^8元,城镇单位就业人员工资总额/10^8元。

样本容量:31,变量:7,如图1。

2 实验步骤及分析(1)点击“分析”—“降维”—“因子分析”,将上述的7个指标选择为变量。

SPSS中的“主成分分析”嵌入到“因子分析”中,因此在操作的过程中我们要先进行因子分析。

如2。

图2 选择因子分析变量(2)依次点击“因子分析”框中的“描述”、“抽取”、“旋转”、“得分”、“选项”,勾选相应的选项,如图3、4、5、6、7所示图3抽取图4 旋转图4描述统计图5因子得分图6选项图7旋转(3)点击“确定”,得到相应的结果并分析。

图8 KMO和Bartlett检验分析:图8中,在进行因子分析之前,需要检验变量之间是否具备进行分析的条件。

由图中可知KMO值为0.787>0.5,说明数据变量之间具有结构效度,Sig<0.05,说明可以进行因子分析。

图9 公因子方差分析:图9是指全部公共因子对于变量的总方差做所的贡献,说明了全部公共因子反映出的原变量的信息的百分比。

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析摘要 (2)引言 (2)一聚类分析 (2)二聚类分析的优点 (2)三聚类分析相比较于其他分析方法而言 (2)实验方案 (3)1.1数据统计 (3)1.2聚类分析 (3)表1 (4)2结果分析与讨论 (5)表2 (5)表3 (6)表4 (6)表5 (7)图1 (8)总结 (8)小结 (9)参考文献 (9)摘要:改革开放以来,中国各省市在经济发展方面都取得了显著的成绩。

这篇论文利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。

通过这两个方法对全国各省进行经济分类。

本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。

分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型;广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。

关键词:聚类分析、经济类型引言:一聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。

它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。

二聚类分析的优点:聚类分析简单、直观;主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。

聚类分析与判别分析比较实证研究

聚类分析与判别分析比较实证研究

聚类分析与判别分析的比较聚类分析统计是比较各个事物间的性质,根据需要将性质相近的事物归为同一类,而将性质相差较大的归入不同的类。

它的本质是建立一种分类方法,他能够将一批样本数据按照他们性质上的亲密程度在没有先验知识的情况下自动进行分类。

聚类分析方法主要有两种:一种是快速聚类分析方法,一种是层次聚类分析方法。

层次聚类分析按其分类对象的不同分为Q型聚类分析它是根据被观测的样品的各种特征,将特征相似的样品归并为一类;R型聚类分析是根据被观测的变量之间的相似性,将其特征相似的变量归并为一类。

快速样本聚类适合聚成的类数已确定和大样本的聚类分析;而分层聚类则事先无法确定类别数,但给出的统计量可以帮助确定最好的分类结果。

后者对大样本分析受限制。

以下,我用《按三次产业分地区生产总值(2008年)》(来自国家统计局网站年度数据)通过快速聚类分析方法进行分类结果分析:从输出结果可以看出,当样本层次聚类分析成3个类时,样本的类归属情况:第一类包括7个省:北京、上海、安徽、福建、湖南、湖北、四川;第二类包含17个省:天津、山西、内蒙古、吉林、黑龙江、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆;第三类包含4省:河北、辽宁、浙江、河南;第四类包含3个省:江苏、山东、广东判别分析是另一种处理分类分体的统计方法。

它是先根据已知类别的事物的性质,建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。

判别分析的内容十分丰富,按照已知分类的多少,分成两组判别喝多组判别;按照判别方法分为逐步判别和序贯判别;按照判别则分为距离判别、贝叶斯判别和费歇判别等。

通过聚类分析我们已经知道以上31个省的分类情况,现在将福建、江西、山东、河南四个省的聚类结果删除掉。

然后进行判别分析。

得出结果如上图,福建,江西,山东,河南四省的判别结果与之前分类结果一样。

典型判别式函数系数函数1 2 3第一产业.000 .002 .001第二产业.001 -.001 .000第三产业.000 .001 .000(常量) -3.744 -1.017 -.516非标准化系数由此图得出三个函数(X1,X2,X3分别为第一产业、第二产业、第三产业)D1=-3.744+0.001X2D2==1.017+0.002X1-0.001X2+0.001X3D3=-0.516+0.001X1通过聚类分析和判别分析,我们得到了31省的分类结果。

基于聚类方法的我国各省市城镇居民消费结构分析

基于聚类方法的我国各省市城镇居民消费结构分析

基于聚类方法的我国各省市城镇居民消费结构分析Post By:2009-9-9 9:18:23摘要:经济发展的差异导致了我国31个省、市、自治区的居民消费结构的不同。

利用统计年鉴的数据,本文对全国31个省、市、自治区的城镇居民消费结构进行聚类分析,发现可以把这31个地区分为三类,并分析每一类城市具体的特点。

最后,为改善我国城镇居民消费结构提出了几点建议。

关键词:城镇居民,消费结构,聚类分析消费是人们为了满足欲望而使用物品的一种经济行为,它是人类一切经济活动的出发点,又是一切经济活动的归宿点。

改革开放以来,国家宏观经济政策发生了重大变化,经济持续、稳定、健康的发展,城镇居民的收入稳步增加,消费支出强劲增长,消费结构也发生了巨大的变化。

消费结构是指居民在消费过程中的各类消费品和服务支出在总额中所占的比例及其相互关系。

合理的消费结构不仅能满足人民日益增长的物质文化需要,而且有利于优化产业结构,促进国民经济总体结构形成良性循环。

一、我国城镇居民消费结构的现状消费结构既反映了居民的消费偏好以及对收入、价格等因素的敏感程度,又反映了居民的生活质量和经济发展水平。

一般来说,经济越发达的国家或地区,其消费结构就越趋向于追求安逸享受的消费结构。

在这样的消费结构中,奢侈品支出如精神文化消费、服务性支出所占的比例就会较大。

反之,在经济较不发达的地区中,生活必需品消费支出所占的比例就会较大。

随着社会主义市场经济体制的逐步完善,我国的社会生产力不断获得解放和日益加快发展,经济总量和综合实力迅速上升,城镇居民的生活水平显著提高,特别是城镇居民的消费结构发生了显著变化。

相对过去而言,居民食品方面的消费支出比重在逐渐下降,而在交通通讯、文化娱乐等方面的消费支出比重越来越大。

消费结构的变化,反映居民需求的变化。

研究我国城镇居民消费结构的现状及其变化、分析影响其变化的各种因素,对建立合理的消费结构,扩大内需,搞活社会主义市场经济,制定产业政策,促进国民经济的发展都有着极其重要的意义。

聚类分析与判别分析

聚类分析与判别分析
10.2.5 层次聚类R型聚类应用实例
该例可以借用层次聚类Q型聚类的实例,分析某班级中语文成绩、数学成绩、化 学成绩和外语快速聚类分析的概念 Ø 快速聚类分析的计算过程及公式 Ø快速聚类分析应用实例
10.3.1 快速聚类分析的概念
快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进 行初始分类,然后逐步调整,得到最终分类。快速聚类分析的实质是K-Mean聚类。
10.3.2 快速聚类分析的计算过程及公式
快速聚类分析的计算过程如下:
1.指定聚类的类数
在SPSS中确定 个类的初始类中心点。SPSS会根据样本数据的实际情况,选择 个 由代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定 组样本数据作为初始类中心点。
2. 确定中心点
接着,SPSS重新确定 个类的中心点。SPSS计算每个变量的变量值均值, 并以均值点作的类中心点;最后重复上面的两步计算过程,直到达到指定的 迭代次数或终止迭代的判断要求为止。
10.3.3 快速聚类分析应用实例
本实例调查了全国10个学校的校风、校纪、领导角色和教师态度4个指标, 希望使用快速聚类分析将这10个学校按照其各自的特点分成4种类型。
10.4 判别分析
Ø 判别分析的概念 Ø 判别分析应用实例
10.4.1 判别分析的概念
判别分析先根据已知类别的事物的性质建立函数式,然后对未知类别的新事物进 行判断以将之归入已知的类别中。 在判别分析中有如下假定:
预测变量服从正态分布。 预测变量之间没有显著的相关。 观测变量的平均值和方差不相关。 预测变量之间的相关性在不同类中是一样的。
10.1.1 聚类分析的意义
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个 分类的标准,聚类分析能够从样本数据出发,自动进行分类分析,所得到的聚 类数未必一致。因此,这里所说的聚类分析是一种探索性的分析方法。

全国21个城市社会经济发展指标的聚类分析

全国21个城市社会经济发展指标的聚类分析

全国21个城市社会经济发展指标的聚类分析社会经济发展是一个复杂而多样的过程,可以用各种指标来反映不同城市的发展水平和特点。

通过对全国21个城市的社会经济发展指标进行聚类分析,可以帮助我们更好地了解城市发展的现状和趋势。

首先,我们需要选择适当的指标来衡量城市的社会经济发展。

常见的指标包括人均GDP、城市化率、人口规模、教育水平、就业率、收入水平等。

这些指标代表了一个城市的经济实力、人口规模、教育质量和就业机会等重要方面。

接下来,我们可以使用聚类分析方法对这些指标进行分析。

聚类分析是一种无监督学习的方法,它基于样本间的相似性将样本划分为多个组别。

在这个问题中,我们的样本是21个城市,指标是城市的社会经济发展指标。

聚类分析的主要步骤包括:1.数据准备:将21个城市的社会经济发展指标整理成一个数据矩阵,每个城市对应一行数据,每个指标对应一列数据。

2.数据标准化:对于不同的指标,它们的量纲、单位和范围可能不同,为了进行比较和分析,我们需要对数据进行标准化处理,使得每个指标都具有相同的量纲和范围。

3. 聚类方法选择:选择适当的聚类方法来对数据进行分组。

常见的聚类方法包括K-means聚类、层次聚类等。

不同的聚类方法有不同的特点和适用性,需要根据实际情况选择。

4.聚类分析:根据选择的聚类方法,将数据进行聚类分析。

聚类分析的目标是将21个城市划分为几个组别,使得同一组别内的城市相似度较高,而不同组别之间的城市相似度较低。

5.分析结果解释:对聚类结果进行解释和分析。

可以对每个组别的城市进行比较,分析它们的特点和发展趋势。

也可以对不同指标的贡献度进行分析,找出主要影响城市发展的指标。

通过以上步骤,我们可以对全国21个城市的社会经济发展指标进行聚类分析,得到一些有关城市发展的重要结论。

这些结论可以为政府和决策者提供信息和参考,帮助他们了解不同城市的发展状况和问题,并采取有效的措施来促进城市的发展和改善。

聚类分析与判别分析的区别

聚类分析与判别分析的区别

义如下:

"! 2
dij=
( Xik- Xjk)
k= 1
其中: Xik: 第 i 个样品的第 k 个指标的观测值
Xjk: 第 j 个样品的第 k 个指标的观测值
dij: 第 i 个样品与第 j 个样品之间的欧氏距离
依次求出任何两个点的距离系数 dij( i, j=1, 2,
…, n) 以后, 则可形成一个距离矩阵:
将 任 何 两 个 样 品 xi 与 xj 看 成 维 p 空 间 的 两
个向量, 这两个向量的夹角余弦用 cos!ij 表示:

!xia xja
cos!ij=
a=1 p

"! ! ·xi2a
xj2a
a=1
a=1
1≤cos!ij≤1
当 cos!ij=1, 说明两个样品 xi 与 xj 完全相似;
cos!ij 接 近 1, 说 明 两 个 样 品 xi 与 xj 相 似 密 切 ;
根据分类对象的不同分为样品聚类和变量聚类。 有关类别的信息可参考。
2 、判 别 分 析
例如简单的模拟聚类分析如下:
是一种进行统计判别和分组的技术手段。根
武钢 5 个主体厂的技术经济指标
据一定量案例的一个分组变量和相应的其他多元 变量的已知信息, 确定分组与其他多元变量之间
厂别
成材率
综合合格率
的数量关系, 建立判别函数, 然后便可以利用这一
在实际分析中, 当对样本的分类不清楚时, 可 以先聚类分析, 然后进行判别分析。
2 、聚 类 分 析 与 判 别 分 析 对 数 据 要 求 不 同 ( 1) 聚类分析并不是一种纯粹的统计技术, 其 方法基本上与分布理论和显著性检验无关, 一般 不从样本推断总体。在实际应用中, 许多研究者实 际上是将手中的数据视为近似总体。与其说聚类 分析是一种假设检验的方法, 不如说它是一种建 立假设的方法。 ( 2) 而在判别分析中, 对于分布理论非常关 注, 它有一个基本假设: 每一个类别都应取自一 个多元正态总体的样本, 而且所有正态总体的协 方差矩阵或相关矩阵都假定是相同的, 如果不满 足正态总体的假定, 则需要对非正态化数据作正 态化变换; 如果不满足协方差矩阵相同的假定, 则 可能要采用非线性的判别函数, 例如: 二次判别函 数等。 3、在市场研究中, 应用范围有所不同 ( 1) 聚类分析在市场研究中可用于: a 、细 分 市 场 市场细分的过程就是将各种消费者划分成同 质的类别或部分。市场细分所用的变量由研究的

spss数据分析作业-中国区域经济类型的聚类和判别分析

spss数据分析作业-中国区域经济类型的聚类和判别分析

应用数理统计(论文)中国区域经济类型的聚类和判别分析指导老师:**院系名称:材料科学与工程学号:SY********名:***2014年12月20日摘要区域经济发展的指标体系,包括人口总数、第一产业总产值、第二产业总产值、第三产业总产值、财政收入、社会消费品零售总额、货物进出口总额、平均工资、人均可支配收入和居民消费水平等。

本文主要通过系统类聚的方法,将全国31 个省市(自治区)的2013年经济发展状况进行归类分析,得出全国区域经济发展水平的一些基本情况,并进行了相应的判别分析,为我国经济在快速发展的前提下,做好协调发展提供一些启示。

关键字:区域经济聚类分析判别分析中国区域经济类型的聚类和判别分析目录1引言 (4)2数据收集 (5)3聚类分析 (8)3.1聚类分析概述 (8)3.2聚类分析过程及结果输出 (8)3.3讨论 (12)4判别分析 (14)4.1判别分析概述 (14)4.2判别分析过程及结果输出 (14)4.3讨论 (17)5结论 (18)参考文献 (19)应用数理统计(论文)1引言在制定国民经济和社会发展规划时,通常需要按照行政区域进行经济类型的划分,这有助于对不同地区经济发展存在的差异进行宏观调控,从而因地制宜出台相应的经济政策,促进各地区经济的协调发展,为国民经济持续协调健康发展奠定了坚实基础。

明确当前我国发达地区和落后地区的区间格局, 对于进一步的研究和分析我国各区域间经济发展的状况,并探求切实可行的区域协调发展政策以实现我国经济的可持续发展有着极为重要的现实意义。

在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。

在事先并不知道应将样品或指标分为几类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类;而在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。

本文试图通过聚类分析的方法,分析2013 年中国31 个省市(区域)经济发展发展状况和差异情况,从中寻找一些有用的信息,提出对我国经济如何在快速发展的基础上,做到协调发展的一些思考。

应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析

应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析

对中国各地区农村居民人均消费支出的测评分析————基于SPSS分析12统计学1217020072 韦** 摘要:本文对中国各地区农村居民人均消费支出进行测评分析,以31个地区2013年的8项指标数据为样本。

以聚类分析和判别分析相结合对地区农村居民人均消费支出类型进行分析,利用因子分析对描述各地区的农村居民人均消费支出各项指标变量进行分析,再利用各指标变量间的相关性进行分析,得出结论,我国农村居民消费水平严重不平衡。

关键词:农村居民人均消费支出;聚类分析;判别分析;因子分析;主成分分析一、前言随着经济的发展和人民生活水平的不断提高,我国农村居民人均消费支出数额不断提高,从总体上来说,大部分农村居民实现消费水平上达到了小康水平,并且有向更高层次提升趋势。

消费作为主要宏观经济变量,是社会总需求最重要的组成部分,国民经济的增长速度和质量受到居民的消费增长的影响,因此农村居民消费越来越受到重视。

我国由地域的不同分为东部地区、中部地区和西部地区,由于地区不同,长期以来我国一直存在着严重的地区发展不平衡问题,这一问题在农村居民消费上也表现得十分明显。

农村居民新的消费水平和消费性支出存在着很大的差异,因此需要对农村居民消费水平进行客观、准确、有效的评价[1]。

二、数据说明各地区农村居民人均消费支出各指标变量:x1:食品 x2:衣着x3:居住 x4:家庭设备及用品x5:交通通信 x6:文教娱乐x7:医疗保健 x8:其他原始数据来源:《中国统计年鉴——2014》本文所引用数据如下:三、聚类分析3.1聚类分析的基本思想聚类分析又称群分析,是分类学的一种基本方法,所谓“类”,通俗的讲,就是由相似性的元素构成的集合。

聚类分析是一种探索性的分析,也是多元统计学中应用极为广泛的一种重要方法。

在应用中,聚类分析是通过将一批个案或者变量的诸多特征,按照关系的远近程度进行分析。

关系远近程度的定量描述方式不一样,利用聚类方法也不一样,可以产生有差别的聚类结果。

31个省市聚类分析

31个省市聚类分析

附录一
data ex;input x1-x5 shengfen$@@; cards; 0.61 0.69 0.88 0.95 1.21 0.98 1.18 1.19 0.79 0.73 1.04 0.92 0.98 0.97 1.09 0.97 1.05 0.82 1.14 1.01 1.03 1.18 1.23 1.08 1.07 1.18 1.13 1.28 ; proc cluster data=ex method=ward ccc pseudo outtree=tree; id shengfen; run; proc tree data=tree horizontal; id shengfen; run; 2.49 2.73 2.33 1.33 0.65 1.08 0.54 3.81 4.38 1.41 0.68 2.19 0.63 1.37 1.06 1.14 0.47 1.21 0.52 0.52 1.16 1.16 0.94 sf4 sf5 sf6 sf8 0.18 1.17 sf7 0.36 sf9 sf11 sf12 sf13 sf15 sf17 sf19 sf21 sf23 sf24 sf25 sf27 sf28 sf29 sf30 sf31 sf1 sf2 sf3
Gi , G j 。 G j 合为一类得到一个新类 Gr
(3) 重新计算类间的距离,得到新的矩阵 D。 (4) 重复第二步直到全部合为一类。 3、模型的求解 由表给出的数据,用 SAS 编程求解(附录一) ,运行结果如下:
(1)类聚过程。
Cluster History 表示类聚的具体过程中,从 CCC 统计的结果可以看出,最 大值对应的类数为 6,从 6 类并到 5 类后,伪 T 2 统计量显著增加,伪 F 统计量 显著下降,综合各方面的结果,因此分 6 类最合适。 (2)动态聚类图。 动态聚类图表示每一个步骤聚类的编号,以及类间规格化距离。 综合以上分析,可以得到结果,将 31 个省市自治区分为 6 类,分别为第一 类:sf1,sf2;第二类:sf9;第三类:sf3,sf13,sf15;第四类:sf6,sf10,sf11,sf19; 第 五 类 : sf4,sf30,sf7,sf27,sf31,sf5,sf8,sf28,sf24,sf25,sf26,sf29 ; 第 六 类 : sf12,sf16,sf17,sf14,sf18,sf21,sf20,sf22,sf23。 模型的推广 从聚类分析的结果可以把全国 31 个省市自治区分为六类, 方便国家在经济、 政策、文化等各方面的调控上,可以有效的减少在调控中的风险,促进我国经济 增长,利国利民。

基于多元统计学的我国各省市经济发展状况分析

基于多元统计学的我国各省市经济发展状况分析

基于多元统计学的我国各省市经济发展状况分析基于多元统计学的我国各省市经济发展状况分析摘要:通过多元统计学的聚类分析和因子分析方法,使用SPSS23.0软件,根据2017年我国31个省市自治区的生产总值分行业增加值表,综合统计各个行业产值的样本数据分析并输出结果。

本文对31个省市进行了分类排名,进而分析出我国各省市的基本发展状况,并可以根据相关结果对于不同地区的发展提供理论指导。

关键词:经济发展;主成分分析;聚类分析;因子分析Analysi softheEconomicDevelopmentofprovincesandcitiesinChinaBas edonMultivariateStatisticsAbstract:Throughtheclusteranaly sisandfactoranalysismethodsofmultivariatestatistics,SPSS23.0softwarewasusedtocomprehensivelyanalyzeandoutputthes ampledataofoutputvalueofeachindustryaccordingtothevalue-addedtableofGDPof31provincesandautonomousregionsinChinain2017.Inthisstudy,31provincesandcitieswereclassifiedandranked,.whichcanrealizethevariousprovincesandautonomousregionsinChina''seconomicdevelopmentsituation,andcana ccordingtorelevantresultsprovidetheoreticalguidanceforthedevelopmentofdifferentregions.Keywords:Economicdevelopment;Principalcomponentanalysis;Clusteranalysis;Factoranalysis目录一、引言4二、相关分析方法51.聚类分析52.主成分分析63.因子分析7三、数据的准备及处理91.聚类分析102.主成分分析123.因子分析163.1因子载荷分析193.2综合得分分析19四、结论与建议201.结论202.建议20(1)给予更多优惠和鼓励、加大改革,同时注重保护环境20(2)协调地区经济发展,保障经济全面高速健康发展20(3)加大交通网络建设投入力度,促进优势互补、区域协调21(4)完善社会保障制度,严格落实“科教育人”21五、参考文献22六、附录23查重结果截图23一、引言新中国成立以以来,我们国家的综合发展水平有了很大的提升;特别是1978年的经济结构调整,为我国社会经济不断发展注入了强大的活力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全国各省经济的聚类分析及判别分析唐鹏钧(DY1001109)摘要:利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。

通过这两个方法对全国各省进行经济分类。

本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。

分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型;广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。

关键词:聚类分析、判别分析、经济类型0引言聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。

它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。

判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。

聚类分析与判别分析都是研究分类的,但是它们有所区别:(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。

判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。

(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。

(3)聚类分析与判别分析也是有联系的。

如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。

随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。

但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。

因此,基于这种现状,本文对全国各地区的经济进行聚类分析。

首先对除浙江、湖南、甘肃三省的其他各省经济进行聚类,然后对浙江、湖南、甘肃三省的经济类型进行判别分析。

通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异,最终对国家以及各地区的发展及政策制定实施起到指导作用。

本文采用多元统计分析方法,对全国31个省、直辖市、自治区的7项经济指标进行聚类分析和判别分析,从而能够比较客观地反映了当前各地区的经济类型。

1实验方案1.1数据统计本文根据2010年国家统计年鉴,选取了2009年31个省、直辖市、自治区的7项经济指标[1],如表1所示。

其中包括:各省的国内生产总值X1、农业生产总值X2、工业生产总值X3、建筑业生产总值X4、进出口总值X5、批发企业销售额X6和餐饮业X7。

1.2聚类分析将表1所示的31个省、直辖市、自治区(除浙江、湖南和甘肃) 2009年的各项数据导入SPSS。

为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“Analyze→Descriptive Statistics→Descriptives…”,然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Analysis)。

其过程为:依次选择“Analyze→Classify→Hierarchical Cluster”,引入的变量是X1至X7。

从而对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。

聚类方法使用Between-groups linkage(类间平均链锁法),距离测量技术选择Squared Euclidean distance(Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类)。

最终得出聚类分析结果。

值得注意的是本文选择的聚类类型共分4类。

表1 2009年我国31个省、直辖市、自治区的各项经济指标数据统计单位:亿元地区国内生产总值(X1)农业生产总值(X2)工业生产总值(X3)建筑业生产总值(X4)进出口总值(X5)批发企业销售额(X6)餐饮业(X7)北京12153.03 315.0 11039.13 34297216 5334148 22558.0 341.7 天津7521.85 281.7 13083.63 15641917 4488051 8599.5 62.6 河北17235.48 3640.9 24062.76 23328055 134**** ****.6 26.5 山西7358.31 908.7 9249.98 16501463 163150 2705.0 44.9 内蒙古9740.25 1570.6 10699.44 9129264 108694 1487.6 41.1 辽宁15212.49 2704.6 28152.73 28557785 3076882 6428.7 93.3 吉林7278.75 1734.3 10026.55 10241235 555747 1049.4 18.2 黑龙江8587.00 2251.1 7301.60 12351015 78345 2028.3 27.4 上海15046.45 283.2 24091.26 32476545 18670215 20170.8 292.6 江苏34457.30 3816.0 73200.03 89289353 25969712 15364.8 205.2 浙江22990.35 1873.4 41035.29 88614109 6929148 13888.0 166.5 安徽10062.82 2569.5 13312.59 19598071 523140 2937.0 41.2 福建12236.53 2001.2 16762.82 19415838 4377455 4617.1 80.5 江西7655.18 1733.8 9783.96 11853294 770607 1002.8 24.7 山东33896.65 6003.1 71209.42 40516317 7559835 7584.4 262.6 河南19480.46 4871.5 27708.15 32201197 376612 3083.0 98.7 湖北12961.10 2985.2 15567.02 30468409 703772 4259.0 81.4 湖南13059.69 3207.9 13507.64 23234734 182177 1643.9 65.3 广东39482.56 3337.6 68275.77 29806043 38241318 18599.1 384.4 广西7759.16 2377.2 6880.04 8758730 367765 1464.0 17.6 海南1654.21 705.0 1057.45 1366053 301396 517.5 8.4 重庆6530.01 913.1 6772.90 17524046 295047 2864.0 73.7 四川14151.28 3689.8 18071.68 29003710 936469 2570.6 94.2 贵州3912.68 875.2 3426.69 5060158 18647 825.8 9.5 云南6169.75 1706.2 5197.45 10774227 43593 2591.0 17.0 西藏441.36 93.4 51.60 910274 99 33.2 0.4 陕西8169.80 1337.2 8470.40 22052762 252626 1956.2 76.1 甘肃3387.56 876.3 3770.38 5243473 10693 1205.8 12.8 青海1081.27 157.3 1080.35 1848156 19432 184.2 2.6 宁夏1353.31 243.5 1461.58 2323586 22142 373.6 8.0 新疆4277.05 1297.6 4001.12 7258850 27362 2511.8 7.01.3判别分析选择SPSS→Analyze→Classify→Discriminant Analysis,定义分类结果为指标变量X8,采用自变量全进入模型来进行判别分析,由于在聚类分析中将全国各省、直辖市的经济类型分为四类,因此其取值范围为1~4。

2结果分析与讨论2.1聚类分析通过SPSS对数据进行标准差标准化,结果如表2所示。

从表中的方差结果可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各地区发展的不平衡。

表2 Descriptive Statistics再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。

表3显示,进行聚类分析的只有28个省、直辖市、自治区。

采用的是组间聚类。

表3 Case Processing Summary(a)a Average Linkage (Between Groups)表4说明整个聚类分析过程共进行了27步,而且每一步的合并也有清楚地显示。

通过该表,可以详细地了解每一步的聚类过程。

表4 Agglomeration Schedule表5显示了28个省、直辖市、自治区在这4种类型中的分布情况。

结果为:第一类:北京市、上海市(2个)第二类:天津市、河北省、山西省、内蒙古、辽宁省、吉林省、黑龙江省、安徽省、福建省、江西省、河南省、湖北省、广西省、海南省、重庆市、四川省、贵州省、云南省、西藏、陕西省、青海省、宁夏、新疆(23个)第三类:江苏省、山东省(2个)第四类:广东省(1个)表5 Cluster MembershipCase 4 Clusters Case 4 Clusters1 1 15 22 2 16 23 2 17 44 2 18 25 2 19 26 2 20 27 2 21 28 2 22 29 1 23 210 3 24 211 2 25 212 2 26 213 2 27 214 3 28 2图1 聚类分析谱系图从图1可以直观地看出各个省、直辖市、自治区之间的相似程度,聚类的先后顺序,将表4所表达的聚类过程更直观地展现出来。

2.2判别分析首先对初始数据进行标准差标准化处理,结果如表6所示。

表6 Descriptive Statistics表7 Analysis Case Processing Summary表7显示了浙江、湖南和甘肃三省为判别分析的对象。

相关文档
最新文档