北航数理统计第二次数理统计大作业 判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数理统计大作业(二)
全国各省发展程度的聚类分析及判别分
析
指导教师
院系名称材料科学与工程院
学号
学生姓名
2015 年 12 月21 日
目录
全国各省发展程度的聚类分析及判别分析 (1)
摘要: (1)
引言 (1)
1实验方案 (2)
1.1数据统计 (2)
1.2聚类分析 (3)
1.3判别分析 (4)
2结果分析与讨论 (5)
2.1聚类分析结果 (5)
2.2聚类分析结果分析: (8)
2.3判别分析结果 (9)
2.4 Fisher判别结果分析: (11)
参考文献: (16)
全国各省发展程度的聚类分析及判别分析
摘要:
利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析,分析选择最佳聚类类数,并对浙江、湖南、甘肃进行类型判别分析。
通过这两个方法对全国各省进行发展分类。
本文选取了7项社会发展指标作为决定发展程度的影响因素,其中经济因素为主要因素,同时评估城镇化率和人口素质因素。
各项数据均来自2014年国家统计年鉴。
分析结果表明:北京市和上海市和天津市为同一类;江苏省和山东省和广东省为同一类型;河北、湖北、河南、湖南、四川、辽宁为同一类;其余的为另一类。
关键词:聚类分析、判别分析、发展
引言
聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。
它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。
判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。
判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。
聚类分析与判别分析都是研究分类的,但是它们有所区别:
(1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底
有几种类型并不知道。
判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。
(2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得出不一样的结果,就本题看来,出现了经济类型上的判别不一致的细微差异,但是作为分类方法来说,两种方法在大部分情况下都能取得一致的效果。
(3)聚类分析与判别分析也是有联系的。
如我们对研究的多元数据的特征不熟悉,当然要先进行聚类分析,才能考虑判别分析的问题。
随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。
但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。
因此,基于这种现状,本文对全国各地区的经济进行聚类分析。
首先对除浙江、安徽、甘肃三省的其他各省经济进行聚类,然后对浙江、安徽、甘肃三省的经济类型进行判别分析。
通过本文的分析研究,可以清楚地认识到我国经济类型构成,以及各地区的发展差异。
本文采用多元统计分析方法,对全国31个省、直辖市、自治区的7项经济指标进行聚类分析和判别分析,从而能够比较客观地反映了当前各地区的发展程度。
1实验方案
1.1数据统计
本文根据2014年国家统计年鉴,选取了2013年31个省、直辖市、自治区的7项经济指标[1],如表1所示。
其中包括:、第一产业生产总值X1、第二产业生产总值X2、第三产业生产总值X3、固定资产投资X4,外商投资总值X5,城镇人口比X6,高等教育人口(大专及以上)X7。
其中第二产业包括工业建筑业。
第三产业包括交通运输、仓储,批发和零售业,住宿和餐饮业,金融业,房地产业和其他.高等教育人口是是2013年全国人口变动情况抽样调查样本数据,抽样比为0.822‰。
1.2聚类分析
将表1所示的31个省、直辖市、自治区(除浙江、安徽和甘肃) 2013年的各项数据导入SPSS。
为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“Analyze→Descriptive Statistics→Descriptives…”,然后对标准差标准化后的数据进行聚类分析(Hierarchical Cluster Analysis)。
其过程为:依次选择“Analyze→Classify→Hierarchical Cluster”,引入的变量是X1至X7。
从而对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。
聚类方法使用Between-groups linkage(类间平均链锁法),距离测量技术选择Squared Euclidean distance(Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类)。
最终得出聚类分析结果。
值得注意的是本文选择的聚类分类方案选择了2-5类
表1 2013年我国31个省、直辖市、自治区的各项指标数据统计
地区X1(亿元)X
X2(亿元)X3(亿元)X(亿元)X5(亿美元)X6(%)X7(人) 北 京161.834352.314986.43(亿6847.1177186.36859 天 津188.457276.686905.039130.2127482.012670 河 北3500.4214762.110038.8923194.254548.124307 山 西773.816792.685035.7511031.934252.563013 内蒙古1599.419084.196148.7814217.422958.711966 辽 宁2321.6314269.4610486.5625107.7183266.456924 吉 林1509.346858.234613.899979.331854.22509 黑龙江2516.795918.225947.9211453.122857.43708 上 海129.288027.7713445.075647.8457989.64703 江 苏3646.0829094.0326421.6436373.3666464.118462 浙 江1784.6218446.6517337.2220782.12404647464 安 徽2348.0910403.966286.8218621.941647.864186 福 建1936.3111315.38508.0315327.4156560.772554 江 西1636.497671.385030.6312850.358848.873228 山 东4742.6327422.4722519.2336789.1176553.757445 河 南4058.9817806.3910290.4926087.547843.85757 湖 北3098.1612171.569398.7719307.365454.515304 湖 南3099.2311517.359885.0917841.440547.964343 广 东3047.5129427.4929688.9722308.4512667.766665 广 西2343.576863.045171.3911907.731944.812732 海 南756.47871.291518.72697.927052.74593 重 庆1016.746397.925242.0310435.258858.342162 四 川3425.6113579.039256.1320326.172544.96597 贵 州1029.053243.73734.047373.611937.832419 云 南1895.344927.824897.759968.324140.482763 西 藏86.82292.92427.938761323.7155 陕 西1526.058911.645607.5214884.136651.310673463 甘 肃879.372821.042567.66527.96540.131788 青 海207.591204.31689.152361.13048.51553 宁 夏222.981264.961077.122651.13552.01559 新 疆1468.293765.973125.987732.36544.472174
1.3判别分析
选择SPSS→Analyze→Classify→Discriminant Analysis,将聚类分析的类作判别种类,采用自变量全进入模型来进行判别分析。
使用Fisher判别法。
2结果分析与讨论
2.1聚类分析结果
通过SPSS对数据进行标准差标准化,结果如表2所示。
从表中的方差结果
可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各
地区发展的不平衡。
表2 描述统计量
N 极小值极大值均值标准差
统计量统计量统计量统计量标准误统计量
X1(亿元)28 86.82 4742.63 1855.1736 252.95492 1338.51162 X2(亿元)28 292.92 29427.49 9824.6500 1508.28399 7981.08870 X3(亿元)28 428 29689 8574.96 1372.561 7262.910 X4(亿元)28 876.0 36789.1 14096.671 1776.6957 9401.3902 X5(亿美元)28 13 6664 1111.93 312.351 1652.805 X6 28 23.71 89.60 54.8568 2.69386 14.25459 X7(人)28 55 8462 3731.68 432.221 2287.100 有效的 N (列表状态)28
再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。
表3显示,
进行聚类分析的只有28个省、直辖市、自治区。
采用的是组间聚类。
表3 案例处理汇总a,b
表4说明整个聚类分析过程共进行了27步,而且每一步的合并也有清楚地显
示。
通过该表,可以详细地了解每一步的聚类过程。
表4 聚类表
阶群集组合系数首次出现阶群集下一阶
群集 1 群集 2 群集 1 群集 2
1 26 27 .064 0 0 3
2 12 25 .142 0 0 11
3 19 26 .241 0 1 18
4 7 20 .283 0 0 7
5 18 23 .310 0 0 12
6 22 28 .350 0 0 12
7 4 7 .373 0 4 9
8 15 16 .446 0 0 10
9 4 5 .676 7 0 11
10 3 15 .678 0 8 15
11 4 12 .721 9 2 14
12 18 22 .919 5 6 16
13 14 21 1.063 0 0 15
14 4 8 1.332 11 0 16
15 3 14 1.464 10 13 20
16 4 18 1.680 14 12 17
17 4 11 2.625 16 0 22
18 19 24 3.908 3 0 22
19 1 9 4.103 0 0 23
20 3 6 4.151 15 0 25
21 10 17 4.191 0 0 24
22 4 19 5.491 17 18 25
23 1 2 5.499 19 0 26
24 10 13 10.374 21 0 27
25 3 4 10.474 20 22 26
26 1 3 15.794 23 25 27
27 1 10 37.316 26 24 0
表5显示了28个省、直辖市、自治区在这4种类型中的分布情况。
结果为:
4: 山西 3 3 2 1 5: 内蒙古 3 3 2 1 6: 辽宁 2 2 2 1 7: 吉林 3 3 2 1 8: 黑龙江 3 3 2 1 9: 上海 1 1 1 1 10: 江苏 4 4 3 2 11: 福建 3 3 2 1 12: 江西 3 3 2 1 13: 山东 5 4 3 2 14: 河南 2 2 2 1 15: 湖北 2 2 2 1 16: 湖南 2 2 2 1 17: 广东 4 4 3 2 18: 广西 3 3 2 1 19: 海南 3 3 2 1 20: 重庆 3 3 2 1 21: 四川 2 2 2 1 22: 贵州 3 3 2 1 23: 云南 3 3 2 1 24: 西藏 3 3 2 1 25: 陕西 3 3 2 1 26: 青海 3 3 2 1 27: 宁夏 3 3 2 1 28: 新疆 3 3 2 1
图1 聚类分析谱系图
图1 树状图
从图1可以直观地看出各个省、直辖市、自治区之间的相似程度,聚类的先后顺序,将表4所表达的聚类过程更直观地展现出来。
2.2聚类分析结果分析:
当省份被分为两类时:江苏、广东、山东这三省是一类,其他省份是一类。
其他省份为一类。
这三省分别是我国沿海地区。
经济以外向型经济为主。
但是其余省没有很好的区分。
当分为三类时:1.北京、天津、上海为一类。
2.广东、山东、江苏为一类。
3.其他为一类。
其中北京、天津和上海都为直辖市,经济和社会先进,第三产业发达,城镇化率极高,人口教育水平高。
但是第二产业没有很好的区分。
当分为四类时:1.北京、上海、天津为一类2.河北、湖北、河南、湖南、四川、辽宁为一类3. 青海、宁夏、海南、西藏、广西、云南、贵州、新疆、江西、陕西、吉林、重庆、山西、内蒙古、黑龙江、福建,云南为一类4. 江苏,山东,广东为一类。
2类主要为相对不发达的内部省。
3类主要为边疆经济和社会相对落后的省。
当分为五类时:1.北京、天津、上海为一类2.山东为一类3.江苏、广东为一类4. 河北、湖北、河南、湖南、四川、辽宁为一类5. 其余为一类。
当分为五个类的时候,山东单独为一类,意义不大。
因此,应该分为四类。
所以,聚类分析结果为:第一类为北京、上海、天津;第二类为河北、湖北、河南、湖南、四川、辽宁;第三类为;青海、宁夏、海南、西藏、广西、云南、贵州、新疆、江西、陕西、吉林、重庆、山西、内蒙古、黑龙江、福建,云南。
第四类为江苏,山东,广东。
2.3判别分析结果
Fisher判别的结果输出:。
表6 描述统计量
表7 分析案例处理摘要
未加权案例N 百分比
有效28 90.3
排除的缺失或越界组代码 3 9.7 至少一个缺失判别变量0 .0 缺失或越界组代码还有至少
一个缺失判别变量
0 .0 合计 3 9.7
合计31 100.0
表7中有效的28是聚类分析中的28个省级,3个缺失值是未分类省。
表8 组统计量
Average Linkage (Between Groups) 均值标准差有效的 N(列表状态)
未加权的已加权的
1 X1(亿元)159.8533 29.63448 3 3.000 X2(亿元)6552.2500 1941.87256 3 3.000 X3(亿元)11778.8433 4290.62816 3 3.000 X4(亿元)7208.3667 1769.08526 3 3.000 X5(亿美元)2541.3333 1782.0820
2
3 3.000 X6 85.9700 3.80575 3 3.000 X7(人)4744.0000 2094.80095 3 3.000
2 X1(亿元)3250.6717 575.43945 6 6.000 X2(亿元)14017.648
3 2228.1876
4 6 6.000 X3(亿元)9892.6550 486.11196 6 6.000 X4(亿元)21977.3667 3320.69342 6 6.000 X5(亿美元)773.1667 531.48449 6 6.000 X6 50.9567 8.45692 6 6.000 X7(人)5538.6667 1103.50146 6 6.000
3 X1(亿元)1282.8156 739.43289 16 16.000 X2(亿元)5336.4731 3289.35257 16 16.000 X3(亿元)4173.5381 2255.73307 16 16.000 X4(亿元)9109.1687 4714.67981 16 16.000 X5(亿美元)332.2500 372.77008 16 16.000 X6 49.1700 9.42878 16 16.000 X7(人)2153.1875 1127.43113 16 16.000
4 X1(亿元)3812.0733 859.66464 3 3.000 X2(亿元)28647.9967 1074.35357 3 3.000 X3(亿元)26209.9467 3589.55477 3 3.000 X4(亿元)31823.6000 8243.02710 3 3.000 X5(亿美元)4518.3333 2505.3930
5 3 3.000 X
6 61.8733 7.26788 3 3.000 X7(人)7524.0000 901.10099 3 3.000
合计X1(亿元)1855.1736 1338.51162 28 28.000 X2(亿元)9824.6500 7981.08870 28 28.000 X3(亿元)8574.9611 7262.91011 28 28.000 X4(亿元)14096.6714 9401.39020 28 28.000 X5(亿美元)1111.9286 1652.80540 28 28.000 X6 54.8568 14.25459 28 28.000 X7(人)3731.6786 2287.09998 28 28.000
2.4 Fisher判别结果分析:
Fisher判别函数分析:
表9.1 Fisher判别函数特征值
函数特征值方差的% 累积% 正则相关性
1 13.701a74.3 74.3 .965
2 3.578a19.4 93.7 .884
3 1.157a 6.3 100.0 .732
a. 分析中使用了前3 个典型判别式函数
表9.1特征值为典型判别式函数的特征值,为判别函数组内平方和与组间平方和之比。
特征值越大说明判别效果越好。
正则相关性为典型相关系数,等于组间平方和和组内平方和值比的平方根。
表9.2 Wilks 的Lambda
函数检验Wilks 的
Lambda
卡方df Sig.
1 到 3 .007 107.023 21 .000
2 到
3 .101 49.233 12 .000
3 .46
4 16.526
5 .005
表9.2的给出Fisher判别函数有效性检验结果。
该检验的原假设是不同组的平均Fisher判别函数不存在显著差异。
从表中给出p值来看,p值=0.000及
0.005<=0.05,说明在0.05的显著性水平下有理由拒绝原假设,即认为不同组的平均Fisher判别函数值存在显著差异,意味着判别有效。
判别函数系数分析
表10.1 标准化的典型判别式函数系数
函数
1 2 3
X1(亿元)-.337 -.558 .413
X2(亿元).256 -.694 .788
X3(亿元) 1.194 .870 -1.043
X4(亿元).544 .286 -1.060
X5(亿美元)-.054 -.149 -.138
X6 -.652 .600 .496
X7(人)-.446 -.186 1.451
表10.2 结构矩阵
函数
1 2 3
X3(亿元).778*.446 .366
X2(亿元).741*-.099 .386
X6 .072 .698*.408
X1(亿元).384 -.518*.498
X5(亿美元).348 .420*.026
X7(人).395 .122 .819*
X4(亿元).464 -.276 .487*
判别变量和标准化典型判别式函数之间的汇聚组间相
关性
按函数内相关性的绝对大小排序的变量。
*. 每个变量和任意判别式函数间最大的绝对相关性
表10.3 未标准化的典型判别式函数系数
函数
1 2 3
X1(亿元).000 -.001 .001
X2(亿元).000 .000 .000
X3(亿元).000 .000 .000
X4(亿元).000 .000 .000
X5(亿美元).000 .000 .000
X6 -.075 .069 .057
X7(人).000 .000 .001
(常量) -.306 -3.094 -4.345
非标准化系数
表10.4 组质心处的函数
Average Linkage (Between Groups) 函数
1 2 3
1 -1.451 4.667 1.021
2 .902 -1.685 1.628
3 -1.826 -.368 -.647
4 9.386 .664 -.826
在组均值处评估的非标准化典型判别式函数
表10.1和表10.3分别给出了标准化的Fisher判别函数和未标准化的Fisher判别函数。
标准化的Fisher判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的Fisher判别函数值,带入该函数的自变量必须是经过标准化的。
而为标准化的Fisher判别函数系数由于可以将实测的样本观测值直接带入求出判别函数值,所以该系数使用起来比标准化的系数要方便一些.表10.4为组质心处的函数值。
该函数值是根据未标准化Fisher判别函数计算的。
这样只要根据Fisher
判别函数计算出各样本函数值后,在比较他们分别距离各种新的距离,就可以得知他们的分类。
分类统计量的分析:
表11.1 分类处理摘要
已处理的31
已排除的缺失或越界组代码0 至少一个缺失判别变量0
用于输出中31
表11.2 组的先验概率
Average Linkage (Between Groups) 先验用于分析的案例
未加权的已加权的
1 .250 3 3.000
2 .250 6 6.000
3 .250 16 16.000
4 .250 3 3.000 合计 1.000 28 28.000
表11.3 分类函数系数
Average Linkage (Between Groups)
1 2 3 4
X1(亿元).003 .007 .006 -.001 X2(亿元)-.001 .001 .000 .000 X3(亿元).000 -.001 -.001 .005 X4(亿元)-.001 -.001 .000 .001 X5(亿美元)-.002 -.001 -.001 -.002 X6 1.340 .762 .927 .150 X7(人).002 .003 .001 -.004 (常量) -56.888 -31.278 -23.429 -71.940 Fisher 的线性判别式函数
表11.4 分类结果a
Average Linkage (Between Groups)
预测组成员合计1 2 3 4
初始计数
1 3 0 0 0 3
2 0 6 0 0 6
3 0 0 16 0 16
4 0 0 0 3 3
未分组的案例0 2 1 0 3 %
1 100.0 .0 .0 .0 100.0
2 .0 100.0 .0 .0 100.0
3 .0 .0 100.0 .0 100.0
4 .0 .0 .0 100.0 100.0
未分组的案例.0 66.7 33.3 .0 100.0
a. 已对初始分组案例中的 100.0% 个进行了正确分类。
由于我在先验概率中选择了“所有组相等”选项。
所以表11.2给了0.25的先验概率。
图 2 分类图
根据分类结果,浙江,安徽被分到第二类。
甘肃被分到第三类。
比较相关数据,可以发现,浙江,安徽在外商投资和城镇化方面相差较大外,其他指标较接近,而甘肃和以上两省各个指标差距都较大。
第一类为体量小但经济和社会发达的直辖市。
第四类为体量大经济发达的经济强省,各个指标有较大的领先。
因此,可以认为判别结果是有效的且符合人们的认知。
当然,在上述分析中也存在一些问题,在选择变量时没有综合考虑外商投资、旅游业等对经济的影响,这对于一些在吸引外资方面具有优势或者在旅游业方面具有得天独厚优势的城市来说,没有办法综合考虑全部的影响因素,分析结果可能存在较大偏差。
但还是存在很好的参考价值。
参考文献:
[1] 中华人民共和国国家统计局编:中国统计年鉴2014[M] 北京:中国统计出版社
[2] 孙海燕,周梦,李卫国,冯伟. 应用数理统计.[M] 北京北京航空航天大学数学系2014.
[3] 朱建平.SPSS统计分析及应用[M].北京:首都经济贸易大学出版社,2013.2。