sas数据分析实验报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 2009年广东省各市经济统计分析
——《数据分析与统计软件》实验报告
伍思敏(进修)1102020
1、问题背景与数据描述
自广东省委省政府提出建设“幸福广东”之后,如何加快全省经济的升级转型,如何促进全省各市的城乡区域协调发展,以及如何统筹全省经济社会协调发展成为全社会关注的热点。首先,我们必须了解全省21 个地级市的基本经济情况,找出现行经济的不足,才能做出科学的决策。我们通过分析各市的社会经济的8 项统计指标,来研究各市的经济运行情况。 根据《广东年鉴2010》的资料,给出有关的数据,见表1。
表1 2009 年广东省各市社会经济统计数据
地区 生产总值/ 亿元 人 均 生 产总值/元 农 林 牧 渔业总产值/ 亿元 工 业 总 产值/亿元 全 社 会 固定 资 产 投资/亿元 出口总额/ 亿美元 社 会 消 费品 零 售 总额/亿元 城 镇 单 位在 岗 职 工平均工资/ 元
广州 9138.21 89082 295.62 11376.76 2659.85 374.05 3615.77 49519
深圳 8201.32 92772 15.48 15416.24 1709.15 1619.79 2567.94 46723
珠海 1038.66 69889 51.62 2405.04 410.51 177.83 404.46 31764
汕头 1035.87 20385 104.71 1531.10 291.90 40.16 661.96 25389
佛山 4820.90 80686 195.03 11711.28 1470.56 245.78 1408.78 34106
韶关 578.75 19549 133.42 599.23 356.50 5.79 278.36 28276
河源 405.50 13928 86.86 604.68 198.15 14.13 139.50 23803
梅州 519.29 12558 179.38 351.11 162.98 6.71 267.98 24097
惠州 1414.70 35819 147.91 3005.14 758.97 171.49 491.10 25786
汕尾 390.04 13363 111.22 319.60 289.43 9.48 282.06 23238
东莞 3763.91 56601 25.31 6071.11 1094.08 551.67 959.07 42585
中山 1566.41 62304 77.77 4057.97 545.61 177.36 549.76 36165
江门 1340.88 32139 193.09 2933.26 492.07 79.49 562.07 24304
阳江 527.27 22132 200.16 504.56 239.49 12.30 305.38 21439
湛江 1156.67 16647 397.68 1028.79 393.23 13.65 559.94 23944
茂名 1231.25 19979 385.38 1098.13 180.01 5.32 591.05 24255
肇庆 862.00 22415 256.81 1179.01 462.77 20.30 275.78 26174
清远 861.59 22796 158.71 2024.06 841.24 14.15 303.56 28379
潮州 480.18 18681 61.35 581.07 162.98 18.70 207.89 21293
揭阳 816.09 14159 149.61 1153.29 393.50 25.25 341.46 19881
云浮 344.51 14276 144.91 324.32 240.19 6.16 117.91 21913 2

2、统计分析方法与SAS 实现
为了研究各市的经济情况,我们利用基本的描述性统计、因子分析、聚类分析等方法来进行多角度的分析,并用SAS 完成统计分析任务。
2.1 数据准备和处理 为便于分析和说明,在下面的中文和程序中,我们将使用以下变量来表示各经济指标,如表 2 所示:
表2 变量符号
地区 生产总值/亿元 人均生产总值/元 农林牧渔业总产值/亿元 工业总产值/ 亿元 全社会固定资产投资/亿元 出口总额/ 亿美元 社会消费品零售总额/亿元 城镇单位在岗职

工平均工资/元
region x1 x2 x3 x4 x5 x6 x7 x8
data city;
nput region $ x1-x8;
cards;
guangzhou 9138.21 89082 295.62 11376.76 2659.85 374.05 3615.77 49519
shengzhen 8201.32 92772 15.48 15416.24 1709.15 1619.79 2567.94 46723
zhuhai 1038.66 69889 51.62 2405.04 410.51 177.83 404.46 31764
shantou 1035.87 20385 104.71 1531.10 291.90 40.16 661.96 25389
foshan 4820.90 80686 195.03 11711.28 1470.56 245.78 1408.78 34106
shaoguan 578.75 19549 133.42 599.23 356.50 5.79 278.36 28276
heyuan 405.50 13928 86.86 604.68 198.15 14.13 139.50 23803
meizhou 519.29 12558 179.38 351.11 162.98 6.71 267.98 24097
huizhou 1414.70 35819 147.91 3005.14 758.97 171.49 491.10 25786
shanwei 390.04 13363 111.22 319.60 289.43 9.48 282.06 23238
dongguan 3763.91 56601 25.31 6071.11 1094.08 551.67 959.07 42585
zhongshan 1566.41 62304 77.77 4057.97 545.61 177.36 549.76 36165
jiangmen 1340.88 32139 193.09 2933.26 492.07 79.49 562.07 24304
yangjiang 527.27 22132 200.16 504.56 239.49 12.30 305.38 21439
zhanjiang 1156.67 16647 397.68 1028.79 393.23 13.65 559.94 23944
maoming 1231.25 19979 385.38 1098.13 180.01 5.32 591.05 24255
zhaoqing 862.00 22415 256.81 1179.01 462.77 20.30 275.78 26174
qingyuan 861.59 22796 158.71 2024.06 841.24 14.15 303.56 28379
chaozhou 480.18 18681 61.35 581.07 162.98 18.70 207.89 21293
jieyang 816.09 14159 149.61 1153.29 393.50 25.25 341.46 19881
yunfu 344.51 14276 144.91 324.32 240.19 6.16 117.91 21913
;
run;
2.2 描述性统计分析
为了对数据的基本情况有一个初步的了解,我们首先进行单变量分析。利用 MEANS 过程计算各 3 个变量的描述性统计量,程序如下:
proc means data=city maxdec=2 mean std max min cv skew;
var x1-x8;
run;
MEANS 过程计算每个变量的均值、标准差、最大最小值、极差、变异系数和偏度。maxdec=2 表示输出统计结果保留2 位小数,结果如表3 所示。
表3 MEANS 过程
Variable Mean Std Dev Maximum Minimum Range Coeff of Variation Skewn ess
x1 1928.29 2500.51 9138.21 344.51 8793.70 129.68 2.20
x2 35721.90 27212.70 92772.00 12558.00 80214.00 76.18 1.13
x3 160.57 104.55 397.68 15.48 382.20 65.11 0.92
x4 3251.23 4313.25 15416.24 319.60 15096.64 132.67 1.91
x5 635.87 629.14 2659.85 162.98 2496.87 98.94 2.12
x6 170.93 361.77 1619.79 5.32 1614.47 211.65 3.57
x7 709.13 860.81 3615.77 117.91 3497.86 121.39 2.62
x8 28715.86 8484.20 49519.00 19881.00 29638.00 29.55 1.41
根据表3 的结果,可以得出以下结论: (
1) 除了x8(城镇单位在岗职工平均工资)的CV(变异系数)不是很大外,其他各个变量的 CV 都在50 以上,其中x1(生产总值)、x4(工业总产值)、x6(出口总额)、x7(社会消费品零售总额)的CV 都在100 以上,这说明全省21 个地级市在以上几个方面存在很大的差异,从极差可以具体看大各市间的差别,各市的发展很不平衡。
(2)x8(城镇单位在岗职

工平均工资)的CV(变异系数)为29.55,是所有变量中变异系数最小的,说明虽然职工的工资跟城市的发展水平有关,但其增长的幅度与城市经济发展是不相应的,城市发展了,职工并没有享受到更多的发展成果。
进一步可以考虑8 个变量之间的相关系数,程序如下:
proc corr data=city;
var x1-x8;
run; C
ORR 过程给出变量两两之间的相关系数和显著概率(p 值),如表4 所示:
从表4 可看出很多变量之间的相关系数都在 0.7 以上,且显著性检验的 p 值都很小,这表明各变量间存在较强的相关性,它们反映的信息有所重叠,因此考虑降低维数,用较少的变量来考虑各市的经济情况。
4 表4 Pearson Correlation Coefficients, N = 21 Prob > |r| under H0: Rho=0
x1 x2 x3 x4 x5 x6 x7 x8
x1 1.00 0.85538 <.0001 -0.00721 0.9752 0.94793 <.0001 0.95323 <.0001 0.77392 <.0001 0.97853 <.0001 0.89577 <.0001
x2 1.00000 -0.21812 0.3422 0.90767 <.0001 0.82766 <.0001 0.72178 0.0002 0.79809 <.0001 0.89720 <.0001
x3 1.00000 -0.14073 0.5429 0.03077 0.8946 -0.37474 0.0942 0.09488 0.6825 -0.19909 0.3869
x4 1.00000 0.89387 <.0001 0.82924 <.0001 0.87906 <.0001 0.86331 <.0001
x5 1.00000 0.62617 0.0024 0.94154 <.0001 0.87574 <.0001
x6 1.00000 0.67634 0.0008 0.74948 <.0001
x7 1.00000 0.85083 <.0001
x8 1.00000
2.3 因子分析
采用因子分析的方法来实现对数据的降维处理,将 8 个经济指标综合为几个综合因子来进行研究。程序如下:
proc factor data=city;
var x1-x8;
run;
FACTOR 过程计算得到数据相关矩阵的特征值、方差贡献率和累计方差贡献率如表5 所示:
表5 相关矩阵的特征值、方差贡献率
Eigenvalues of the Correlation Matrix: Total= 8 Average = 1
Eigenvalue Difference Proportion Cumulative
1 6.10266563 4.89825823 0.7628 0.7628
2 1.20440740 0.89474547 0.1506 0.9134
3 0.30966193 0.12881511 0.0387 0.9521
4 0.18084682 0.05678755 0.0226 0.9747
5 0.12405927 0.06965556 0.0155 0.9902
6 0.05440371 0.03331218 0.0068 0.9970
7 0.02109153 0.01822783 0.0026 0.9996
8 0.00286370 0.0004 1.0000
从中可看出,相关矩阵的前两个特征值分别为6.10266563 和1.20440740,对应两个公共因子 的累计方差贡献率已达0.9134,因此2 个公共因子所代表的信息已经能够很充分反映原变量。下面指定2 个公共因子来进行因子分析。
proc factor data=city n=2;
var x1-x8;
run;
5 利用主成分法,FACTOR 过程计算了两因子模型的因子载荷矩阵,以及对每个变量的共同度,如表6 和表7 所示:
表6 因子载荷矩阵
Factor Pattern
Factor1 Factor2
x1 0.98072 0.14549
x2 0.92406 -0.09964
x3 -0.14193 0.96569
x4 0.96972 -0.01969
x5 0.93797 0.21731
x6 0.82517 -0.34588
x7 0.93664 0.26360
x8 0.94260 -0.06342
表7 公共因子解释的方差和变量的共同度
Variance Explained by Each Fact

or
Factor1 Factor2
6.1026656 1.2044074
Final Communality Estimates: Total = 7.307073
x1 x2 x3 x4 x5 x6 x7 x8
0.982973 0.863810 0.952705 0.940749 0.927011 0.800534 0.946775 0.892515
表7 指出两个公共因子所解释的方差分别为6.1026656 和1.2044074,而且每个变量的共同度都在0.8 以上,表明该因子模型对原来每个变量的解释能力都较强,可以较好地代表原变量。
但表 6 因子载荷矩阵中,第一个公共因子 Factor1 在 x3 以外的变量上的因子载荷基本都在 0.9 附近,而第二个公共因子Factor2 在x3 以外的变量上的因子载荷都小于0.4,且出现较多负值。这样难对公共因子做出合理的解释,因此接下来对因子载荷矩阵进行旋转,并计算因子得分。
proc factor data=city n=2 rotate=varimax score out=scoreout;
var x1-x8;
run;
表8 旋转后因子载荷矩阵
Rotated Factor Pattern
Factor1 Factor2
x1 0.99143 0.00672
x2 0.90100 -0.22806
x3 -0.00530 0.97605
x4 0.95741 -0.15529
x5 0.95916 0.08381
x6 0.76860 -0.45803
x7 0.96432 0.12984
x8 0.92443 -0.19480
从表8 可以看出,此时两个公共因子的意义已经比较明显:第一公共因子 Factor1 在x1(生产总值)、x2(人均生产总值)、x4(工业总产值)、x5(全社会固定资产投资)、x6(出口总额)、x7(社会消费品零售总额)、x8(城镇单位在岗职工平均工资)上都有大于0.75 的正载荷,可以解释为综合生产力;第二公共因子Factor2 在x3(农林牧渔业总产值)上的载荷为0.97605,可以解释为农业生产力。
利用因子模型,可以计算出每个地区在这两个公共因子上的得分,得分数据包含在scoreout 中。下面利用SORT 过程对数据集scoreout 按照公共因子进行排序:
proc sort data=scoreout out=f1;
by descending factor1;
proc sort data=scoreout out=f2;
by descending factor2; run;
根据输出数据集f1 和f2 的结果,我们得到按照综合生产力和农业生产力输出的排序,如下表9 所示。
表9 各市按照公共因子得分排序
序号 地区 Factor1 序号 地区 Factor2
1 广州 2.783234 1 湛江 1.948944
2 深圳 2.42619 2 广州 1.848593
3 佛山 1.261464 3 茂名 1.802894
4 东莞 0.740045 4 肇庆 0.76815
5 中山 0.138167 5 佛山 0.386806
6 珠海 -0.08648 6 阳江 0.329112
7 惠州 -0.11697 7 江门 0.287293
8 江门 -0.21436 8 梅州 0.161989
9 湛江 -0.25143 9 清远 0.097965
10 清远 -0.26099 10 揭阳 0.028657
11 茂名 -0.28761 11 惠州 -0.10837
12 肇庆 -0.35841 12 云浮 -0.1092
13 汕头 -0.44828 13 韶关 -0.19972
14 韶关 -0.51622 14 汕尾 -0.32559
15 阳江 -0.59603 15 汕头 -0.3452
16 揭阳 -0.60835 16 河源 -0.57935
17 梅州 -0.65387 17 潮州 -0.76404
18 汕尾 -0.69357 18 中山 -0.88217
19 云浮 -0.73551 19 珠海 -1.14489
20 河源 -0.74525 20 东莞 -1.33298
21 潮州 -0.77575 21 深

圳 -1.86889
从表9 可以得出以下结论:
(1)广州、深圳和佛山在Factor1 上的得分位居前三位,说明这三个市的综合生产力很强,云浮、河源和潮州在Factor1 上的得分排在最后三位,说明三市的综合生产力很差,工业很落后。
(2)湛江、广州和茂名在Factor2 上的得分位居前三位,说明这三个市的农业生产力很强。湛江和茂名都是全省面积、人口大市,从事农业生产的基础较强,而广州农业生产力强主要是由于有较强的农业的深加工能力。珠海、东莞和深圳在Factor2 上的得分排在最后三位,说明这三市的农业生产力很差,这与这三个城市的历史有密切关系,珠海和深圳作为经济特区,从设立其就决定了其工业城市的地位,农业不是其发展方向;东莞则由于地理位置和政府管理体系的关系,一直以发展工业为主,大量的土地用于建设厂房和工业园区,农业发展受到很大的限制。
2.4 聚类分析
在得到各市的因子得分后,我们希望对各市依据生产能力进行分类。首先,我们按照两个公共 因子的得分,通过CLUSTER 过程进行聚类分析,并用TREE 过程绘制聚类谱系图,程序如下:
proc cluster data=scoreout method=ward outtree=ot standard pseudo ccc;
var factor1 factor2; id region;
proc tree data=ot horizontal;
run;
表10 聚类过程
NCL Clusters Joined FREQ SPRS Q RSQ ERSQ CCC PSF PST2 Tie
20 meizhou jieyang 2 0.0002 1.00 . . 212 .
19 zhanjian maoming 2 0.0003 .999 . . 209 .
18 shantou shaoguan 2 0.0003 .999 . . 207 .
17 heyuan chaozhou 2 0.0004 .999 . . 193 .
16 jiangmen qingyuan 2 0.0005 .998 . . 188 .
15 shanwei yunfu 2 0.0006 .998 . . 180 .
14 CL20 yangjian 3 0.0009 .997 . . 162 3.8
13 CL18 CL15 4 0.0014 .995 . . 140 3.1
12 zhuhai zhongsha 2 0.0015 .994 . . 131 .
11 huizhou CL16 3 0.0018 .992 . . 124 3.7
10 CL14 CL11 6 0.0069 .985 . . 80.8 8.1
9 CL13 CL17 6 0.0069 .978 . . 67.2 10.0
8 CL10 zhaoqing 7 0.0087 .969 . . 58.9 4.2
7 CL12 dongguan 3 0.0102 .959 . . 54.9 6.8
6 CL9 CL8 13 0.0352 .924 . . 36.5 13.5
5 guangzho foshan 2 0.0557 .868 . . 26.4 .
4 shengzhe CL7 4 0.0982 .770 .822 -1.5 19.0 16.8
3 CL5 CL19 4 0.1457 .624 .731 -2.2 15.0 5.2
2 CL4 CL6 17 0.2529 .372 .444 -1.0 11.2 21.8
1 CL3 CL2 21 0.3716 .000 .000 0.00 . 11.2 8
从表10 可得到几个分类判别依据:
(1)RSQ 统计量。当 NCL>4 时,RSQ 逐渐减少,改变不大,当 NCL=4 时,RSQ=0.77;当 NCL=3 时,RSQ=0.624,减少较多,因此按照RSQ 统计量分为四个类比较合适。
(2)SPRSQ 统计量。SPRSQ 统计量最大和次大分别为1,2 和3,因此按照SPRSQ 统计量分为二、三和四个类比较合适。
(3)PST2 统计量。当NCL<6 时, PST2 统计量最大和次大分别为21.8 和16.8,对应NCL=2,NCL=4,分成三或五个类比较合适。
综合以上,用WARD 法把21

个市分为四类比较合适。
proc tree data=ot horizontal graphics n=4 out=k44;
copy factor1 factor2;
run;
proc sort data=k44;
by cluster;
proc means data=k44;
by cluster;
var factor1 factor2;
run;
分类结果为:
分类 所含城市 Factor1 Factor2 平均分 标准差 平均分 标准差
第一类 汕头,韶关,汕尾,云浮,河源,潮州,梅州,揭阳,阳江,惠州,江门,清远,肇庆 -0.517 0.2195 -0.058 0.4064
第二类 湛江,茂名 -0.270 0.0256 1.8759 0.1033
第三类 深圳,珠海,中山,东莞 0.8045 1.1361 -1.307 0.4176
第四类 广州,佛山 2.0223 1.0761 1.1177 1.0336
从聚类结果来看,类的划分基本反映了21 个城市的经济情况,第一类属于经济较落后的城市,第四类是最发达的城市。
第一类基本是经济相对落后的地区。但这一类里还包含有惠州、江门两个比较发达的珠三角城市,其他都是粤东、粤北和粤西地区,属于广东传统的经济落后地区。肇庆因为纳入珠三角地区比较晚,其经济状况一直都跟粤北山区差不多。
第二类,是两个粤西城市。这两个城市因为有较强的重工业基地,而且农业发达,经济总量一直不错。
第三类,是两个特区及中山、东莞。深圳虽然经济总量很强,但因为基本没有农业,因此被划分为第三类。
第四类,广州和佛山。作为省会城市广州一直是广东的政治、经济、文化中心,综合实力也最强。佛山因为有良好的工业基础,近年来又大力促进广佛同城,对经济拉动非常大。
3、结论与建议
综合前面的分析和结果,我们可以得到以下一些结论和建议。
(1)根据描述性统计分析的结果,全省 21 个地级市中,在综合生产力上还存在很大的差异,地区不平衡现象非常明显,政府应对落后地区加大政策、资金、人才等的扶持力度;而落后地区也应该抓住“双转移”等政策,积极进行招商引资,加强对政府部门行政能力的锻炼和提高,为经济的健康运行营造良好的管理环境。
(2)为构建“幸福广东”,就要让全体劳动者享受到改革开放的成果。但从描述性统计结果来看,经济发达的城市其职工的收入与城市经济发展是不相适应的。普通劳动者并没有充分享受到经济发展的成果。但在提高发达地区劳动者收入的同时,也必须兼顾欠发达城市的职工收入,不能造成太大的差距。
(3)根据因子分析和聚类分析的结果,8 项经济指标可归结为综合生产力和农业生产力两个因子,根据因子得分可以将21 个市分为4 类。从分类结果,我们可知各类城市之间的经济水平存在较大差异,而且呈现一定的地域特征。

相关文档
最新文档