SAS实验报告模板
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2009年广东省各市经济统计分析
——《数据分析与统计软件》实验报告
伍思敏(进修)1102020
1、问题背景与数据描述
自广东省委省政府提出建设“幸福广东”之后,如何加快全省经济的升级转型,如何促进全省各市的城乡区域协调发展,以及如何统筹全省经济社会协调发展成为全社会关注的热点。
首先,我们必须了解全省21个地级市的基本经济情况,找出现行经济的不足,才能做出科学的决策。
我们通过分析各市的社会经济的8项统计指标,来研究各市的经济运行情况。
根据《广东年鉴2010》的资料,给出有关的数据,见表1。
表1 2009年广东省各市社会经济统计数据
2、统计分析方法与SAS实现
为了研究各市的经济情况,我们利用基本的描述性统计、因子分析、聚类分析等方法来进行多角度的分析,并用SAS完成统计分析任务。
2.1 数据准备和处理
为便于分析和说明,在下面的中文和程序中,我们将使用以下变量来表示各经济指标,如表2所示:
表2 变量符号
input region $ x1-x8;
cards;
guangzhou 9138.21 89082 295.62 11376.76 2659.85 374.05 3615.77 49519 shengzhen 8201.32 92772 15.48 15416.24 1709.15 1619.79 2567.94 46723 zhuhai 1038.66 69889 51.62 2405.04 410.51 177.83 404.46 31764
shantou 1035.87 20385 104.71 1531.10 291.90 40.16 661.96 25389
foshan 4820.90 80686 195.03 11711.28 1470.56 245.78 1408.78 34106 shaoguan 578.75 19549 133.42 599.23 356.50 5.79 278.36 28276
heyuan 405.50 13928 86.86 604.68 198.15 14.13 139.50 23803
meizhou 519.29 12558 179.38 351.11 162.98 6.71 267.98 24097
huizhou 1414.70 35819 147.91 3005.14 758.97 171.49 491.10 25786
shanwei 390.04 13363 111.22 319.60 289.43 9.48 282.06 23238
dongguan 3763.91 56601 25.31 6071.11 1094.08 551.67 959.07 42585 zhongshan 1566.41 62304 77.77 4057.97 545.61 177.36 549.76 36165
jiangmen 1340.88 32139 193.09 2933.26 492.07 79.49 562.07 24304
yangjiang 527.27 22132 200.16 504.56 239.49 12.30 305.38 21439
zhanjiang 1156.67 16647 397.68 1028.79 393.23 13.65 559.94 23944
maoming 1231.25 19979 385.38 1098.13 180.01 5.32 591.05 24255
zhaoqing 862.00 22415 256.81 1179.01 462.77 20.30 275.78 26174
qingyuan 861.59 22796 158.71 2024.06 841.24 14.15 303.56 28379
chaozhou 480.18 18681 61.35 581.07 162.98 18.70 207.89 21293
jieyang 816.09 14159 149.61 1153.29 393.50 25.25 341.46 19881
yunfu 344.51 14276 144.91 324.32 240.19 6.16 117.91 21913
;
run;
2.2 描述性统计分析
为了对数据的基本情况有一个初步的了解,我们首先进行单变量分析。
利用MEANS过程计算各
个变量的描述性统计量,程序如下:
proc means data=city maxdec=2mean std max min cv skew;
var x1-x8;
run;
MEANS过程计算每个变量的均值、标准差、最大最小值、极差、变异系数和偏度。
maxdec=2表示输出统计结果保留2位小数,结果如表3所示。
表3 MEANS过程
根据表3的结果,可以得出以下结论:
(1)除了x8(城镇单位在岗职工平均工资)的CV(变异系数)不是很大外,其他各个变量的CV都在50以上,其中x1(生产总值)、x4(工业总产值)、x6(出口总额)、x7(社会消费品零售总额)的CV都在100以上,这说明全省21个地级市在以上几个方面存在很大的差异,从极差可以具体看大各市间的差别,各市的发展很不平衡。
(2)x8(城镇单位在岗职工平均工资)的CV(变异系数)为29.55,是所有变量中变异系数最小的,说明虽然职工的工资跟城市的发展水平有关,但其增长的幅度与城市经济发展是不相应的,城市发展了,职工并没有享受到更多的发展成果。
进一步可以考虑8个变量之间的相关系数,程序如下:
proc corr data=city;
var x1-x8;
run;
CORR过程给出变量两两之间的相关系数和显著概率(p值),如表4所示:从表4可看出很多变量之间的相关系数都在0.7以上,且显著性检验的p值都很小,这表明各变量间存在较强的相关性,它们反映的信息有所重叠,因此考虑降低维数,用较少的变量来考虑各市的经济情况。
表4 Pearson Correlation Coefficients, N = 21 Prob > |r| under H0: Rho=0
2.3 因子分析
采用因子分析的方法来实现对数据的降维处理,将8个经济指标综合为几个综合因子来进行研究。
程序如下:
proc factor data=city;
var x1-x8;
run;
FACTOR过程计算得到数据相关矩阵的特征值、方差贡献率和累计方差贡献率如表5所示:
表5 相关矩阵的特征值、方差贡献率
从中可看出,相关矩阵的前两个特征值分别为6.和1.,对应两个公共因子的累计方差贡献率已达0.9134,因此2个公共因子所代表的信息已经能够很充分反映原变量。
下面指定2个公共因子来进行因子分析。
proc factor data=city n=2;
var x1-x8;run;
利用主成分法,FACTOR过程计算了两因子模型的因子载荷矩阵,以及对每个变量的共同度,如表6和表7 所示:
表6 因子载荷矩阵
表7 公共因子解释的方差和变量的共同度
表7指出两个公共因子所解释的方差分别为6.1026656和1.2044074,而且每个变量的共同度都在0.8以上,表明该因子模型对原来每个变量的解释能力都较强,可以较好地代表原变量。
但表6因子载荷矩阵中,第一个公共因子Factor1在x3以外的变量上的因子载荷基本都在0.9附近,而第二个公共因子Factor2在x3以外的变量上的因子载荷都小于0.4,且出现较多负值。
这样难对公共因子做出合理的解释,因此接下来对因子载荷矩阵进行旋转,并计算因子得分。
proc factor data=city n=2rotate=varimax score out=scoreout;
var x1-x8;
run;
表8 旋转后因子载荷矩阵
从表8可以看出,此时两个公共因子的意义已经比较明显:第一公共因子Factor1在x1(生产总值)、x2(人均生产总值)、x4(工业总产值)、x5(全社会固定资产投资)、x6(出口总额)、x7(社会消费品零售总额)、x8(城镇单位在岗职工平均工资)上都有大于0.75的正载荷,可以解释为综合生产力;第二公共因子Factor2在x3(农林牧渔业总产值)上的载荷为0.97605,可以解释为农业生产力。
利用因子模型,可以计算出每个地区在这两个公共因子上的得分,得分数据包含在scoreout中。
下面利用SORT过程对数据集scoreout按照公共因子进行排序:
proc sort data=scoreout out=f1;
by descending factor1;
proc sort data=scoreout out=f2;
by descending factor2;
run;
根据输出数据集f1和f2的结果,我们得到按照综合生产力和农业生产力输出的排序,如下表9所示。
表9各市按照公共因子得分排序
从表9可以得出以下结论:
(1)广州、深圳和佛山在Factor1上的得分位居前三位,说明这三个市的综合生产力很强,云浮、河源和潮州在Factor1上的得分排在最后三位,说明三市的综合生产力很差,工业很落后。
(2)湛江、广州和茂名在Factor2上的得分位居前三位,说明这三个市的农业生产力很强。
湛江和茂名都是全省面积、人口大市,从事农业生产的基础较强,而广州农业生产力强主要是由于有较强的农业的深加工能力。
珠海、东莞和深圳在Factor2上的得分排在最后三位,说明这三市的农业生产力很差,这与这三个城市的历史有密切关系,珠海和深圳作为经济特区,从设立其就决定了其工业城市的地位,农业不是其发展方向;东莞则由于地理位置和政府管理体系的关系,一直以发展工业为主,大量的土地用于建设厂房和工业园区,农业发展受到很大的限制。
2.4 聚类分析
在得到各市的因子得分后,我们希望对各市依据生产能力进行分类。
首先,我们按照两个公共因子的得分,通过CLUSTER过程进行聚类分析,并用TREE过程绘制聚类谱系图,程序如下:
proc cluster data=scoreout method=ward outtree=ot standard pseudo ccc;
var factor1 factor2;
id region;
proc tree data=ot horizontal;
run;
表10 聚类过程
从表10可得到几个分类判别依据:
(1)RSQ统计量。
当NCL>4时,RSQ逐渐减少,改变不大,当NCL=4时,RSQ=0.77;当NCL=3时,RSQ=0.624,减少较多,因此按照RSQ统计量分为四个类比较合适。
(2)SPRSQ统计量。
SPRSQ统计量最大和次大分别为1,2和3,因此按照SPRSQ统计量分为二、三和四个类比较合适。
(3)PST2统计量。
当NCL<6时, PST2统计量最大和次大分别为21.8和16.8,对应NCL=2,NCL=4,分成三或五个类比较合适。
综合以上,用WARD法把21个市分为四类比较合适。
proc tree data=ot horizontal graphics n=4out=k44;
copy factor1 factor2;
run;
proc sort data=k44; by cluster;
proc means data=k44; by cluster;
var factor1 factor2;run;
分类结果为:
从聚类结果来看,类的划分基本反映了21个城市的经济情况,第一类属于经济较落后的城市,第四类是最发达的城市。
第一类基本是经济相对落后的地区。
但这一类里还包含有惠州、江门两个比较发达的珠三角城市,其他都是粤东、粤北和粤西地区,属于广东传统的经济落后地区。
肇庆因为纳入珠三角地区比较晚,其经济状况一直都跟粤北山区差不多。
第二类,是两个粤西城市。
这两个城市因为有较强的重工业基地,而且农业发达,经济总量一直不错。
第三类,是两个特区及中山、东莞。
深圳虽然经济总量很强,但因为基本没有农业,因此被划分为第三类。
第四类,广州和佛山。
作为省会城市广州一直是广东的政治、经济、文化中心,综合实力也最
强。
佛山因为有良好的工业基础,近年来又大力促进广佛同城,对经济拉动非常大。
10
11
3、结论与建议
综合前面的分析和结果,我们可以得到以下一些结论和建议。
(1)根据描述性统计分析的结果,全省21个地级市中,在综合生产力上还存在很大的差异,地区不平衡现象非常明显,政府应对落后地区加大政策、资金、人才等的扶持力度;而落后地区也应该抓住“双转移”等政策,积极进行招商引资,加强对政府部门行政能力的锻炼和提高,为经济的健康运行营造良好的管理环境。
(2)为构建“幸福广东”,就要让全体劳动者享受到改革开放的成果。
但从描述性统计结果来看,经济发达的城市其职工的收入与城市经济发展是不相适应的。
普通劳动者并没有充分享受到经济发展的成果。
但在提高发达地区劳动者收入的同时,也必须兼顾欠发达城市的职工收入,不能造成太大的差距。
(3)根据因子分析和聚类分析的结果,8项经济指标可归结为综合生产力和农业生产力两个因子,根据因子得分可以将21个市分为4类。
从分类结果,我们可知各类城市之间的经济水平存在较大差异,而且呈现一定的地域特征。
12。