关于中国城镇化率.的统计分析2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设为中心上来,中国城镇化率逐步快速增高,这为中国的工业化进程释
放了大量的劳动力,使中国经济的高速发展得到了保证。城镇化率一方
面衡量了国家的工业化水平,另一方面,它为国家制定相关经济、社会
福利、就业等政策提供了参考,因此对未来城镇化率的准确预测有着直
接的现实意义。
一、ARIMA模型
1、数据列表
1978年—2009年中国城镇化率
run;
proc arima;
wenku.baidu.comidentify var=x(3) nlag=12;
run;
proc arima;
identify var=x(3) nlag=12 minic p=(0:5) q=(0:5);
estimate p=2 q=0;
forecast lead=3 id=t out=results;
图5 城镇化率三阶差分后的白噪声检验 由此结果我们可以看出,二街差分后数据延迟6阶、12阶后的卡方
检验的P值远小于0.05,因此该序列不是白噪声序列,所以可以对其进 行建模分析。
3 、模型建立 3.1、模型识别
图6 二阶差分后序列的BIC值 运用BIC准则寻找最优p、q值,结果如图5所示,可见p=2,q=0是最 优模型。 3.2、参数估计及检验 用p=2,q=0对此最优模型进行参数估计,结果如图6所示。
49.30 50.25 51.21
1.30 1.99 0.99
对比表中的数据,可以验证我们上面的理论:简单线性回归对信息 的提取不够充分,故其误差大于另外两种方法。从实践效果来看,ARIMA 模型的预测的预测效果比AUTOREGRESSIVE模型要好一些。但总体来说三 种方法的预测效果都比较理想,ARIMA模型和AUTOREGRESSIVE模型在时 间序列预测上的准确度相当高,简单线性回归则要差一些,但前两种方 法操作过程相当复杂,对数学知识的要求也比较高,而且对数据要求也 很多,不如回归分析简便,因此在准确度要求不高的前提下,也可以使 用回归分析来预测。
图11 线性回归拟合结果 从拟合结果来看,=09649,散点图线性相关性很高,回归方程检验、 参数检验P<0.0001,其显著性极高,因此这条直线拟合得很好。拟合方 程为:=0.94559*-1854.14527+。估计结果如图12所示。
图12 预测结果及95%置信区间的预测区间
图13 拟合结果预测图
从预测结果可知,中国每年的城镇化率大约增长1%,城市化水平不 断提高。但这同时也给城市管理、就业等方面带来许多影响。相关政府 部门可以依据时间序列分析的预测值,对城市建设等方面作出相应的规 划以适应中国不断提高的城市化水平。
附录:SAS程序
1、ARIMA模型
data percentage2;
input x@@;
关于中国城镇化率的统计分析
摘要: 国家政府需要根据每年的城镇化率来估测相关的经济数据并以此
作为制定经济、就业、社会福利等各种政策的依据。因此,对未来城镇 化率的预测具有很现实的意义。中国以往每年的城镇化率显然构成了一 个时间序列,所以我们可以采用时间序列分析的相关知识和理论对中国 未来的城镇化率做出预测。时间序列分析目前有很多的方法和模型,本 文采用了ARIMA模型、残差自回归模型(autoregressive)、简单线性 回归模型分别对未来的城镇化率进行预测,并比较这三种模型各自的优 劣,最终做出最准确的预测。本文采用了1978年至2009年32年间的数据 来预测2010、2011、2012年这三年的数据,使用了30个以上的数据使模 型预测的准确性得到了保证,这三个模型的实现采用了SAS平台。
图2 城镇化率三阶差分散点图 此仅为主观判断,为进一步判断其平稳性,用ARIMA过程计算其自 相关函数、偏自相关函数计算结果如图3所示。
图3 城镇化率三阶差分自相关函数图
图4 城镇化率三阶差分偏自相关函数图 自相关函数图表明,二阶差分后的城镇化率具有较强的相关性,因 此可以认为三阶差分后序列平稳。 2.3、白噪声检验 对城镇化率二阶差分后的数据作白噪声检验,结果如图4所
2012年还未过完,这个值为官方预测值),三种方法预测的误差如下表:
线性回 误差
误差
误差
真实值
ARIMA
AUTOREG
归 (%)
(%)
(%)
49.95 51.27 51.72
46.49 47.44 48.39
6.93 49.81 0.28 7.47 50.80 0.92 6.44 52.03 0.60
时间 1978 1979 1980 1981 1982 1983 1984 1985
城镇化 17.92 18.96 19.39 20.16 21.13 21.62 23.01 23.71
率
时间 1986 1987 1988 1989 1990 1991 1992 1993
城镇化 24.52 25.32 25.81 26.21 26.41 26.94 27.46 27.99
图7 精干模型参数估计及检验 由估计结果可知,该模型所有参数t检验的P值小于0.05,参数估计 很显著,可以认为模型ARIMA(2,3,0)比较合理。 3.3、残差检验(适应性检验) 我们对上面得到的模型进行残差检验,结果如图8所示。
图8 残差检验 由检验结果可以看出,序列的信息已被充分提取,故该模型的建立 是准确的。
图15 DW检验
从结果来看,一阶DW检验极其显著,其P值<0.0001(零假设为没有 一阶自相关性),因此自相关性的校正是需要的。
• 逐步自回归 由上一步我们确定了需要作自相关性的校正,那么我们就需要为自
回归误差模型定阶。我们所使用的方法是逐步自回归,此法最初拟合一 个长阶自回归模型,然后逐步去掉自回归参数直至所有剩下的自回归参 数都有显著t检验为止。检验结果如图16所示。
run;
proc gplot data=results;
plot x*t=1 forecast*t=2 l95*t=3 u95*t=3/overlay;
symbol1 c=blue i=none v=star;
symbol2 c=red i=join v=none l=1 w=1;
symbol3 c=green i=join v=none l=2 w=2;
图16逐步自回归 从结果来看,时间间隔为2、3、4、5的自回归参数不显著并且被消 除,因此自回归误差模型的阶数为1。
4、参数估计 在上一步中确定了自回归误差模型的阶数之后,我们就可以估计模
型的参数了。模型参数估计采用极大似然法,估计结果如图17所示。
图17 极大似然参数估计
从中我们可以看到模型参数估计极显著,三个P值<0.0001。因此, 该模型为: =0.9799*-1921+=0.9694*+ IN(0,) 5、结果预测
y=dif(dif(dif(x)));
t=intnx('year','31DEC1978'd,_n_-1);
format t year.;
cards;
18.96
19.39
20.16
21.13
21.62
23.01
23.71
24.52
25.32
25.81
26.21
26.41
26.94
27.46
27.99
1995 29.04
1996 30.48
1997 31.91
1998 33.35
1999 34.78
2000 36.22
2001 37.66
2002 39.09
2003 40.53
2004 41.76
2005 42.99
关键字:城镇化率、时间序列分析、ARIMA模型、残差自回归模型 (autoregressive)模型、线性回归模型、模型比较、SAS软件、预测
前言: 镇化率(又称城市化率、 城市化度、 城市化水平、 城市化指
标) 是一个国家或地区经济发展的重要标志,也是衡量一个国家或 地 区 社 会 组 织 程 度 和 管 理 水 平 的 重 要 标 志 。 1949年新中国成立以来, 中国城镇化率开始增高,1978年中国改革开放,中央工作转到以经济建
率
(数据来源于中国统计年鉴)
2、数据处理 2.1、制作散点图
图1 中国历年城镇化率 从上图可以看出,中国城镇化率具有显著的趋势,是一个非平稳的 序列,需要对其进行处理。 2.2 、数据平稳性处理和判断 用SAS程序对其进行差分处理,经尝试,三阶差分数据平稳,具有
分析利用的价值,三阶差分散点图如图2所示。
28.51
30.48
31.91
33.35
34.78
36.22
37.66
39.09
40.53
41.76
44.34
45.89
46.99
48.34
;
proc gplot;
plot x*t;
symbol i=jion v=dot;
run;
proc gplot;
plot y*t;
symbol i=jion v=dot;
.~IN(0,)表示为独立同分布均值为0方差的正态随机变量。 通过同时估计回归系数β和自回归误差模型参数AUTOREG过程校正
了自相关情形的自相关估计。 • 普通最小二乘回归
先来做普通最小二乘回归,结果如图14所示。
图14 最小二乘回归 从图中可以看出,这个结果和上面用直线回归做的结果相同(实际 上方法是一样的,结果当然相同)。 • 残差自相关系数的DW检验 对第一步做的最小二乘回归的残差做自相关分析,结果如图15所 示。
四、比较讨论
在上面的分析中我们采用了三种方法,对数据进行预测。从理论上
讲,简单线性回归只给出了数据的趋势而没有考虑数据之间的相关性,
对数据信息挖掘得不够充分。ARIMA模型和AUTOREGRESSIVE模型分别用
两种不同的方法对数据的信息进行了充分的利用。一下来比较一下三种
预测方法的预测精度。
上面作预测的三个数据的真实值为49.95 51.27 51.72(由于
4、对未来进行预测
我们对未来3年的城镇化率进行预测,结果如图8所示
图9 对未来三年城镇化率的预测 此结果给出了预测值,同时也给出了95%置信区间的预测值,政府 部门制定相关政策时可以以此作为参考,具有良好的指导意义。
图10 预报值及其预报区域 从图10可以看出模型拟合效果非常好。
二、简单线性回归模型 根据上面画的散点图,这条曲线接近直线,因此可以拟合一条直线 来预测未来的数据。拟合结果如图11所示。
run;
29.04 42.99
2、简单线性回归模型
ata percentage; input x y ; cards; 1978 17.92 1979 18.96 1980 19.39 1981 20.16 1982 21.13 1983 21.62 1984 23.01 1985 23.71 1986 24.52 1987 25.32 1988 25.81 1989 26.21 1990 26.41 1991 26.94 1992 27.46 1993 27.99 1994 28.51
由上面确定的模型,我们可以进行结果预测,预测结果如图18所示。
图18 数据集置信区间预测 结果中给出了,所有数据的预测值及其95%的置信区间值。
图19 预测区间拟合图
图19给出了拟合曲线图,其中蓝色的为模型总体拟合曲线,黑色的 为趋势拟合直线,上下绿色的为95%的置信区间的总体拟合曲线。从拟 合效果来看,此模型对数据的拟合极为精准。
率
时间 1994 1995 1996 1997 1998 1999 2000 2001
城镇化 28.51
率
29.04
30.48
31.91
33.35
34.78
36.22
37.66
时间 2002 2003 2004 2005 2006 2007 2008 2009
城镇化 39.09 40.53 41.76 42.99 44.34 45.89 46.99 48.34
从图13来看,直线拟合大致上还是比较准确的。
三、自回归误差模型(autoregressive)
上面使用简单线性回归虽然拟合出了较好的效果,但我们显然忽略 了做普通线性回归的一个前提假设,即拟合之后的残差相互独立。而在 时间序列中,残差很有可能是相关的,因此误差独立性得到破坏,使估 计结果不准确。时间序列残差的相关性使它们包含了可以用来改进预测 值 的 信 息 。 故 我 们 使 用 改 进 的 回 归 模 型 —— 自 回 归 误 差 模 型 (autoregressive)来拟合这些信息,以得到更准确的预测值。 模型如下: =*+ =--- ···+. .~IN(0,)