【数学建模】国家财政收入的影响因素的评价及预期收入的预测

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国家财政收入的影响因素的评价

及预期收入的预测

【摘要】

国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性分析。之后,我们对数据进行了回归分析,构造了预测模型,并获得了模型的回归系数估计值及其置信区间。

然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了改进,并得到了其交互式画面。考虑到数据的时间序列属性,我们对模型进行了自相关性诊断,作出残差散点图,初步判定其大部分点落在1,3象限,随机误差表现出正自相关趋势。但在之后

的D-W检验中,我们计算出了DW值,自相关系数估计值 ˆ,依照样本容量和回归变量数

目,查阅了D-W分布表,得到检验的临界值d L和d U。在分析DW所在区间时,我们发现模型的自相关状态不能确定。

之后,我们代入所给数据1952年-1980年的各项经济指标,得出的预测值与实际值相当吻合。

最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了分析。

关键词:MATLAB 财政收入回归模型自相关性诊断自相关系数 D-W检验

一、问题重述

国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。

二、问题假设

1.财政收入只与问题重述中提到的6个因素有关;

2.所给数据真实准确,无录入错误。

三、符号说明

y:财政收入;

x1:国民收入;

x2:工业总产值;

x3:农业总产值;

x4:总人口;

x5:就业人口;

x6:固定资产投资;

β0,β1,β2,β3,β4,β5,β6:回归系数;

ε:随机误差。

四、问题分析、模型的建立与求解

1.问题的分析

首先对数据作初步分析。分别作出财政收入与6个因素的散点图,并用Excel自带的回归分析求出了各自自变量对y的R2(决定系数,越接近1则拟合程度越好):

图1 x1-y散点图

图2 x2-y散点图

图3 x3-y散点图

图4 x4-y散点图

图5 x5-y散点图

由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该

异常数据去掉。去掉后的x5-y散点图如下:

图6 去掉异常点后的x5-y散点图

图7 x6-y散点图

2.模型的建立

从以上的散点图及y对x1~x6初步的回归分析,我们再引入一个常量回归系数β0,作

出了初步的模型:

εβ6x6x5β5x4β4x3β3x2β2x1β1β0+++++++=y (1)

3.模型的求解

首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点(见图6),之后利用MATLAB 统计工具箱中命令regress 求解,得到模型(1)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R 2,F ,p 的结果见表1。

R =0.9840,F=225.8953,p=0.0000

表1 模型(1)的计算结果

表1显示,R 2=0.9840指因变量y (财政收入)的98.40%可由模型确定,F 值远远超过F 检验的临界值,p=0远小于α,因而模型(1)从整体来看是可用的。

表1的回归系数给出了模型(1)中β0,β1,β2,β3,β4,β5,β6的估计值,即-15.53440βˆ=,5100.01βˆ=,0259.0-2βˆ=,5905.0-3βˆ=,0113.04βˆ=,0230.0-5β

ˆ=,3419.06βˆ=。检查它们的置信区间发现,β0,β2,β4,β5,β6的置信区间包含零点。常数项的置信区间

相当地大,故可以剔掉。

4.模型的改进

由以上的分析,我们剔掉了常数项β0。得到模型(2):

εβ6x6x5β5x4β4x3β3x2β2x1β1++++++=y (2)

再次检验相关参数:

表2 模型(2)的计算结果

现在可以看到,只有β2一项的置信区间包含零点。我们加入了x22,log(x2)2,x1*x2,x2*x5等项,包含零点的置信区间不降反升,且目前R 2=98.40%,目前的模型从整体上来看是可用的。

将参数估计值代入模型(2)得到:

x63320.0x50223.0x40108.00.5958x3x20.0250-x15146.0ˆ+-+-=y

(3)

使用rstool 命令得到交互式画面(图8):

图8 交互式画面

5.结果分析

从表面上看,模型(2)的拟合度已经达到了R 2=0.9840,但这个模型并没有考虑到我们的数据是一个时间序列。很明显随机误差ε会出现(自)相关性。

残差y

y e t ˆ-=可以作为随机误差的估计值,画出e t ~e t-1的散点图(图9)能够从直观上判断ε的自相关性。残差数据见表3。

表3 模型(3)的残差

图9 模型(3)e t ~e t-1的散点图

从图9可以看出,大部分点落在第1,3象限,表明ε存在正得自相关。为了对ε的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下的模型:

t β6x6x5β5x4β4x3β3x2β2x1β1ε++++++=t y , t t u +=-1t ρεε (4)

利用表3给出的残差,根据DW 检验公式

∑∑==--=

n

t t

n

t t t e

e e

DW 2

22

2

1)

(

计算得出DW=1.6082.

根据公式

)ˆ1(2ρ

-≈DW 计算得出1959.0ˆ=ρ

. 要根据DW 的具体数值确定εt 是否存在自相关,应该在给定的检验水平下,一招样本

容量和回归变量数目,查D-W 分布表[2],得到检验的临界值d L 和d U ,然后由DW 所在的区间来决定。对于显著性水平α=0.05,n=29,k=6,查D-W 分布表,得到检验的临界值d L =0.98,和d U =1.94。

相关文档
最新文档