8 第八章 经济建模技术
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Fjk ≤ Fα (1, n − k − 1)
接着对剩下的k-1个自变量重新建立回归方程,进行回 归系数的显著性检验,依此下去,直至回归方程中的变量 F检验值均大于给定限制性水平下的临界值 Fα ,没有可 剔除的自变量为止。这时,得到的回归方程就是最终确定 的方程。 例8.1.3 使用案例8.1.2的资料,用后退法选择自变量。 运行SPSS,点击命令Analyze → Regression → linear, 进入对话框,在Method对话框中点选Backward,部分 输出结果见8.1.3.
格兰杰因果关系检验的两点含义: 第一,x应该有助于解释y,即在y对它自身的滞后值进 行自回归的方程中,如果把x作为独立解释变量加到方程 中去,应该能够更好地提高方程的解释能力; 第二,y不应该有助于解释x,原因是,如果x有助于解 释y,y又有助于解释x,则可能存在另外的一个(组)变 量,它(们)是x和y变化的共同原因;x和y之间不存在格 兰杰意义上的因果关系。
F =max{F 11,F 21,F 31,…,F k1} 1 给定显著性水平α,若 F≥Fα(1,n-2),则首先 j
1 j
xj
引入方程,为了叙述方便,设
x j 就是 x1。
接下来因变量y分别与 ( x1 , x2 ), ( x1 , x3 ) ,…,( x1 , ), xk 建立k-1个二元线性回归方程,对这k-1个回归方程中 x2, x3,…,xk的回归系数进行偏F检验(参见公式( 3.3.5)与t检验等价),计算偏F值,记为{F 22, F 2,…,F 2};选其最大的记为: 3 k
该方法的根据是:即使原模型存在异常值问题,最小平方 估计量仍然是模型的一致估计量,回归残差也仍然能较好 地近似模型的误差项,因此,异常值导致的残差项非零问 题的信息可以在残差序列中反映出来。 具体的方法:先根据残差序列计算残差的标准差(即估计 标准误差) n 2 S = S = ∑ ei2 /(n − k − 1) (8.2.2)
x x x 其处理过程为:首先将 x1 、 2 、 3 、4 全部引入方程,按 照系统默认的剔除标准Sig ≥ 0.10,Sig最大的 x4 首先被 x 剔除;其次,建立以 x1 、 2 、 3 为自变量的回归方程, 3 x x 不显著,从方程中剔除;最后,建立以 x1 、x2为自变量 的回归方程,二者的Sig值均小于0.10,所以不再剔除。
x是否为y的因果关系的检验方法分为两步: 第一步: 检验x是y的原因 先建立x对于y的无限制回归方程(x作为y的解释变量出 现在方程中): q k (8.1.1) yt = α i yt −i + β i xt − i + u t
∑
i =1
∑
i =1
u 式中, t 是误差项。利用给定的样本数据,构建样本回归 方程,并计算其残差平方和 RSSU 。 再 建 立 y 的 有 限 制 回 归 方 程 ( Restricted Regression),即y的m阶自回归方程: k (8.1.2)
第二步: 检验y是x的原因 将x和y调换位置,重复上述检验。 注意:只有同时接受了x是y的原因和拒绝了y是x的原因 ,才能说x和y构成了格兰杰因果关系,称x为y的格兰杰意 义上的原因。否则x和y之间要么没有关系,要么互为因果 ,无法区分自变量和因变量。 格兰杰(Granger)因果关系检验计算量很大,应用中可 以借助经济计量软件包Eviews进行。
二、解释变量的选择
常用的方法有:
前进法 后退法 逐步回归法
(一)前进法 前进法的思想是:由少到多,每次增加一个自变量,直 至没有可引入的变量为止。 具体做法是: 首先对全部k个自变量,分别对因变量y建立k个一元线 性回归方程,并分别计算这k个一元回归方程的F检验值 (与t统计量等价),记为 {F 11,F 21,F 31,…,F k1};选其最大的记为:
yt =
∑
i=1
α i yt−i + u
t
式中,ut 是误差项。利用给定的样本数据,构建样本回归 方程,并计算其残差平方和 RSS R 。
然后,计算F检验值:
F = (n − k )( RSS R − RSSU ) / qRSSU
(8.1.3)
式中, RSS R 和 RSSU 分别表示有限制回归方程和无限制 回归方程的残差平方和;n是样本的观察值个数;有限制 回归方程的参数个数为k ,无限制回归方程的参数个数 为 k + q 。如果F大于临界值,则认为x构成了y的原因 ;反之,该假设则不能被接受。
二、发现和判断 发现和判断异常值的基本方法就是分析经济问题的背景情 况,包括对经济现象、相关社会经济事件,以及数据数列 的直接分析。 另外,从技术性的角度发现和判断异常值问题,基本方 法是进行回归残差序列分析。 回归残差序列分析: 即 先用最小平方法对模型进行回归分析,根据回归结果 计算出回归残差序列e1,e2,…,en,然后根据回归残差 序列中的各个残差或其综合指标反映的情况,判断模型是 否存在异常值问题。
第二节
异常值问题
问题的提出 发现和判断 问题的处理
一、问题的提出 突发的事件或变化,会对经济活动或经济关系造成短 暂的,却是相当显著的冲击或影响。这种情况表现在经济 数据上,就是一个脱离基本趋势的“异常值”。 如果所研究的经济问题或相关变量中存在这种问题,而 在建立模型时又没有预先处理或剔除掉这种影响,就会表 现为模型的误差项在相应的时点上,存在均值非零的问题 。 如果存在异常值,从而随机项误差零均值假设不成立的前 提下,不作任何处理进行回归分析,那么回归结果必然会 受到影响。所以,必须对异常值问题进行处理。
假定某国家的工资增长率(GZ)与通货膨胀 例8.1.1 率(TH)资料表8.1.1,区分哪个变量是因变量,哪个变 量是自变量。 打开Eviews,将上述资料建立工作文件后,依次点击命 令Quick → Group statistics → Granger causality test,设置好选项,点击OK。 分析结果见输出结果8.1.1. 由结果知:如果按5%的显著性水平进行检验,原假设 “通货膨胀率不是工资增长率的原因”被拒绝;同时,原 假设“工资增长率不是通货膨胀率的原因”被接受。所以 ,可以认为通货膨胀率是工资增长率的Granger意义上的 原因。在建立模型时,可以考虑以通货膨胀率为解释(自 )变量,以工资增长率为被解释(因)变量。
三、问题的处理 一般采用“虚拟变量”的方法,例如,如果对于一个回归 模型yi =β0+β1xi+u,存在异常值,使得误差项的条件均 值不恒为零:
α α ,否则可能产生“死循环”的现象。
2
注意: 引入和剔除自变量的显著性水平 应该有所不同,一般要求引入自变量的显著性水平 1小于剔除自变量的显著性水平 使用例8.1.2的资料,用逐步回归法选择 自变量 。
α
例 8. 1. 4
运行SPSS点击命令Analyze→ Regression→linear, 进入对话框,在Method对话框中点选逐步回归法 Stepwise。
自变量的选择过程是: x x x 首先,分别以 x1 、 2 、3 、 4 和为自变量,建立对于y的 四个一元一次回归方程,以 x2 为自变量的方程sig最大 ,故引入 x2 。 x x 然后,分别引入x1 、 3 、 4 ,构建三个二元一次回归方 程,只有引入 x1的方程的回归系数通过检验,故引入x1 ; x x 然后在包括x 、 2 的基础上,别引入x3 、 4 ,构建两个三 1 x 元一次回归方程,发现 x3 、 4均不显著,故剔除掉(系统 默认的引入标准为sig≤0.05;剔除标准为sig≥0.10)。 最终选中的自变量为 x1 和 x2 。 三种方法的选元方法得到的结果可能差别很大,应该尽量 采用逐步回归法进行选元。
i Байду номын сангаас1
然后再用s去除各个残差,如果发现某个残差ei存
ei 在 (或3)的情况时,就应该怀疑模型在i时点存在 ≥2 S 异常值问题。
该方法的根据是:在模型的假设都成立时,回归残差服从 正态分布。而正态变量的取值标准化后,绝对值通常不会 大于2或3。当然如果模型的其他假设(如随机项的正态 性假设)不成立,则这种判断可能不正确,需要与问题的 实际背景结合起来研究。 在SPSS、Eviews等软件中,都有显示残差图的功能,通 过残差图观察,更为直观和形象。 应该注意:出现多个较大的偏差时,不能简单地认为只是 异常值的问题,要作进一步的深入研究。
(三)逐步回归法 逐步回归法的基本思想是:吸收前进法和后退法的优点 ,克服它们的不足,把两者结合起来, “有进有出”。 具体做法是:将变量一个一个引入,引入变量的条件是其 偏F统计量或t统计量经检验是显著的。即每引入一个自变 量后,对已经被选入的变量要进行逐个检验,当原引入的 变量由于后面变量的引入而变得不再显著时,要将其剔除 。这个过程反复进行,直到既无显著的自变量选入,也无 不显著自变量从回归方程中剔除为止。从而保证了最后所 得的回归子集是“最优”回归子集。
第八章 经济建模技术
变量选择 异常值问题 模型设定问题 协整理论简介
第一节
变量选择
.
解释变量与被解释变量的区分 解释变量的选择
一、解释变量与被解释变量的区分 一般进行定性分析,区分哪个(些)是解释变量(自变量 ),哪个是被解释变量(因变量)并不是太困难。但当遇 到的变量之间联系比较复杂时,格兰杰因果关系检验( Granger Causality Tests)就是常用的方法之一。 格兰杰因果关系检验的基本思路:如果变量x是y的原因 ,则在给定x和y的信息集(要求必须是平稳的时间序列资 料)的情况下,如果利用x的信息比不用能够更好地预测y 的值,表明x的变化引起了y的变化,二者存在着格兰杰意 义上的因果关系。
例8.1.2 某地区铁路货运量(y)、工业总产值(x1)、 农业总产值(x2)、居民非商品支出(x3)和货运费率( x4 ) 资料如表8.1.3所示。若以铁路货运量(y)为因变 量,试利用前进法,选择自变量。 运行SPSS10.0,点击命令Analyze → Regression → linear,进入对话框,在Method对话框中点选Forward. 从结果看,前进法选择自变量的过程是:首先引入x2,它 是统计显著的(系统默认的引入标准是Sig ≤ 0.05)。 然后分别引入x1、x3、x4建立三个二元回归方程,其中, 只有x1显著,故保留在方程中;最后,在已经引入x2、x1 的基础上,分别引入x3、x4;均不显著。所以,最后被选 中的自变量是x2、x1。 最终的方程为:
最后的方程为:
ˆ y = −460.858 + 9.248 x2 + 4.537 x1
(8.1.2)
前进法和后退法的不足 前进法:不能反映引进新的自变量后原有变量解释能力 的变化情况。只考虑引入,而没有考虑剔除的做法显然是 不全面的。 后退法:一开始把全部自变量引入回归方程,这样计算 量很大。且一旦被剔除,就再也没有机会重新进入回归方 程。
ˆ y = −460.858 + 9.248 x2 + 4.537 x1
(二)后退法 后退法思想:首先用全部k个变量建一个回归方程,然 后在这k个变量中选择一个最不重要的变量,将它从方程 中剔除。即:把回归系数检验的偏F值最小者对应的自变 量剔除。 具体做法:对k个回归系数进行F检验,记求得的偏F值 为{F1k,F2k,…,Fkk},选其最小者记为: Fjk =min{F1k,F2k,…,Fkk} ,则首先 将 x j 从回归方程中剔除,为了叙述方便,设 x j 就是 xk 。 接着对剩下的k-1个自变量重新建立回归方程,进行回 归系数的显著性检验, 给定显著性水平 α ,若
Fj2=max{F
若
2
2,
F 32,…,F
k
2}
Fj2 ≥Fα(1,n-3),则接着将
xj 引入回归方程。
依此方法做下去,直至所有未被引入方程的自变量的 偏F值均小于Fα(1,n-k-1)时止。这时,得到的回归 方程就是最终确定的方程。 实际工作中可以利用SPSS等软件在计算机上自动完成。 注:SPSS不是使用偏F统计量,而是使用t统计量的显著 性水平P值(sig)作检验,当然道理是完全一样的。
接着对剩下的k-1个自变量重新建立回归方程,进行回 归系数的显著性检验,依此下去,直至回归方程中的变量 F检验值均大于给定限制性水平下的临界值 Fα ,没有可 剔除的自变量为止。这时,得到的回归方程就是最终确定 的方程。 例8.1.3 使用案例8.1.2的资料,用后退法选择自变量。 运行SPSS,点击命令Analyze → Regression → linear, 进入对话框,在Method对话框中点选Backward,部分 输出结果见8.1.3.
格兰杰因果关系检验的两点含义: 第一,x应该有助于解释y,即在y对它自身的滞后值进 行自回归的方程中,如果把x作为独立解释变量加到方程 中去,应该能够更好地提高方程的解释能力; 第二,y不应该有助于解释x,原因是,如果x有助于解 释y,y又有助于解释x,则可能存在另外的一个(组)变 量,它(们)是x和y变化的共同原因;x和y之间不存在格 兰杰意义上的因果关系。
F =max{F 11,F 21,F 31,…,F k1} 1 给定显著性水平α,若 F≥Fα(1,n-2),则首先 j
1 j
xj
引入方程,为了叙述方便,设
x j 就是 x1。
接下来因变量y分别与 ( x1 , x2 ), ( x1 , x3 ) ,…,( x1 , ), xk 建立k-1个二元线性回归方程,对这k-1个回归方程中 x2, x3,…,xk的回归系数进行偏F检验(参见公式( 3.3.5)与t检验等价),计算偏F值,记为{F 22, F 2,…,F 2};选其最大的记为: 3 k
该方法的根据是:即使原模型存在异常值问题,最小平方 估计量仍然是模型的一致估计量,回归残差也仍然能较好 地近似模型的误差项,因此,异常值导致的残差项非零问 题的信息可以在残差序列中反映出来。 具体的方法:先根据残差序列计算残差的标准差(即估计 标准误差) n 2 S = S = ∑ ei2 /(n − k − 1) (8.2.2)
x x x 其处理过程为:首先将 x1 、 2 、 3 、4 全部引入方程,按 照系统默认的剔除标准Sig ≥ 0.10,Sig最大的 x4 首先被 x 剔除;其次,建立以 x1 、 2 、 3 为自变量的回归方程, 3 x x 不显著,从方程中剔除;最后,建立以 x1 、x2为自变量 的回归方程,二者的Sig值均小于0.10,所以不再剔除。
x是否为y的因果关系的检验方法分为两步: 第一步: 检验x是y的原因 先建立x对于y的无限制回归方程(x作为y的解释变量出 现在方程中): q k (8.1.1) yt = α i yt −i + β i xt − i + u t
∑
i =1
∑
i =1
u 式中, t 是误差项。利用给定的样本数据,构建样本回归 方程,并计算其残差平方和 RSSU 。 再 建 立 y 的 有 限 制 回 归 方 程 ( Restricted Regression),即y的m阶自回归方程: k (8.1.2)
第二步: 检验y是x的原因 将x和y调换位置,重复上述检验。 注意:只有同时接受了x是y的原因和拒绝了y是x的原因 ,才能说x和y构成了格兰杰因果关系,称x为y的格兰杰意 义上的原因。否则x和y之间要么没有关系,要么互为因果 ,无法区分自变量和因变量。 格兰杰(Granger)因果关系检验计算量很大,应用中可 以借助经济计量软件包Eviews进行。
二、解释变量的选择
常用的方法有:
前进法 后退法 逐步回归法
(一)前进法 前进法的思想是:由少到多,每次增加一个自变量,直 至没有可引入的变量为止。 具体做法是: 首先对全部k个自变量,分别对因变量y建立k个一元线 性回归方程,并分别计算这k个一元回归方程的F检验值 (与t统计量等价),记为 {F 11,F 21,F 31,…,F k1};选其最大的记为:
yt =
∑
i=1
α i yt−i + u
t
式中,ut 是误差项。利用给定的样本数据,构建样本回归 方程,并计算其残差平方和 RSS R 。
然后,计算F检验值:
F = (n − k )( RSS R − RSSU ) / qRSSU
(8.1.3)
式中, RSS R 和 RSSU 分别表示有限制回归方程和无限制 回归方程的残差平方和;n是样本的观察值个数;有限制 回归方程的参数个数为k ,无限制回归方程的参数个数 为 k + q 。如果F大于临界值,则认为x构成了y的原因 ;反之,该假设则不能被接受。
二、发现和判断 发现和判断异常值的基本方法就是分析经济问题的背景情 况,包括对经济现象、相关社会经济事件,以及数据数列 的直接分析。 另外,从技术性的角度发现和判断异常值问题,基本方 法是进行回归残差序列分析。 回归残差序列分析: 即 先用最小平方法对模型进行回归分析,根据回归结果 计算出回归残差序列e1,e2,…,en,然后根据回归残差 序列中的各个残差或其综合指标反映的情况,判断模型是 否存在异常值问题。
第二节
异常值问题
问题的提出 发现和判断 问题的处理
一、问题的提出 突发的事件或变化,会对经济活动或经济关系造成短 暂的,却是相当显著的冲击或影响。这种情况表现在经济 数据上,就是一个脱离基本趋势的“异常值”。 如果所研究的经济问题或相关变量中存在这种问题,而 在建立模型时又没有预先处理或剔除掉这种影响,就会表 现为模型的误差项在相应的时点上,存在均值非零的问题 。 如果存在异常值,从而随机项误差零均值假设不成立的前 提下,不作任何处理进行回归分析,那么回归结果必然会 受到影响。所以,必须对异常值问题进行处理。
假定某国家的工资增长率(GZ)与通货膨胀 例8.1.1 率(TH)资料表8.1.1,区分哪个变量是因变量,哪个变 量是自变量。 打开Eviews,将上述资料建立工作文件后,依次点击命 令Quick → Group statistics → Granger causality test,设置好选项,点击OK。 分析结果见输出结果8.1.1. 由结果知:如果按5%的显著性水平进行检验,原假设 “通货膨胀率不是工资增长率的原因”被拒绝;同时,原 假设“工资增长率不是通货膨胀率的原因”被接受。所以 ,可以认为通货膨胀率是工资增长率的Granger意义上的 原因。在建立模型时,可以考虑以通货膨胀率为解释(自 )变量,以工资增长率为被解释(因)变量。
三、问题的处理 一般采用“虚拟变量”的方法,例如,如果对于一个回归 模型yi =β0+β1xi+u,存在异常值,使得误差项的条件均 值不恒为零:
α α ,否则可能产生“死循环”的现象。
2
注意: 引入和剔除自变量的显著性水平 应该有所不同,一般要求引入自变量的显著性水平 1小于剔除自变量的显著性水平 使用例8.1.2的资料,用逐步回归法选择 自变量 。
α
例 8. 1. 4
运行SPSS点击命令Analyze→ Regression→linear, 进入对话框,在Method对话框中点选逐步回归法 Stepwise。
自变量的选择过程是: x x x 首先,分别以 x1 、 2 、3 、 4 和为自变量,建立对于y的 四个一元一次回归方程,以 x2 为自变量的方程sig最大 ,故引入 x2 。 x x 然后,分别引入x1 、 3 、 4 ,构建三个二元一次回归方 程,只有引入 x1的方程的回归系数通过检验,故引入x1 ; x x 然后在包括x 、 2 的基础上,别引入x3 、 4 ,构建两个三 1 x 元一次回归方程,发现 x3 、 4均不显著,故剔除掉(系统 默认的引入标准为sig≤0.05;剔除标准为sig≥0.10)。 最终选中的自变量为 x1 和 x2 。 三种方法的选元方法得到的结果可能差别很大,应该尽量 采用逐步回归法进行选元。
i Байду номын сангаас1
然后再用s去除各个残差,如果发现某个残差ei存
ei 在 (或3)的情况时,就应该怀疑模型在i时点存在 ≥2 S 异常值问题。
该方法的根据是:在模型的假设都成立时,回归残差服从 正态分布。而正态变量的取值标准化后,绝对值通常不会 大于2或3。当然如果模型的其他假设(如随机项的正态 性假设)不成立,则这种判断可能不正确,需要与问题的 实际背景结合起来研究。 在SPSS、Eviews等软件中,都有显示残差图的功能,通 过残差图观察,更为直观和形象。 应该注意:出现多个较大的偏差时,不能简单地认为只是 异常值的问题,要作进一步的深入研究。
(三)逐步回归法 逐步回归法的基本思想是:吸收前进法和后退法的优点 ,克服它们的不足,把两者结合起来, “有进有出”。 具体做法是:将变量一个一个引入,引入变量的条件是其 偏F统计量或t统计量经检验是显著的。即每引入一个自变 量后,对已经被选入的变量要进行逐个检验,当原引入的 变量由于后面变量的引入而变得不再显著时,要将其剔除 。这个过程反复进行,直到既无显著的自变量选入,也无 不显著自变量从回归方程中剔除为止。从而保证了最后所 得的回归子集是“最优”回归子集。
第八章 经济建模技术
变量选择 异常值问题 模型设定问题 协整理论简介
第一节
变量选择
.
解释变量与被解释变量的区分 解释变量的选择
一、解释变量与被解释变量的区分 一般进行定性分析,区分哪个(些)是解释变量(自变量 ),哪个是被解释变量(因变量)并不是太困难。但当遇 到的变量之间联系比较复杂时,格兰杰因果关系检验( Granger Causality Tests)就是常用的方法之一。 格兰杰因果关系检验的基本思路:如果变量x是y的原因 ,则在给定x和y的信息集(要求必须是平稳的时间序列资 料)的情况下,如果利用x的信息比不用能够更好地预测y 的值,表明x的变化引起了y的变化,二者存在着格兰杰意 义上的因果关系。
例8.1.2 某地区铁路货运量(y)、工业总产值(x1)、 农业总产值(x2)、居民非商品支出(x3)和货运费率( x4 ) 资料如表8.1.3所示。若以铁路货运量(y)为因变 量,试利用前进法,选择自变量。 运行SPSS10.0,点击命令Analyze → Regression → linear,进入对话框,在Method对话框中点选Forward. 从结果看,前进法选择自变量的过程是:首先引入x2,它 是统计显著的(系统默认的引入标准是Sig ≤ 0.05)。 然后分别引入x1、x3、x4建立三个二元回归方程,其中, 只有x1显著,故保留在方程中;最后,在已经引入x2、x1 的基础上,分别引入x3、x4;均不显著。所以,最后被选 中的自变量是x2、x1。 最终的方程为:
最后的方程为:
ˆ y = −460.858 + 9.248 x2 + 4.537 x1
(8.1.2)
前进法和后退法的不足 前进法:不能反映引进新的自变量后原有变量解释能力 的变化情况。只考虑引入,而没有考虑剔除的做法显然是 不全面的。 后退法:一开始把全部自变量引入回归方程,这样计算 量很大。且一旦被剔除,就再也没有机会重新进入回归方 程。
ˆ y = −460.858 + 9.248 x2 + 4.537 x1
(二)后退法 后退法思想:首先用全部k个变量建一个回归方程,然 后在这k个变量中选择一个最不重要的变量,将它从方程 中剔除。即:把回归系数检验的偏F值最小者对应的自变 量剔除。 具体做法:对k个回归系数进行F检验,记求得的偏F值 为{F1k,F2k,…,Fkk},选其最小者记为: Fjk =min{F1k,F2k,…,Fkk} ,则首先 将 x j 从回归方程中剔除,为了叙述方便,设 x j 就是 xk 。 接着对剩下的k-1个自变量重新建立回归方程,进行回 归系数的显著性检验, 给定显著性水平 α ,若
Fj2=max{F
若
2
2,
F 32,…,F
k
2}
Fj2 ≥Fα(1,n-3),则接着将
xj 引入回归方程。
依此方法做下去,直至所有未被引入方程的自变量的 偏F值均小于Fα(1,n-k-1)时止。这时,得到的回归 方程就是最终确定的方程。 实际工作中可以利用SPSS等软件在计算机上自动完成。 注:SPSS不是使用偏F统计量,而是使用t统计量的显著 性水平P值(sig)作检验,当然道理是完全一样的。