关于模型诊断与检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于模型诊断与检验
1.动态分布滞后模型与一般到特殊建模法
最常见的动态分布滞后模型是ADL (1, 1) 和ADL (2, 2) ,
y
= α0 + α1 y t-1 + β0 x t + β1 x t-1+ u t, u t~ IID (0, σ 2 ),
t
(5.9)
和
y
= α0 + α1 y t-1 + α2 y t-2 + β0 x t + β1 x t-1+ β2 x t-2+ u t, u t~ IID
t
(0, σ 2 )
通过对α0 , β0 和β1施加约束条件,从ADL模型(5.9)可以得到许多特殊
的经济模型。
下面以9种约束条件为例,给出特定模型如下:
(1)当α1 = β1 = 0 成立,摸型(5.9)变为
y
= α0 +β0 x t + u t .
t
(5.11)
这是一个静态回归模型。
(2)当β0= β1= 0时,由模型(5.9)得
y
= α0 + α1 y t-1 + u t .
t
(5.12)
这是一阶自回归模型。
(3)当α1 =β0 = 0 时,则有
y
= α0 + β1 x t-1 + u t .
t
(5.13)
x
是y t的超前指示变量。
此模型称为前导模型。
t-1
(4)当约束条件是α1 =1,β1 = - β0时,(5.9)式变为
∆ y
= α0 + β0 ∆ x t+ u t .
t
(5.14)
这是一个一阶差分模型。
当x t与y t为对数形式时,上述模型为增长率模型。
(5)若α1 = 0成立,模型(5.9)则变为一阶分布滞后模型。
y
= α0 + β0 x t+β1 x t - 1 + u t.
t
(5.15)
(6) 取β1 = 0,则模型(5.9)变为标准的局部调整模型(偏调整模型)。
y
= α0 + α1 y t -1 + β0x t+ u t.
t
(5.16)
(7) 当β0 = 0 时,由模型(5.9)得
y
= α0 + α1 y t -1 + β1 x t -1 + u t .
t
(5.17)
模型中只有变量的滞后值作解释变量,y t的值仅依靠滞后信息。
这种模型称为“盲
始”模型。
(8)给定β1 = - α1 ,模型(5.9)化简为
y
= α0 + α1 ( y t-1 - x t-1 ) + β0 x t+ u t
t
(5.18)
此模型称为比例响应模型。
解释变量为x t与 ( y t-1- x t-1)。
以上所列举的例子说明实际上许多有特殊经济意义的模型都是由一个一般
的ADL模型化简得到的。
这种建立模型的方法是首先从一个包括了尽可能多解释
变量的“一般”ADL模型开始,通过检验回归系数的约束条件逐步剔除那些无显
著性变量,压缩模型规模,(在这个过程中要始终保持模型随机误差项的非自相
关性。
)最终得到一个简化(或“特殊”)的模型。
这种方法称为“一般到特殊”
建模法。
也称作亨德里(Hendry)建模法。
模型若丢失重要解释变量将导致回归系数的OLS估计量丧失无偏性和一致
性。
“一般到特殊”建模法的主要优点是能够把由于选择变量所带来的设定误差
减到最小。
因为在初始模型中包括了许多变量,所以不会使回归系数的OLS估计
量存在丢失变量误差。
虽然因为在初始模型中包括了许多非重要解释变量,从而
使回归参数估计量缺乏有效性,但随着检验约束条件的继续,那些非重要的解释
变量被逐步剔除掉,从而使估计量缺乏有效性的问题得到解决。
2.检验方法与统计量
(1)回归函数的F检验。
多元回归模型,
y
= β0 +β1x t1 + β2x t2 +…+ βk- 1x t k -1 + u t,
t
(1)
:β1= β2= … = βk-1 = 0;H1:βj不全为零
H
原假设成立条件下,统计量
F = ~F
(k-1,T-k)
注意:SSR旧指回归平方和(r egression s um of s quares),现指残差平
方和(s um of s quared r esiduals)。
SSE旧指残差平方和(e rror s um of s quares (sum of squared errors)),现指回归平方和(e xplained s um of s quares)。
检验规则是,若F≤Fα (k-1,T-k),接受H0;
若F > Fα (k-1,T-k) , 拒绝H0。
(2)回归参数的t检验。
对于多元回归模型,
y
= β0 +β1x t1 + β2x t2 +…+ βk- 1x t k -1 + u t,
t
(2)
如果F检验的结论是接受原假设,则检验止。
如果F检验的结论是拒绝原假设,
则进一步作t检验。
H
:βj = 0;H1:βj ≠ 0,(j= 1, 2, …, k-1)
原假设成立条件下,统计量
t =~t
(T-k)
判别规则:若∣ t∣≤tα(T-k),接受H0;
若∣ t∣> tα(T-k),拒绝H0。
(3)检验约束条件是否成立的F检验。
约束条件的F检验可以用来检验回归参数的一个或多个线性约束条件,如H0:
β1 = 0,β2 = 0,α1 +β0 + β1=1,β1 /β2 =0.8等。
在零假设“约束条件成立”条件下,统计量
F =~F
( m , T–k )
其中SSE r表示施加约束条件后估计模型的残差平方和;SSE u表示未施加约束条
件的估计模型的残差平方和;m表示约束条件个数;T表示样本容量;k表示非
约束模型中被估参数的个数。
判别规则是,若F < Fα(2, T - 4),约束条件成立,
若F>Fα(2, T - 4),约束条件不成立。
例(file: b5c1):日本人均消费的误差修正模型(见教材209页)
LnC
:对数的人均年消费额(不变价格,1985 = 1)。
t
LnI
:对数的人均年可支配收入额(不变价格,1985 = 1)。
t
LnP
:对数的消费价格指数(1985 = 1)。
t
建立动态分布滞后模型
= 0.3181 + 0.8756LnI t + 0.6466 LnC t-1 - 0.6078 β1 LnI t-1 + 0.0218
LnP
. (5.91)
t-1
(2.75) (10.97) (4.72) (-4.86) (2.09)
R 2 = 0.9989, SSE = 0.0015, DW = 1.95, LM
= 2.8, ARCH = 0.26, LnL
2
= 105.87, T = 30
用F统计量检验是否可以对上式施加约束LnI t和LnI t-1的系数β0 = β1 = 0。
给出约束模型估计结果如下,
= 0.1932 + 0.9600 LnC t-1 - 0.0168LnP t-1.
(5.92)
(0.88) (19.95) (-0.78)
R 2 = 0.9935, SSE = 0.0088, DW = 2.27, LnL = 79.47, T = 30 (5.91)相当于非约束模型。
F统计量的值按下式计算,
F = = = 60.8
(5.93)
因为F = 60.8 >F0.05 (2, 25) = 3.39,所以,约束条件β0 = β1 = 0被拒绝。
LnI t 和LnI t-1是重要的解释变量,不应从模型中删除。
在(5.91)式窗口中点击View,选Coefficient Tests, Redundant Variables-Likelihood Ratio功能得
(file:b5c1)
(4)JB正态性检验
在给出JB统计量的定义之前,先给出偏度(skewness)和峭度(kurtosis,峰度)的定义。
对于时间序列(y1, y2, …, y T),偏度S定义为,
< Md < Mo = Md = Mo M O < Md <
其中表示y t的平均数,σ表示y t的标准差。
由公式知,若分布是以对称的,则偏度为零。
所以若y t服从正态分布,则偏度为零;若分布是右偏倚的,则偏度S> 0;若分布是左偏倚的,则偏度S< 0。
峭度K定义为
正态分布的峭度为3。
如果一个分布的两侧尾部比正态分布的两侧尾部“胖”,则该分布的峭度K> 3,反之则K< 3。
JB(Jarque-Bera)统计量定义如下,
JB = ~χ2
(2)
其中T表示观测值个数。
对于直接得到的观测时间序列,取n = 0。
对于残差序列,取n等于原回归模型中解释变量个数。
S表示偏度。
K表示峭度。
计算结果若JB <χ2α(2),该分布为正态分布,
若JB >χ2α(2),该分布不是正态分布。
当用样本计算偏度和峭度时,T应换为T -1,σ2用y t的样本方差s2代替。
例:(file: simu2, x)EViews操作如下。
因为JB = 3.81 < χ20.05 (2) = 5.99,所以上述分布为正态分布。
(file: simu2, trend)
因为JB = 59.98 > χ20.05 (2) = 5.99,所以上述分布不是正态分布。
英 K. Pearson提出的分布律检验适用性更广。
(5)似然比(LR)检验
下面介绍三种常用的检验方法,即似然比(LR)检验,沃尔德(W)检验和
拉格朗日(lagrange)乘数(LM)检验。
这三种检验所用统计量都是利用极大似
然估计法计算的。
LR检验由内曼—皮尔逊(Neyman-Pearson 1928)提出,只适
用于对线性约束的检验。
W检验和LM检验既适用于对线性约束条件的检验,也
适用于对非线性约束条件的检验。
首先介绍LR检验。
LR检验的基本思路是如果约束条件成立则相应约束模型
与非约束模型的极大似然函数值应该是近似相等的。
用
log L(,) = -log 2π-
(3)
表示非约束模型的极大似然函数。
其中和分别是对β(参数集合),σ2的
极大似然估计。
用
log L(,) = -log 2π-
(4)
表示约束模型的极大似然函数。
其中和分别是对β和σ2的极大似然估
计。
定义似然比(LR)统计量为
LR = - 2 [ log L(, ) - log L(, ) ] (5)
中括号内是两个似然函数之比(似然比检验由此而得名)。
在零假设约束条件成
立条件下
LR~χ2(
m)
(6)
其中m表示约束条件个数。
用样本计算LR统计量。
判别规则是,若LR < χ2α (m) , 则接受零假设,约束条件成立。
若LR > χ2α (m) , 则拒绝零假设,约束条件不成立。
例:(file: b5c1)日本人均消费动态分布滞后模型,(见教材209页)检
验β0 = β1 = 0。
非约束模型:
= 0.3181 + 0.8756LnI t + 0.6466 LnC t-1 - 0.6078 β1 LnI t-1 + 0.0218
LnP
. (5.91)
t-1
(2.75) (10.97) (4.72) (-4.86) (2.09)
R 2 = 0.9989, SSE = 0.0015, DW = 1.95, LM
= 2.8, ARCH = 0.26, LnL
2
= 105.87, T = 30
用LR统计量检验是否可以对上式施加约束LnI t和LnI t-1的系数β0= β1 = 0。
给出约束模型估计结果如下,
= 0.1932 + 0.9600 LnC t-1 - 0.0168LnP t-1.
(5.92)
(0.88) (19.95) (-0.78)
R 2 = 0.9935, SSE = 0.0088, DW = 2.27, LnL = 79.47, T = 30 (5.91)相当于非约束模型。
F统计量的值按下式计算,
LR= -2 [ log L(,) - log L(,) ]= -2 (79.47-105.87) = 52.8
因为LR = 52.8 >χ2(2) = 5.99,所以,约束条件β0 = β1 = 0被拒绝。
LnI t和
LnI
是重要的解释变量,不应从模型中删除。
t-1
在(5.91)式窗口中点击View,选Coefficient Tests, Redundant
Variables-Likelihood Ratio功能得
(file:b5c1)
(6)W检验
W检验的优点是只需估计无约束模型。
当约束模型的估计很困难时,此方法
尤其适用。
W检验由沃尔德(Wald 1943)提出,适用于线性与非线性约束条件
的检验。
W检验的原理是测量无约束估计量与约束估计量之间的距离。
先举一个简单
例子。
比如对如下模型检验线性约束条件β2 = β3是否成立。
y
= β1 x1t + β2 x2 t + β3 x3 t + v t
t
(7)
W检验只需对无约束模型(7)进行估计,因为对约束估计量和来说,必然有-= 0。
如果约束条件成立,则无约束估计量-应该近似为零。
如果约
束条件不成立,则无约束估计量-应该显著地不为零。
关键是要找到一个准
则,从而判断什么是显著地不为零。
首先需要知道(-)的抽样分布。
依据经典回归的假定条件,(-)
服从均值为(β2-β3),方差为Var(-) 的正态分布。
通常Var(-) 是
未知的,使用的是Var(-) 的样本估计量,定义W统计量为,
W =~ N(0, 1)
在约束条件成立条件下,W渐进服从N(0, 1) 分布。
下面讨论多个约束条件的情形。
假定若干约束条件是以联合检验的形式给
出,
f(β) = 0,
(8)
其中f(β) 表示由约束条件组成的列向量。
用表示施加约束条件后对参数集合
{β1, β2, …, βk } 的估计。
若把代入上式,则上式一定成立。
当把无约束估
计值代入上式时,通常上式不会成立。
W统计量定义如下,
W = f()' [Var( f() ) ]-1 f() (9)
其中f()是用代替β后的f(β)表达式,Var(f()) 是f()的估计的方差
协方差矩阵。
计算公式如下:
Var(f()) = () (Var() ) ()'
(10)
其中表示f(β) 用无约束估计量代替后的偏导数矩阵,其中第i行
第j列位置上的元素表示第i个约束条对第j个无约束估计量的偏导数值。
Var() 是的估计的方差协方差矩阵。
在约束条件成立条件下,W = f()' [Var( f() ) ] –1 f() 渐近服从χ
2
分布。
(m)
W = f()' [Var( f() ) ]-1 f() ~χ2(
m) .
其中m表示被检验的约束条件的个数,
举一个非线性约束的例子如下。
假定对模型
y
= β1 x t1+β2 x t2+β3 x t3+ u t
t
(11)
检验约束条件β1 β2 = β3是否成立。
用和分别表示β1,β2和β3的非
约束估计量。
,和既可以是极大似然估计量,也可以是最小二乘估计量。
因为对于本例f() 只含有一个约束条件,所以改用f() 表示,有
f () = -
(12)
= () = ( -1 ), (13)
Var() =
(14)
和Var(f()) = ( -1) Var(,
根据(9)式,W统计量的具体表达式是,
W =
在零假设β1 β2 = β3 成立条件下,W统计量近似服从χ2(1) 分布。
例:(file: nonli12)对台湾制造业生产函数,检验β1/β2= 0.5是否成立。
= -8.4 + 0.67 Lnx t1 + 1.18 Lnx t2
(15)
(4.4) (3.9)R2 = 0.89, F = 48.45, DW=1.3检验β2/β3= 0.5是否成立。
变换约束条件为
β2 - 0.5β3 = 0
因为只有一个约束条件,则
f() = f () = β
- 0.5β3
2
= () = (0 1 -0.5 )
在(15)式窗口中点击View,选Coefficient Covariance功能。
Var() =
Var(f()) = () (Var() ) ()'
= = 0.0903 f() = f () = β
- 0.5β3 = (0.6731-0.5⨯1.1816) = 0.0823
2
W = f()' [Var( f() ) ]-1 f()
= 0.0823 () 0.0823 = = 0.0750
因为W = 0.075 < χ2(1) = 3.8,所以,约束条件β0 = β1 = 0被接受,成立。
在(15)式窗口中点击View,选Coefficient Tests, Wald-Coefficient Restrictions功能得
概率大于0.05,说明统计量落在了零假设的接收域。
结论是接受原假设(约束条件成立)。
(7)LM乘数检验。
与W检验不同的是拉格朗日(Lagrange)乘数(LM)检验只需估计约束模
型。
所以当施加约束条件后模型形式变得简单时,更适用于这种检验。
LM检验
是由艾奇逊—西尔维(Aitchison-Silvey 1960)提出的。
LM检验另一种表达式
是由拉奥(Rao 1948)提出的,称为得分检验。
首先给出非约束模型的对数似然函数
logL( β,σ2 ) (16)
对于非约束极大似然估计量j必然有
= 0, ∀j
(17)
若约束条件成立,则施加约束条件下βj的极大似然估计量应与不施加约束
条件下βj的极大似然估计量j非常接近。
也就是说∂logL/∂应近似为零。
LM
检验的原理是如果∂logL/∂显著地不为零,则约束条件不成立。
LM统计量定
义为
LM = ()' (I(
(18)
其中(∂logL/∂)是以(∂logL/∂βj)为元素组成的列向量,同时用替换了
βj 。
I() 称为信息矩阵,其逆矩阵是的方差协方差矩阵。
在约束条件成立
条件下,LM近似服从χ2(m) 分布。
LM~χ2
(m)
,
其中m表示约束条件个数。
假定有两个约束条件f1(β) = 0和f2(β) = 0。
为求这两个约束条件下的对数
似然函数(16)的极大似然估计量,应按拉格朗日乘数法则建立如下函数,
logL* = logL + λ
1 f
1
(β) + λ2f2 (β) ,
(19)
其中λ1,λ2为拉格朗日乘数,求解约束极值问题应对所有的j都满足∂logL*/∂βj
= 0, 即
=+ λ1+ λ2= 0, ∀j
由上式得
= - λ1- λ2, ∀j
(20)
当上式中的βj用代替后,如果显著地不为零,则约束条件不成立。
根据上式,
只有当λ1, λ2不为零时,∂logL/∂βj才显著地不为零。
所以判别规则是如果λ1,
λ2 显著地不为零,则拒绝约束条件。
因为(20)式是∂logL/∂的函数,所以
称其为拉格朗日乘数统计量。
对于线性回归模型,通常并不是按(18)式,而是通过一个辅助回归式计算
LM统计量的值。
LM统计量与辅助回归式的可决系数R 2有直接联系,而辅助回
归式的形式直接与被检验的约束条件有关。
LM检验的实际步骤如下:
(1) 确定LM辅助回归式的因变量。
用OLS法估计约束模型,计算残差序
列,并把作为LM辅助回归式的因变量。
(2) 确定LM辅助回归式的解释变量。
例如非约束模型如下式,
y
= β0 + β1 x1t + β2 x2 t+… + βk x k t+ u t .
t
(21)
把上式改写成如下形式
u
= y t - β0 - β1 x1t - β2 x2 t -… - βk x k t.
t
(22)
则LM辅助回归式中的解释变量按如下形式确定。
-, j= 0, 1, …, k.
对于非约束模型(5.70),LM辅助回归式中的解释变量是1, x1t , x2t , …, x k t 。
第一个解释变量1表明常数项应包括在LM辅助回归式中。
(3) 建立LM辅助回归式如下
= α0 + α1 x1t + α2 x2 t+ … + αk x k t + v t , (23)
其中由第一步得到。
(4) 用OLS法估计上式并计算可决系数R 2。
(5) 用第四步得到的R2计算LM统计量的值。
LM = T R 2
其中T表示样本容量。
由于上式计算的LM的值与(18)式定义的LM的值相等(证
明略)。
在零假设成立前提下,T R 2 服从m个自由度的χ2(m) 分布,
LM = T R 2~χ2
(m)
其中m表示约束条件个数。
例:以如下非约束模型介绍用LM辅助回归方法检验约束条件β2 + β3 = 1。
y
= β1 x1t + β2 x2 t + β3 x3 t + v t ,
t
(24)
检验约束β2 + β3 =1是否成立。
当施加约束β2+ β3=1时,上式变为,
y
= β1 x1t + β2 x2 t+ (1 - β2) x3 t+ v t ,
t
(25)
上式相对于(24)式为约束模型。
若对(24)和(25)式进行OLS估计,则会发
现所得结果相同。
=x1t +x2 t +x3 t
(26)
于是遇到参数不可识别问题。
除非β2 和β3 存在准确的关系β2 + β3 = 1,否则
无法知道是对β3 的估计还是对(1- β2)的估计。
即便β2 + β3 = 1真的成立,
实际中也很难有+= 1成立。
为避免参数的不可识别性,可利用约束最小二乘法(RLS)进行估计。
从(25)式两侧减去x3 t得,
y
- x3 t= β1x1t + β2x2 t - β2 x3 t + v t
t
(27)
令y t* = y t - x3 t,x2 t* = x2 t - x3 t,上式变为,
y
* = β1 x1t + β2 x2 t* + v t , (约束模型。
)
t
(28)
第一步,用OLS法估计(28)式,并把得到的残差序列作为LM辅助回归的因变量。
变换(24)式得
v
= y t - β1 x1 t - β2 x2 t - β3 x3 t .
t
根据第二步,LM辅助回归解释变量是x1t, x2 t和x3 t。
根据第三步,LM辅助回归式是
= x1t +x2 t +x3 t ,
(原式中没有β0,所以上式中没有常数项。
)计算可决系数R2。
则
LM = T R 2~χ2
.
(1)
例:(file: nonli12)对台湾制造业生产函数
= -8.4 + 0.67 Lnx t1 + 1.18 Lnx t2
(4.4) (3.9)R2= 0.89, F= 48.45, DW=1.3, T=15
用LM统计量检验Lnx t2的系数,β3= 0是否成立。
(1) 用OLS法估计约束模型,计算残差序列,
Lny
= 2.16 + 1.24 Lnx t1 +
t
(4.9) (17.6)R2 = 0.96, F = 312
并把作为LM辅助回归式的因变量。
(2) 确定LM辅助回归式的解释变量。
例如非约束模型如下式,
Ln y
= β1 + β2 Ln x1t + β3 Ln x2 t + u t
t
(29)
把上式改写成如下形式
u
= Ln y t - β1 - β2 Ln x1t - β3 Ln x2 t
t
(30)
则LM辅助回归式中的解释变量按如下形式确定。
-, j = 1, 2, 3
对于非约束模型(30),LM辅助回归式中的解释变量是1, Ln x1t , Ln x2t。
第一个解释变量1表明常数项应包括在LM辅助回归式中。
(3) 建立LM辅助回归式如下
= α0+ α1 Ln x1t+ α2 Ln x2 t+ v t, (23) 其中由第一步得到。
(4) 用OLS法估计上式并计算可决系数R 2。
= -10.67 - 0.67 Lnx t1 + 1.18 Lnx t2
(23)
(-3.9) (-3.7)(3.9)R2 = 0.89, F = 48.45, DW=1.3
(5) 用第四步得到的R2计算LM统计量的值。
LM = T R 2 = 0.89⨯15 = 13.35 > χ2
= 3.8
(1)
原假设β3 = 0不成立。
例:自相关BG检验属于LM检验。
以2元线性回归模型,检验是否存在1阶自相关为例,约束模型和非约束模型分别是
y
= β1 +β1 x1t + β2 x2 t + u t(约束模型,ρ= 0)
t
(33)
y
= β1 +β1 x1t + β2 x2 t + u t, u t = ρu t-1 + v t
t
(34)
即
y
= β1 +β1 x1t + β2 x2 t + ρu t-1 + v t(非约束模型)
t
(35)
用OLS法估计(33)式,得到作为LM辅助回归式的因变量。
由非约束模型(35)知LM辅助回归式的解释变量是1,x1t,x2t,ρ,所以LM辅助回归式是
= α0 + α1 x1t + α2 x2 t + α3 -1 + v t
(5.72)
上式正是自相关BG检验式。
从中提取R 2计算统计量。
对LR,W和LM检验方法的选择应以做实际计算时的难易程度而定。
一般来说W和LM检验应优于LR检验,因为W和LM检验只需要估计一个模型即可,而LR检验需估计约束与非约束两个模型。
对W和LM检验方法的选择应以约束模型与非约束模型哪个更容易估计而定。
应该注意,即使三种检验方法都可使用,它们的计算结果通常也是不相同的。
因为三个统计量只是渐近相同,对于线性回归模型,在小样本条件下有如下关系成立。
LM≤LR≤W
(29)
上式说明只有当LM检验的结果为拒绝零假设(约束条件不成立)或者W检验的结果为接受零假设(约束条件成立)时,三种检验的结论才是一致的。
所以实际中,三种检验方法有可能得出相互不一致的结论。
另外只有当用参数的样本估计值计算的约束条件完全成立时,即把参数估计值代入约束条件能准确成立时,(29)式中的三个统计量才有完全相等的关系。
当对数似然函数中只含有一个参数β时,LM, LR和W三种检验的关系可用图5.1表示。
和分别表示无约束和约束估计量。
LR检验是对纵向距离log L(- log L(的测量,W检验则是对水平距离 () 的测量,而LM检验计
算的是当=时,对数似然函数的斜率。
因为这三个统计量都是渐近地服从χ2(m)
分布,所以当样本比较小且约束条件为线性时,用F检验要比用上述三种检验更可靠。
图5.1 LR, W和LM检验
(8)邹突变点检验(Chow Breakpoint Tests)。
突变点检验由邹至庄1960年提出。
当研究同一问题,在不同时段得到两个子样本时,需要考察两个不同时段的回归系数是否相同,即回归系数在不同时段是否稳定。
当然这一检验也适用于两个截面样本的情形。
图5.2 一个解释变量情形
两个样本容量分别用n
1和n
2
表示,并定义T= n1 + n2。
假定所建立的多元回
归模型形式为,
y
t
= θ0 + θ1x t 1+ … + θk-1x t k-1 + u t
以T,n1和n2为样本分别对上述模型进行估计,所得结果用以下符号表示。
样本容量残差平方
和
相应自由度回归系数
1 T SSE T T- kθj, j= 1, …,
k-1
2 n1 SSE1 n1 - kαj, j =
1, …, k-1
3 n2 SSE2 n2 - kβj, j= 1, …,
k-1
注:3次回归的模型形式应相同。
原假设与备择假设:
H
:αj = βj , j= 1, …, k-1。
H
1
:αj, βj,不全对应相等。
则所用统计量定义为
F =
= ~F(k, T-2 k)
检验规则是
若F < Fα(k,T-2k)接受H0(回归系数无显著性变化)
若F > Fα(k,T-2k)拒绝H0(回归系数有显著性变化)
例:(file: break2)东北、华北、华东、华中21省市1993和1998年耕地面积(land,百万公顷)和农业产值(Y, 百亿元)数据见图(已取对数)。
用圆圈表示的观测点为1993年数据,用三角表示的观测点为1998年数据。
大体看各省市1998年耕地面积比1993年耕地面积略有减少,产值却都有增加。
以1993和1998年数据为两个子样本,以42个数据为总样本,求得残差平方和见下表
样本容量残差平方
和
相应自由度回归系数
1 T = 4
2 SSE T =
14.26
T - k = 40
2 n1= 21 SSE1 = 4.37 n1 - k = 19 α1
3 n2= 21 SSE2 = 3.76 n2 - k = 19 β1
注:三次回归的模型形式Lnout t = β0+β1 Lnland t + u t。
因为,
F= = = 14.33 > F
(1, 40)
= 7.31 所以两个年度21省市的农业生产发生了很大变化。
(9)回归系数的稳定性检验(Chow检验)
在样本T基础上求出回归模型系数的估计值后,再增加n个观测值从而考查原参数估计值是否稳定时,可采用如下的Chow检验法,
首先对同一形式模型(含k个被估参数)用样本T和样本T+ n分别进行回归,计算结果表示如下,
样本容量残差平方
和
相应自由度回归系数
1 T SSE1 T- kβ j
2 T + n SSE2 T + n - kαj
注:两次回归的模型形式应相同。
原假设与备择假设:
H
: βj = αj,(j= 1, …, k-1)。
H
1
: βj与αj,(j= 1, …, k-1),不全对应相等。
则所用统计量定义为
F = ~F
(n, T- k)
检验规则是
若F < Fα( n, T- k)接受H0(回归系数无显著性变化)
若F > Fα( n, T- k)拒绝H0(回归系数有显著性变化)例:(file: Dummy5)中国对数的货币流通量(1952-1998)
按上面的表示方法,EViews先算出T + n个样本的回归式,对于本例即先算出1952-1998年为样本的回归式,然后再从1998年开始除掉一个或若干个年份的值,检验参数稳定性。
下面的计算相当于用1952-1997年数据估计一个模型,然后加入1998年数据检验预测的稳定性。
样本容量残差平方
和
相应自由度回归系数
1 46 0.9667T- k = 4
2 β j
2 47 1.0347T+ n–k =
43 α
j
F = ==2.95
(10)检验过程是否为白噪声的Q统计量
在介绍Q统计量之前,先介绍序列y t的估计的自相关函数(相关图)的定义,
r
k
=, k= 1, 2, ….
其中r k表示y t与y t-k估计的自相关系数,是对自相关系数ρk的估计。
= (∑)/ (T-k)。
在EViews中定义= (∑y t)/ T。
模型残差序列是否为白噪声的检验是用Box-Pierce (1970) 提出的Q统计量完成的。
Q 检验的零假设是
H:ρ1 = ρ2= … = ρK = 0
即序列是一个白噪声过程。
其中ρi表示自相关系数。
Q统计量定义为
Q = T(30)
随着T→∞,Q渐近服从χ2( K - p - q)分布,其中T表示样本容量,r k 表示用残差序列计算的自相关系数值,K表示自相关系数的个数,p表示模型自回归部分的最大滞后值,q表示移动平均部分的最大滞后值。
Ljung和Box认为(30)式定义的Q统计量的分布与χ2( K - p - q)分布存在差异(相应值偏小),于是提出修正的Q统计量。
Q = T (T+2)(31)
其中r k ,K,p,q的定义如(30)式。
修正的Q统计量(31) 渐近服从χ2( K - p - q)分布。
且它的近似性比原Q统计量的近似性更好。
(注意:EViews中给出的Q统计量就是按(31)式定义的。
)
用残差序列计算Q统计量的值。
显然若残差序列不是白噪声,残差序列中必含有其他成份,自相关系数不等于零。
则Q值将很大,反之Q值将很小。
判别规则是:
若Q < χ2α ( K - p - q) ,则接受H0。
若Q > χ2α ( K - p - q) ,则拒绝H0。
其中α表示检验水平;p,q分别表示时间序列模型中自回归和移动平均滞后项的个数。
实际检验中,K取15左右即可。
例:(file: simu2, x t)白噪声序列x t~ IID(0, 1)。
Q统计量的值如下,
(file: simu2, x t)
因为Q(10) = 5.9 < χ20.05 (10-0 -0) = 18.3,则序列非自相关。
(11)模型的平方的残差值序列构造Q统计量
在Q统计量的定义中,
Q = T (T+2)(31)
如果估计的自相关系数r k是用平方的残差值序列计算的,那么Q统计量考察的是残差序列中是否存在ARCH、GARCH过程。
Q统计量渐近服从χ2( K - p - q)分布。
检验方法与所用临界值与上述检验是否为白噪声过程的Q统计量相同。
这时的零假设是残差序列中不存在ARCH、GARCH过程。
备择假设是存在ARCH、GARCH过程。
下图是对日元兑美元汇率AR (2)模型中平方的残差值序列的1-10期的Q统计量计算结果。
以k = 10为例,
因为Q(10) = 277.99 < χ20.05 (10- 2 -0) = 15.5,所以模型残差序列中存在ARCH 过程。
(file:JPYEN, EQ01)
(11)异方差的White检验
White检验由H. White 1980年提出。
White检验的原理属于LM检验。
White 检验不需要对观测值排序,也不依赖于随机误差项服从正态分布。
它是通过一个辅助回归式构造χ2 统计量进行异方差检验。
White检验的具体步骤如下。
以二元回归模型为例,
y
= β0 +β1 x t1+β2 x t2+ u t
t
(32)
①首先对上式进行OLS回归,求残差。
②做如下辅助回归式,
= α0 +α1 x t1 +α2x t2 + α3 x t12 +α4x t22+ α5 x t1x t2+ v t
(33)
即用对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。
注意,上式中要保留常数项。
求辅助回归式(33)的可决系数R2。
③White检验的零假设和备择假设是
: (32)式中的u t不存在异方差,
H
H
: (32)式中的u t存在异方差
1
④在不存在异方差假设条件下统计量
T R 2 ~χ2(5)
其中T表示样本容量,R2是辅助回归式(33)的OLS估计式的可决系数。
自由度5表示辅助回归式(33)中解释变量项数(注意,不计算常数项)。
⑤判别规则是
若T R 2≤ χ2α (5), 接受H0(u t 具有同方差)
若T R 2 > χ2α (5), 拒绝H0(u t 具有异方差)
例:(file:hete01,hete02)
1986年中国29个省市自治区农作物种植业产值y t(亿元)和农作物播种面积x t(万亩)数据研究二者之间的关系。
得估计的线性模型如下,
y
= -5.6610 + 0.0123 x t
t
(5.18)
(12.4)R2 = 0.85, F = 155.0, T = 29
图5.7 农作物产值y t和播种面积x t (file:hete01) 图5.8 残差图(file:hete02)
无论是从y t和x t观测值的散点图(见图5.7)还是模型的残差图(见图5.8)都可以发现数据中存在异方差。
用White方法检验是否存在异方差。
在上式回归的基础上,用残差做如下回归。
= -219.70 + 0.1595 x t - 3.54(- 6)x t2
(-0.5)(1.5)(-0.6) T = 29, R2 = 0.2765
因为T R 2 = 29⨯0.2765 = 8.018>χ2(2) = 6.0,所以存在异方差。
输出结果见下表
注意:输出结果中的概率是指χ2(2)统计量取值大于8.02的概率为0.018。
示意如下图。
(12)自相关的LM检验(亦称BG检验)
BG检验的特点是既可检验一阶自相关,也可检验高阶自相关。
BG检验由Breusch- Godfrey提出。
BG检验是通过一个辅助回归式完成的,属于LM统计量。
具体步骤如下。
对于多元回归模型
y
= β0 + β1x1 t+ β2 x2 t+ … + βk –1 x k-1 t + u t
t
(34)
考虑误差项为n阶自回归形式
u
= ρ1 u t-1+ … + ρn u t - n + v t
t
(35)
其中v t为随机项,符合各种假定条件。
零假设为
H
:ρ1 = ρ2= …= ρn= 0
这表明u t不存在n阶自相关。
用估计(34)式得到的残差建立辅助回归式,
=+ … ++β0 +β1x1 t+β2 x2 t+ … + βk –1 x k-1 t + v t (36)
上式中的是(34)式中u t的估计值。
估计上式,并计算可决系数R2。
构造LM 统计量,
LM = T R2
其中T表示(34)式的样本容量。
R2为(36)式的可决系数。
在零假设成立条件下,LM统计量渐近服从χ2(n) 分布。
其中n为(35)式中自回归阶数。
如果零假设成立,LM统计量的值将很小,小于临界值。
判别规则是,若LM = T R2≤χ2(n),接受H0;
若LM = T R2 > χ2(n),拒绝H0;
例:(file:AUTOCO6)天津市城镇居民人均消费与人均可支配收入的关系。
改革开放(1978~2000)以来,天津市城镇居民人均消费性支出(CONSUM),人均可支配收入(INCOME)以及消费价格指数(PRICE)数据见下表。
现在研究人均消费与人均可支配收入的关系。
先定义不变价格(1978=1)的人均消费性支出(Y t)和人均可支配收入(X t)。
令
Y
= CONSUM / PRICE
t
X
= INCOME / PRICE
t
得散点图如图1。
显然Y t和X t服从线性关系。
图1 Y t和X t散点图图2 残差图
(1)估计线性回归模型并计算残差
用普通最小二乘法求估计的回归方程,得结果如下。
= 111.44 + 0.7118 X t
(1.42)
(6.5) (42.1) R2 = 0.9883, s.e. = 32.8, DW = 0.60, T = 23
(2)检验误差项u t是否存在自相关
已知DW= 0.60,若给定α= 0.05,查附表,d L= 1.26,d U= 1.44。
因为DW = 0.60 < 1.26, 依据判别规则,认为误差项u t存在严重的正自相关。
BG(LM)自相关检验辅助回归结果是
e
= 0.6790 e t -1 + 3.1710 – 0.0047X t + v t
t
(3.9) (0.2) (- 0.4) R2 = 0.43, DW = 2.00
LM = T R2 = 23 ⨯ 0.43 = 9.89
因为χ20.05(1) = 3.84,LM = 9.89 > 3.84,所以BG(LM)检验结果也说明(1)式存在自相关。
用EViews进行BG(LM)自相关检验非常方便。
以(1.42)式为例,具体步骤如下。
在(1.42)式回归输出窗口中点击View键,选择Residual Tests/Serial Correlation LM Test …功能,会弹出一个设定滞后期(Lag Specification)对话框。
输入1,点击OK键,就会得到LM= T R2= 9.79的BG(LM)检验结果。
(13)格兰杰非因果性检验
格兰杰非因果性检验是VAR模型的一个副产品。
格兰杰非因果性检验式是2变量VAR模型中的一个方程式。
格兰杰(Granger)非因果性定义如下:格兰杰非因果性:如果由y t和x t滞后值所决定的y t的条件分布与仅由y t滞后值所决定的条件分布相同,即
ƒ( y t|y t -1, …, x t -1, …) = ƒ( y t|y t -1, …),
(37)
则称x t -1对y t存在格兰杰非因果性。
格兰杰非因果性的另一种表述是其他条件不变,若加上x t的滞后变量后对
y
的预测精度不存在显著性改善,则称x t -1对y t存在格兰杰非因果性关系。
t
根据以上定义,x t 对y t 是否存在因果关系的检验可通过检验VAR 模型以y t
为被解释变量的方程中是否可以把x t 的全部滞后变量剔除掉而完成。
比如VAR
模型中以y t 为被解释变量的方程表示如下:
y
= ++ u1 t
t
(38)
如有必要,常数项,趋势项,季节虚拟变量等都可以包括在上式中。
则检验x t 对
y
存在格兰杰非因果性的零假设是
t
: β1 =β2= …= βk = 0
H
显然如果(38)式中的x t 的滞后变量的回归参数估计值全部不存在显著性,则
上述假设不能被拒绝。
换句话说,如果x t 的任何一个滞后变量的回归参数的估
计值存在显著性,则结论应是x t 对y t 存在格兰杰因果关系。
上述检验可用F统
计量完成。
F =
(39)
其中SSE r表示施加约束(零假设成立)后的残差平方和。
SSE u表示不施加约束
条件下的残差平方和。
k表示最大滞后期。
N表示VAR模型中所含当期变量个数,
本例中N= 2,T表示样本容量。
在零假设成立条件下,F统计量近似服从F( k, T -
分布。
用样本计算的F值如果落在临界值以内,接受原假设,即x t 对y t 不
k N )
存在格兰杰因果关系。
注意:
为简便,通常总是把x t-1 对y t存在非因果关系表述为x t(去掉下标 -1)对
y
存在非因果关系(严格讲,这种表述是不正确的)。
t
在实际中,除了使用格兰杰非因果性概念外,也使用“格兰杰因果性”概念。