中级计量经济学讲义-第八章古典线性回归的大样本理论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 古典线性回归的大样本理论
迄今为止的讨论涉及了最小二乘估计量的有限样本性质。
根据非随机回归量和扰动项正态分布这两个假设,我们知道了最小二乘估计量的精确分布和一些检验统计量。
在本章中,我们去总结前一章关于最小二乘法的有限样本特性,然后我们重点讨论古典回归模型的大样本结果。
第一节 最小二乘法的有限样本特性 古典回归模型的基本假设是 Ⅰ.y=X β+ε。
Ⅱ.X 是秩为K 的n ×K 非随机矩阵。
Ⅲ.E[ε]=0。
Ⅳ.E[εε′]=σ2I 。
未知参数β和σ2的最小二乘估计量是
y X X X b ''=-1)(
和
)
(2K n e
e s -'=
通过分析
εβX X X b ''+=-1)(
并且
K
n M s -'=
ε
ε2
我们可得下列精确的有限样本结果:
1. E[b]=β(最小二乘估计是无偏的)
2. Var[b]=σ2(X ′X)-1
3. 任意函数r ′β的最小方差线性无偏估计量是r ′b 。
(这就是高斯—马尔科夫定理)
4. E[s 2]=σ2
5. Cov[b,e]=0
为了构造置信区间和检验假设,我们根据正态分布的假设
],0[~.2I N V σε
推导额外了的结果,即
6. b 和e 在统计上是相互独立的。
相应的,b 和s 2无关并在统计上相互独立。
7. b 的精确分布依赖于X ,是])(,[1
2-'
X X N σβ。
8. 2
2
/)(σs K n -的分布是][2
K n -χ。
s 2的均值是σ2,方差是2σ4/(n -K )。
9. 根据6至8结果,统计量)
)(][1
2-'-=
-kk k
k X X s b K n t β服从自由度为n -K 的t 分布。
10. 用于检验一组J 个线性约束R β=q 的检验统计量
J
q Rb R X X Rs q Rb K n e e J q Rb R X X R q Rb )
(])([)()/(/)(])([)(11211-'''-=
-'-'''----- 服从自由度为J 和n -K 的F 分布。
注意,利用I 至IV 建立起来的b 的各种性质和根据扰动项更进一步的正态分布假设而得到的额外推断结果之间的区别。
第一组中最重要的结果是高斯—马尔科夫定理,它与扰动项的分布无关。
根据正态分布假设得到的重要的附加结果是7、8、9、10。
正态性没有产生任何额外的有限样本的最优性结果。
(没有得出额外的有关统计量好坏的结论)
第二节 古典回归模型的渐近分布理论 为什么要用大样本理论?
在OLS 的方法中,我们如果用数据得到的wald 统计量:
⎥⎦⎤⎢⎣⎡-+=24)3(6
221b b n W ~).2(2x 通不过检验,即假设],0[~.2
I N V σε不满足,这样的话我们
就不能用OLS 完成相关的假设检验问题,所以我们要用到中心极限定理:在n 足够大的情况下,Y 和 ε 都服从正态分布。
这样,相应的判别估计量好坏的方法和标准要捉相应的调整,其中重要的概念是一致估计量。
虽然估计量有可能相同,但我们关心的是他们的一致性,而不是无偏性。
所以我们要区分那些结论是可以在没有正态性的假设下仍然成立的,利用这些条件来推断最小二乘系数估计量的一致性。
对于满足I 到IV 假设的模型,可以直接推导大样本最小二乘估计量的特性。
最小二乘系数向量的一致性 复习:依概率分布
定理 从具有有限均值μ和有限方差2
σ的任何总体中抽取的随机样本的均值都是μ的一
个一致估计量。
证明:n x Var x E /][][2
σμ==及,所以,x 依均方收敛于μ,或μ=x p lim 。
斯拉茨基定理(Slutsky ) 对一个不是n 的函数的连续函数g (x n ),有
)lim ()(lim n n x p g x g p =
假设
Q X X n n ='∞→1
lim
是正定矩阵, (1) 这个假设在大多数时候是不过份的,考虑一元的情况:
X=⎪
⎪⎪⎪⎪⎭⎫ ⎝
⎛n x x x 11121
⎪⎪⎪
⎭
⎫ ⎝⎛+-=⎪
⎪⎭⎫ ⎝⎛=⎪
⎪⎪⎪⎪
⎭⎫ ⎝
⎛⎪⎪⎭⎫ ⎝⎛=∑∑∑2_2
__
2212
1
11111111
11'1x s n n x
x
x x x n
n x x x x x x n X X n i i i n n (我们知道,p μ=_
lim x p 222_22
1lim lim
μσ+=⎥⎦
⎤
⎢⎣⎡+-=∑x s n n n
x i
).
⎪⎪⎭
⎫ ⎝⎛+=∴221'1
lim
μσμμX X n which is positive definite as its principal submatrices all have positive determinants.
最小二乘估计量可以写成
⎪⎭
⎫
⎝⎛'⎪⎭⎫ ⎝⎛'+=-εβX n X X n b 111
(2)
假设Q -1存在,因为逆矩阵是原矩阵的连续函数,我们得到
⎪⎭
⎫ ⎝⎛'+=-εβX n p Q b p 1lim lim 1
现在我们需要最后一项的概率极限。
令
∑∑=='=i
i i i i w n x n X n w 111εε,其中⎪⎪⎪⎪
⎪
⎭
⎫ ⎝⎛=ik i i i x x x x 21,为X '的列向量
那么
w X X n b 1
1-⎪⎭
⎫
⎝⎛'+=β
且
w p Q b p lim lim 1-+=β
因为,X 是非随机矩阵,所以
0][1
][='=
εE X n
w E 且
⎪⎭
⎫
⎝⎛'=''='=n X X n n X E X n w w E w Var 21][1][][σεε
于是可得
00][lim =⋅=∞
→Q w Var n
由于w 的均值是0,并且它的方差收敛于0,所以w 按均方收敛于0,且0lim =w p 。
(下面定理揭示了r-阶收敛与依概率收敛的关系
定理8 ξξξξ−→−⇒−→−P
n r n 。
)
因此
⎪⎭
⎫
⎝⎛='01lim εX n p (4)
所以
ββ=⋅+=-0lim 1Q b p (5)
这表明了在古典回归模型中,在假设(1)条件下b 是β的一致估计量。
二、最小二乘估计量的渐近正态性
为了导出最小二乘估计量的渐近分布,利用以前结果可得
εβX n n X X b n '⎪⎪⎭
⎫ ⎝⎛⎪⎭⎫ ⎝⎛'=--1)(1
由于逆矩阵是原矩阵的连续函数,11
)
/(lim --∞
→='Q n X X n 。
因此,如果极限分布存在,则统
计量的极限分布与下式相同:
εεX n Q X n n X X n '⎪⎪⎭⎫ ⎝⎛='⎪⎪⎭
⎫ ⎝⎛⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛'--∞→11lim 11 (6a ) 因此,我们必须建立下式的极限分布,
])[(1w E w n X n
-='ε
其中0][=w E 。
我们可以利用林德伯格-费勒形式的中心极限定理得到w n 的极限分布。
利用定理中的表达式,
∑=
i
i i x n w ε1
是n 个互不相关的随机向量i i x ε的平均值,其中⎪⎪⎪⎪
⎪⎭
⎫ ⎝⎛=ik i i i x x x x 21,
εi 的均值为0,方差为
i i i i i Q x x x Var 22][σσε='=
w n 的方差
][12122n n Q Q Q n Q +++⎪⎭
⎫ ⎝⎛= σσ
∑⎪⎭
⎫
⎝⎛'='⎪
⎭⎫ ⎝⎛=i i
i n
X X x x n 22
1σσ 只要总和不被任一特定项占据主导地位并且回归量表现良好,在这种情况中,这意味着(1)成立,则
∞
→n lim Var(
εX n
'1)=∞
→n lim Var(w n )=Q Q n n 22lim σσ=∞
→
下列结果的正式证明是根据林德伯格-费勒形式的中心极限定理,由施密特(1976)和怀特(1984)给出。
如果
1. 扰动项都服从具有零均值和有限方差2
σ的同样的分布。
2. X 的元素受到限制使得tk x 有限并且Q n X X =')/lim(是一个有限正定矩阵。
则
],0[12
Q N X n d σε−→−'⎪
⎪⎭
⎫ ⎝⎛ (6) (这也是为什么我们要假设Q 是正定的,因为正态的协方差都是正定的) 我们利用这一结果可得, 即作一个变换:
])(,0[11
2111----−→−'⎪
⎪⎭
⎫ ⎝⎛Q Q Q Q N X n Q d σε 根据(6a):
],0[)(12-−→−-Q N b n d
σβ
我们可以得到b 的渐近分布(不加证明):
⎥⎦
⎤⎢⎣⎡−→−-12,Q n N b a
σβ
三、标准检验统计量的渐近行为
如果没有ε的正态性,前面给出的t ,F 和2
χ统计量则不会服从相应的这些分布。
因为
⎥⎦
⎤
⎢⎣⎡−→−-12,Q n N b a
σβ
由此得出
2
/112]
)/[(--=
kk k
k k Q n b σβθ
的渐近分布是标准正态分布。
由于121
2)/(lim --='
Q n X X s p σ(在下一节中将证明22lim σ=s p 这个结果)
2
/112])([-'-=
kk
k
k k X X s b t β 将与θk 有同样的渐近分布。
因此,我们可以认为,关于β的一个元素的假设的通常统计量服从标准正态分布,而不是t 分布。
(也就是大样本情况下,没有t 分布了,相应的t 分布是正态分布。
)
用于检验一组线性约束的F 统计量,
J
q Rb R X X s R q Rb K n e e J e e e e F )(])(([)()/(/)(112**
-'''-=
-''-'=--
不再是F 分布,因为分子和分母都不是要求的2
χ分布。
不过, 沃尔德统计量JF [J ,n -K ]渐近地服从2
χ分布并可以用来替代使用。
这与扰动项正态分布情况的结果相同。
在通常的假设下,无论扰动项是否服从正态分布,在处理古典模型的大样本时,沃尔德统计量都可使用。
定理 沃尔德统计量的极限分布定理
如果],0[)(12-−→−
-Q N b n d
σβ 以及0:0=-q R H β是正确的,那么
JF q Rb R X X s R q Rb W =-'''-=--)(])(([)(112
依分布收敛于自由度为J 的2
χ统计量。
(我们不要求正式严格证明)。
特别提醒与注意:模型的整体检验统计量
这个沃尔德统计量就是可以用来作为我们模型的整体检验,只不过检验时,这里的R=I ,而q=0而已。
但注意沃尔德统计量W 是自由度为J 的2
χ统计量,而不再是用F 分布来检验了。
但W=JF 。
定理的证明:由于R 是常数矩阵,
])(,0[)(12R Q R N b R n d
'−→−--σβ
(1)
又R β=q ,因此
])(,0[)(12R Q R N q Rb n d '−→−--σ
(2)
为方便起见,将此写成
],0[P N z d
−→−
(3)
令T 满足T 2=P -1,并把
T 记为2
1-P
,即T 是P 的逆平方根。
如果],0[P N z d
−→−
,那么],0[],0[2/12/12
/1I N PP P N z P d =−→−---
(4)
现在,我们对随机变量函数的极限分布利用斯拉茨基(Slutsky )定理,无关的(即,相互独立)标准正态分布变量的平方和服从2
χ分布。
因此,有下面的极限分布
)()()(212/12/1J z P z z P z P d
χ−→−'='---
(5)
再结合前面的各部分, 不难证明:
)()(])([)(21121J q Rb R Q R q Rb n z P z d
χσ−→−-''-='---
(6)
即我们已经证明了其极限分布是自由度为J 的2
χ分布。
由于121
2)/(lim --='
Q n X X s P σ(在下一节中将证明这个结果),这样:
)(]))/(([)(112q Rb R n X X s R q Rb n -'''--- 的极限分布式与(6)的极限分布是一样的。
约
去n,对左边进行整理就得到沃尔德统计量W 。
证明完毕。
注意:沃尔德统计量W 可以用J 乘以通常的F 的统计量而得到。
F 仍然是OLS 得到的F 统计量。
三、s 2
的一致性和Var[b]的估计量
本节证明上节用到的结果plim 121
2)/(--='
Q n X X s σ的假设,即证明s 2对2σ的一致性,也
就是证明2
2
lim σ=s p 。
展开
εεM K
n s '-=
1
2 可得
])([1
12εεεεX X X X K
n s '''-'-=
- ⎥⎥⎦
⎤
⎢⎢⎣⎡⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛'-'-=
-n X n X X n X n K
n n
εεεε1 最前面的常数显然收敛于1,括号中第一项依概率收敛于2σ,因为:n εε'=∑2
1i n
ε
而且:22)()(σεε==i i Var E 4
42242)()]([)()(σεεεε-=-=i i i i E E E Var
因为有:(定理 从具有有限均值μ和有限方差2
σ的任何总体中抽取的随机样本的均值都是μ的一个一致估计量。
P357(大Green))
所以只有在)(4
i E ε为有限的情况下,n
εε'是2
σ的一致估计量。
所以我们要假设)(4
i E ε是有限的。
这意味着
⎪⎭
⎫
⎝⎛'⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛'-=-n X n X X n X p s p εεσ1
2
2
lim lim
单独看plims 2的第二项,略微整理之后,我们有
⎪⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝
⎛'⎪⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛=⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛'--n X n X X n
X n n X n X X n X εεεε1
1
1
这个统计量的大样本特性与
⎪⎭
⎫ ⎝⎛'⎪⎭⎫ ⎝⎛'⎪⎭⎫ ⎝⎛=-n X Q n X n q εε11
的相同。
注意q 等于
n 1乘以正态分布向量的二次型,该向量⎪⎪⎭
⎫ ⎝⎛'n X ε渐近方差矩阵是2
σQ 。
因此,利用沃尔德统计量极限分布证明的结果,我们发现q 可以写成
],0[,所以,z 其中,,12/12I N z n X Q z z n q
d
−→−⎪
⎪⎭
⎫ ⎝⎛'='⎪⎭
⎫ ⎝⎛=-σεσ 这样
][/22K nq d
χσ−→−
0/常数)(即 常数,)/(22→⨯→→n q E nq E σσ
而且0常数
)(即,常数)/(2
42
→⨯→
→n
q Var nq Var σσ,q 是二阶收敛的,所以保证了概率收
敛,即0lim →→∞
→Eq q p n 由此可得q 本身依均方收敛于0。
这表明了s 2对2
σ的一致性。
由此b
的渐近协方差的适当的估计量是:
121
2)(1][..--'=⎪
⎭
⎫
⎝⎛'⎪⎭⎫ ⎝⎛=X X s n X X s n b Var Asy Est
B 的函数的渐近分布——得尔塔方法 利用泰勒展开,把f(x)线性化。
令f(b)是一组关于最小二乘估计量J 个连续的线性或非线性的函数并令
b b f G '
∂∂=
)
( G 是J ×K 矩阵,其中第j 行是第j 个函数关于b 的导数。
利用斯拉茨基(Slutsky )定理,
)()(lim βf b f p =
并且
Γ='∂∂=
β
β)
(lim f G p , 于是
⎥⎦⎤
⎢⎣
⎡Γ'⎪⎪⎭⎫ ⎝⎛Γ−→−-12),()(Q n f N b f a
σβ
(2)
实际上,渐近协方差矩阵的估计量是
G X X s G b f Var Asy Est ''=-])([)]([..12
如果某个函数是非线性的,则b 的无偏的性质不会传给f(b)。
不过从(2)中可得f(b)是f(β)的一致估计量,而且渐近协方差矩阵很容易获得。
例 P324(小Green )
小 结
有限样本和大样本的结果比较
有限样本 大样本
在条件],0[~.2
I N V σε下的结果 在不满足条件],0[~.2
I N V σε下的结果 1. E[b]=β 1. ββ=⋅+=-0lim 1
Q b p
最小二乘估计是无偏的 b 是β的一致估计量
2. E[s 2]=σ2 2. s 2是方差2
σ的一致估计量 σ2估计是无偏的 s 2是2
σ的一致估计量 3. .Est Var[b]=s 2(X ′X)-1 3。
121
2)(1][.--'=⎪
⎭
⎫
⎝⎛'⎪⎭⎫ ⎝⎛=X X s n X X s n b Var Est
4.b 的精确分布是 4. b 的渐近分布是正态分布
])(,[1
2
-'X X N σβ ⎥⎦
⎤
⎢⎣⎡−→−-12,Q n N b a
σβ
5.统计量))(][12-'-=
-kk k k X X s b K n t β 5. 统计量 2
/112])([-'-=kk
k k k X X s b t β 服从自由度为n -K 的t 分布 服从标准正态分布,而不是t 分布
6.用于检验一组J 个线性约束R β=q 的检验统计量
J
q Rb R X X Rs q Rb K n e e J q Rb R X X R q Rb )
(])([)()/(/)(])([)(11211-'''-=
-'-'''-----
-----WORD 格式--可编辑--专业资料-----
--完整版学习资料分享---- 服从自由度为J 和n -K 的F 分布
6. JF q Rb R X X s R q Rb W =-''
'-=--)(])(([)(1
12 依分布收敛于自由度为J 的2χ统计量
非线性问题的处理:(利用泰勒展开,转换为线性)。