计量经济学讲义(人大 陈彦斌)第1章、一元线性回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第1章、一元线性回归
§1、经济学与计量经济学:一个笑话和一个例子
1、理论(原假设):世界上没有黑天鹅
计量经济学家A和B分别得到了100个样本:观察并记录了100个天鹅的颜色。

A的样本是100个白天鹅。

B的样本中有1个黑天鹅。

那么,
A得出结论:“_______________”,
B得出结论:“_______________”。

2、Keynes消费函数和生命周期/持久收入假说哪一个是对的?
如何理解使用计量经济学估计出来的Keynes消费函数。

(1)Keynes消费函数:
Consumption=β1+β2income+ε,0<β2<1
其中β2是MPC,β1是自发消费。

注意:自发消费是不可观察的。

Keynes消费函数模型,无法理解如下3个图形(计量方程):(见Romer的《Advanced Economics》,P313)。

C
白人Y 45o黑人(a) (b) (c)
(a)静态数据(截面数据):家庭消费-收入数据服从模型的形状。

但是无法理解(b)(c)
(b)国家的总量时间序列数据:近似比例线,过原点
(c)分组数据:白人和黑人
思考:请你解释这个现象。

(2)生命周期/持久收入假说(life-cycle/permanent income hypothesis )
代表性个体的规划问题:
1max ()T
t t u C =∑
subject to
101T
T t t t t C A Y ==∑≤+∑
求解模型:
拉格朗日(Lagrangian )方程
1011()()T
T T t t t t t t L u C A Y C λ====∑++∑-∑
一阶条件:
0t
L C ∂=∂ 得到
'()t u C λ=
从而有12...T C C C ===,即消费流是平滑的(smooth )。

因此,
01()/,1
,2,...,T t t t C A Y T t T ==+∑∀= 也就是,消费C t 不是由当前收入Y t 决定,而是由持久收入决定。

(3)下面用上述模型来解释经验数据。

P C Y =:持久收入
P T Y Y Y =+:现在收入=持久收入+临时收入
如果用消费对收入进行回归,那么
i i i C a bY ε=++
计算收入和消费之间的协方差,
cov(,)cov(,)var()Y C Y a bY b Y ε=++=
系数的估计值为
cov(,)cov(,)var()ˆvar()var()var()var()
P T P P P T P T Y C Y Y Y Y b Y Y Y Y Y +===++
常数项系数的估计值为
ˆa
C =-ˆb P Y Y =ˆ()P T b Y Y -+ˆ(1)P b Y =-
(a )可知ˆ01b
<<,因此ˆ0a >,即如图形(a ) (b )ˆ1b
≈,因此ˆ0a ≈ (c )ˆb
白ˆb =黑,但是P Y 白P Y >黑,所以ˆa 白ˆa >黑
§2、一元线性回归模型:OLS
1. 基本假定
(1)线性
12,1,2,...,i i i y x i n ββε=++=。

例1:i
i i y Ax e εβ=,取对数,得到ln ln ln i i i y A x βε=++ 例2:1y AK L αα-=,y K A L L α
⎛⎫= ⎪⎝⎭
,取对数,得到 ln ln ln y K A L L α⎛⎫⎛⎫=+ ⎪ ⎪⎝⎭⎝⎭
(2)()0i E ε=
(3)i ε的方差相等。

2var()i εσ=
同方差性:homoscedasticity
异方差性:heteroscedasticity ,2var()i i εσ=
(4)i ε之间不相关
cov(,)0,i j i j εε=≠
(5)正态性(在OLS 中不是必须的,但在MLE 中是必须的)
2~(0,)i N εσ
2. 一元线性回归模型的OLS 估计
12,1,2,...,i i i y x i n ββε=++=,
如果得到了参数1β和2β估计值1b 和2b ,那么i y 的估计值(estimate )为
1ˆi y
b =2i b x + 因此,我们的任务之一是求解1b 和2b 。

显然,下面的等式为恒等式
12i i i y x ββε=++12i i b b x e =++ˆi i y
e =+ 其中i ε是冲击或扰动(disturbance ),i e 是残差(residual )。

定义:残差平方和(sum of squared residuals ,有时简称SSR ),
21n i i e =∑
最小二乘原则(least squares ):最小化残差平方和
12
21,min n i i b b e =∑
也就是
12
2112,min ()n i i i b b y b b x =∑--
这是一个关于1b 和2b 的二元函数极值问题。

一阶条件(FOC )是
()211121
2()(1)0n i i n i i i e y b b x b ==∂∑=∑---=∂,
即为10n i i e =∑=
()211122
2()()0n i i n i i i i e y b b x x b ==∂∑=∑---=∂
即为10n i i i x e =∑=
(我们略去二阶条件,在多元线性回归中再回到这个问题)
对方程12i i i y b b x e =++求和,有
1112()n n i i i i y nb x b ==∑=+∑
对方程两边乘以i x ,求和,有
211112()()n n n i i i i i i i x y x b x b ===∑=∑+∑
这一对方程称为正规方程组(normal equations )。

求解正规方程组即可得到系数的估计值。

3.计算例子(1952-1956年的中国消费函数)
12
4. OLS (ordinary least squares )
解正规方程组得到OLS 估计
21111122
11()
n n n n i i i i i i i i i
n n i i i i x y x x y b n x x ======∑∑-∑∑=∑-∑ 111222
11()n n n i i i i i i i
n n i i i i n x y x y b n x x =====∑-∑∑=
∑-∑
5. OLS 估计量性质 (1)线性。

11111212222
1111()()()()()
n n n n n n
i i i i i i i i i i i i i i i n n n n i i i i i i i i nx y x y nx x y b k y n x x n x x ==========∑-∑∑∑-∑===∑∑-∑∑-∑ 其中1222
111()()n i i i i i n n n i i i i i i nx x x x
k n x x x x ====-∑-==
∑-∑∑- 这说明,2b 是i y 的线性函数。

线性估计量(linear estimator )。

同理b 1也是i y 的线性函数。

(2)无偏性:11()E b β=,22()E b β=
证明:2111211211()n n n n n i i i i i i i i i i i i i i i b k y k x k k x k ββεββε======∑=∑++=∑+∑+∑
111111
22221111()
0()()n n n n n n i i i i i i i i i i
i n n n n i i i i i i i i nx x n x x k n x x n x x ==========-∑∑-∑∑∑=∑
==∑-∑∑-∑
2111111
2222
1111()()
1()()
n n n n n
n i i i i i i i i i i i i i i n n n n i i i i i i i i nx x x n x x x k x n x x n x x ==========-∑∑-∑∑∑=∑
==∑-∑∑-∑ 因此,221n i i i b k βε==+∑。

从而,2212()()n i i i E b k E βεβ==+∑=,此处利用了
()0i E ε=。

也即2b 是2β的无偏估计量。

同理11()E b β=。

(3)b 1和b 2的方差
222222*********
1212var()(())()()(...2...)
n i i i n n
b E b E b E b E k E k k k k βεεεεε==-=-=∑=++++
由于2
0,(),i j i j
E i j
εεσ≠⎧=⎨
=⎩,所以有 2221var()n i i b k σ==∑

2
221111122222
1111()()(())n n n n n i i i i i i i i i i n n n n i i i i i i i i nx x nx x k n x x n x x =========⎛⎫-∑∑-∑∑=∑= ⎪∑-∑∑-∑⎝⎭
22211122211222211122211222112222
2
1
11121[()2](())()2()(())()(())()(n n n i i i i i i i n n i i i i n n n i i i i i i n n i i i i n n i i i i n n n n i i
i i
i i i i n i i n x x nx x n x x n x n x n x n x x n x n x n
n x x n x x n n x n =================∑+∑-∑=
∑-∑∑+∑-∑=
∑-∑∑-∑==∑-∑∑-∑=
∑-222222
11111
)()()()n n n i i i i i i n x n x nx x n x x x ======
∑-∑-∑-
因此,2
22
11
var()()
n i i b x x σ==∑-, 同理2
2
112
1var()()
n i i n i i x b n x x σ==∑=∑-
(4)2σ的估计
21n i i e =∑:sum of squared residuals ,残差平方和,
【eviews 记号】
ˆσ
≡S.E. of regression ,standard error of regression ,回归的标准误差【eviews 记号】
注意:分母是n -2,如果是多元回归,那么分母将会变化。

可以证明,22ˆ()E σσ=。

即2ˆσ是2σ的无偏估计量(见《古p83》)
(5)b 2和b 1分别是2β和1β的最小方差线性无偏估计量
证明:以b 2为例。

回忆
OLS 估计估计量:21n i i i b k y ==∑,
其中1222
111()()n i i i i i n n n i i i i i i nx x x x
k n x x x x ====-∑-==
∑-∑∑- 定义2β的另外线性估计量*2β为
*21n i i i w y β==∑,其中i i w k ≠。

将y 的回归方程的定义代入,得到
*
2112()n i i i i w x βββε==∑++
取期望,得到
*211211212()()n n n i i i i i i i i E w x w w x ββββββ====∑+=∑+∑=
最后一个等号是为了满足无偏性。

那么,必须有
110,1n n i i i i i w w x ==∑=∑=
取方差,得到
*
2222221111var()var()var()()n n n n i i i i i i i i i i i i w y w y w w k k βσσ=====∑=∑=∑=∑-+
22222111()()2()n n n i i i i i i i i i w k k w k k σσσ====∑-+∑+∑-,
其中第二个等号是利用了
2
0,cov(,),i j i j
y y i j σ≠⎧=⎨=⎩
由于22
122
11var()/()
n i i n i i k b x x σ==∑=
=∑-,而 211112
1122
111122
111
()()1
()()10
()()n n n n i i i i i i i i i i i i n i i n i i i
n n i i i i n n i i i i i n n i i i i w k k w k k w k x x x x w x x x x w x x w x x x x ============∑-=∑-∑=∑-∑--=∑-
∑-∑-∑-∑=-=∑-∑-
其中最后一个等号利用了110,1n n i i i i i w w x ==∑=∑=。

所以,*
22222221112var()()()()var()n n n i i i i i i i w k k k b βσσσ====∑-+∑≥∑=,
当i i w k =时,取等号。

证明结束。

注意:我们一直没有用到扰动项i ε服从正态分布这个假定。

§3、一元线性回归:最大似然估计
注意:本节需要假定:扰动项i ε服从正态分布。

1. 系数的最大似然估计 由基本假定:
12,i i i y x ββε=++2~(0,)i N εσ
可以得到y 的分布为
212~(,)i i y N x ββσ+
由正态分布的定义公式,得到y 的pdf 为
2122
()12()i i y x i f y ββσ---
=
其中12,ββ是待估计的参数估计量。

似然函数(likelihood function ),即y 的所有样本观察值的联合概率为
2
1212
()1
22
1211(,,)(,...,)()n i i i y x n n i i L f y y f y ββσββσ=---∑===∏=
最大似然法(ML ):
12
212,max (,,)L ββββσ
ML 含义:只有当12,ββ分别取12,ββ时,12i i i y x ββε=++抽取n 组样本观察值(x i ,y i ),i =1,2,…,n 的概率最大,即模型才最好地
模拟了样本观察值。

画图。

例子:教师的小孩出现智力障碍的概率更大? 将L 取对数,有
21122
1ln ln(()2n i i i L n y x σββσ
==--
∑--
显然,MaxL 等价于
12
,max ln L ββ,
为什么?
规划问题的一阶条件(FOC )为
12
(ln )
0(ln )
0L L ββ∂=∂∂=∂
分别推出有
1122()(1)0n i i i y x ββ=∑---=,
1122()()0n i i i i y x x ββ=∑---=
与OLS 相同。

求解方程得到OLS 估计相同的MLE 估计
21111122
11()
n n n n i i i i i i i i i
n n i i i i x y x x y b n x x ======∑∑-∑∑=∑-∑
111222
11()n n n i i i i i i i
n n i i i i n x y x y b n x x =====∑-∑∑=
∑-∑
2. 2σ的ML 估计不是无偏估计 规划问题12
,max ln L ββ关于2σ的一阶条件为
2
(ln )
0L σ∂=∂ 将ln L 变形,有
2
112
2
22
112
2
1
ln ln(()
2
1
ln()()
22
n
i i i
n
i i i
L n y x
n
n y x
ββ
σ
σββ
σ
=
=
=--∑--
=---∑--
因此,容易得到
2
112
224
(ln)1
()0
22
n
i i i
L n
y x
ββ
σσσ=

=-+∑--=


22222 11211
11212
ˆ()()()
2
n n n
i i i i i i i
n n
y x e e
n n n n n σββσ===
--=∑--=∑=∑=
-
此处2ˆσ是2σ的OLS估计,是无偏的。

因此,
222
222ˆ()()n n E E n n
σσσσ--=
=<(不是无偏的) 但是,
22()()E n σσ→→∞
即渐进无偏。

§4、例子
1.中国Keynes消费函数估计:十一界三中全会前后比较研究
Consumption=β1+β2income+ε,0<β2<1
以下是数据。

12000
10000
8000
6000
4000
2000
5560657075808590
2000
40006000
8000
10000
2000
4000
60008000
10000
Y
C O
Dependent Variable: CO
Method: Least Squares
Date: 08/22/04 Time: 20:57
Sample: 1952 1991
Included observations: 40
Variable Coefficient Std. Error t-Statistic Prob.
Y 0.812676 0.006516 124.7169 0.0000 Adjusted R-squared 0.997499 S.D. dependent var 2390.019 S.E. of regression 119.5304 Akaike info criterion 12.45372 Sum squared resid 542925.5 Schwarz criterion 12.53817 Log likelihood -247.0745 F-statistic 15554.31 Durbin-Watson stat 0.393441 Prob(F-statistic) 0.000000
Dependent Variable: CO
Method: Least Squares
Date: 08/22/04 Time: 20:59
Sample: 1952 1978
Included observations: 27
Variable Coefficient Std. Error t-Statistic Prob.
Y 0.983914 0.010757 91.46578 0.0000 Adjusted R-squared 0.996901 S.D. dependent var 329.8559 S.E. of regression 18.36134 Akaike info criterion 8.729558 Sum squared resid 8428.467 Schwarz criterion 8.825546 Log likelihood -115.8490 F-statistic 8365.989 Durbin-Watson stat 1.674722 Prob(F-statistic) 0.000000
Dependent Variable: CO
Method: Least Squares
Date: 08/22/04 Time: 21:00
Sample: 1979 1991
Included observations: 13
Variable Coefficient Std. Error t-Statistic Prob.
Y 0.779177 0.012106 64.36122 0.0000 Adjusted R-squared 0.997111 S.D. dependent var 2613.448 S.E. of regression 140.4767 Akaike info criterion 12.86860 Sum squared resid 217070.8 Schwarz criterion 12.95551 Log likelihood -81.64589 F-statistic 4142.366 Durbin-Watson stat 0.862272 Prob(F-statistic) 0.000000
2.Growth Accouting:Solow模型和Solow残差
3.习题:美国通货膨胀是过度货币增长引起的吗?
点击数据文件usinf
series dp=100*(log(p)-log(p(-1)))
series dm1=100*(log(m1)-log(m1(-1)))
series dy=100*(log(y)-log(y(-1)))
series dmy=dm1-dy
ls dp c dmy
回归结果为
Dependent Variable: DP
Method: Least Squares
Date: 11/17/04 Time: 21:37
Sample(adjusted): 1950:2 1983:4
Included observations: 135 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
DMY -0.058670 0.045490 -1.289738 0.1994 Adjusted R-squared 0.004927 S.D. dependent var 0.709989
S.E. of regression 0.708238 Akaike info criterion 2.162631
Sum squared resid 66.71295 Schwarz criterion 2.205672
Log likelihood -143.9776 F-statistic 1.663423
Durbin-Watson stat 0.397417 Prob(F-statistic) 0.199380 也可以写为series dp=100*D(log(p))
4.与时俱进的消费
Lucas(1987) 模型及其含义。

相关文档
最新文档