计量经济学第三章双变量线性回归模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

这里和为未知总体参数，下一步的任务是应用统计学的方法，由Y和X的观测值（即样本数据）来估计和的总体值，常用的估计方法就是最小二乘法。为了应用最小二乘法，得到好的估计量，双变量线性回归模型需要满足一些统计假设条件，这些统计假设是：
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0.
(5) (6)
其中：Y Yt , X X t
n
n
xt X t X ,
yt Yt Y
样本均值离差
（5）式和（6）式给出了OLS法计算ˆ 和 ˆ 的公式，ˆ 和 ˆ称为线性回归模型 Yt = + Xt + ut
的参数和的普通最小二乘估计量 (OLS estimators）。
一. 双变量线性回归模型的概念
设 Y = 消费, X = 收入, 我们根据数据画出散点图
Y
*
*
*
*
*
图1
这意味着
Y = + X
(1)
写出计量经济模型
Y = + X + u
(2)
其中 u = 扰动项或误差项
Y为因变量或被解释变量
X
X为自变量或解释变量
和为未知参数
设我们有Y和X的n对观测值数据，则根据(2)式，变量Y的每个观测值应由下式决定：
=β
——假设（4） ——假设（1）
这表明，ˆ 是β的无偏估计量。
在证明 ˆ 无偏性的过程中, 我们仅用到(1)和(4)两
条假设条件。
由 ˆ Y ˆ X ，我们有：
E(ˆ ) E(Y ˆ X ) E( X u ˆ X ) X E(u) X E(ˆ)
X X
即 ˆ 是的无偏估计量。
Yt = + Xt + ut
序号 1
2
3
4
5
Yt 14 18 23 25 30
Xt 10 20 30 40 50
解：我们采用列表法计算。计算过程如下：
Yt
1
14
218Βιβλιοθήκη 323425
5
30
Σ
110
Xt
yt Yt Y xt Xt X
xt yt
xt 2
10
-8
-20
160
400
20
-4
-10
40
100
E(uiu j ) 0, i j
——根据假设（2）
所以 E(ˆ )2 (
1 xt2 )2 (
xi2 2 0)
2
xt2
即
Var(ˆ) 2
xt2
与此类似，可得出
2
Var(ˆ)
X
2 t
n xt2
Cov(ˆ, ˆ ) X 2
xt2
三. 高斯--马尔柯夫定理（Gauss--Markov Theorem）
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值分成两部分。
第一部分是Yt的拟合值或预测值 Yˆt ：
Yˆt ˆ ˆX t , t=1,2,……,n
第二部分，et ，代表观测点对于回归线的误差，称为拟合
或预测的残差（residuals）：
et Yt Yˆt
t=1,2,……,n
即 et Yt ˆ ˆ Xt
Yi = + Xi + ui , i = 1, 2, ...,n (3)
(3)式称为双变量线性回归模型或简单线性回归模型。其中和为未知的总体参数，也称为回归模型的系数（ coefficients）。下标 i是观测值的序号。
当数据为时间序列时，往往用下标 t来表示观测值的序号，从而（3）式变成
(2). E(uiuj) = 0 i j 即各期扰动项互不相关.
(3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数.
(4). 解释变量Xt 为非随机量即Xt的取值是确定的, 而不是随机的.
(5). ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即各期扰动项服从正态分布。
（3）经济行为是随机的，我们能够用 Y=α+βX 解释“典型”的行为，而用u来表示个体偏差。（4）总会出现测量误差，使得任何精确的关系不可能存在。
二. 普通最小二乘法(OLS法, Ordinary Least squares)
1.双变量线性回归模型的统计假设
我们的模型是：
Yt = + Xt + ut , t = 1, 2, ...,n
对于满足统计假设条件(1)--(4)的线性回归模型 Yt = + Xt + ut , ，普通最小二乘估计量 ( OLS估计量) 是最佳线性无偏估计量（BLUE, The Best Linear Unbiased Estimator）。或
对于古典线性回归模型（CLR模型） Yt= + Xt + ut ，普通最小二乘估计量（OLS 估计量）是最佳线性无偏估计量（BLUE）。
求出 Yt = + Xt + ut 中和的估计值
ˆ 和ˆ , 使得拟合的直线为最佳。
直观上看，也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线，如下图所示。
Y
* * Yˆ ˆ ˆX
Yt
* **
Yˆt
et * *
*
*
**
*
**
**
*
Xt
X
图2
残差
拟合的直线 Yˆ ˆ ˆX 称为拟合的回归线.
下面简单讨论一下上述假设条件。
（1）E(ut) = 0, t=1,2,…,n 即各期扰动项的均值（期望值）均为0。
均值为0的假设反映了这样一个事实：扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。
t=1,2,……,n
残差平方和
我们的目标是使拟合出来的直线在某种意义上是最佳的，直观地看，也就是要求估计直线尽可能地
靠近各观测点，这意味着应使残差总体上尽可能地小
。要做到这一点，就必须用某种方法将每个点相应的残差加在一起，使其达到最小。理想的测度是残差平方和，即
et 2 (Yt Yˆt )2
二. ˆ 和ˆ 的方差
Var(ˆ) E{[ˆ E(ˆ)]2} ——根据定义
E(ˆ )2
——由无偏性 E(ˆ)
由上段结果： ˆ xtut xt2
即
ˆ xtut
xt2
我们有：
(ˆ )2 (
xt ut xt2
)2
(
1 xt2 ) 2
( x1u1
x2u2
...
n = 10 , X =23, Y =20
(X X)2 64, (X X)(Y Y) 37
则有
(
Xi X)(Yi (Xi X)2
Y)
37 64
0.58
Y X 20 0.58(23) 6.70
因而
Yi 6.70 0.58Xi
例2 设Y和X的5期观测值如下表所示，试估计方程
Yt = + Xt + ut , t = 1, 2, ...,n (3’)
为何要在模型中包括扰动项u
我们在上一章中已初步介绍了为什么要在模型中包括扰动项u，下面进一步说明之：
（1）真正的关系是Y = f (X1， X2，… X )，但X2, X3,…, X 相对不重要，用u代表之。
（2）两变量之间的关系可能不是严格线性的，u反映了与直线的偏差。
我们已在前面证明了无偏性，此外，由于：
ˆ xtYt xt2
——由上段结果，
= ktYt
其中 kt
xt xt2
这表明，ˆ 是诸样本观测值Yt（t=1,2,…,n）的线性函数，故ˆ
是线性估计量。
剩下的就是最佳性了，即 ˆ的方差小于等于β的其他任何线性
无偏估计量的方差，我们可以证明这一点，但由于时间关系，
xt2
xt2
1 xt2
(
xt
xt X t
xtut )
1 ( xt2
xt X t
xtut )
1 xt2
(
xt2 X
xt
xtut )
1 xt2
(
xt2
xtut )
即 ˆ
xt ut
xt2
两边取期望值，有：
E(ˆ ) xt E(ut ) xt2
动项具有同方差性。实际上该假设等同于：
Var( ut) = 2, t=1,2,…,n 这是因为：
Var(ut)=E{[ut-E(ut)]2}= E(ut2) ——根据假设（1）
（4） Xt为非随机量即Xt的取值是确定的, 而不是随机的。事实上，我们后面证明无偏性和时仅需要解释变
量X与扰动项u不相关，但不容易验证之，因而通常采用非随机量的假设。
这两个公式可用于任意一组观测值数据，以求出截距和斜率的OLS估计值（estimates)，估计值是从一组具体观测值用公式计算出的数值。
一般说来，好的估计量所产生的估计值将相当接近参数的真值，即好的估计值。可以证明，对于 CLR模型，普通最小二乘估计量正是这样一个好估计量。
3 例子
例1 对于第一段中的消费函数，若根据数据得到：
第二节最小二乘估计量的性质
一. ˆ 和 ˆ 的均值
ˆ
xt yt
xt (Yt Y )
xtYt
Y
xt
xt2
xt2
xt2
xt2
由于
xt (X t X ) X t X nX nX 0
从而
ˆ xtYt xt ( X t ut )
xt2
xt2
ˆ xtYt xt ( X t ut )
30
1
0
0
0
40
3
10
30
100
50
8
20
160
400
150
0
0
390
1000
Y Y 110 22 n5
X X 150 30
n
5
ˆ xt yt 390 0.39 ˆ Y ˆX 22 0.39 30 10.3
xt 2 1000
估计方程为
Yˆt 10.3 0.39Xt
其中，
kt
xt xt2
这表明，ˆ 是N个正态分布变量u1，u2，…,un的线性
函数，因而亦为正态分布变量，即
类似的有：
ˆ ~
N(, 2 )
xt2
ˆ
~
2
N (,
X
2 t
)
n xt2
第三节拟合优度的测度
从略。有兴趣的同学请参见教科书 P46-47。
四、ˆ和ˆ 的分布
我们在前面列出的假设条件（5）表明，
ut ~ N( 0, 2 ) , t= 1, 2, ...,n
即各期扰动项服从均值为0、方差为2的正态分布。
考虑到假设条件（4），即Xt为非随机量，则由前面结果：
ˆ
xtut =
xt2
ktut
15
最小二乘法
最小二乘法就是选择一条直线，使其残差平方和达
到最小值的方法。即选择 ˆ 和ˆ ，使得
S et 2 (Yt Yˆt )2 (Yt ˆ ˆX t )2
达到最小值。
运用微积分知识，使上式达到最小值的必要条件为：
S ˆ
S ˆ
0
即
S
ˆ
2(1)(Yt ˆ ˆX t ) 0
xnun )2
1 ( ( xt2 )2
xi2ui2 xi x juiu j )
i j
两边取期望值，得：
E(ˆ )2 (
1 xt2 )2 [
xi2E(ui2 ) xi x j E(uiu j )]
i j
由于 E(ut2 ) 2 , t 1, 2,......, n ——根据假设（3）
（2）E(uiuj) = 0, i≠j 即各期扰动项互不相关。也就是假定它们之间无
自相关或无序列相关。
实际上该假设等同于：
cov( ui, uj) = 0, i≠j 这是因为：cov(ui, uj) = E{[ui - E(ui)][uj - E(uj)]}
= E(uiuj) ——根据假设（1）
（3）E(ut2)= 2, t=1,2,…,n 即各期扰动项的方差是一常数，也就是假定各扰
(1)
S
ˆ
2( X t )(Yt ˆ ˆX t ) 0
(2)
整理，得：
Yt ˆn ˆ X t
(3)
X tYt ˆ X t ˆ X t 2
(4)
此二式称为正规方程。解此二方程，得：
ˆ ( X t X )(Yt Y ) xt yt
(Xt X)2
xt 2
ˆ Y ˆ X
（5）ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即扰动项服从正态分布。
满足条件（1）—（4）的线性回归模型称为古典线性回归模型（CLR模型）。
2.最小二乘原理
我们的任务是，在给定X和Y的一组观测值 (X1 , Y1), (X2 , Y2) , ..., (Xn , Yn) 的情况下,
第三章双变量线性回归模型
（简单线性回归模型）
（Simple Linear Regression Model）
第一节双变量线性回归模型的估计第二节最小二乘估计量的性质第三节拟合优度的测度第四节双变量回归中的区间估计和假
设检验第五节预测第六节有关最小二乘法的进一步讨论
第一节双变量线性回归模型的估计

计量经济学第三章 双变量线性回归模型

计量经济学第三章双变量线性回归模型