计量经济学 第二章 一元线性回归模型范文

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章 一元线性回归模型
2.1 一元线性回归模型的基本假定
2.1.1一元线性回归模型
有一元线性回归模型(统计模型)如下, y t = β0 + β1 x t + u t
上式表示变量y t 和x t 之间的真实关系。

其中y t 称被解释变量(因变量),x t 称解释变量(自变量),u t 称随机误差项,β0称常数项,β1称回归系数(通常未知)。

上模型可以分为两部分。

(1)回归函数部分,E(y t ) = β0 + β1 x t ,(2)随机部分,u t 。

图2.1 真实的回归直线
这种模型可以赋予各种实际意义,居民收入与支出的关系;商品价格与供给量的关系;企业产量与库存的关系;身高与体重的关系等。

以收入与支出的关系为例。

假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。

但实际上数据来自各个家庭,来自同一收入水平的家庭,受其他条件的影响,如家庭子女的多少、消费习惯等等,其出也不尽相同。

所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。

“线性”一词在这里有两重含义。

它一方面指被解释变量Y 与解释变量X 之间为线性关系,即
1t
t
y x β∂=∂
22
0t
t y x β∂=∂
另一方面也指被解释变量与参数0β、1β之间的线性关系,即。

1
t
y x β∂=∂,
22
1t
y β∂=∂0 ,
1t
y β∂=∂,
22
00t
y β∂=∂
2.1.2 随机误差项的性质
随机误差项u t 中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。

所以在经济问题上“控制其他因素不变”是不可能的。

随机误差项u t 正是计量模型与其它模型的区别所在,也是其优势所在,今后咱们的很多内容,都是围绕随机误差项u t 进行了。

回归模型的随机误差项中一般包括如下几项内容: (1)非重要解释变量的省略, (2)数学模型形式欠妥, (3)测量误差等,
(4)随机误差(自然灾害、经济危机、人的偶然行为等)。

2.1.3 一元线性回归模型的基本假定
通常线性回归函数E(y t ) = β0 + β1 x t 是观察不到的,利用样本得到的只是对E(y t ) =
β0 + β1 x t 的估计,即对β0和β1的估计。

在对回归函数进行估计之前应该对随机误差项u t 做出如下假定。

1、零均值:随机误差项的的期望为零
E(u t ) = 0,y t = β0 + β1 x t + u t 的期望值E(y t ) = β0 + β1 x t 正是由E(u t ) = 0推出的 2、同方差:随机误差项的方差与t 无差。

D(u t ) = E[u t - E(u t ) ]2 = E(u t )2 = σ 2
不难推出:[][]()2
2
220101()(()()()t t t t t t t D y E y E y E x u x E u ββββσ=-=++-+==
3、无自相关:即不同的误差项相互独立。

Cov(u i , u j ) = E[(u i - E(u i ) ) ( u j - E(u j ) )] = E(u i , u j ) = 0, (i ≠ j )。

含义是不同观测值所对应的随机项相互独立。

称为u i 的非自相关性。

不难推出:[][]cov(,)()()()0t s t t s s t s y y E y E y y E y E u u =--== 4、解释变量与随机误差项不相关
Cov(u i , x i ) = E[(u i - E(u i ) ) (x i - E(x i ) )] = E[u i (x i - E(x i ) ] = E[u i x i - u i E(x i ) ] = E(u i x i ) = 0。

u i 与x i 相互独立。

否则,分不清是谁对y t 的贡献。

5、正态假定。

即误差项服从均值为零,方差为σ 2的正态分布。

u
t
~ N (0,σ2)
不难推出,y t~ N (β0 + β1 x t,σ2)。

以上这些对随机误差项的假设是德国数学家高斯最早提出的,也称高斯假设或古典假设。

满足以上古典假设的线性回归模型,也称古典线性回归模型。

回归模型存在两个特点。

(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。

(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。

2.2一元线性回归模型的参数估计
2.2.1最小二乘估计(OLS)
对于所研究的经济问题,通常真实的回归直线是观测不到的。

收集样本的目的就是要对这条真实的回归直线做出估计。

怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。

怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用
t
yˆ=0ˆβ+1ˆβx t
表示。

其中
t
yˆ称y t的拟合值(fitted value),0ˆβ和1ˆβ分别是β0 和β1的估计量。

观测值
到这条直线的纵向距离用
t
uˆ表示,称为残差。

y t =
t
yˆ+t uˆ=0ˆβ+1ˆβx t +t uˆ
称为估计的模型。

假定样本容量为T。

(1)用“残差和最小”确定直线位置是一个途径。

但很快发现计算“残差和”存在相互抵消的问题。

(2)用“残差绝对值和最小”确定直线位置也是一个途径。

但绝对值的计算比较麻烦。

(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。

用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。

(这种方法对异常值非常敏感)设残差平方和用Q表示,
Q =
∑=T
i t
u
1
2ˆ=
∑=-T
i t t y
y 1
2
)ˆ(=
∑=--T
i t t x y 1
210)ˆˆ(ββ,
则通过Q 最小确定这条直线,即确定0ˆβ和1ˆβ的估计值。

以0ˆβ和1ˆβ为变量,把Q 看作是0ˆβ和1ˆβ的函数,这是一个求极值的问题。

求Q 对0ˆβ和1
ˆβ的偏导数并令其为零,得正规方程,
ˆβ∂∂Q = 2∑
=--T
i t t x y 1
10)ˆˆ(ββ(-1) = 0 (1) 1
ˆβ∂∂Q = 2∑
=--T i t t x y 1
10)ˆˆ(ββ(- x t ) = 0 (2) 解这个方程组得:0ˆβ= x y 1ˆβ-、1
ˆβ=∑∑---2
)
())((x x y y x x t
t t
下面用代数和矩阵两种形式推导计算结果。

首先用代数形式推导。

由(1)、(2)式得,
∑=--T
i t t x y 110)ˆˆ(ββ= 0 (3)
∑=--T
i t t x y 1
10)ˆˆ(ββx t = 0 (4)
(3)式两侧用T 除,并整理得,
0ˆβ= x y 1
ˆβ- (5) 把上式代入(4)式并整理,得,
])(ˆ)[(11∑=---T
i t
t
x x y y
βx t = 0 (6) ∑∑==---T
i t t
T
i t t
x x x
x y y
1
1
1
)(ˆ)(β= 0 (7)
1
ˆβ= ∑∑--t
t
t t
x
x x y y x )()( (8)
因为∑=-T
i t y y x 1
)(= 0,∑=-T i t x x x 1
)(= 0,分别在(8)式的分子和分母上减∑=-T
i t y y x 1
)
(和∑=-T
i t x x x 1
)(得,
1
ˆβ= ∑∑∑∑------)
()()()(x x
x x x x y y
x y y x t
t
t
t
t t
(9)
=
∑∑---2
)
())((x x y y x x t
t t
(10) 下面用矩阵形式推导
0ˆβT +1
ˆβ (∑=T
i t x 1
) = ∑=T
i t y 1
ˆβ∑=T
i t x 1
+1ˆβ(∑=T
i t x 1
2) = ∑=T
i t t y x 1
⎥⎥⎦⎤⎢⎢
⎣⎡∑∑∑2t t
t x x x T
⎥⎥⎦⎤⎢⎢⎣
⎡10
ˆˆββ=⎥⎥⎦⎤⎢⎢⎣⎡∑∑t t t y x y ⎥⎥⎦⎤⎢⎢⎣⎡10ˆˆββ
=1
2-⎥⎥⎦
⎤⎢⎢
⎣⎡∑
∑∑
t t t x x x T ⎥⎥⎦⎤⎢⎢⎣⎡∑∑t t t y x y =22)(1
∑∑-t t x x T ⎥⎥⎦⎤⎢⎢⎣⎡--∑∑∑T x x x t t t 2
⎥⎥⎦⎤
⎢⎢⎣
⎡∑∑t t t y x y
这种形式在单位根检验的理论分析中非常有用。

例2.1(P35)略
2.2.2最小二乘估计量0ˆβ和1
ˆβ的特性 (1) 线性特性
这里指0ˆβ和1ˆβ分别是y t 的线性函数。

1
ˆβ= ∑∑---2
)())((x x y y x x t
t
t
=∑∑∑----2
)
()
()(x x x x
y y x x t
t
t
t
=
∑∑--2
)
()(x x y x x t
t
t
令 k t =
∑--2
)
()
(x x
x x t
t ,代入上式得 1
ˆβ= ∑ k t y t 容易证明:0t k =∑; 1t t k x =∑;
22
1
()t t
k x x =
-∑∑ 2
2
()0()()
t
t
t t
t
x x x nx
k x x x x --=
==--∑∑∑∑∑
2222
()()()()()1()()()
t t t t t t t t t t t x x x x x x x x x k x x x x x x x x x x x -+---==-+==---∑∑∑∑∑∑∑∑
2
2
2222
2()1
()()()t t
t t t
t x x x x k x x x x x x ⎡⎤--===⎢⎥--⎢⎥⎡⎤-⎣⎦⎣⎦
∑∑∑∑∑∑ 可见1
ˆβ是y t 的线性函数,是β1的线性估计量。

同理β0也具有线性特性:0
1ˆ()t t xk y n β=-∑ (2) 无偏性 利用上式
E(1
ˆβ) = E(∑ k t y t ) = E[ ∑ k t (β0 + β1 x t + u t ) ] = E ( β0 ∑ k t + β1 ∑ k t x t + ∑ k t u t ) = β1 + E(∑ k t u t ) = β1+∑ k t E u t = β1 (3) 有效性
β0, β1的OLS 估计量的方差比其他估计量的方差小。

为了说明最小方差性,先导出0ˆβ和1
ˆβ的方差公式。

[][]()2
2
220101var()()()()t t t t t y E y E y E E ββμββμσ=-=++-+==,且与y 相互独
立。

2
2
2
2
12
var()var()var()()t t t t t
t k y k y k
x x σβσ
====
-∑∑∑∑
同样,我们可以推出:22
02
var()()
t t x n x x σβ=
-∑∑
假设*1t t c y β=∑是β1的另一个线性无偏估计值,c t ≠k t , *11()E ββ=
*101011()()()t t t t t t t E c E y c x c c x ββββββ==+=+=∑∑∑∑ 比较两边可得:0t c =∑、1t t c x =∑ 而且有:
222
()1
()()()
t t t t t t t t t t x x k c k k c k c x x x x --=-=---∑∑∑∑
∑∑ =22
11
(1)
(101)0()()t t t t t
c x x c x x x x --=--=--∑∑∑∑
*2222
1222
2222221
var()var()()()2()()var t t t t t t t t t t t t t t t t c y c k c k k c k k c k k c k k βσσσσσσβ===+-⎡⎤=+---⎣⎦
=+-≥=∑∑∑∑∑∑∑
同理可证:*00var()var ββ≥
Gauss-Markov 定理:
若u t 满足E(u t ) = 0,D(u t ) = σ 2,那么用OLS 法得到的估计量就具有最佳线性无偏性。

估计量称最佳线性无偏估计量,这就是高斯马尔可夫定理。

最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。

选学内容:
渐近无偏性,一致性和渐近有效性:上面的评价是对有限样本而言,下面讨论估计量的渐近特性。

渐近无偏性,一致性和渐近有效性。

先给出渐近分布的概念。

渐近分布。

用T 1 < T 2 < …< T N 表示连续递增样本容量。

设在每个样本容量T i 下重复抽样。

则每个x Ti 都应有自己的均值E(x Ti ) 与方差Var (x Ti )。

利用递增样本可以求得随机变量序列,
x T = {x T 1, x T 2, …, x TN }
其中每个元素都是相应样本容量下的一个随机变量。

当T N 趋于无穷大时,这些分布收敛于某一分布。

则称该分布为渐近分布或极限分布。

渐近期望。

对于期望值序列, E(x T ) = {E(x T 1), E(x T 2), …, E(x TN ) }
如随着T → ∞,期望值E(x T )收敛于某一常数μ,则称μ 为x T 的渐近期望。

记为 )(T T x E Lim ∞
→= μ (与期望概念不同)
与期望值序列相对应,也可以写出方差序列。

Var(x T ) = E(x T -E(x T ))2 ={E[x T 1 - E(x T 1) ]2, E[x T 2 - E(x T 2) ]2,…, E[x TN - E(x TN ) ]2} 但在许多情形下,E ∞
→T Lim (x T -E(x T ))2 = 0,即x T 的分布退化为一点。

例如,已知x 的分布
是x ~ N (μ, T
2
σ)。

当T → ∞,Var(x )→0。

为防止分布发生退化,可以用T 乘Var(x )。

当T → ∞,T Var(x )→σ 2。

渐近方差。

若上述随机变量序列有渐近期望,同时有新序列,
E[T (x T - E(x T ) ) 2 ] = {E{T [x T 1 - E(x T 1)]2}, E{T [x T 2 - E(x T 2) ]2 },…, E{T [x TN - E(x TN ) ]2 }} 满足
E ∞
→T L i m [T (x T -E(x T ))2
] = v
则定义x T 的渐近方差为
T 1E ∞→T L i m [T (x T -E(x T ))2
]= T
1v 渐近无偏性。

若β
ˆ的渐近期望为β,则βˆ为 β 的渐近无偏估计量,即 )ˆ(T
T E L i m β∞
→= β 一致性 若βˆ满足(1)渐近无偏性,(2))ˆ(V T
T ar Lim β∞
→= 0,则βˆ具有一致性,βˆ为 β 的一致估计量。

渐近有效性。

若βˆ满足(1)具有一致性,(2)与其他估计量的方差相比,βˆ的渐进方差较小,Var(T
βˆ)< Var(T β~
),则称βˆ具有渐近有效性。

OLS 估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏估计量。

注意:分清4个式子的关系。

(1) 真实的统计模型,y t = β0 + β1 x t + u t (2) 估计的统计模型, y t =0ˆβ+1
ˆβ x t +t u ˆ (3) 真实的回归直线,E(y t ) = β0 +β1 x t (4) 估计的回归直线,t y ˆ=0ˆβ+1
ˆβ x t
2.2.3 OLS 回归直线的性质
(1) 残差和等于零,∑t u
ˆ= 0 由正规方程2∑ (y t -0ˆβ-1ˆβ x t ) (-1) = 0得 ∑ (y t -0ˆβ-1ˆβ x t
) = ∑ (y t -t y ˆ) = ∑ (t u ˆ) = 0
(2) 估计的回归直线 t y ˆ =0ˆβ+1ˆβ x t
过(x ,y )点。

正规方程 ∑ (y t -0ˆβ-1ˆβ x t ) = 0两侧同除样本容量T ,得y =0ˆβ+1ˆβx 。

得证。

(3) y t 的拟合值的平均数等于其样本观测值的平均数,t y ˆ=y 。

t y
ˆ=T 1∑t y ˆ= T
1∑ (0ˆβ+1ˆβ x t ) = 0ˆβ+1
ˆβx = y 。

得证。

(4) Cov(t u
ˆ, x t ) = 0 只需证明 ∑ ( x t -x )t u ˆ= ∑ x t t u ˆ- ∑x t u ˆ= ∑ x t t u ˆ= ∑ x t (t y ˆ-0ˆβ-1ˆβ x t
) = 0。

上式为正规方程之一。

(5) Cov(t u
ˆ,t y ˆ) = 0 只需证明 ∑ (t y ˆ-y )t u ˆ= ∑t y ˆt u ˆ- ∑y t u ˆ= ∑t y ˆt u ˆ= ∑t u ˆ(0ˆβ+1ˆβ x t ) = 0ˆβ∑t u ˆ+1
ˆβ∑t u ˆx t = 0 2.2.4 y t 的分布和1
ˆβ的分布 根据假定条件u t ~ N (0, σ 2 ),
E(y t ) = E(β0 + β1 x t + u t ) = β0 + β1 x t + E(u t ) = β0 + β1 x t 。

Var(y t ) = Var (β0 + β1 x t + u t ) = Var (β0 + β1 x t ) + Var (u t ) = σ 2
y t 是u t 的线性函数,所以
y t ~ N (β0 + β1 x t , σ 2 )(注意:不是ˆt y )。

可以证明
E(1ˆβ) = β1, Var (1
ˆβ) = -2
)(1
x x t σ 2,
1ˆβ是y t 的线性函数(1
ˆβ= ∑ k t y t ),所以 1
ˆβ ~ N (β1 , -2
)(1
x x t σ 2 )。

E(0
ˆβ) = β0, 22
02
var()()
t t x n x x σβ=-∑∑
ˆβ是y t 的线性函数(01
ˆ()t t xk y n
β=-∑),所以
ˆβ ~ N (β0 , 22
2
()
t t x n x x σ-∑∑ )。

2.2.5.σ 2 的估计及参数的区间估计 定义
2ˆσ
= 2
()2)t
u
T -∑
其中2表示待估参数的个数。

可以证明E(2ˆσ) = σ 2。

2ˆσ是σ 2 的无偏估计量。

因为t u 是残差,所以2ˆσ
又称作误差均方。

可用来考察观测值对回归直线的离散程度。

推导过程如下:
01t t t y x ββμ=++ 01ˆˆˆt t
y x ββ=+ y y -=(01t t x ββμ++)-(01x ββμ++)=1()()t t x x μμβ-+-
由01ˆˆˆt t y x ββ=+及正规方程y =0ˆβ+1ˆβx 可得: ˆy y -=1ˆ()t x x β- 残差:
ˆt t t u y y =-=ˆ()()y y y y ---=11ˆ()()()t t
x x μμββ---- 求平方和
2
2
112221111ˆ()()()ˆˆ()()()2()()()
t
t t t t t t u x x x x x x μμββμμββββμμ⎡⎤=----⎣⎦=-+------∑∑∑∑∑
取期望:
22221111ˆˆ()(())()()2()()()t t t t t E u E E x x E x x μμββββμμ⎡⎤⎡⎤=-+------⎣⎦⎣⎦
∑∑∑∑由于
222222
2
2
222
()(2)211()(2)
t
t t t t
t t t t t t s t s
n n u u n n μ
μμμμμμμμμμμμμμμ≠-=+-=+-=-=-=-+∑∑∑∑∑∑∑∑∑∑ ()()()22
22
22121()(1)t t t t s
t s E E E E u u n n n n n n
μμμμσσσ≠⎡⎤-=-
+=-=-⎣⎦∑∑∑∑ 2
2
2
2
211
2
ˆ()()
()
()
t
t
t
E x x x x x x σββσ⎡⎤--=-=⎣⎦
-∑∑∑
由于11ˆt t k u ββ=+∑,所以:11
ˆt t k u ββ-=∑ 1122
22
22
ˆ()()()()()()
()()()
()2()()
()()
()
t t t t t t t t t t t t t
t t t
t t s t s t t t s
t t
u u x x k u u u x x x x k u u x x u u x x x x u
x x u u x x x x x x u x x x x ββ≠⎡⎤⎡⎤---=--⎣⎦⎣⎦-⎡⎤=-=-⎣⎦--+--⎡⎤-⎣⎦==--∑∑∑∑∑∑∑∑∑∑∑∑∑
211ˆ()()()t t E x x ββμμσ⎡⎤---=⎣⎦
∑ 故有:()22222(1)2(2)t E u n n σσσσ=-+-=-∑
记2ˆσ
= 2()(2)t u T -∑则有,()22ˆE σσ= 为计算方便,也可以采用如下计算形式:
2
12
ˆˆ()()()ˆ2
t
t
t t
y y x x y y n βσ
----=
-∑∑(推导过程:略)
1
ˆβ和0ˆβ的估计的方差是 ∧
Var (1ˆβ) = S 2 (1
ˆβ) =∑-2
)
(1
x x t 2ˆσ
, ∧
Var (
0ˆβ) = S 2 (0
ˆβ) =∑-2
2
)(x x T x t t 2ˆσ
知道了2σ或其估计值2ˆσ,就可以对1ˆβ和0
ˆβ进行区间估计 1、当总体方差2
σ已知时
11
1ˆ(0,1)()
Z N β
βσβ-=,其中1()σβ
0ˆ(0,1)()
Z N ββσβ-=,其中0()σβ
2、当总体方差2
σ未知时,样本容量充分大时,用2σ的无偏估计2()(2)
t u T -∑代替,仍可认为:
11
1ˆ(0,1)()
Z N ββσβ-=
3、当总体方差2σ未知时,样本容量较小时,用2
σ的无偏估计2
(
)(2)t
u
T -∑代
替,此时
11
(2)1ˆ()
T t t ββσβ--=
以第三种情况为例,利用1
ˆβ求β1的置信区间。

P {
)
ˆ(111
ˆβββs -≤ t α (T -2) } = 1- α
由大括号内不等式得β1的置信区间
1ˆβ-)ˆ(1
β
s t α (T -2) ≤ β1 ≤1ˆβ+)ˆ(1
βs t α (T -2) 其中)ˆ(1
βs 是)ˆ(21βs =
∑-2
)
(1
x x t 2ˆσ
的算术根,而其中的σˆ是2ˆσ的算术根。

例2.2(P46)
设回归方程为ˆt y
=6.70+0.58x t ,且2
()
64t
x x -=∑,
2
()
44t
y y -=∑,
()()37t
t
x x y y --=∑,T=10,求1
β的95%置信区间。

解:2
12
ˆˆ()()()ˆ2
t
t
t t
y y
x x y y n βσ
----=
-∑∑=2.82
S (1
ˆβ)
所以1ˆβ的95%置信区间为:1ˆβ±t 0.025(10-2) S (1
ˆβ)=0.58±2.306×0.21,即为 (0.10,1.06)。

2.3一元线性回归模型的假设检验。

建立模型的目的是用来进行预测或评价。

建立模型之后,还需要进行检验,就是利用一定的定性与定量标准对模型的函数形式、变量选择、及参数估计的正确性进行评估。

只有经过检验证明是正确的回归模型,才能用于经济分析、预测、决策。

2.3.1模型估计式的理论检验
理论检验又称符号检验,依据模型参数的符号及大小,评判其是否符合经济理论的规定或社会经济实践的常规。

如果参数符合经济理论的规定或社会经济实践的常规,表明它在理论上有依据或在实践中能够被验证。

反之说明它缺乏理论依据与实践证明,不能成立,不应被接受。

2.3.2 拟合优度的测量
拟合优度是指回归直线对观测值的拟合程度。

显然若观测值离回归直线近,则拟合程度好;反之则拟合程度差。

为了说明样本决定系数的意义,首先让我们来考察一下被解释变量的总变差的组
成情况,以平均值y 为基准,说明yt 和t
y ˆ对y 的偏离程度,如下图:
图2.3 三种离差示意图
可以证明 ∑ (y t -y ) 2 = ∑ (t y
ˆ-y ) 2 + ∑ (y t -t y ˆ)2 = ∑ (t y ˆ-y ) 2 + ∑ (t u ˆ)2。

TSS (总平方和)= ESS (回归平方和) + R SS (残差平方和)
证明 ∑ (y t -y ) 2 = ∑[ (y t -t y
ˆ) + (t y ˆ-y )]2 = ∑ (y t -t y ˆ)2 + ∑ (t y ˆ-y )2 + 2 ∑ (y t -t y ˆ) (t y ˆ-y ) 其中 ∑ (y t -t y ˆ) (t y ˆ-y ) = ∑ (y t -t y ˆ)1ˆβ(x t -x ) =1ˆβ∑ (y t -t y ˆ) x t -x 1ˆβ∑ (y t -t y ˆ) =1
ˆβ∑t u ˆx t = 0 度量拟合优度的统计量是可决系数(确定系数):回归平方和在总变差中所占的比重为样本决定系数。


R 2
=
∑∑--2
2)()ˆ(y y y y
t t = (回归平方和)/(总平方和)= ESS/TSS =1- RSS/TSS
所以R 2的取值范围是 [0,1]。

对于一组数据,TSS 是不变的,所以RSS ↑(↓),
ESS ↓(↑)。

2.3.3 回归参数的显著性检验
主要是检验 β1 是否为零。

通常用样本计算的1
ˆβ不等于零,但应检验这是否有统计显著性,即取零的概率。

H 0:β1 = 0; H 1:β1 ≠ 0 在H 0成立条件下,
t =
)
ˆ(111
ˆβββs -=
)

(1ˆββs = ∑-2
1
)
(ˆˆx x t σ
β
-t α (T-2) 0 t α (T-2)
若 | t | > t α (T -2) ,则 β1 ≠ 0;若 | t | < t α (T -2) ,则 β1 = 0。

2.3.4 正态性检验:(雅克-贝拉检验JB )
它是依据OLS 的残差,对大样本的一种检验方法:
Jarque 和Bera 建立了如下检验统计量:22(3)64n K JB S ⎡⎤-=+⎢⎥⎣⎦ 其中:33
ˆˆ()ˆt
u u u
S n σ
-=∑(对概率密度函数对称性的度量,偏度系数), 4
4
ˆˆ()ˆt
u
u
u K n σ
-=
∑(对概率密度函数胖瘦的度量,峰度系数)
在给定的正态假定下,22(3)64n K JB S ⎡⎤
-=+⎢⎥⎣⎦统计量渐近的服从自由度为2的2χ分布,用符号表示为:2(2)asy
JB χ
如果ˆt u
服从正态分布,则S 为零,K 为3,因而JB 统计量的值为零,但如不是正
态分布,JB 将是一个逐渐增大的值。

我们很容易从2χ分布表计算出JB 的值。

在某一显著水平下,如果计算出的统计值超过临界2χ值,则拒绝正态分布的零假设。

例:(P58)
2.4 一元回归模型的预测
对于时间序列数据,预测可分为事前预测和事后预测。

两种预测都是在样本区间之外进行,如图所示。

对于事后预测,被解释变量和解释变量的值在预测区间都是已知的。

可以直接用实际发生值评价模型的预测能力。

对于事前预测,解释变量是未发生的。

(当模型中含有滞后变量时,解释变量则有可能是已知的。

)当预测被解释变量时,则首先应该预测解释变量的值。

对于解释变量的预测,通常采用时间序列模型。

对于截面数据,通常是推测未知的数据。

预测还分为有条件预测和无条件预测。

对于无条件预测,预测式中所有解释变量的值都是已知的。

所以事后预测应该属于无条件预测。

当一个模型的解释变量完全由滞后变量组成时,事前预测也有可能是无条件预测。

例如
t y ˆ=0ˆβ+1
ˆβ x t -1 当预测T +1期的y t 值时,x t 用的是T 期值,是已知值。

预测还分为静态预测和动态预测。

2.4.1 y F 的点预测。

对于总体方程:01t t t y x ββμ=++ 01()t t E y x ββ=+
在样本点之外的x=x f ,那么,这个时期的被解释变量Y 和期均值E (Yf )应该为:
01f f f y x ββμ=++,01()f f E y x ββ=+
根据估计的回归函数: ˆt y =0ˆβ+1ˆβ x t ,在x=x f 时的拟合值为: F y ˆ =0ˆβ+1
ˆβ x F
取期望:E (F y ˆ) =E (0ˆβ+1ˆβ x F )=01()f f
x E y ββ+= 表明ˆf y 是f y 的均值E (f y )的无偏估计,因此可以作为E (f y )置信区间的中心。

注意:E (ˆf y
)=01f x ββ+=f y -f μ,表明ˆf y 不是f y 的无偏估计。

但E (ˆf y -f y )=0,即在多次观察中,ˆf y
可能大于、小于f y ,但两者之差的平均值趋于0,在这外意义上,用ˆf y 来估计f y ,并且用ˆf y 作为f y 的预测中心是合理的。

2.4.2 区间预测
对于任一给定样本,预测值ˆf y
只能作为f y 的估计值,作为E (f y )的无偏估计量,不等于真实的f y 和E (f y ),也就是说两者之间存在误差,这个误差称为预测误差,
为了估计这个误差,需要求出ˆf y
的抽样分布,在遵循古典假设的情况下,ˆf y 服从正态分布。

下面我们分别讨论ˆf y
对f y 和E (f y )的误差,及其分布,进而进区间预测。

1、E (f y )的预测区间。

为了得到E (f y )的预测区间,应首先求出E (f y )与它的无偏估计值ˆf y 的偏差的方差。

因为:E (F y
ˆ) =()f E y ,所以有 ˆvar(()f f y E y -=2ˆˆ(())(())f f f f E y E y E y E y ⎡⎤---⎣⎦=2
ˆ(()f f E y E y ⎡⎤-⎣⎦
=20101ˆˆ()()f f E x x ββββ⎡⎤---⎣⎦=2
0011ˆˆ()()f E x ββββ⎡⎤---⎣⎦
=22200110011ˆˆˆˆ()()2()()f f E x E x E ββββββββ⎡⎤⎡⎤⎡⎤-+----⎣⎦⎣⎦⎣⎦
其中:
第一项:22
2
2
000002
ˆˆˆ()(())var()()
t t
x E E E T
x x σβββββ⎡⎤⎡⎤-=-==⎣⎦⎣⎦-∑∑
第二项:2
2
11ˆ()f x E ββ⎡⎤-⎣⎦=2
2
2
111ˆˆ(())var()f f x E E x βββ⎡⎤-==
⎣⎦222
()
f
t
x x x σ-∑
由于11ˆt t k u ββ=+∑,001ˆ()t t xk u T ββ=+-∑, 所以:11
ˆt t k u ββ-=∑,001ˆ()t t xk u T ββ-=-∑ 第三项:0
011ˆˆ2)()f x E ββββ⎡⎤--⎣⎦=12()f t t t t x E xk u k u T ⎡⎤-⎢⎥⎣⎦
∑∑ =,1
2()f t t s s t s x E xk u k u T ⎡⎤-⎢⎥⎣⎦

=212()f t t t t s x E xk k u T =⎡⎤-⎢⎥⎣⎦∑+12()f t t s s t s x E xk u k u T ≠⎡⎤
-⎢⎥⎣⎦

=212()()f t t t x xk k E u T -∑+1
2()()f t s t s t s x xk k E u u T
≠-∑=212()f t t x xk k T σ-∑
=2
212()f t t x k x k T σ-∑∑=2
212(0)()f t x x x x σ--∑=22
2()
f t x x x x σ--∑ 从而有:ˆvar(()f f y
E y -=22
2
()
t t x T x x σ-∑∑+
222
()
f
t
x x x σ-∑22
2()
f t
x x
x x σ-
-∑
=2
2
2()1()f t x x T x x σ⎡⎤--⎢⎥-⎢⎥⎣⎦
∑ 由ˆf y
- E (f y )的期望和方差可知。

ˆf y - E (f y )~N (0,22
2()1()f t x x T x x σ⎡⎤--⎢⎥
-⎢⎥⎣⎦
∑)
ˆ()(0,1)y
E y N -
由于2σ未知,用2ˆσ
= 2()(2)t u T -∑代替,根据抽样分布理论,则有:
ˆ()(2)y
E y t t T -=-
那么给定显著显水平α,则可求得E (f y )的(1-α)的预测区间为:
则E(y F ) 的区间预测是 ˆf y
± [ t α/2 (T -2) σˆ∑
--+2
2)()(1
x x x x T t F ]
2 单个y F 的区间预测
为了得到f y 的预测区间,应首先求出f y 与ˆf y
之间偏差的方差,由于E (f y -ˆf y )=0,f y 与ˆf y 不相关(因为t y 之间不相关,而0ˆβ、1ˆβ是t y 的线性组合,F y ˆ =0ˆβ+1ˆβ x f ,f x 为非随机变量,所不相关)。

并且
201var()var()var()f f f f y x u u ββσ=++==
22
2()1ˆvar()()f t x x y T x x σ⎡⎤
-=-⎢⎥
-⎢⎥⎣
⎦∑ 所以:2
2
2()1ˆˆvar()var()var()1()f f f f f t x x y y y y T x x σ⎡⎤--=+=+-⎢⎥-⎢⎥⎣⎦
∑ 由ˆf f y y
-的期望和方差可知: 22
2()1ˆ(0,1)()f f f t x x y y
N T x x σ⎡⎤--+-⎢⎥-⎢⎥⎣⎦

ˆ(0,1)y y
N -
由于2σ未知,用2ˆσ
= 2()(2)t u T -∑代替,根据抽样分布理论,则有:
ˆ(2)y
y t t T -=-
那么给定显著显水平α,则可求得f y 的(1-α)的预测区间为:
F y
ˆ ± [ t α/2 (T -2) σˆ∑
--++2
2)()(11x x x x T t F ]
2.4.3 影响预测区间大小的因素
由一预测区间的表达式,可以看出,影响预测区间大小的因素有四个:
1、误差相u t 方差的大小。

这是随机影响因素,由总体决定。

2ˆσ趆小,区间趆小。

2、样本容量。

3、()t x x -的大小,即样本范围的大小,范围趆大,精度趆高。

4、()F x x -的大小,即预测点离平均值的大小,趆近精度趆高。

2.4.4 回归结果的报告形式与分析 1、回归结果的格式
回归模型经过估计,检验之后,得到一系列数据,为了清晰、简明地表明这些数据,需用一定的标准格式报告回归分析的结果。

如例2.1的分析结果可以写成:
ˆt y
= 37.2270 + 0.5414t x ˆ()i s β=(5.7008) (0.0267) 标准差 ˆ()i
t β=(6.5301) (20.2979) t 统计量 2R =0.9808 S.E=7.28655 dW=8
2、回归结果的分析
1)、系数的说明,系数的正负号与大小。

2)、拟合情况:2R 、S.E 。

3)系数的显著性:ˆ()i
t β、F
4)自相关检验:DW
2.5.相关理论
相关分析是研究变量间相互关系的最基本方法。

从相关分析中引出的相关系数是回归分析的一个基本统计量。

掌握它有助于对经济问题和经济计量模型的分析与理解。

11.1 相关的定义与分类
定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。

分类:①按强度分
完全相关:变量间存在函数关系。

例,圆的周长,L = 2πr。

高度相关(强相关):变量间近似存在函数关系。

如我国家庭收入与支出的关系。

弱相关:变量间有关系但不明显。

例,近年来我国耕种面积与产量。

零相关:变量间不存在任何关系。

例,某班学生的学习成绩与年龄。

完全相关相关、线性相关、正相关弱相关
②按变量个数分
按形式分:线性相关, 非线性相关简单相关:指两个变量间相关
按符号分:正相关, 负相关, 零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。

非线性相关负相关零相关
因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。

11.2 简单线性相关的度量
用简单线性相关系数,简称相关系数(correlation coefficient )度量两个变量间的线性相关强度,用 ρ 表示。

ρ 的随机变量表达式是
ρ =
)
()()(t t t t y D x D y ,x Cov 。

ρ 的统计表达式是
ρ =
∑∑∑===----T
t y t T
t x t T
t y t x t y T
x T
y x T 12
121)(1)(1)
)((1μμμμ=
∑∑∑===----T t y t T t x t T
t y t x t y x y x 12121)
()()
)((μμμμ
其中T ,总体容量;x t , y t ,变量的观测值;μx ,μy ,变量观测值的均值。

下面解释 ρ 为什么能对变量间的线性相关强度进行定量度量。

因为 ρ 表达式的分子是协方差,Cov (x t , y t );分母是x i 和y t 的标准差之积。

而x t 和y t 的标准差不会为零,所以Cov (x t , y t ) 是否为零,就决定了ρ 是否为零,即标志着变量x t , y t 间是否存在线性相关关系。

但Cov(x t , y t ) 有两个缺点:①它是一个有量纲的量,取值容易受测量单位的影响;②取值范围宽,相关性越强,Cov(x t , y t ) 取值越大。

为克服上述缺点,用x t , y t 的标准差除Cov(x t , y t ),于是就得到相关系数 ρ 的统计表达式。

它是一个无量纲量。

相关系数 ρ 是对总体而言。

当研究某个问题时,所得数据常是一个样本。

对样本来说,相关系数常用r 表示,即r 是总体相关系数 ρ 的估计值。

r = ρ
ˆ=∑∑∑===----T
t t T t t T
t t t y y T x x T y y x x T 12121
)(1
-1)(1-1))((1-1=
∑∑∑===----T
t t T t t T
t t t y y x x y y x x 12
121)()()
)((
其中T ,样本容量;x t , y t ,变量的观测值;x ,y ,变量观测值的均值。

11.3 相关系数的取值范围
(1) 当两个变量严格服从线性关系时,∣ρ∣= 1。

证:设直线斜率为k , 即y = a + k x 。

则有
ρ =
2
2
)
()())((y y x x y y x x t t t t -∑-∑--∑=
2
2
2
)
()()()(x x k x x x x k x x t t t t -∑-∑--∑= 1
(2) 当两个变量不存在线性关系时,| ρ | = 0。

(3)上述是两种极端情形,所以相关系数的取值范围是[-1,1]。

当Cov (x t , y t)> 0时,则ρ > 0 (正相关);当Cov (x t , y t)< 0时,则ρ< 0 (负相关);若Cov (x t , y t) = 0,则ρ= 0 (零相关)。

为什么图1为正相关?为什么图2为负相关?用∑ (x t–x) ( y t–y)解释。

图1 正相关图2 负相关
例1:考察1986年中国29个省市自治区农作物种植业产值y t(亿元)和农作物播种面积x t(万亩)的相关性(见图1.9)。

例2:考察1978~2000年天津市城镇居民人均消费与人均可支配收入的相关性性(见图1.10)。

图1.9 r = 0.92 图1.10r = 0.99
11.4 线性相关系数的局限性
(1) 只适用于考察变量间的线性相关关系。

也就是说当ρ= 0时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。

所以变量不相关与变量相互独立在概念上是不同的。

(2) 相关系数的计算是一个数学过程。

它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。

所以在计算r 的同时,还要强调对实际问题的分析与理解。

(3) 一般说二变量相关时,可能属于如下一种关系。

① 单向因果关系。

如施肥量与农作物产量;对金属的加热时间与温度值。

② 双向因果关系。

如工业生产与农业生产;商品供给量与商品价格。

③ 另有隐含因素影响二变量变化。

如市场上计算机销量与电视机销量呈正相关。

显然人均收入的增加是一个隐含因素。

④ 虚假相关。

如年国民生产总值与刑事案件数呈正相关。

显然二变量间不存在因果关系。

应属虚假相关。

中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。

(1997-2001,file: 5correlation1)
11.5 简单相关系数的检验
(1) 直接检验(查相关系数临界值表) H 0:ρ = 0; H 1:ρ ≠ 0
用x t 和y t 的样本计算相关系数r ,以自由度f = T - 2查临界值表。

检验规则是, 若 | r | > r α (T -2) (临界值),则x t 和y t 相关; 若 | r | < r α (T -2) (临界值),则x t 和y t 不相关。

(2) t 检验
H 0:ρ = 0; H 1:ρ ≠ 0
t =
r
s r ρ
-= 2
1)
(2---T r r ρ~ t (T - 2)
其中2表示涉及两个变量。

若 | t | > t α (T -2) ,则x t 和y t 相关; 若 | t | < t α (T -2) ,则x t 和y t 不相关。

11.6 偏相关系数
以上介绍了简单线性相关系数,但是当两个变量x t , y t 同时受其它变量z 1t , z 2t , …, 影
响时,有必要研究当控制其它变量z 1t , z 2t , …, 不变时,该两个变量x t , y t 之间的相关关系。

称这种相关关系为偏相关关系。

以3个变量x t , y t , z t ,为例(多于3个变量的情形与此相似。

),假定控制z t 不变,测度x t , y t 偏相关关系的偏相关系数定义如下。

t t t z y x ,ρ= 控制z t 不变条件下的x t , y t 的简单相关系数。

因为z t 也是随机变量,一般不容易得到控制z t 为一个常数条件下的x t 和y t 的值。

实际计算方法是,从x t , y t 中分别剔除z t 的影响,然后计算相关系数。

步骤如下:
(1)求x t 对z t 的回归估计式,
x t =0ˆβ +1
ˆβz t +t u ˆ 计算残差,
t u ˆ= x t -0ˆβ -1
ˆβz t t u
ˆ中不再含有z t 对x t 的影响。

(2)求y t 对z t 的回归估计式,
y t =0ˆα
+1ˆαz t +t v ˆ 计算残差,
t v
ˆ= y t -0ˆα-1ˆαz t t v
ˆ中不再含有z t 对y t 的影响。

则t u ˆ与t v ˆ的简单相关系数就是x t 与y t 在剔除z t 的影响后的偏相关系数,即
t t v u r ˆˆ=t
t t z y x r ,
例2 中央支出与地方支出的偏相关系数
obs
财政收入(INCOME ) 中央支出(X1) 地方支出(X2)
1981 1089.5 602.2 512.8 1982 1124 575.1 578.2 1983 1249 642.5 649.9 1984 1501.9 738.7 807.7 1985 1866.4 836.5 1008.2 1986 2260.3 962.3 1368.6 1987 2368.9 1031.9 1416.6 1988 2628 1060.4 1646.2 1989 2947 1105.2 1935 1990 3312.6 1372.8 2079.4 1991 3610.9 1517.7 2295.8 1992 4153.1 1817.9 2571.8 1993
5088.2 1957.2 3330.2
500
1000
1500
2000
1000
2000
300040005000
6000
INCOME
X 1
1000
2000
3000
4000
1000
2000
3000
4000
5000
6000
INCOME
X 2
r = 0.9898 r = 0.9984
x 1 = 170.90 + 0.3614 income + RES1 x 2 = -221.49 + 0.6952 income + RES2
(3.9) (23.1) (-6.6) (58.6)
500
1000
1500
2000
1000
2000
3000
4000
X 2
X 1
-200
-100
100200
-100
-50
50
100
150
RES2
RES1
r = 0.99 r = -0.85
11.7 复相关系数
在多元回归中,用偏相关系数可以分别测量被解释变量对每个解释变量的偏相关关系,而复相关系数则是测量被解释变量与全部解释变量的相关关系。

假定yt 是被解释变量,解释变量是xt1, xt 2, …, xt k –1,复相关系数的具体计算过程是
(1)用y t 对x t 1, x t 2, …, x t k -1回归,
y t =0ˆβ +1ˆβx t 1 +…+1
ˆ-k βx t k -1 +t u ˆ 求出y t 的拟合值序列t y
ˆ, (2)计算y t 与t y ˆ的简单相关系数,则称t t y y r ˆ是y t 与x t 1, x t 2, …, x t k -1的复相关系数。

复相关系数t t y y r ˆ与简单相关系数r 的区别是简单相关系数r 的取值范围是[-1,1],复相关系数t t y y r ˆ的取值范围是[0,1]。

实际上,复相关系数是可决系数的算术根。

例3:
被解释变量是y t (铅笔年销售量,千万支);解释变量分别是x t 1(自动铅笔年产量,
百万支);x t 2(全国人口数,百万人);x t 3(居民年均消费水平,元);x t 4(政策变量)。

因政策因素影响铅笔销量出现大幅下降时,政策变量取负值。

例如1967、1968年的x t 4值取-2,1966、1969-1971、1974-1977年的x t 4值取-1)。

t y
ˆ= -907.94 - 2.95 x t 1 + 0.31 x t 2 + 170.19 Ln x t 3 + 45.51 x t 4 (-6.4) (-3.7) (4.8) (4.4) (12.6) R 2 = 0.9885, DW = 2.09, F = 429, s.e. = 10.34
y t 与x t 1, x t 2, Ln x t 3 x t 4的复相关系数是
t t y y r ˆ=)(,4321x Lnx x x y t r = 0.9942
复相关系数是原回归方程确定系数的算术根。

t t y
y r ˆ=2R =9885.0= 0.9942。

相关系数的EViews 操作。

打开数据窗口。

选View/Correlation
得相关系数矩阵如下。

附录: 相关系数临界值表
f
0.10 0.05 0.02 0.01
0.001 1 0.98769 0.99692 0. 0.
0.
2 0.90000 0.95000 0.98000 0.99000 0.99900
3 0.805
4 0.8783 0.93433 0.95873 0.99116 4 0.7293 0.8114 0.8822 0.91720 0.97406
5 0.6694 0.7545 0.8329 0.8745 0.95074 6
0.6215 0.7067 0.7887
0.8343 0.92493
7 0.5822 0.6664 0.7498 0.7977 0.8982
8 0.5494 0.6319 0.7155 0.7646 0.8721
9 0.5214 0.6021 0.6851 0.7348 0.8471
10 0.4933 0.5760 0.6581 0.7079 0.8233
11 0.4762 0.5529 0.6339 0.6835 0.8010
12 0.4575 0.5324 0.6120 0.6614 0.7800
13 0.4409 0.5139 0.5923 0.6411 0.7603
14 0.4259 0.4973 0.5742 0.6226 0.7420
15 0.4124 0.4821 0.5577 0.6055 0.7246
16 0.4000 0.4683 0.5425 0.5897 0.7084
17 0.3887 0.4555 0.5285 0.5751 0.6932
18 0.3783 0.4438 0.5155 0.5614 0.6787
19 0.3687 0.4329 0.5034 0.5487 0.6652
20 0.3598 0.4227 0.4921 0.5368 0.6524
25 0.3233 0.3809 0.4451 0.4869 0.5974
30 0.2960 0.3494 0.4093 0.4487 0.5541
35 0.2746 0.3246 0.3810 0.4182 0.5189
40 0.2573 0.3044 0.3578 0.3932 0.4896
45 0.2428 0.2875 0.3384 0.3721 0.4648
50 0.2306 0.2732 0.3218 0.3541 0.4433
60 0.2108 0.2500 0.2948 0.3248 0.4078
70 0.1954 0.2319 0.2737 0.3017 0.3799
80 0.1829 0.2172 0.2565 0.2830 0.3568
90 0.1726 0.2050 0.2422 0.2673 0.3375
100 0.1638 0.1946 0.2301 0.2540 0.3211
注:P{|r| > rα ( f ) } = α, 其中α表示显著性水平,f表示自由度,rα ( f )为临界值。

相关文档
最新文档