多元线性回归与最小二乘估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元线性回归与最小二乘估计

1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:

y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t (1.1)

其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。

对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要

解释变量。u t 代表众多影响y t 变化的微小因素。使y t 的变化偏离了E( y t ) =多元线性回归与最小二乘估计

1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:

y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t (1.1)

其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。

对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。u t 代表众多影响y t 变化的微小因素。使y t 的变化偏离了E( y t ) =β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1决定的k 维空间平面。

当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为

y 1 =β0 +β1x 11 +β2x 12 +…+βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。 y 2 =β0 +β1x 21 +β2x 22 +…+βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。 ……….. 几何意义:y t 表示一个多维平面。 y T =β0 +β1x T 1 +β2x T 2 +…+βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。

j k j k T Tj

T

k T

k T

(T )

(k )

(T (T k )x x x y u x x x y u x x x y u 1111110121221

21

21

1111111

)

1

(1.3)

Y = X β+ u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。

假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 2

相同且为有限值,即

E(u ) = 0 = 0

, Var (u ) = E(u

ˆu ˆ' ) =σ2I = σ2100

00001.

假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0.

假定 ⑶ 解释变量之间线性无关。 rk(X 'X ) = rk(X ) = k . 其中rk (⋅)表示矩阵的秩。

假定⑷ 解释变量是非随机的,且当T → ∞ 时

T – 1X 'X → Q .

其中Q 是一个有限值的非退化矩阵。

最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。

min S = (Y - X β

ˆ)' (Y - X βˆ) = Y 'Y -βˆ'X 'Y - Y ' X βˆ +βˆ'X 'X βˆ = Y 'Y - 2β

ˆ'X 'Y + βˆ'X 'X βˆ. (1.5) 因为Y 'X β

ˆ是一个标量,所以有Y 'X βˆ = βˆ'X 'Y 。(1.5) 的一阶条件为: ˆ

S = - 2X 'Y + 2X 'X β

ˆ= 0 (1.6) 化简得

X 'Y = X 'X β

ˆ 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有

βˆ= (X 'X )-1 X 'Y (1.7)

因为(1.5)的二阶条件

ˆˆ

2

S

= 2 X 'X ≥ 0 (1.8) 得到满足,所以 (1.7) 是 (1.5) 的解 。

因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则β

ˆ是Y 的线性组合,为线性估计量。

求出β

ˆ,估计的回归模型写为 Y = X β

ˆ+ u ˆ (1.9) 其中βˆ= (0ˆβ 1ˆβ … k

ˆ1

)' 是β的估计值列向量,u

ˆ= (Y - X βˆ) 称为残差列向量。因为 u

ˆ = Y - X βˆ= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以u

ˆ也是Y 的线性组合。βˆ的期望和方差是 E(β

ˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β+ u )]

=β+ (X 'X )-1X ' E(u ) =β (1.11)

Var(β

ˆ) = E[(βˆ–β) (βˆ–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' σ 2I X (X 'X )-1] = σ 2 (X 'X )-1 . (1.12)

高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。βˆ具有无偏性。β

ˆ具有最小方差特性。βˆ具有一致性,渐近无偏性和渐近有效性。 2. 残差的方差

s 2 = u

ˆ'u ˆ/ (T - k ) (1.13) s 2是σ2

的无偏估计量,E(s 2 ) =σ2

。β

ˆ的估计的方差协方差矩阵是

Var (β

ˆ) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)

Y = X β

ˆ+ u ˆ=Y ˆ + u ˆ (1.15) 总平方和

SST =

T t

t

(y y )21

= Y 'Y - T 2y , (1.16)

其中y 是y t 的样本平均数,定义为y = T t t (

y )/T 1

。回归平方和为

SSR =

T t t

ˆ(y y )21

= Y

ˆ'Y ˆ- T 2y (1.17) 其中y 的定义同上。残差平方和为

SSE =

T t t t

ˆ(y y

)21

= T t t

ˆu 2

1

= u ˆ'u ˆ (1.18) 则有如下关系存在,

SST = SSR + SSE (1.19)

R 2 =

2

ˆˆSSR Ty SST

2Ty

Y'Y

Y Y - (1.20) 显然有0 < R 2 < 1。R 2 ↵1,拟合优度越好。

4. 调整的多重确定系数

当解释变量的个数增加时,通常R 2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下: 2R = 1 -

SSE /(T k )T SST

SSR (

)()SST /(T )

T

k SST 111 = 1 - T (R )T k

21

1

(1.21)

5. OLS 估计量的分布

若u ~ N (0,σ 2

I ) ,则每个u t 都服从正态分布。于是有

Y ~ N (X β, σ 2

I ) (1.22)

因βˆ也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有

相关文档
最新文档