多元线性回归与最小二乘估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归与最小二乘估计
1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:
y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t (1.1)
其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要
解释变量。u t 代表众多影响y t 变化的微小因素。使y t 的变化偏离了E( y t ) =多元线性回归与最小二乘估计
1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:
y t = β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1 + u t (1.1)
其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。
对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。u t 代表众多影响y t 变化的微小因素。使y t 的变化偏离了E( y t ) =β0 +β1x t 1 +β2x t 2 +…+βk - 1x t k -1决定的k 维空间平面。
当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为
y 1 =β0 +β1x 11 +β2x 12 +…+βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。 y 2 =β0 +β1x 21 +β2x 22 +…+βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。 ……….. 几何意义:y t 表示一个多维平面。 y T =β0 +β1x T 1 +β2x T 2 +…+βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。
j k j k T Tj
T
k T
k T
(T )
(k )
(T (T k )x x x y u x x x y u x x x y u 1111110121221
21
21
1111111
)
1
(1.3)
Y = X β+ u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。
假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 2
相同且为有限值,即
E(u ) = 0 = 0
, Var (u ) = E(u
ˆu ˆ' ) =σ2I = σ2100
00001.
假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0.
假定 ⑶ 解释变量之间线性无关。 rk(X 'X ) = rk(X ) = k . 其中rk (⋅)表示矩阵的秩。
假定⑷ 解释变量是非随机的,且当T → ∞ 时
T – 1X 'X → Q .
其中Q 是一个有限值的非退化矩阵。
最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。
min S = (Y - X β
ˆ)' (Y - X βˆ) = Y 'Y -βˆ'X 'Y - Y ' X βˆ +βˆ'X 'X βˆ = Y 'Y - 2β
ˆ'X 'Y + βˆ'X 'X βˆ. (1.5) 因为Y 'X β
ˆ是一个标量,所以有Y 'X βˆ = βˆ'X 'Y 。(1.5) 的一阶条件为: ˆ
S = - 2X 'Y + 2X 'X β
ˆ= 0 (1.6) 化简得
X 'Y = X 'X β
ˆ 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有
βˆ= (X 'X )-1 X 'Y (1.7)
因为(1.5)的二阶条件
ˆˆ
2
S
= 2 X 'X ≥ 0 (1.8) 得到满足,所以 (1.7) 是 (1.5) 的解 。
因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则β
ˆ是Y 的线性组合,为线性估计量。
求出β
ˆ,估计的回归模型写为 Y = X β
ˆ+ u ˆ (1.9) 其中βˆ= (0ˆβ 1ˆβ … k
ˆ1
)' 是β的估计值列向量,u
ˆ= (Y - X βˆ) 称为残差列向量。因为 u
ˆ = Y - X βˆ= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以u
ˆ也是Y 的线性组合。βˆ的期望和方差是 E(β
ˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β+ u )]
=β+ (X 'X )-1X ' E(u ) =β (1.11)
Var(β
ˆ) = E[(βˆ–β) (βˆ–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' σ 2I X (X 'X )-1] = σ 2 (X 'X )-1 . (1.12)
高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。βˆ具有无偏性。β
ˆ具有最小方差特性。βˆ具有一致性,渐近无偏性和渐近有效性。 2. 残差的方差
s 2 = u
ˆ'u ˆ/ (T - k ) (1.13) s 2是σ2
的无偏估计量,E(s 2 ) =σ2
。β
ˆ的估计的方差协方差矩阵是
Var (β
ˆ) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)
Y = X β
ˆ+ u ˆ=Y ˆ + u ˆ (1.15) 总平方和
SST =
T t
t
(y y )21
= Y 'Y - T 2y , (1.16)
其中y 是y t 的样本平均数,定义为y = T t t (
y )/T 1
。回归平方和为
SSR =
T t t
ˆ(y y )21
= Y
ˆ'Y ˆ- T 2y (1.17) 其中y 的定义同上。残差平方和为
SSE =
T t t t
ˆ(y y
)21
= T t t
ˆu 2
1
= u ˆ'u ˆ (1.18) 则有如下关系存在,
SST = SSR + SSE (1.19)
R 2 =
2
ˆˆSSR Ty SST
2Ty
Y'Y
Y Y - (1.20) 显然有0 < R 2 < 1。R 2 ↵1,拟合优度越好。
4. 调整的多重确定系数
当解释变量的个数增加时,通常R 2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下: 2R = 1 -
SSE /(T k )T SST
SSR (
)()SST /(T )
T
k SST 111 = 1 - T (R )T k
21
1
(1.21)
5. OLS 估计量的分布
若u ~ N (0,σ 2
I ) ,则每个u t 都服从正态分布。于是有
Y ~ N (X β, σ 2
I ) (1.22)
因βˆ也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有