统计学多元线性回归

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 基本原理：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。
• ML必须已知随机项的分布。
2、估计步骤:以一元模型为例
Yi ~ N(ˆ0 ˆ1 X i , 2 )
Yi的分布
P(Yi )
1
e
1
2
2
(Yi
ˆ0
ˆ1
X
i
)
2
2
Yi的概率函数
2、关于解释变量的假设 • 确定性假设。 • 解释变量X是确定性变量，不是随机变量，
在重复抽样中取固定值。 • 与随机项不相关假设。
cov( Xi , i ) 0, i 1, 2,L , n E(Xii ) 0, i 1, 2,L , n
由确定性假设可以推断。
• 无完全多重共线性假设。
• 各解释变量之间不存在严格线性相关性适用于多元线性回归模型。
1、关于模型关系的假设
• 模型设定正确假设。The regression model is correctly specified.
• 线性回归假设。The regression model is linear in the parameters。
Yi 0 1 X 1i 2 X 2i k X ki i
关于经典回归模型的假定
标量符号 1、解释变量X1， X2，…， Xn是非随机的或固定的；而且各X之间互不相关（无多重共线性）
矩阵符号
1、n×（k+1）矩阵X是非随机的；且X的秩
R(X)=k+1,即X列满秩。XTX也是满秩的
标量符号
2、 E(i Xi ) 0, i 1, 2,L , n
Var(i Xi ) 2, i 1, 2,L , n
i 1
i 1
n
2
(Yi (ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ))
i 1
Min Q
已知
假定
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1ˆiˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
• 样本方差假设。随着样本容量的无限增
加，解释变量X的样本方差趋于一有限常
数。
时间序列数据作
样本时间适用
(X i X )2 / n Q, n
3、关于随机项的假设
• 0均值假设。给定X的条件下，随机误差项的均值为0.
E(i Xi ) 0, i 1,2,L ,n
由模型设定正确假设推断。
含义：随机误差项的条件零均值假设是指它的期望不依赖与X的变化而变化，且总为常数零。也就是说，随机误差项与解释变量不相关。
Yi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki ei
样本回归函数的矩阵表示
Yˆ Xβˆ
Y Xβˆ e
ˆ0
βˆ
ˆ1
ˆk
e1
e
e2 en
二、多元线性回归模型的基本假设
当多元线性回归模型满足下列的基本假设的情况下，可以采用普通最小二乘法（OLS）估计参数。
3、 E( X ') 0 即
i E(1)
E
X i1 i
X
i1E
(i
)
0
X ik i X ik E(i )
标量符号 4、（为了假设检验）随机误差项服从正态分布
i X ~ N(0, 2)
i 1,2, , n
矩阵符号
4、向量为一多维正态分布，
X ~ N(0, 2In )
一、多元线性回归模型二、多元线性回归模型的基本假设
一、多元线性回归模型
多元线性回归模型的形式
由于：在实际经济问题中，一个变量往往受到多个原因变量的影响； “从一般到简单”的建模思路。
所以，在线性回归模型中的解释变量有多个，至少开始是这样。这样的模型被称为多元线性回归模型。
多元线性回归模型参数估计与一元线性回归模型相同，只是计算更为复杂。
或者说j给出了Xj的单位变化对Y均值的
“直接”或“净”（不含其他变量）影响。
总体回归模型的矩阵表示 Y Xβ μ
1 X 11 X 21 X 1 X 12 X 22
1 X 1n X 2 n
X k1
X
k
2
X
kn
n(k 1)
Y1
Y
Y2
Yn
n1
0
1
β
2
k ( k 1)1
L(ˆ0 , ˆ1, 2 ) P(Y1,Y2 , ,Yn )
1
e
1
2
2
(Yi
ˆ0
ˆ1
X
i
)
2
(2
)
n 2
n
Y的所有样
本观测值的联合概率— 似然函数
L* ln(L)
n ln(
2 )Biblioteka 122(Yi
ˆ0
ˆ1 X i
)2
对数似然函数
ˆ
0
ˆ1
(Yi (Yi
ˆ0 ˆ0
ˆ1 X i )2 ˆ1 X i )2
Cov(i , j Xi , X j ) 0, i, j 1, 2,L , n, i j
矩阵符号
2、 E( ) 0, Var( ) E( ') 2I
12 E( ' X ) E
n
1
1n 2
X
2 n
0
0
2I
2
标量符号 3、解释变量与随机误差项不相关。
矩阵符号
n
Q ei2 ee (Y Xβˆ )(Y Xβˆ ) i 1
βˆ (Y Xβˆ )(Y Xβˆ ) 0 βˆ (YY βˆ XY YXβˆ βˆ XXβˆ ) 0
XY XXβˆ 0
XY XXβ ˆ
βˆ (XX)1 XY
2、正规方程组的另一种表达
XY XXβ ˆ
分布参数的 ML估计量
3、似然函数
Yi 0 1 X1i 2 X 2i k X ki i
)
Yi ~ N(Xiβ, 2 )
i ~ N (0, 2 )
L(βˆ , 2 ) P(Y1 ,Y2 , ,Yn )
1
e
1 2
2
(Yi
( ˆ0
ˆ1 X1i
ˆ2
X
2i
ˆk
X
ki
))2
(2
• 以上假设（正态性假设除外）也称为线性回归模型的经典假设或高斯（Gauss）假设，满足该假设的线性回归模型，也称为经典线性回归模型（Classical Linear Regression Model, CLRM）。
• 同时满足正态性假设的线性回归模型，称为经典正态线性回归模型（Classical Normal Linear Regression Model, CNLRM）。
XXβˆ Xe XXβˆ
Xe 0
i
ei 0
Xijei 0
i
j 1,2,L , k
该正规方程组成立的条件是什么？
3、随机误差项的方差的无偏估计 e Y Xβˆ
Xβμ X(XX)1 X(Xβμ) μ X(XX)1 Xμ (I X(XX)1 X)μ Mμ
ee μMMμ μMμ
第三章经典单方程计量经济学模型：多元线性回归模型
Multiple Linear Regression Model
本章内容
• 多元线性回归模型概述 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测 • 可化为线性的非线性模型 • 受约束回归
§3.1 多元线性回归模型概述 (Regression Analysis)
0 0
对数似然函数极大化的一阶条件
ˆ
0
ˆ1
X
2 i
Yi
X i Yi
nX
2 i
(X i ) 2
nYi X i Yi X
nX
2 i
(X i ) 2
X
i
i
结构参数的 ML估计量
2
L*
n 2 2
1 2 2
(Yi
ˆ0
ˆ1 X i )2
0
ˆ
2
1 n
(Yi
ˆ0
ˆ1 X i )2
ei2 n
n
X 1i
X1i
X
2 1i
X ki
X ki X 1i
X X 1i
X
ki
X
2 ki
ki
ˆ0 ˆ1
ˆ k
1 X 11 X k1
1 X 12 Xk2
1 Y1
X 1n Y2
Xk
n
Yn
(XX)βˆ XY
条件？
βˆ (XX)1 XY
• OLS估计的矩阵表示
总体回归函数
• 总体回归函数：描述在给定解释变量Xi条件下被解释变量Yi的条件均值。
E(Yi | X1i , X 2i , X ki ) 0 1 X1i 2 X 2i k X ki
j也被称为偏回归系数(partial regression
coefficients)，表示在其他解释变量保持不变的情况下，Xj每变化1个单位时，Y的均值 E(Y)的变化。
非条件同方差性质：
• 序列不相关假设。 • 各随机误差项之间无自相关性。
Cov(i, j Xi , X j ) 0, i, j 1,2,L , n, i j
是否满足需要检验。
4、随机项的正态性假设
• 在采用OLS进行参数估计时，不需要正态性假设。在利用参数估计量进行统计推断时，需要假设随机项的概率分布。
• 一般假设随机项服从正态分布。可以利用中心极限定理（central limit theorem, CLT）进行证明。
• 正态性假设。The μ’s follow the normal distribution.
i ~ N (0, 2 ) i ~ NID(0, 2 )
5、CLRM 和 CNLRM
ˆ
2 ML
§3.2 多元线性回归模型的估计
一、普通最小二乘估计二、最大或然估计三、矩估计四、参数估计量的性质五、样本容量问题六、估计实例
说明
估计方法： – 3大类方法：OLS、ML或者MM – 在经典模型中多应用OLS – 在非经典模型中多应用ML或者MM
一、普通最小二乘估计(OLS)
1、普通最小二乘估计
总体回归模型
• 总体回归模型：总体回归函数的随机表达形式
Yi 0 1 X1i 2 X 2i k X ki i i=1,2…,n
k为解释变量的数目。习惯上，把常数项看成为虚变量的系数，该虚变量的样本观测值始终取1。于是，模型中解释变量的数目为（k+1）。
j称为回归系数（regression coefficient）。
1
μ
2
n
n1
样本回归函数与样本回归模型
• 从一次抽样中获得的总体回归函数的近似，称为样
本回归函数（sample regression function）。
• 样本回归函数的随机形式，称为样本回归模型（sample regression model）。
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki
使总体回归函数的随机形式与确定形式等价的关键假设。
• 同方差假设：给定X的条件下，对所有观测，方差都是相同的。
Var(i Xi ) 2, i 1, 2,L , n
是否满足需要检验。
含义：条件同方差假设是指随机误差项的方差不依赖于X的变化而变化，且总为常数
根据期望迭代法则：
非条件零均值性质：
X ki ) ) X 1i ) X 2i
Yi Yi Yi
X 1i X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
ˆ j , j 0,1,2, , k
解该（k+1）个方程组成的线性代数方程组，即可得到（k+1）个待估参数的估计值
•正规方程组的矩阵形式
)
n 2
n
1
1 (YXβˆ )(YXβˆ )
e 2 2
(2
)
n 2
n
4、ML估计量
• 由对数似然函数求极大，得到参数估计量
Max L* Ln(L)
nLn(
2
)
1
2
2
(Y
Xβˆ )
(Y
Xβˆ )
Min (Y Xβˆ )(Y Xβˆ )
βˆ (XX)1 XY
结果与参数的OLS估计相同
• 分布参数估计结果与OLS不同
• 最小二乘原理：根据被解释变量的所有观测值与估计值之差的平方和最小的原则求得参数估计量。
• 即使残差平方和最小的参数估计量。
• 步骤：
(Yi , X ji ), i 1,2, , n, j 0,1,2, k
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X Ki
n
n
Q ei2 (Yi Yˆi ) 2
M为等幂矩阵
E(ee) E(μ(I X(XX)1 X)μ)
2tr(I X(XX)1 X) 2 (trI tr(X(XX)1 X)) 2 (n (k 1))
2 E(ee)
nk 1
ˆ 2 ee
nk 1
二、最大似然估计
1、最大似然法
• 最大似然法(Maximum Likelihood,ML)，也称最大或然法，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。