统计学多元线性回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 基本原理:当从模型总体随机抽取n组样本观 测值后,最合理的参数估计量应该使得从模型 中抽取该n组样本观测值的概率最大。
• ML必须已知随机项的分布。
2、估计步骤:以一元模型为例
Yi ~ N(ˆ0 ˆ1 X i , 2 )
Yi的分布
P(Yi )
1
e
1
2
2
(Yi
ˆ0
ˆ1
X
i
)
2
2
Yi的概率函数
2、关于解释变量的假设 • 确定性假设。 • 解释变量X是确定性变量,不是随机变量,
在重复抽样中取固定值。 • 与随机项不相关假设。
cov( Xi , i ) 0, i 1, 2,L , n E(Xii ) 0, i 1, 2,L , n
由确定性假设可以推断。
• 无完全多重共线性假设。
• 各解释变量之间不存在严格线性相关性 适用于多元线性回归模型。
1、关于模型关系的假设
• 模型设定正确假设。The regression model is correctly specified.
• 线性回归假设。The regression model is linear in the parameters。
Yi 0 1 X 1i 2 X 2i k X ki i
关于经典回归模型的假定
标量符号 1、解释变量X1, X2,…, Xn是非随机的或固定 的;而且各X之间互不相关(无多重共线性)
矩阵符号
1、n×(k+1)矩阵X是非随机的;且X的秩
R(X)=k+1,即X列满秩。XTX也是满秩的
标量符号
2、 E(i Xi ) 0, i 1, 2,L , n
Var(i Xi ) 2, i 1, 2,L , n
i 1
i 1
n
2
(Yi (ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ))
i 1
Min Q
已知
假定
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1ˆiˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
• 样本方差假设。随着样本容量的无限增
加,解释变量X的样本方差趋于一有限常
数。
时间序列数据作
样本时间适用
(X i X )2 / n Q, n
3、关于随机项的假设
• 0均值假设。给定X的条件下,随机误差项的均 值为0.
E(i Xi ) 0, i 1,2,L ,n
由模型设定正确假设推断。
含义:随机误差项的条件零均值假设是指它的期望 不依赖与X的变化而变化,且总为常数零。也就是 说,随机误差项与解释变量不相关。
Yi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki ei
样本回归函数的矩阵表示
Yˆ Xβˆ
Y Xβˆ e
ˆ0
βˆ
ˆ1
ˆk
e1
e
e2 en
二、多元线性回归模型的基本假设
当多元线性回归模型满足下列的基本假设的情况下,可以采用 普通最小二乘法(OLS)估计参数。
3、 E( X ') 0 即
i E(1)
E
X i1 i
X
i1E
(i
)
0
X ik i X ik E(i )
标量符号 4、(为了假设检验)随机误差项服从正态分布
i X ~ N(0, 2)
i 1,2, , n
矩阵符号
4、 向量为一多维正态分布,
X ~ N(0, 2In )
一、多元线性回归模型 二、多元线性回归模型的基本假设
一、多元线性回归模型
多元线性回归模型的形式
由于: 在实际经济问题中,一个变量往往受到多个原 因变量的影响; “从一般到简单”的建模思路。
所以,在线性回归模型中的解释变量有多个,至 少开始是这样。这样的模型被称为多元线性回 归模型。
多元线性回归模型参数估计与一元线性回归模型 相同,只是计算更为复杂。
或者说j给出了Xj的单位变化对Y均值的
“直接”或“净”(不含其他变量)影响。
总体回归模型的矩阵表示 Y Xβ μ
1 X 11 X 21 X 1 X 12 X 22
1 X 1n X 2 n
X k1
X
k
2
X
kn
n(k 1)
Y1
Y
Y2
Yn
n1
0
1
β
2
k ( k 1)1
L(ˆ0 , ˆ1, 2 ) P(Y1,Y2 , ,Yn )
1
e
1
2
2
(Yi
ˆ0
ˆ1
X
i
)
2
(2
)
n 2
n
Y的所有样
本观测值的 联合概率— 似然函数
L* ln(L)
n ln(
2 )Biblioteka 122(Yi
ˆ0
ˆ1 X i
)2
对数似然 函数
ˆ
0
ˆ1
(Yi (Yi
ˆ0 ˆ0
ˆ1 X i )2 ˆ1 X i )2
Cov(i , j Xi , X j ) 0, i, j 1, 2,L , n, i j
矩阵符号
2、 E( ) 0, Var( ) E( ') 2I
12 E( ' X ) E
n
1
1n 2
X
2 n
0
0
2I
2
标量符号 3、解释变量与随机误差项不相关。
矩阵符号
n
Q ei2 ee (Y Xβˆ )(Y Xβˆ ) i 1
βˆ (Y Xβˆ )(Y Xβˆ ) 0 βˆ (YY βˆ XY YXβˆ βˆ XXβˆ ) 0
XY XXβˆ 0
XY XXβ ˆ
βˆ (XX)1 XY
2、正规方程组的另一种表达
XY XXβ ˆ
分布参数的 ML估计量
3、似然函数
Yi 0 1 X1i 2 X 2i k X ki i
)
Yi ~ N(Xiβ, 2 )
i ~ N (0, 2 )
L(βˆ , 2 ) P(Y1 ,Y2 , ,Yn )
1
e
1 2
2
(Yi
( ˆ0
ˆ1 X1i
ˆ2
X
2i
ˆk
X
ki
))2
(2
• 以上假设(正态性假设除外)也称为线性回归 模型的经典假设或高斯(Gauss)假设,满足 该假设的线性回归模型,也称为经典线性回归 模型(Classical Linear Regression Model, CLRM)。
• 同时满足正态性假设的线性回归模型,称为经 典正态线性回归模型(Classical Normal Linear Regression Model, CNLRM)。
XXβˆ Xe XXβˆ
Xe 0
i
ei 0
Xijei 0
i
j 1,2,L , k
该正规方程 组成立的条 件是什么?
3、随机误差项的方差的无偏估计 e Y Xβˆ
Xβμ X(XX)1 X(Xβμ) μ X(XX)1 Xμ (I X(XX)1 X)μ Mμ
ee μMMμ μMμ
第三章 经典单方程计量经济学模型:多 元线性回归模型
Multiple Linear Regression Model
本章内容
• 多元线性回归模型概述 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测 • 可化为线性的非线性模型 • 受约束回归
§3.1 多元线性回归模型概述 (Regression Analysis)
0 0
对数似然函 数极大化的 一阶条件
ˆ
0
ˆ1
X
2 i
Yi
X i Yi
nX
2 i
(X i ) 2
nYi X i Yi X
nX
2 i
(X i ) 2
X
i
i
结构参数的 ML估计量
2
L*
n 2 2
1 2 2
(Yi
ˆ0
ˆ1 X i )2
0
ˆ
2
1 n
(Yi
ˆ0
ˆ1 X i )2
ei2 n
n
X 1i
X1i
X
2 1i
X ki
X ki X 1i
X X 1i
X
ki
X
2 ki
ki
ˆ0 ˆ1
ˆ k
1 X 11 X k1
1 X 12 Xk2
1 Y1
X 1n Y2
Xk
n
Yn
(XX)βˆ XY
条件?
βˆ (XX)1 XY
• OLS估计的矩阵表示
总体回归函数
• 总体回归函数:描述在给定解释变量Xi条件下 被解释变量Yi的条件均值。
E(Yi | X1i , X 2i , X ki ) 0 1 X1i 2 X 2i k X ki
j也被称为偏回归系数(partial regression
coefficients),表示在其他解释变量保持不变 的情况下,Xj每变化1个单位时,Y的均值 E(Y)的变化。
非条件同方差性质:
• 序列不相关假设。 • 各随机误差项之间无自相关性。
Cov(i, j Xi , X j ) 0, i, j 1,2,L , n, i j
是否满足需要检验。
4、随机项的正态性假设
• 在采用OLS进行参数估计时,不需要正态性假 设。在利用参数估计量进行统计推断时,需要 假设随机项的概率分布。
• 一般假设随机项服从正态分布。可以利用中心 极限定理(central limit theorem, CLT)进行 证明。
• 正态性假设。The μ’s follow the normal distribution.
i ~ N (0, 2 ) i ~ NID(0, 2 )
5、CLRM 和 CNLRM
ˆ
2 ML
§3.2 多元线性回归模型的估计
一、普通最小二乘估计 二、最大或然估计 三、矩估计 四、参数估计量的性质 五、样本容量问题 六、估计实例
说明
估计方法: – 3大类方法:OLS、ML或者MM – 在经典模型中多应用OLS – 在非经典模型中多应用ML或者MM
一、普通最小二乘估计(OLS)
1、普通最小二乘估计
总体回归模型
• 总体回归模型:总体回归函数的随机表达形式
Yi 0 1 X1i 2 X 2i k X ki i i=1,2…,n
k为解释变量的数目。 习惯上,把常数项看成为虚变量的系数,该虚 变量的样本观测值始终取1。于是,模型中解 释变量的数目为(k+1)。
j称为回归系数(regression coefficient)。
1
μ
2
n
n1
样本回归函数与样本回归模型
• 从一次抽样中获得的总体回归函数的近似,称为样
本回归函数(sample regression function)。
• 样本回归函数的随机形式,称为样本回归模型 (sample regression model)。
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki
使总体回归函数的随机形式与确定形式等价的关 键假设。
• 同方差假设:给定X的条件下,对所有观测, 方差都是相同的。
Var(i Xi ) 2, i 1, 2,L , n
是否满足需要检验。
含义:条件同方差假设是指随机误差项的 方差不依赖于X的变化而变化,且总为常数
根据期望迭代法则:
非条件零均值性质:
X ki ) ) X 1i ) X 2i
Yi Yi Yi
X 1i X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
ˆ j , j 0,1,2, , k
解该(k+1)个方程组成的线性代数方程组, 即可得到(k+1)个待估参数的估计值
•正规方程组的矩阵形式
)
n 2
n
1
1 (YXβˆ )(YXβˆ )
e 2 2
(2
)
n 2
n
4、ML估计量
• 由对数似然函数求极大,得到参数估计量
Max L* Ln(L)
nLn(
2
)
1
2
2
(Y
Xβˆ )
(Y
Xβˆ )
Min (Y Xβˆ )(Y Xβˆ )
βˆ (XX)1 XY
结果与参数的OLS估计相同
• 分布参数估计结果与OLS不同
• 最小二乘原理:根据被解释变量的所有观测值 与估计值之差的平方和最小的原则求得参数估 计量。
• 即使残差平方和最小的参数估计量。
• 步骤:
(Yi , X ji ), i 1,2, , n, j 0,1,2, k
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X Ki
n
n
Q ei2 (Yi Yˆi ) 2
M为等幂矩阵
E(ee) E(μ(I X(XX)1 X)μ)
2tr(I X(XX)1 X) 2 (trI tr(X(XX)1 X)) 2 (n (k 1))
2 E(ee)
nk 1
ˆ 2 ee
nk 1
二、最大似然估计
1、最大似然法
• 最大似然法(Maximum Likelihood,ML),也称 最大或然法,是不同于最小二乘法的另一种参 数估计方法,是从最大或然原理出发发展起来 的其它估计方法的基础。
• ML必须已知随机项的分布。
2、估计步骤:以一元模型为例
Yi ~ N(ˆ0 ˆ1 X i , 2 )
Yi的分布
P(Yi )
1
e
1
2
2
(Yi
ˆ0
ˆ1
X
i
)
2
2
Yi的概率函数
2、关于解释变量的假设 • 确定性假设。 • 解释变量X是确定性变量,不是随机变量,
在重复抽样中取固定值。 • 与随机项不相关假设。
cov( Xi , i ) 0, i 1, 2,L , n E(Xii ) 0, i 1, 2,L , n
由确定性假设可以推断。
• 无完全多重共线性假设。
• 各解释变量之间不存在严格线性相关性 适用于多元线性回归模型。
1、关于模型关系的假设
• 模型设定正确假设。The regression model is correctly specified.
• 线性回归假设。The regression model is linear in the parameters。
Yi 0 1 X 1i 2 X 2i k X ki i
关于经典回归模型的假定
标量符号 1、解释变量X1, X2,…, Xn是非随机的或固定 的;而且各X之间互不相关(无多重共线性)
矩阵符号
1、n×(k+1)矩阵X是非随机的;且X的秩
R(X)=k+1,即X列满秩。XTX也是满秩的
标量符号
2、 E(i Xi ) 0, i 1, 2,L , n
Var(i Xi ) 2, i 1, 2,L , n
i 1
i 1
n
2
(Yi (ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ))
i 1
Min Q
已知
假定
ˆ
0
Q
0
ˆ1
Q
0
ˆ
2
Q
0
ˆ k
Q
0
((ˆˆ00(ˆ0ˆˆ11XX1ˆ1i1i X1ˆiˆ22i XXˆ222ii
X 2i ˆk ˆk X ki ˆk X ki
• 样本方差假设。随着样本容量的无限增
加,解释变量X的样本方差趋于一有限常
数。
时间序列数据作
样本时间适用
(X i X )2 / n Q, n
3、关于随机项的假设
• 0均值假设。给定X的条件下,随机误差项的均 值为0.
E(i Xi ) 0, i 1,2,L ,n
由模型设定正确假设推断。
含义:随机误差项的条件零均值假设是指它的期望 不依赖与X的变化而变化,且总为常数零。也就是 说,随机误差项与解释变量不相关。
Yi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki ei
样本回归函数的矩阵表示
Yˆ Xβˆ
Y Xβˆ e
ˆ0
βˆ
ˆ1
ˆk
e1
e
e2 en
二、多元线性回归模型的基本假设
当多元线性回归模型满足下列的基本假设的情况下,可以采用 普通最小二乘法(OLS)估计参数。
3、 E( X ') 0 即
i E(1)
E
X i1 i
X
i1E
(i
)
0
X ik i X ik E(i )
标量符号 4、(为了假设检验)随机误差项服从正态分布
i X ~ N(0, 2)
i 1,2, , n
矩阵符号
4、 向量为一多维正态分布,
X ~ N(0, 2In )
一、多元线性回归模型 二、多元线性回归模型的基本假设
一、多元线性回归模型
多元线性回归模型的形式
由于: 在实际经济问题中,一个变量往往受到多个原 因变量的影响; “从一般到简单”的建模思路。
所以,在线性回归模型中的解释变量有多个,至 少开始是这样。这样的模型被称为多元线性回 归模型。
多元线性回归模型参数估计与一元线性回归模型 相同,只是计算更为复杂。
或者说j给出了Xj的单位变化对Y均值的
“直接”或“净”(不含其他变量)影响。
总体回归模型的矩阵表示 Y Xβ μ
1 X 11 X 21 X 1 X 12 X 22
1 X 1n X 2 n
X k1
X
k
2
X
kn
n(k 1)
Y1
Y
Y2
Yn
n1
0
1
β
2
k ( k 1)1
L(ˆ0 , ˆ1, 2 ) P(Y1,Y2 , ,Yn )
1
e
1
2
2
(Yi
ˆ0
ˆ1
X
i
)
2
(2
)
n 2
n
Y的所有样
本观测值的 联合概率— 似然函数
L* ln(L)
n ln(
2 )Biblioteka 122(Yi
ˆ0
ˆ1 X i
)2
对数似然 函数
ˆ
0
ˆ1
(Yi (Yi
ˆ0 ˆ0
ˆ1 X i )2 ˆ1 X i )2
Cov(i , j Xi , X j ) 0, i, j 1, 2,L , n, i j
矩阵符号
2、 E( ) 0, Var( ) E( ') 2I
12 E( ' X ) E
n
1
1n 2
X
2 n
0
0
2I
2
标量符号 3、解释变量与随机误差项不相关。
矩阵符号
n
Q ei2 ee (Y Xβˆ )(Y Xβˆ ) i 1
βˆ (Y Xβˆ )(Y Xβˆ ) 0 βˆ (YY βˆ XY YXβˆ βˆ XXβˆ ) 0
XY XXβˆ 0
XY XXβ ˆ
βˆ (XX)1 XY
2、正规方程组的另一种表达
XY XXβ ˆ
分布参数的 ML估计量
3、似然函数
Yi 0 1 X1i 2 X 2i k X ki i
)
Yi ~ N(Xiβ, 2 )
i ~ N (0, 2 )
L(βˆ , 2 ) P(Y1 ,Y2 , ,Yn )
1
e
1 2
2
(Yi
( ˆ0
ˆ1 X1i
ˆ2
X
2i
ˆk
X
ki
))2
(2
• 以上假设(正态性假设除外)也称为线性回归 模型的经典假设或高斯(Gauss)假设,满足 该假设的线性回归模型,也称为经典线性回归 模型(Classical Linear Regression Model, CLRM)。
• 同时满足正态性假设的线性回归模型,称为经 典正态线性回归模型(Classical Normal Linear Regression Model, CNLRM)。
XXβˆ Xe XXβˆ
Xe 0
i
ei 0
Xijei 0
i
j 1,2,L , k
该正规方程 组成立的条 件是什么?
3、随机误差项的方差的无偏估计 e Y Xβˆ
Xβμ X(XX)1 X(Xβμ) μ X(XX)1 Xμ (I X(XX)1 X)μ Mμ
ee μMMμ μMμ
第三章 经典单方程计量经济学模型:多 元线性回归模型
Multiple Linear Regression Model
本章内容
• 多元线性回归模型概述 • 多元线性回归模型的参数估计 • 多元线性回归模型的统计检验 • 多元线性回归模型的预测 • 可化为线性的非线性模型 • 受约束回归
§3.1 多元线性回归模型概述 (Regression Analysis)
0 0
对数似然函 数极大化的 一阶条件
ˆ
0
ˆ1
X
2 i
Yi
X i Yi
nX
2 i
(X i ) 2
nYi X i Yi X
nX
2 i
(X i ) 2
X
i
i
结构参数的 ML估计量
2
L*
n 2 2
1 2 2
(Yi
ˆ0
ˆ1 X i )2
0
ˆ
2
1 n
(Yi
ˆ0
ˆ1 X i )2
ei2 n
n
X 1i
X1i
X
2 1i
X ki
X ki X 1i
X X 1i
X
ki
X
2 ki
ki
ˆ0 ˆ1
ˆ k
1 X 11 X k1
1 X 12 Xk2
1 Y1
X 1n Y2
Xk
n
Yn
(XX)βˆ XY
条件?
βˆ (XX)1 XY
• OLS估计的矩阵表示
总体回归函数
• 总体回归函数:描述在给定解释变量Xi条件下 被解释变量Yi的条件均值。
E(Yi | X1i , X 2i , X ki ) 0 1 X1i 2 X 2i k X ki
j也被称为偏回归系数(partial regression
coefficients),表示在其他解释变量保持不变 的情况下,Xj每变化1个单位时,Y的均值 E(Y)的变化。
非条件同方差性质:
• 序列不相关假设。 • 各随机误差项之间无自相关性。
Cov(i, j Xi , X j ) 0, i, j 1,2,L , n, i j
是否满足需要检验。
4、随机项的正态性假设
• 在采用OLS进行参数估计时,不需要正态性假 设。在利用参数估计量进行统计推断时,需要 假设随机项的概率分布。
• 一般假设随机项服从正态分布。可以利用中心 极限定理(central limit theorem, CLT)进行 证明。
• 正态性假设。The μ’s follow the normal distribution.
i ~ N (0, 2 ) i ~ NID(0, 2 )
5、CLRM 和 CNLRM
ˆ
2 ML
§3.2 多元线性回归模型的估计
一、普通最小二乘估计 二、最大或然估计 三、矩估计 四、参数估计量的性质 五、样本容量问题 六、估计实例
说明
估计方法: – 3大类方法:OLS、ML或者MM – 在经典模型中多应用OLS – 在非经典模型中多应用ML或者MM
一、普通最小二乘估计(OLS)
1、普通最小二乘估计
总体回归模型
• 总体回归模型:总体回归函数的随机表达形式
Yi 0 1 X1i 2 X 2i k X ki i i=1,2…,n
k为解释变量的数目。 习惯上,把常数项看成为虚变量的系数,该虚 变量的样本观测值始终取1。于是,模型中解 释变量的数目为(k+1)。
j称为回归系数(regression coefficient)。
1
μ
2
n
n1
样本回归函数与样本回归模型
• 从一次抽样中获得的总体回归函数的近似,称为样
本回归函数(sample regression function)。
• 样本回归函数的随机形式,称为样本回归模型 (sample regression model)。
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X ki
使总体回归函数的随机形式与确定形式等价的关 键假设。
• 同方差假设:给定X的条件下,对所有观测, 方差都是相同的。
Var(i Xi ) 2, i 1, 2,L , n
是否满足需要检验。
含义:条件同方差假设是指随机误差项的 方差不依赖于X的变化而变化,且总为常数
根据期望迭代法则:
非条件零均值性质:
X ki ) ) X 1i ) X 2i
Yi Yi Yi
X 1i X 2i
(ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki Yi X ki
ˆ j , j 0,1,2, , k
解该(k+1)个方程组成的线性代数方程组, 即可得到(k+1)个待估参数的估计值
•正规方程组的矩阵形式
)
n 2
n
1
1 (YXβˆ )(YXβˆ )
e 2 2
(2
)
n 2
n
4、ML估计量
• 由对数似然函数求极大,得到参数估计量
Max L* Ln(L)
nLn(
2
)
1
2
2
(Y
Xβˆ )
(Y
Xβˆ )
Min (Y Xβˆ )(Y Xβˆ )
βˆ (XX)1 XY
结果与参数的OLS估计相同
• 分布参数估计结果与OLS不同
• 最小二乘原理:根据被解释变量的所有观测值 与估计值之差的平方和最小的原则求得参数估 计量。
• 即使残差平方和最小的参数估计量。
• 步骤:
(Yi , X ji ), i 1,2, , n, j 0,1,2, k
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆki X Ki
n
n
Q ei2 (Yi Yˆi ) 2
M为等幂矩阵
E(ee) E(μ(I X(XX)1 X)μ)
2tr(I X(XX)1 X) 2 (trI tr(X(XX)1 X)) 2 (n (k 1))
2 E(ee)
nk 1
ˆ 2 ee
nk 1
二、最大似然估计
1、最大似然法
• 最大似然法(Maximum Likelihood,ML),也称 最大或然法,是不同于最小二乘法的另一种参 数估计方法,是从最大或然原理出发发展起来 的其它估计方法的基础。