计量经济学(第三章多元线性回归)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 多元线性回归模型
本章主要内容
第一节 多元线性回归模型及古典假定 第二节 多元线性回归模型的估计 第三节 多元线性回归模型的检验 第四节 多元线性回归模型的预测 第五节 实例
第一节 多元线性回归模型及 古典假定
主要介绍 1.1 多元线性回归模型及其矩阵表示 1.2 模型的古典假定
(2)估计值Y i 的均值等于实际观测值Yi的均值
(3)剩余项(残差)ei的均值为0
(4)应变量估计值Y i 与残差ei不相关;
(5)解释变量X i与残差ei不相关
2.3 OLS估计量的性质
也完全同一元情形:
(1)线性: =([ X ' X)1X ]Y是关于Y的线性函数
(2)无偏性: E( ) (3)最小方差性:在所有的线性无偏估计中,OLS估
3.1.1 拟合优度检验 -总变差、自由度的分解
目的:构造一个不含单位,可以相互比 较,而且能直观判断拟合优劣的指标。
类似于一元情形,先将多元线性回归作 如下变差分解:
(Yi Y )2
TSS
(Yi Yi )2 (Yi Y )2
RSS ESS
总离差平方和 = 残差平方和 +回归平方和
或者
Y
F
=X
' F
4.2.2应变量个别值的区间预测
选取残差变量eF=YF Y F
易证得:eF~N
(0,
2 [1
X
F
(
X
'
X
)1
X
' F
])
2
用 代替 2,构造统计量:
t
eF
0
YF Y F
~ t(n k 1)
se(eF )
[1
X
F
(X
'
X
)1
X
' F
]
给定显著水平,查表....(.. 步骤方法完全同上)
5. 案例分析
实验
第五节 受约束回归
在建立回归模型时,有时根据经济理论需对 模型中变量的参数施加一定的约束条件。
模型施加约束条件后进行回归,称为受约束 回归(restricted regression);
不加任何约束的回归称为无约束回归 (unrestricted regression)。
3.4.2 拟合优度和F检验的关系
(1)都是对回归方程的显著性检验; (2)都是把总变差分解,以构成统计量进
行检验;
(3)两者同增同减,具有一致性。
在数量上,它们有如下关系
2
F
n
k k
1
R
2
1 R
,
2
R 1
n 1
n k 1 kF
拟合优度和F检验的关系(续)
区别: (1)F检验中使用的统计量有精确的分布,
假定5 正态性。假定 ui ~ N (0, 2 ) i 1,2,...,k
第二节 多元线性回归模型的 估计
本节主要介绍 2.1 参数的最小二乘估计(OLS); 2.2 OLS回归线的性质 2.3 参数的最小二乘估计量的性质; 2.4 随机扰动项的方差估计。
2.1 参数的最小二乘估计(OLS)
Var(U ) 2In
模型的古典假定(二)
假定3 随机扰动项与解释变量不相关。
即 Cov( X ji , ui ) 0 j 2,3,...... , k
假定4 无多重共线性。
此即假定解释变量向量之间线性无关,
这样,解释变量矩阵X列满秩:R(X)=k。
此时,有
R( X ' X ) k, X ' X可逆。
3.3 回归方程的显著性检验 ——(F检验)
回归系数的t检验,检验了各个解释变 量Xj单独对应变量Y是否显著;我们还需 要检验:所有解释变量联合在一起,是 否对应变量Y也显著?
这即是下面所要进行的F检验。
3.3.1 方差分析表
以下用表格的形式列出变差、自由度、方差
变差来源 平方和 自由度
方差
j
将原模型Y X e两端同左乘以X ',
有:X 'Y X ' X +X 'e (由上,X 'e 0)
所以:X 'Y X ' X (各Xi线性无关 X ' X 可逆)
从而得
=(X
'
X)-1
X
'Y
2.2 OLS回归线的性质
完全同一元情形:
(1)回归线过样本均值
Y 0 1 X 1i 2 X 2i ... k X ki
以下给出t-检验的具体过程
(1) 提出假设:H0: j 0 H1: j 0 j 1, 2,..., k
(2)
根据样本计算t
j j
j0
j
c jj c jj c jj
(3) 给出显著水平,查表,得临界值t /2 (n k 1)
(4) 判断:若|t| t /2 (n k 1), 拒绝原假设,接受 备择假设。反之则反。
自由度:n-1
n-k-1 k
对以上自由度的分解的说明
3.1.2 可决系数 R2
可决系数的定义:
TSS RSS ESS 1 RSS ESS TSS TSS
R2
ESS TSS
1
RSS TSS
意义:可决系数越大,自变量对因变量的解释
程度越高,自变量引起的变动占总变动的百分
比高。观察点在回归直线附近越密集。
(所以在一元情形,只需要进行一种检验) 多元中,不存在以上关系。
第四节 多元线性回归模型的 预测
4.1 应变量平均值的点预测、区间预测; 4.2 应变量个别值的点预测、区间预测;
4.1 应变量平均值的点预测、区间预测
4.1.1 Y平均值的点预测 将解释变量预测值代入估计的方程便可:
Y F 1 2 X F 2 3 X F3 ... k X Fk
或者
Y
F
=X
' F
4.1.2 Y平均值的区间预测
基本思想
(1)由于存在抽样波动,预测的平均值 Y F 也是个变量, 不一定等于真实平均值E(YF / X F );还需要对真实平均 值作区间估计;
(2)为此,需要确定预测的平均值 Y F 的抽样分布,
以及找出与 Y F 和E(YF / X F )均有关的统计量。
而拟合优度检验没有; (2)对是否通过检验,可决系数(修正可
决系数)只能给出一个模糊的推测;而F 检验可以在给定显著水平下,给出统计 上的严格结论;
3.4.2 F-检验和t-检验的关系
在一元的情形,两者是一致的,等价的。 对单个解释变量显著性进行t检验,也就 检验了解释变量的整体显著性(F检验); 并且可以证明:F=t2
Y平均值的区间预测 ——具体作法
可证明: Y F ~ N (E(YF ),
2[ 1 n
(XF
X xi2
)2
])
用
2
代替
2,得 se(Y
F )。构造统计量:t
Y
F
E(YF )
~
t(n
k
1)
se(Y F )
给出临界值,查表得t /2 (n k 1),则:
P[Y F t /2 (n k 1) se(Y F ) E(YF ) Y F t /2 (n k 1)) se(Y F )] 1
取值范围:0-1
3.1.3 修正可决系数 R2
为什么要修正?
可决系数随解释变量个数的增加而增大。易 造成错觉:要模型拟合得越好,就应增加解 释变量。然而增加解释变量会降低自由度, 减少可用的样本数。并且有时增加解释变量 是不必要的。
导致解释变量个数不同模型之间对比困难。
可决系数只涉及变差,没有考虑自由度。
从而得到E(YF )得区间估计:
[Y F t /2 (n k 1) se(Y F ), Y F t /2 (n k 1)) se(Y F )]
4.2 应变量个别值的点预测、 区间预测
4.2.1 点预测:与应变量平均值点预测 相等,为:
Y F 1 2 X F 2 3 X F3 ... k X Fk
是Y的线性函数 j 正态)
2.4 随机扰动项方差的估计
2
扰动项的方差 2估计:
ei2
n k 1
其中n为样本容量,k为待估参数个数。
2
(比较:一元情形:
ei2 ,待估参数有2个)
n2
第三节 多元线性回归模型的 检验
本节主要介绍:
3.1 拟合优度检验(多重可决系数及其修正) 3.2 回归参数的显著性检验(t-检验) 3.3 回归方程的显著性检验(F-检验) 3.4 拟合优度、t-检验、F-检验的关系
k
1
2 ,
k
Βιβλιοθήκη Baidu
u1
e1
U
u2
e
e2
un
en
Y X U
Y X e
1.2 模型的古典假定(一)
假设1 误差项无偏——随机扰动项均值 为0:E(ui )=0
假设2 同方差和无自相关
2 i j
Cov(ui
,u
j
)
0
i j
i, j 1,2,......,n
用矩阵表示,则扰动项的方差— 协方差矩阵如下
如何才能缩小置信区间?
• 增大样本容量n,因为在同样的样本容量下, n越大,t分布表中的临界值越小,同时,增大 样本容量,还可使样本参数估计量的标准差减 小;
• 提高模型的拟合优度,因为样本参数估计量 的标准差与残差平方和呈正比,模型优度越高, 残差平方和应越小。
提高样本观测值的分散度,也就是说变量必 须变化大。
源于回归 源于残差 总变差
2
ESS (Y i Y )
2
RSS (Yi Y i )
2
TSS (Yi Y )
K n-k-1 n-1
ESS / k RSS /(n k 1)
TSS /(n 1)
3.3.2 F-检验(单侧检验)
(1) H0 : 1 3 ... k 0 H1 : 1, 2,..., k不全为0
R2取值可能为负,这时规定R2=0
3.2 回归参数的显著性检验 —— t-检验
先要找出回归系数的分布,由前面知道:
j ~ N ( j , 2c jj ),
其中c jj为(X'X)1的第j行第j列的元素。
2
将 j 标准化。一般有 2未知。用 代替,
得统计量
t
jj
~ t(n k
1)
c jj
以下可用t统计量来进行回归系数的假设检验。
多元样本回归函数:
Y i 0 1 X1i 2 X 2i...... k X ki
回归剩余(残差):ei Yi Y i
多元线性回归模型的矩阵表示
Y1
Y
Y2
,
Yn
1
X
1
X12 X13
X 22 X 23
1 X n2 X n3
X1k X 2k
X nk
1
2
,
(2)选择、(根据样本)计算统计量
F ESS / k ~ F(k, n k 1) RSS /(n k 1)
(3)给出显著性水平,查表,得F (k, n k 1);
(4)判断:若F F (k, n k 1),拒绝原假设, 接受备择假设,。反之则反。
3.4 各种检验之间的关系
3.4.1 经济意义检验和其他检验的关系 联 系: 判断一个回归模型是否正确,首先要看 模型是否具有合理的经济意义,其次才是 统计检验。
数(regression coefficient)。
习惯上:把常数项看成为一虚变量 的系数,该虚变量的样本观测值始终取1。 这样:
模型中解释变量的数目为(k+1)
多元线性回归模型形式(续)
多元总体回归函数 (条件期望形式):
E(Yi / X1i , X 2i , X3i...X ki ) 0 1X1i 2 X 2i ...... k X ki
修正思路:
引进自由度校正所计算的变差。
修正可决系数 R2(续)
2
R
1
RSS
/(n
k
1)
TSS /(n 1)
修正可决系数和未修正的可决系数的关系:
(1)
2
R
1(1 R2)
n 1
n k 1
(2) k 1时,R2 R2 ,且随着解释变量的增加
两者的差距将越来越大.
(3) 可决系数R2非负(取值在[0,1]);但是,
对多元线性回归方程的最小二乘估计和 分析是一元情形的推广。所使用的前提 假定、估计方法、估计结果的性质等等 都同于一元的情形。
OLS:原则、求解、结果
OLS原则: min
ei2
(Yi ( 0 1 X1i ... k X ki ))2
求解:
由
ei2
0,
j 0,1, 2,..., k,可得X 'e 0;
1.1.1 多元线性回归模型形式
一般形式(随机扰动形式,注意X的下 标):
Yi 0 1 X1i 2 X 2i ......k X ki ui 模型中,(j j 1, 2,..., k)是偏回归系数:
控制其他解释变量不变的条件下, 第j个解释变量的单位变动对应变量平均 值的影响。
其中:k为解释变量的数目,j称为回归参
计式 具有最小方差。
结论:在古典假定下,OLS估计式 是最佳线性
无偏估计(BLUE)
OLS估计量的性质(续)
(4)在古典假定下, j ~ N ( j ,Var( j )), j 1,2,...,k
其中,Var( j ) 2c jj , c jj是(X'X)1中对角线上第j
个元素。
(ui正态,Y是ui的线性函数 Y正态,又 j
本章主要内容
第一节 多元线性回归模型及古典假定 第二节 多元线性回归模型的估计 第三节 多元线性回归模型的检验 第四节 多元线性回归模型的预测 第五节 实例
第一节 多元线性回归模型及 古典假定
主要介绍 1.1 多元线性回归模型及其矩阵表示 1.2 模型的古典假定
(2)估计值Y i 的均值等于实际观测值Yi的均值
(3)剩余项(残差)ei的均值为0
(4)应变量估计值Y i 与残差ei不相关;
(5)解释变量X i与残差ei不相关
2.3 OLS估计量的性质
也完全同一元情形:
(1)线性: =([ X ' X)1X ]Y是关于Y的线性函数
(2)无偏性: E( ) (3)最小方差性:在所有的线性无偏估计中,OLS估
3.1.1 拟合优度检验 -总变差、自由度的分解
目的:构造一个不含单位,可以相互比 较,而且能直观判断拟合优劣的指标。
类似于一元情形,先将多元线性回归作 如下变差分解:
(Yi Y )2
TSS
(Yi Yi )2 (Yi Y )2
RSS ESS
总离差平方和 = 残差平方和 +回归平方和
或者
Y
F
=X
' F
4.2.2应变量个别值的区间预测
选取残差变量eF=YF Y F
易证得:eF~N
(0,
2 [1
X
F
(
X
'
X
)1
X
' F
])
2
用 代替 2,构造统计量:
t
eF
0
YF Y F
~ t(n k 1)
se(eF )
[1
X
F
(X
'
X
)1
X
' F
]
给定显著水平,查表....(.. 步骤方法完全同上)
5. 案例分析
实验
第五节 受约束回归
在建立回归模型时,有时根据经济理论需对 模型中变量的参数施加一定的约束条件。
模型施加约束条件后进行回归,称为受约束 回归(restricted regression);
不加任何约束的回归称为无约束回归 (unrestricted regression)。
3.4.2 拟合优度和F检验的关系
(1)都是对回归方程的显著性检验; (2)都是把总变差分解,以构成统计量进
行检验;
(3)两者同增同减,具有一致性。
在数量上,它们有如下关系
2
F
n
k k
1
R
2
1 R
,
2
R 1
n 1
n k 1 kF
拟合优度和F检验的关系(续)
区别: (1)F检验中使用的统计量有精确的分布,
假定5 正态性。假定 ui ~ N (0, 2 ) i 1,2,...,k
第二节 多元线性回归模型的 估计
本节主要介绍 2.1 参数的最小二乘估计(OLS); 2.2 OLS回归线的性质 2.3 参数的最小二乘估计量的性质; 2.4 随机扰动项的方差估计。
2.1 参数的最小二乘估计(OLS)
Var(U ) 2In
模型的古典假定(二)
假定3 随机扰动项与解释变量不相关。
即 Cov( X ji , ui ) 0 j 2,3,...... , k
假定4 无多重共线性。
此即假定解释变量向量之间线性无关,
这样,解释变量矩阵X列满秩:R(X)=k。
此时,有
R( X ' X ) k, X ' X可逆。
3.3 回归方程的显著性检验 ——(F检验)
回归系数的t检验,检验了各个解释变 量Xj单独对应变量Y是否显著;我们还需 要检验:所有解释变量联合在一起,是 否对应变量Y也显著?
这即是下面所要进行的F检验。
3.3.1 方差分析表
以下用表格的形式列出变差、自由度、方差
变差来源 平方和 自由度
方差
j
将原模型Y X e两端同左乘以X ',
有:X 'Y X ' X +X 'e (由上,X 'e 0)
所以:X 'Y X ' X (各Xi线性无关 X ' X 可逆)
从而得
=(X
'
X)-1
X
'Y
2.2 OLS回归线的性质
完全同一元情形:
(1)回归线过样本均值
Y 0 1 X 1i 2 X 2i ... k X ki
以下给出t-检验的具体过程
(1) 提出假设:H0: j 0 H1: j 0 j 1, 2,..., k
(2)
根据样本计算t
j j
j0
j
c jj c jj c jj
(3) 给出显著水平,查表,得临界值t /2 (n k 1)
(4) 判断:若|t| t /2 (n k 1), 拒绝原假设,接受 备择假设。反之则反。
自由度:n-1
n-k-1 k
对以上自由度的分解的说明
3.1.2 可决系数 R2
可决系数的定义:
TSS RSS ESS 1 RSS ESS TSS TSS
R2
ESS TSS
1
RSS TSS
意义:可决系数越大,自变量对因变量的解释
程度越高,自变量引起的变动占总变动的百分
比高。观察点在回归直线附近越密集。
(所以在一元情形,只需要进行一种检验) 多元中,不存在以上关系。
第四节 多元线性回归模型的 预测
4.1 应变量平均值的点预测、区间预测; 4.2 应变量个别值的点预测、区间预测;
4.1 应变量平均值的点预测、区间预测
4.1.1 Y平均值的点预测 将解释变量预测值代入估计的方程便可:
Y F 1 2 X F 2 3 X F3 ... k X Fk
或者
Y
F
=X
' F
4.1.2 Y平均值的区间预测
基本思想
(1)由于存在抽样波动,预测的平均值 Y F 也是个变量, 不一定等于真实平均值E(YF / X F );还需要对真实平均 值作区间估计;
(2)为此,需要确定预测的平均值 Y F 的抽样分布,
以及找出与 Y F 和E(YF / X F )均有关的统计量。
而拟合优度检验没有; (2)对是否通过检验,可决系数(修正可
决系数)只能给出一个模糊的推测;而F 检验可以在给定显著水平下,给出统计 上的严格结论;
3.4.2 F-检验和t-检验的关系
在一元的情形,两者是一致的,等价的。 对单个解释变量显著性进行t检验,也就 检验了解释变量的整体显著性(F检验); 并且可以证明:F=t2
Y平均值的区间预测 ——具体作法
可证明: Y F ~ N (E(YF ),
2[ 1 n
(XF
X xi2
)2
])
用
2
代替
2,得 se(Y
F )。构造统计量:t
Y
F
E(YF )
~
t(n
k
1)
se(Y F )
给出临界值,查表得t /2 (n k 1),则:
P[Y F t /2 (n k 1) se(Y F ) E(YF ) Y F t /2 (n k 1)) se(Y F )] 1
取值范围:0-1
3.1.3 修正可决系数 R2
为什么要修正?
可决系数随解释变量个数的增加而增大。易 造成错觉:要模型拟合得越好,就应增加解 释变量。然而增加解释变量会降低自由度, 减少可用的样本数。并且有时增加解释变量 是不必要的。
导致解释变量个数不同模型之间对比困难。
可决系数只涉及变差,没有考虑自由度。
从而得到E(YF )得区间估计:
[Y F t /2 (n k 1) se(Y F ), Y F t /2 (n k 1)) se(Y F )]
4.2 应变量个别值的点预测、 区间预测
4.2.1 点预测:与应变量平均值点预测 相等,为:
Y F 1 2 X F 2 3 X F3 ... k X Fk
是Y的线性函数 j 正态)
2.4 随机扰动项方差的估计
2
扰动项的方差 2估计:
ei2
n k 1
其中n为样本容量,k为待估参数个数。
2
(比较:一元情形:
ei2 ,待估参数有2个)
n2
第三节 多元线性回归模型的 检验
本节主要介绍:
3.1 拟合优度检验(多重可决系数及其修正) 3.2 回归参数的显著性检验(t-检验) 3.3 回归方程的显著性检验(F-检验) 3.4 拟合优度、t-检验、F-检验的关系
k
1
2 ,
k
Βιβλιοθήκη Baidu
u1
e1
U
u2
e
e2
un
en
Y X U
Y X e
1.2 模型的古典假定(一)
假设1 误差项无偏——随机扰动项均值 为0:E(ui )=0
假设2 同方差和无自相关
2 i j
Cov(ui
,u
j
)
0
i j
i, j 1,2,......,n
用矩阵表示,则扰动项的方差— 协方差矩阵如下
如何才能缩小置信区间?
• 增大样本容量n,因为在同样的样本容量下, n越大,t分布表中的临界值越小,同时,增大 样本容量,还可使样本参数估计量的标准差减 小;
• 提高模型的拟合优度,因为样本参数估计量 的标准差与残差平方和呈正比,模型优度越高, 残差平方和应越小。
提高样本观测值的分散度,也就是说变量必 须变化大。
源于回归 源于残差 总变差
2
ESS (Y i Y )
2
RSS (Yi Y i )
2
TSS (Yi Y )
K n-k-1 n-1
ESS / k RSS /(n k 1)
TSS /(n 1)
3.3.2 F-检验(单侧检验)
(1) H0 : 1 3 ... k 0 H1 : 1, 2,..., k不全为0
R2取值可能为负,这时规定R2=0
3.2 回归参数的显著性检验 —— t-检验
先要找出回归系数的分布,由前面知道:
j ~ N ( j , 2c jj ),
其中c jj为(X'X)1的第j行第j列的元素。
2
将 j 标准化。一般有 2未知。用 代替,
得统计量
t
jj
~ t(n k
1)
c jj
以下可用t统计量来进行回归系数的假设检验。
多元样本回归函数:
Y i 0 1 X1i 2 X 2i...... k X ki
回归剩余(残差):ei Yi Y i
多元线性回归模型的矩阵表示
Y1
Y
Y2
,
Yn
1
X
1
X12 X13
X 22 X 23
1 X n2 X n3
X1k X 2k
X nk
1
2
,
(2)选择、(根据样本)计算统计量
F ESS / k ~ F(k, n k 1) RSS /(n k 1)
(3)给出显著性水平,查表,得F (k, n k 1);
(4)判断:若F F (k, n k 1),拒绝原假设, 接受备择假设,。反之则反。
3.4 各种检验之间的关系
3.4.1 经济意义检验和其他检验的关系 联 系: 判断一个回归模型是否正确,首先要看 模型是否具有合理的经济意义,其次才是 统计检验。
数(regression coefficient)。
习惯上:把常数项看成为一虚变量 的系数,该虚变量的样本观测值始终取1。 这样:
模型中解释变量的数目为(k+1)
多元线性回归模型形式(续)
多元总体回归函数 (条件期望形式):
E(Yi / X1i , X 2i , X3i...X ki ) 0 1X1i 2 X 2i ...... k X ki
修正思路:
引进自由度校正所计算的变差。
修正可决系数 R2(续)
2
R
1
RSS
/(n
k
1)
TSS /(n 1)
修正可决系数和未修正的可决系数的关系:
(1)
2
R
1(1 R2)
n 1
n k 1
(2) k 1时,R2 R2 ,且随着解释变量的增加
两者的差距将越来越大.
(3) 可决系数R2非负(取值在[0,1]);但是,
对多元线性回归方程的最小二乘估计和 分析是一元情形的推广。所使用的前提 假定、估计方法、估计结果的性质等等 都同于一元的情形。
OLS:原则、求解、结果
OLS原则: min
ei2
(Yi ( 0 1 X1i ... k X ki ))2
求解:
由
ei2
0,
j 0,1, 2,..., k,可得X 'e 0;
1.1.1 多元线性回归模型形式
一般形式(随机扰动形式,注意X的下 标):
Yi 0 1 X1i 2 X 2i ......k X ki ui 模型中,(j j 1, 2,..., k)是偏回归系数:
控制其他解释变量不变的条件下, 第j个解释变量的单位变动对应变量平均 值的影响。
其中:k为解释变量的数目,j称为回归参
计式 具有最小方差。
结论:在古典假定下,OLS估计式 是最佳线性
无偏估计(BLUE)
OLS估计量的性质(续)
(4)在古典假定下, j ~ N ( j ,Var( j )), j 1,2,...,k
其中,Var( j ) 2c jj , c jj是(X'X)1中对角线上第j
个元素。
(ui正态,Y是ui的线性函数 Y正态,又 j