第三章多变量回归分析(计量经济学南开大学)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五节 解释变量的选择
在回归模型中的解释变量,除非由明确的理论指导或其他原因,在选 择上具有一定的主观性,如何正确选择解释变量是非常重要的。
一、解释变量的边际贡献分析
在建立回归模型时,假定我们顺序引入变量。在建立了Y与X2的回归 模型,并进行回归分析后,再加入X2。考虑加入的变量X2是否有贡献: 能否再加入后显著提高回归的解释程度ESS或决定系数R2。ESS提高的量 称为变量X2的边际贡献。
二、回归的总显著性检验: 检验回归系数全部为零的可能性。
原假设H0 : 1 2 k 0 备择假设H1 : i (i 1,2, , k)不同时为零
方差分析表( ANOVA)
平方和
df
ESS
(Yˆi Yˆ)2 Y' Y βˆ ' X' Y
k-1
RSS
uˆ2 βˆ ' X' Y nY 2 i
标准差为
(X' X)1
如果 2未知,以 ˆ 2代替 2,则 Var Cov(βˆ )的估计量为:ˆ( 2 X' X)1
βˆ 的标准差Se(βˆ )为 ˆ( 2 X' X)1 (X' X)1ˆ
四、OLS估计量 βˆ 的性质:
1、线性 βˆ ( [ X' X)1X' ]Y
2、无偏性 E[βˆ ] β
uˆ 2 i
βˆ
2X' Y 2X' Xβˆ
0
βˆ (X' X)1 X' Y
二、 的估计量
ˆ
uˆ 2 uˆ 'uˆ i
nk nk
ˆ为的无偏估计量:E[ˆ ] 。
三、βˆ 的方差-协方差矩阵
βˆ (X' X)1 X' y (X' X)1 X' (Xβ u) (X' X)1 X' Xβ (X' X)1 X'u β (X' X)1 X'u
n-1
均方差
(Y' Y βˆ ' X' Y) /(k 1) (βˆ ' X' Y nY 2 ) /(n k )
判定系数:
二、校正的R2 :
R2
ESS TSS
βˆ ' X' y nY 2 Y' Y nY 2
由R2的计算式可看出, R2 随解释变量的增加而可能提高(不可能降
低):
R2
ESS TSS
可得到如下正规方程组:
nˆ1 ˆ2 X 2i ˆk X ki Yi
ˆ1
X 2i ˆ2
X
2 2i
ˆk
X 2i X 3i ˆk
X 2i X ki
X 2iYi
ˆ1
X 3i ˆ2
X 3i X 2i ˆ2
X2 3i
ˆk
X 3i X ki
X 3iYi
ˆ1
Yi a 2 X 2i ui Yi 1 2 X 3i ui
Yi 1 2 X ki ui
回归后, TSS( X 2 ) ESS( X 2 ) RSS( X 2 )
得到各 回归方
TSS( X 3) ESS( X 3) RSS( X 3)
程的平
方和
TSS( X k ) ESS( X k ) RSS( X k )
决定一个变量是否引入回归模型,就要先研究它的边际贡献,以正确 地建立模型。如果变量的边际贡献较小,说明改变量没有必要加入模型。
分析变量的编辑贡献,可以使用方差分析表为工具,根据变量引入前、 后的RSS的变化量及其显著性检验(扣除原来引入模型的解释变量的贡 献),确定该变量的边际贡献是否显著。
一个简单的检验方法,就是对引入新变量后的RSS增量与新的ESS的 比值做显著性检验。
X ki ˆ2
X ki X 2i ˆk
X ki X 3i ˆk
X2 ki
X kiYi
写成矩阵形式:
Leabharlann Baidu
n
X 2i
X 3i
X 2i
X 3i
X2 2i
X 3i X 2i
X 2i X 3i X2
3i
X ki
X ki X 2i
X ki X 3i
1
1
1
X 21 X 22 X 23
m n-(k+m)
U1/(k-1) U2/(k+m-1) (U2-U1)/m Q/( n-k-m)
TSS
n-1
定义统计量: F (ESS'ESS) / m RSS' /(n k m)
并检验其显著性。
在新引入变量的系数为0的原假设下,
统计量 F (ESS'ESS) / m ~ F (m, n k m) RSS' /(n k m)
根据R2 ESS ,F ESS /(k 1) ,TSS ESS RSS
TSS
RSS /(n k)
可得到F
R2 /(k 1) (1 R2 ) /(n
k)
显然,R2 越大,F越大,当R2 =1时,F 无限大。
选择显著水平α ,计算F统计量的值,与F分布表中的临界值进行比
较:
若 F F (k 1, n k),则接受H0 ,不显著 F F (k 1, n k),则拒绝H0 , 接受H1,显著
βˆ ' X' y nY 2 Y' Y nY 2
1 RSS 1 TSS
uˆi2 yi2
yi2与解释变量X的个数无关,而 uˆi2则可能随着解释变量的增加
而减少(至少不会下降),因而,不同的SRF,得到的R2 就可能不同。
必须消除这种因素,使R2 即能说明被解释的离差与总离差之间的关系, 又能说明自由度的数目。定义校正的样本决定系数 R 2 :
βˆ β (X' X)1 X'u
Var Cov(βˆ ) E[(βˆ β )(βˆ β )'] E{[(X' X)1 X'u][(X' X)1 X'u]'} E[(X' X)1 X'uu' X(X' X)1] (X' X)1 X' E[uu' ]X(X' X)1
(X' X)1 X(' 2I)X(X' X)1 2 (X' X)1 X' X(X' X)1 2 (X' X)1
总体回归函数PRF给出的是给定解释变量X2 ~ Xk 的值时,Y的期望值: E ( Y | X2,X3,…,Xk )。
假定有n组观测值,则可写成矩阵形式:
Y1 1 X 21 X 31 X k1 1 u1
Y2 Yn
1 1
X 22 X 2n
X 32 X 3n
Xk2 X kn
(2)计算统计量:
t
ˆi Se(ˆi )
(3)查t分布表,找出t (n k)。 2
(4)判断:
t 若
t
t 2 (n k ),则接受H0 , 参数i显著异于0
t
2
(n
k
),则拒绝H
0
,
接受H1
,
参数
不
i
显著异于0
如果根据理论或常识,i 非负,则可做单侧检验,比较 t 与tα。
若 t t (n k),则接受H0,参数i不显著异于0 t t (n k),则拒绝H0 , 接受H1,参数i显著异于0
选择其中ESS最大并通过F检验的变量作为首选解释变量,假定是X2 。
以ˆ代替,则统计量
t
ˆi i Se(ˆi )
~
t(n k)
检验 ˆi 的显著性, 即在一定显著水平下, ˆi 是否显著不为0。
原假设H0 : i 0 备择假设H1 : i 0
如果接受H0 ,则变量Xi 对因变量没有影响,而接受H1,则说明变 量Xi 对因变量有显著影响。
检验步骤:
(1)选择显著水平,如 0.05。
可以利用方差分析表来进行分析。 设ESS为引入变量前的回归平方和,ESS’ 为引入m个新变量后,得 到的回归平方和,RSS’为引入变量后的残差平方和。 ANOVA表如下:
平方和
自由度
均方差
引入变量前的ESS 引入变量后的ESS 添加变量的边际贡献 添加变量后的RSS
U1 U2 (U2-U1) Q
k-1 k+m-1
X
31
X 32
X 33
X
k1
Xk2
X 3k
1 Y1
X 2n Y2
X 3n
Y3
X kn Yn
即: (X'X)βˆ X'Y
βˆ (X'X)1 X'Y
X ki ˆ1
X X
2i 3i
X X
ki ki
ˆ2 ˆ3
X2 ki
ˆk
如果直接用矩阵微分,则
uˆ 2 Y' Y 2βˆ ' X' Y βˆ ' X' Xβˆ i
把计算出的该统计量的值与α 显著水平下的临界值进行比较: 若 F F (m, n k m),则新增变量的边际贡献不显著 F F (m, n k m),则新增变量的边际贡献显著
引入的新变量的边际贡献显著,则应该把这些变量纳入回归模型,否 则这些变量不应引入回归模型做解释变量。
二、逐步回归法
如果根据理论,因变量Y与k-1个变量X2,X2,…,Xk 有因果关系,我 们要建立的回归模型要在这些变量中选择正确的解释变量,要根据变量的 边际贡献大小,把贡献大的变量纳入回归模型。分析边际贡献并选择变量 的过程,实际上是一个逐步回归的过程。
首先,分别建立Y与k-1个变量X2,X2,…,Xk 的回归模型:
n-k
TSS
(Yi Y )2 Y'Y nY2
n-1
均方差
(Y' Y βˆ ' X' Y) /(k 1) (βˆ ' X' Y nY 2 ) /(n k )
如果假定:1 2 k 0,则统计量
ESS /(k 1) (βˆ ' X' Y nY 2 ) /(k 1) F RSS /(n k ) (Y' Y βˆ ' X' Y) /(n k ) ~ F (k 1, n k )
成立。
5、u ~ N (0, 2I)
随机干扰项服从正态分布。
三、多 变量线性回归模型的SRF
SRF :
Yi ˆ1 ˆ2 X 2i ˆ3 X 3i ˆk X ki uˆi
或 Y Xβˆ uˆ
其中βˆ 和uˆ分别为回归系数的OLS估计量的列向量和残差列向量。
第二节 多变量回归模型的OLS估计
ESS TSS ESS Y'Y nY 2 Y' Y βˆ ' X' y βˆ ' X' Y nY 2
方差分析表( ANOVA)
平方和
df
ESS
(Yˆi Yˆ)2 Y' Y βˆ ' X' Y
k-1
RSS
uˆ2 βˆ ' X' Y nY 2
i
n-k
TSS
(Yi Y )2 Y'Y nY2
2
n
u2
un
或: Y Xβ u
Y为因变量观测值列向量
在
Y Xβ u 中,X为数据矩阵。
β 为待估计参数列向量
u为随机扰动项列向量
二、多 变量线性回归模型的基本假定
1、 Eu 0
随机干扰项的期望值为0。
u1
2、
E
u
u
'
u2 un
u1
u2
2 0 0 0
0 0
一、参数估计
SRF :
Yi ˆ1 ˆ2 X2i ˆ3X3i ˆk Xki uˆi
根据残差的平方和最小化的原理,解出参数的估计量。
残差平方和RSS
uˆ 2 i
(Yi ˆ1 ˆ2 X 2i ˆk X ki )2
uˆ 'u
Y Xβˆ uˆ uˆ Y Xβˆ
RSS uˆ2 uˆ 'u (Y Xβˆ )'(Y Xβˆ ) i Y' Y 2βˆ ' X' Y βˆ ' X' Xβˆ Y' Y βˆ ' X' Y
3、最小方差性 OLS估计量βˆ 具有Var(βˆ )最小。
第三节 拟合优度检验:
一、判定系数R2: 总平方和:
TSS
y2 i
(Yi Y )2 Yi2 2 YiY nY
Y'Y nY 2 残差平方和:
RSS uˆ 2 uˆ 'uˆ Y' Y βˆ ' X' Y i
回归平方和:
R 2 1 ESS /(n k ) 1 (1 R2 ) n 1
TSS /(n 1)
nk
1
ˆ 2
Se(Yˆ )
三、R2 与 R 2的性质
0 R2 1,
0 R2 1
R 2 R2 , 当k 时,R 2 R2
第四节 显著性检验
一、单参数的显著性检验:
根据假定,u ~ N (0, 2I),因此ˆ ~ N ( , 2 (X' X)1)
第三章 多变量回归分析
第一节 多变量线性回归模型
一、多变量线性回归模型的PRF
如果假定对因变量Y 有k-1个解释变量:X2,X3,…,Xk,k 变量总 体回归函数为:
其中PR1为F 常: 数项Y,i 2 ~1 2为2 X解2i释变3量XX3i 2~Xk的系k X数ki , uui为, i随 1机,2干,扰,项k 。
2 0 0 2
0 0
2I
0 0 0 2
u12 u1u2
un
u2u1
u
2 2
unu1 unu2
u1un
u2un
un2
同方差性;无序列相关。
3、 X为非随机的
4、r(X) k
无多重共线性,即Xi (i = 2,3, …,k )之间不存在线性关系:
不存在不全为零的一组数:1, 2 , k , 使: 1 X1i 2 X 2i , k X ki 0