应用回归分析第四版课后习题答案_全_何晓群_刘文卿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实用回归分析第四版
第一章回归分析概述
1.3回归模型中随机误差项ε的意义是什么?
答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为
一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,
由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,
随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑
的种种偶然因素。
1.4 线性回归模型的基本假设是什么?
答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值
xi1.xi2…..xip是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^2
3.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,
即n>p.
第二章一元线性回归分析
思考与练习参考答案
2.1一元线性回归有哪些基本假定?
答:假设1、解释变量X是确定性变量,Y是随机变量;
假设2、随机误差项ε具有零均值、同方差和不序列相关性:
E(εi)=0 i=1,2, …,n
Var (εi)=σ2i=1,2, …,n
Cov(εi,εj)=0 i≠j i,j= 1,2, …,n
假设3、随机误差项ε与解释变量X之间不相关:
Cov(X i, εi)=0 i=1,2, …,n
假设4、ε服从零均值、同方差、零协方差的正态分布
εi~N(0, σ2) i=1,2, …,n
2.3 证明(2.27式),∑e i =0 ,∑e i X i=0 。
证明:
∑
∑+
-
=
-
=
n
i
i
i
n
i
X
Y
Y
Y
Q
1
2
1
2
1
))
ˆ
ˆ(
(
)ˆ
(β
β
其中:
即: ∑e i =0 ,∑e i X i =0
2.5 证明0
ˆβ是β0的无偏估计。
证明:)1[)ˆ()ˆ(111
0∑∑==--=-=n
i i xx
i n i i Y L X X X Y n E X Y E E ββ )] )(1
([])1([1011i i xx i n i i xx i n
i X L X X X n E Y L X X X n E εββ++--=--=∑∑==
1010)()1
(])1([βεβεβ=--+=--+=∑∑==i xx i n
i i xx i n
i E L X X X n
L X X X n E 2.6 证明 证明:
)] ()1([])1([)ˆ(102110i i xx
i n
i i
xx i n
i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== 2
2221
2]1[])(2)1[(σσxx xx i xx i n
i L X n L X X X nL X X X n +=-+--=∑=
2.7 证明平方和分解公式:SST=SSE+SSR
证明:
2.8 验证三种检验的关系,即验证: (1)2
1)2(r r n t --=
;(2)22
2
1
ˆˆ)2/(1/t L n SSE SSR F xx ==-=σ
β 01ˆˆˆˆi i i i i
Y X e Y Y ββ=+=-()
)
1()1()ˆ(2
2
2
1
2
2
xx n
i i
L X n X X
X n
Var +=-+=∑=σσβ()()
∑∑==-+-=-=n i i
i i n i i Y Y Y Y Y Y SST 1212
]ˆ()ˆ[()
()
()
∑∑∑===-+--+-=n
i i
i n
i i i i n
i i
Y Y Y Y Y Y Y Y 1
2
1
12
)ˆˆ)(ˆ2ˆ(
)()
SSE
SSR )Y ˆY Y Y ˆn
1
i 2
i
i n
1
i 2i +=-+-=∑∑
==0
1
00ˆˆQ
Q
β
β
∂∂==∂∂
证明:(1)
ˆ
t======
(2)
22222
01111 1111
ˆˆˆˆˆˆ()()(())(()) n n n n
i i i i xx
i i i i
SSR y y x y y x x y x x L
βββββ====
=-=+-=+--=-=
∑∑∑∑
2
2
1
2
ˆ
/1
ˆ
/(2)
xx
L
SSR
F t
SSE n
β
σ
∴===
-
2.9 验证(2.63)式:2
2
1
1σ)
L
)
x
x
(
n
(
)
e(
Var
xx
i
i
-
-
-
=
证明:
011
22
222
2
2
ˆˆˆ
var()var()var()var()2cov(,)
ˆˆˆ
var()var()2cov(,())
()()
11
[]2[]
()
1
[1]
i i i i i i i
i i i i
i i
xx xx
i
xx
e y y y y y y
y x y y x x
x x x x
n L n L
x x
n L
βββ
σσσ
σ
=-=+-
=++-+-
--
=++-+
-
=--
其中:
2
2
2
2
2
1
1
1
1
)
)
(
1
(
)
(
1
)
)
(
,
(
)
(
)
1
,
(
))
(
ˆ,
(
)
,
(
))
(
ˆ
,
(
σ
σ
σ
β
β
xx
i
xx
i
n
i
i
xx
i
i
i
n
i
i
i
i
i
i
i
i
L
x
x
n
L
x
x
n
y
L
x
x
y
Cov
x
x
y
n
y
Cov
x
x
y
Cov
y
y
Cov
x
x
y
y
Cov
-
+
=
-
+
=
-
-
+
=
-
+
=
-
+
∑
∑
=
=
2.10 用第9题证明是σ2的无偏估计量
证明:
222
11
2
2
11
22
11
ˆˆ
()()()
22
()
111
var()[1]
22
1
(2)
2
n n
i i
i i
n n
i
i
i i xx
E E y y E e
n n
x x
e
n n n L
n
n
σ
σ
σσ
==
==
=-=
--
-
==--
--
=-=
-
∑∑
∑∑
第三章
2
ˆ
2
2
-
=
∑
n
e
i
σ
1.一个回归方程的复相关系数R=0.99,样本决定系数R 2=0.9801,我们能判断这个回归方程就很理想吗? 答:不能断定这个回归方程理想。
因为:
1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F 检验或者关于回归系数的t 检验,所建立的回归方程都没能通过。
2. 样本决定系数和复相关系数接近于1只能说明Y 与自变量X1,X2,…,Xp 整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F 检验和t 检验。
3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R 2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R 2的增大与拟合好坏无关。
2.被解释变量Y 的期望值与解释变量k X X X ,,,21 的线性方程为:
01122()k k E Y X X X ββββ=+++
+
(3-2)
称为多元总体线性回归方程,简称总体回归方程。
对于n 组观测值),,2,1(,,,,21n i X X X Y ki i i i =,其方程组形式为:
01122,(1,2,
,)
i i i k ki i Y X X X i n ββββμ=+++++=
2
1
ˆˆ*,1,2,...,)n
jj j i j p
L X β
====-∑j
j
i j 其中: (X
(3-3) 即
⎪⎪⎩⎪⎪⎨
⎧+++++=+++++=+++++=n
kn k n n n k k k k X X X Y X X X Y X X X Y μββββμββββμββββ 221102
2222121021121211101 其矩阵形式为
⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21=⎥
⎥
⎥⎥⎦
⎤⎢
⎢⎢⎢
⎣⎡kn n n
k k X X X X X X X X X 212221212111111⎥⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎢⎣⎡k ββββ 210+⎥
⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n μμμ 21 即
=+Y X βμ
(3-4)
其中
=⨯1
n Y ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡n Y Y Y 21为被解释变量的观测值向量;=+⨯)1(k n X ⎥
⎥
⎥⎥⎦⎤
⎢⎢⎢⎢⎣⎡kn n n k k X X X X X X X X X 2122212
12111111为解释变量的观测值矩阵;(1)1k +⨯=β⎥⎥⎥⎥⎥
⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎣⎡k ββββ 210为总体回归参数向量;1n ⨯=
μ⎥⎥⎥⎥
⎦
⎤⎢⎢⎢⎢⎣⎡n μμμ 21为随机误差项向量。
多元回归线性模型基本假定:课本P57
第四章
4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方
差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。
答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。
多元线性回归加权最小二乘法是在平方和中加入一个适当的权数i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
∑=----=n
i ip p i i i p w x x y w Q 1211010)( ),,,(ββββββ
(2)
加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pw w w βββˆ,,ˆ,ˆ10 使式(2)的离差平方和w Q 达极小。
所得加权最小二乘经验回归方程记做
p
pw w w w x x y βββˆˆˆˆ110+++= (3) 2
2011
1
ˆˆˆ()()N N
w i i i i i i
i i Q w y y w y x ββ===-=--∑∑22
__
1
_
2
_
_
02
222
()()
ˆ()ˆ1
11
1
,i i N
w i
i
i w i w
i w
w
w w w kx i i
i i
m
i i i m
i
w x
x y y x x y x w kx x kx w x σβββσσ==---=-=
=
===∑∑1N i =1
1表示=或
多元回归模型加权最小二乘法的方法:
首先找到权数i w ,理论上最优的权数i w 为误差项方差2i σ的倒数,即
2
1
i i w σ=
(4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。
由(2)式求出的
加权最小二乘估计pw w w βββˆ,,ˆ,ˆ10 就是参数p βββ,,,10 的最小方差线性无偏估计。
一个需要解决的问题是误差项的方差2i σ是未知的,因此无法真正按照式(4)选取权数。
在实际问题中误差项方差2i σ通常与自变量的水平有关(如误差项方差
2i σ随着自变量的增大而增大),可以利用这种关系确定权数。
例如2i σ与第j 个自
变量取值的平方成比例时, 即2i σ=k 2
ij x 时,这时取权数为
21
ij
i x w =
(5)
更一般的情况是误差项方差2i σ与某个自变量j x (与|e i |的等级相关系数最大
的自变量)取值的幂函数m ij x 成比例,即2i σ=k m
ij x ,其中m 是待定的未知参数。
此
时权数为
m ij
i x w 1
=
(6) 这时确定权数i w 的问题转化为确定幂参数m 的问题,可以借助SPSS 软件解决。
第五章
5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 答:如果所建模型主要用于预测,则应使用p C 统计量达到最小的准则来衡量回归方程的优劣。
5.4 试述前进法的思想方法。
答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显著的变量(F值最大且大于临界值)进入回归方程。
每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的两变量变量(F值最大且大于临界值)进入回归方程。
在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的三个变量(F值最大)进入回归方程。
不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。
5.5 试述后退法的思想方法。
答:后退法的基本思想是:首先因变量Y对全部的自变量x1,x2,...,xm建立一个m元线性回归方程, 并计算t检验值和F检验值,选择最不显著(P值最大且大于临界值)的偏回归系数的自变量剔除出回归方程。
每一步只剔除一个变量,再建立m-1元线性回归方程,计算t检验值和F检验值,剔除偏回归系数的t检验值最小(P值最大)的自变量,再建立新的回归方程。
不断重复这一过程,直到无法剔除自变量时,即所有剩余p个自变量的F检验值均大于F检验临界值F α(1,n-p-1),回归过程结束。
第六章
消除多重共线性的方法
7.2岭回归的定义及统计思想是什么?
答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D, 那么X’X+D 接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k有哪几种方法?
σ的,几种常见的选择方法是:答:最优k是依赖于未知参数β和2
○
1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○
2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。
要让()10jj c k ≤;
○
3残差平方和:满足()SSE k cSSE <成立的最大的k 值。
7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:
1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这
样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;
2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随
着k 的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;
3. 去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不
稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
8章
主成分回归建模的思想与步骤 偏最小二乘建模的思想与步骤 两个论述,在课本上。