应用回归分析第4章课后习题参考答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用回归分析第4章课后习题参考答案
第4章违背基本假设的情况
思考与练习参考答案
试举例说明产生异方差的原因。
答:例:截面资料下研究居民家庭的储蓄行为
Y i=0+1X i+εi
其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。
由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。
例:以某一行业的企业为样本建立企业生产函数模型
Y i=A i1K i2L i3eεi
被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
异方差带来的后果有哪些
答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:
1、参数估计量非有效
2、变量的显著性检验失去意义
3、回归方程的应用效果极不理想
总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。
其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。
所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。
这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。
答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。
多元线性回归加权最小二乘法是在平方和
中加入一个适当的权数i w,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
∑=----=n i ip p i i i p w x x y w Q1211010)(),,,(ββββββΛΛ
(2)
加权最小二乘估计就是寻找参数pβββ,,,10Λ的估计值pw w wβββˆ,,ˆ,ˆ10Λ使式(2)的离差平方和w Q达极小。
所得加权最小二乘经验回归方程记做
p pw w w w x x yβββˆˆˆˆ110+++=Λ(3)220111ˆˆˆ()()N N w i i i i i i i i Q w y y w y xββ===-=--∑∑22__1_2__02222()()ˆ()ˆ1111,i i N w i i i w i w i w w w w w kx i i i i m
i i i m i w x x y y x x y x w kx x kx w xσβββσσ==---=-=====∑∑1N i=11表示=或多元回归模型加权最小二乘法的方法:
首先找到权数i w,理论上最优的权数i w为误差项方差2iσ的倒数,即21i i wσ=(4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用;误差项方差小的项接受大的权数,以提高其在平方和中的作用。
由(2)式求出的
加权最小二乘估计pw
w wβββˆ,,ˆ,ˆ10Λ就是参数pβββ,,,10Λ的最小方差线
性无偏估计。
一个需要解决的问题是误差项的方差2iσ是未知的,因此无法真正按照式(4)选取权数。
在实际问题中误差项方差2iσ通常与自变量的水平有关(如误差项方差2iσ随着自变量的增大而增大),可以利用这种关系确定权数。
例如2iσ与第j个自变量取值的平方成比例时,即2iσ=k2ij x时,这时取权数为21
ij i x w=(5)
更一般的情况是误差项方差2iσ与某个自变量j x(与|e i|的等级相关系数最大
的自变量)取值的幂函数m ij x成比例,即2iσ=k m ij x,其中m是待定的未知参数。
此时
权数为
m ij
i x w1=(6)这时确定权数i w的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。
()式一元加权最小二乘回归系数估计公式。
证明:
由
得:220111ˆˆˆ()()N N w i i i i i i i i Q w y y w y xββ===-=--∑∑0100ˆˆQ Qββ∂∂==∂∂
w
w w i n
i i w i w i n i i x y x x w y y x x w102111ˆˆ)())((ˆβββ-=---=∑∑==
验证()式多元加权最小二乘回归系数估计公式。
证明:对于多元线性回归模型,y=Xβ+ε(1)
2()0,cov(,)Eσ'∃==εεεW,即存在异方差。
设
,
00'==W DD D K M O
M L,用-1D左乘(1)式两边,得到一个新的的模型:
---111D y=D Xβ+Dε,即***y=Xβ+ε。
因为22()()()E E Eσσ---''''''====1-11-11-1εεDεεD DεεD D WD I,
故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得111ˆ()()()**-**------''''''''===1111w
βX X X y X D D X X D D y X WX X Wy原式得证。
有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。
你是否同意这位同学的观点说明原因。
答:不同意。
当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,
不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。
实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS与OLS的结果一样。
加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。
对例的数据,用公式iw i iw e w e='计算出加权变换残差'iw e,
绘制加权变
换残差图,根据绘制出的图形说明加权最小二乘估计的效果。
解:用公式iw i iw e w e='计算出加权变换残差'iw
e,分别绘制加权最小二乘估计后的残差图和加权变换残差图(见下图)。
根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。
参见参考文献[2],表(P138)是用电高峰每小时用电量y与每月总
用电量x的数据。
(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。
解:SPSS输出结果如下:
由上表可得回归方程为:
ˆ0.8310.004y
x=-+残差图为:
(2)诊断该问题是否存在异方差;
解:a由残差散点图可以明显看出存在异方差,误差的方差随着x的增加而增大。
b用SPSS做等级相关系数的检验,结果如下表所示:
得到等级相关系数0.318s
r=,P值=,认为残差绝对值i e与自变量i x显著相关,存在异方差。
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;解:SPSS输出结果如图:
由上述表可得,在 1.5m=时对数似然函数达到最大,则幂指数的最优取值为
1.5m=。
加权后的回归方程为:ˆ0.6830.004w y x=-+。
计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:
0.321s r=,P值为<,即加权最小二乘法没有消除异方差,只是消除异方差的
不良影响,从而对模型进行一点改进。
(4)用方差稳定变换y y=
'消除异方差。
解:对应变量做方差稳定变换(y y=')后,用最小二乘法做回归,SPSS结果
如下表:
则回归方程为:ˆ0.5822+0.0009529y
x'=。
保存预测值ˆi y
',计算出残差的绝对值后,计算等级相关系数,见下表:
其中0.160s r=,P值=>,说明异方差已经消除。
试举一可能产生随机误差项序列相关的经济例子。
答:例如,居民总消费函数模型:
C t=0+1Y t+εt t=1,2,…,n
由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。
另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关)。
4.11序列相关性带来的严重后果是什么
答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题:
1.参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估计值的方差大于无自相关性时的方差。
2.
均方误差MSE可能严重低估误差项的方差 3.变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t值和F值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。
4.
当存在序列相关时,β)仍然是β的无偏估计,但在任一特定的样本中,β)可能严重歪曲的真实情况,即最小二乘法对抽样波动变得非常敏感 5.模型的预测和结构分析失效。
4.12总结DW检验的优缺点。
答:优点:1.应用广泛,一般的计算机软件都可以计算出DW值;
2.适用于小样本;
3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。
缺点:1.DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法判断。
此时,只有增大样本容量或选取其他方法;统计量的上、下界表要求n>15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;
检验不适应随机项具有高阶序列相关性的检验。
表中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。
(1)用普通最小二乘法建立y与x的回归方程;
由上表可知:用普通二乘法建立的回归方程为x y
176.0435.1ˆ+-=(2)用残差图及DW检验诊断序列的相关性;
1.以自变量x为横轴,普通残差为纵轴画残差图如下:
从图中可以看到,残差有规律的变化,呈现大致反W形状,说明随机误差项存在自相关性。
2.以1-i e(残差1)为横坐标,i e(残差)为纵坐标,绘制散点图如下:
由残差图可见大部分的点落在第一、三象限内,表明随机扰动项iε存在着正的序列相关;
3.从下表
可知DW值为,查DW表,n=20,k=2,显著性水平α=,得L d=,U d=,由于<,知DW值落入正相关区域,即残差序列存在正的自相
关。
(3)用迭代法处理序列相关,并建立回归方程。
自相关系数-≈1ρ)2
16685.0663.0=令't y1--=t t y yρ,'t x1--=t t x xρ,然后用't y对't x作普通最小二乘回归可得输出结果如下:
可看到新的回归方程的DW=.且<<,因而DW检验落入不确定区域此时,一步迭代误差项的标准差为,小于tε的标准差
't y对't x的回归方程为't y
ˆ=+'t x,将't y=t y1-t y,'t x=t x1-t x代人,还原为原始变量的方程t yˆ=+1-t y+t x1-t x由于一步迭代的DW检验落入不确定区域,因而可以考虑对
数据进行二步迭代,也就是对't x和't y重复以上迭代过程。
进行回归结果如下:
此时DW的值为,查DW表,n=18,k=2,显著性水平α=,得L d =,
U d=,DW值大于U d,小于2,落入无自相关区域。
误差标准项,略小于一步迭代的标准差。
但是在检验都通过的情况下,由于一步迭代的2r值和F值均大于两步迭代后的值,且根据取模型简约的原则,最终选择一步迭代的结果,即:
t y
ˆ=+1-t y+t x1-t x(4)用一阶差分的方法处理数据,建立
回归方程;先计算差分t y∆=t y-1-t y,t x∆=t x-1-t x,然后用t y∆对t x∆做过原点的最小二乘回归,结果如下:
由上面表,可知DW值为>=U d,即DW落入不相关区域,可知残差序列't e不存在自
相关,一阶差分法成功地消除了序列自相关。
同时得到回归方程为
t y
ˆ∆=t x∆,将t y∆=t y-1-t y,t x∆=t x-1-t x,代人,还原原始变量的方程
t y=1-t y+(t x-1-t x)
(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。
答:本题中自相关系数≈ρˆ,不接近于1,不适宜用差分法,另外由迭代法的F值及2r都大于差分法的值,故差分法的效果低于迭代法的效果;而普通最小二乘法的随机误差项标准差为,大于迭代的随机误差项标准差,所以迭代的效果要优于普通最小二乘法,所以本题中一次迭代法最好。
某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周出场次x1和乐队网站的周点击率x2,数据见表。
(1)用普通最小二乘法建立y与x1、x2的回归方程,用残差图及DW检验诊断序列的自相关性;
解:将数据输入SPSS,经过线性回归得到结果如下:
Model Summary(b)
a Predictors:(Constant),x2,x1
b Dependent Variable:y
ANOVA(b)
a Predictors:(Constant),x2,x1
b Dependent Variable:y
由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程,通过了r、F、t检验,说明回归方程显著。
y与x1、x2的回归方程为:
y=++
残差图ei(e t)~ei1(e t-1)为:
从残差图可以看出残差集中在1、3象限,说明随机误差项存在一阶正自相关。
DW=
查表得dl=du=,0<dw<dl,所以随机误差项存在一阶正自相关。
<=""p="">
(2)用迭代法处理序列相关,并建立回归方程。
ρ==
做变换:x1t’=x1t-ρx1(t-1),x2t’=x2t-ρx2(t-1)
y t’=y t-ρy t-1
建立y t’与x1t’,x2t’的回归方程,SPSS输出为:
DW=>du所以误差项间无自相关性。
σˆ=
回归方程为:yt’=+’+’
还原为:(t-1)=+*(t-1))+*((t-1))
(3)用一阶差分法处理序列相关,建立回归方程。
Model Summary(c,d)
a For regression through the origin(the no-intercept model),R Square measures the proportion of the variability in the dependent variable about the origin explained by regression.This CANNOT be compared to R Square for models which include an intercept.
b Predictors:DIFF(x2,1),DIFF(x1,1)
c Dependent Variable:DIFF(y,1)
d Linear Regression through th
e Origin
DW=>du,所以消除了自相关性,σˆ=
差分法回归方程为:y t-y t-1=(x1t-x1(t-1))+
(x2t-x2(t-1)).
(4)用最大似然法处理序列相关,建立回归方程。
用SPSS软件的自回归功能,analyze——>time series——>autoregression:ρˆ=,σˆ=,
(5)用科克伦-奥克特迭代法处理序列相关,建立回归方程
ρˆ=,σˆ=,DW=。
(6)用普莱斯-温斯登迭代法处理序列相关,建立回归方程。
ρˆ=,σˆ=,DW=。
(7)比较以上各方法所建回归方程的优良性。
综合以上各方法的模型拟合结果如下表所示:
由上表可看出:DW值都落在了随机误差项无自相关性的区间上,一阶差分
法消除自相关最彻底,但因为∧
ρ=,并不接近于1,故得到的方差较大,拟合效果不
理想。
将几种方法所得到的σˆ值进行比较,就可知迭代法的拟合效果最好,以普莱斯-温斯登法次之,差分法最差。
说明引起异常值的原因和消除异常值的方法。
答:通常引起异常值的原因和消除异常值的方法有以下几条,见表:
对第3章习题11做异常值检验。
研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。
(1)利用SPSS建立y与x1,x2,x3的三元回归方程,分别计算普通残差,学生化残差,删除残差,删除学生化残差,中心化杠杆值ii ch,库克距离i D,见下表:从表中看到绝对值最大的学生化残差为SRE=,小于3,但有超过3的个别值,因而根据学生化残差诊断认为存在异常值。
绝对值最大的删除学生化残差为,对应为第6个数据,因此判断它为为异常值。
第6个数据的中心化杠杆值为,位于第一大,大于2h c=210
3
=,且库克距离为位于第一大,因而从杠杆值看是第6个数据是自变量的异常值,同时库克距离大于1,故第6个数据为异常值的原因是由自变量异常与因变量异常两个共同原因引起的。
(2)删除第6组数据,然后做回归分析,
.由上表可知:删除第六组数据后,发现学生化残差的绝对值和删除化学生残差
绝对值均小于3,库克距离均小于1,中心化杠杆值的最大值为<2h c=667.09
3
2=
,说明数据不再有异常值。
所以可判断异常值的原因是由于数据
登记或实际问题有突变引起的。