应用回归分析第七章答案

应用回归分析第七章答案
应用回归分析第七章答案

第七章岭回归

1.岭回归估计是在什么情况下提出的?

答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。

2.岭回归估计的定义及其统计思想是什么?

答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计

阵仍然用X表示,定义为

()()1

?''

X X I X y

βκκ-

=+

,称为

β的岭回归估计,其中k

称为岭参数。

3.选择岭参数k有哪几种主要方法?

答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。

4.用岭回归方法选择自变量应遵从哪些基本原则?

答:用岭回归方法来选择变量应遵从的原则有:

(1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

(2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。

(3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。

答:依题意,对逐步回归法所保留的三个自变量做岭回归分析。

程序为:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'.

ridgereg dep=y/enter x1 x2 x5

/start=0.0/stop=1/inc=0.01.

岭迹图如下:

1.20000

1.00000

0.80000

0.60000

0.40000

0.20000

0.00000

4.000000

3.000000

2.000000

1.000000

0.000000

-1.000000

-2.000000

x5

K

x2

K

x1

K

x5

K

x2

K

x1

K

K

R IDG E TR AC E

计算结果为:

可以看到,变量x

1

、x

2

迅速由负变正,x

5

迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:

先取k=0.08:

语法命令如下:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.08.

运行结果如下:

得到回归方程为:

123?0.160.080.06738.84y

x x x =+++

再取k=0.01: 语法命令如下:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.01.

运行结果:

****** Ridge Regression with k = 0.01 ******

Mult R .9931857

RSquare .9864179

Adj RSqu .9840210

SE 329.6916494

ANOVA table

df SS MS

Regress 3.000 134201841 44733947

Residual 17.000 1847841.9 108696.58

F value Sig F

411.5487845 .0000000

--------------Variables in the Equation----------------

B SE(B) Beta B/SE(B)

x1 .0556780 .0615651 .0981355 .9043751

x2 .0796395 .0218437 .3291293 3.6458814

x5 .1014400 .0108941 .5621088 9.3114792

Constant 753.3058478 121.7381256 .0000000 6.1879205

回归方程为:y=753.3058-0.05568x1-0.0796x2+0.1014x5

从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。

从经济意义上讲,x

1(农业增加值)、x

2

(工业增加值)x5(社会消费总额)的

增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。

6.对习题3.12的问题,分别用普通最小二乘和岭回归建立GDP对第二产业增加值

x2,和第三产业增加值x3的二元线性回归,解释所得到的回归系数?

答:(1)普通最小二乘法:

根据上表得到y 与x2,x3的线性回归方程为:

y

?=4352.859+1.438x2+0.679x3 上式中的回归系数得不到合理的解释. 3?β的数值应该大于1,实际上,x 3的年增长幅度大于x 1和x 2的年增长幅度,因此合理的3

?β的数值应大于1。这个问题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。 (2)岭回归法:

程序为:

include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=GDP/enter x2 x3 /start=0.0/stop=0.5/inc=0.01.

根据岭迹图(如下图)可知,)(?2

k β和)(?3k β很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。取k=0.1,SPSS 输出结果为:

Mult R .998145, RSquare .996294 Adj RSqu .995677,SE 2364.837767

ANOVA table

df SS MS Regress 2.000 1.80E+010 9.02E+009 Residual 12.000 67109492 5592457.7 F value Sig F

相关主题
相关文档
最新文档