第5章 自变量的选择与逐步回归

合集下载

Chp5自变量选择与逐步回归

Chp5自变量选择与逐步回归
n 1 1 2 2 SSE ( y ) y i i n p 1 n p 1 i 1 1 此无偏估计中的 可以视为惩罚因子, 2 实际上就是用 n p 1
自由度n p 1做权的平均残差平方和 。当自由度由0开始增加
1 时,SSE逐渐减少,但 逐渐变大,一般说来 2 先是下 n p 1
SST ( yi y ) 2和任何选模型无关,是 常量,
2 Ra 与 2 是等价的。 i 1
准则2 . 赤池信息量 到 达 最小 AIC 准则 Akaike inf ormation criterion 设模型的似然函数为 L( θ , y ),θ 的维数为p, p是自变量的个数, y ( y1, y2 ,..., yn )是随机样本,赤池信息 量定义为 AIC 2 ln L( θ L , y ) 2 p. 其中θ L 是θ 的极大似然估计。
准则3 . p C统 计 量 达 最 小 马洛斯( Mallows)1964 年从预测的角度提出一 个可以用来选择自 变量的统计量 C p .其依据是性质5(即使全模型正确,但仍 有可能 选模型有更小的预测误 差)。 用选模型(5.2)做预测时,预测值与期 望值的相对偏差平方和 是 1 n Jp ( y ip Ey i ) 2 2
1 . 前进法 思想:逐步引入变量, 由少至多,每次引入一 个,直至没有 可引入的变量为止。 step1.全部自变量共m,建立每个自变量对因 变量y的一元线 性回归方程,分别计算 这m个一元回归方程的 m个回归系数
1 1 1 1 1 1 和F检验值{F1 , F2 ,...,Fm }, 记F 1 max { F , F ,..., F j 1 2 m }.
1

逐步回归

逐步回归

自变量选择与逐步回归1:当自变量子集选择x1,x2,x3时,n=18,m=3,p=3,作回归。

看出,R2 =0.981,R2α=0.977,SSE3=5.761,根据AIC=nln(SSE)+2p,可算出AIC=37.52,根据Cp =(n-m-1)(SSEp/SEEm)-n+2p,可算出Cp=2。

回归方程为y=-10.149+0.101x1-0.310x2+0.411x3。

当自变量子集选择x1,x3时,n=18,m=3,p=2,作回归。

得出:R2 =0.978,R2α=0.976,SSE2=6.586,根据AIC=nln(SSE)+2p,可算出AIC=37.93,根据Cp =(n-m-1)(SSEp/SEEm)-n+2p,可算出Cp=2.005。

回归方程为y=-14.049+0.076x1+0.172x3。

当自变量子集选择x1时,n=18,m=3,p=1,作回归。

得出:R2 =0.973,R2α=0.971, SSE1=8.285,根据AIC=nln(SSE)+2p,可算出AIC=40.06,根据Cp =(n-m-1)(SSEp/SEEm)-n+2p,可算出Cp=4.134。

回归方程为y=-0.821+0.110x。

12:前进法:在Model下拉框中选择前进法Forward,点击Options看到默认的显著性水平为0.05,运行得:从输出结果看到,前进法依次引入了x1,x2,x3,x6,x7,最优模型为y=-2393.975+1.490x1+2.718x2+2.209x3+0.078x6+0.037x7。

复决定系数R2 =0.992,调整的复决定系数R2α=0.991,全模型的复决定系数R2 =0.994,调整的复决定系数R2α=0.991。

后退法:在Model下拉框中选择前进法Backward,点击Options看到默认的显著性水平为0.10,运行得:其中模型1是全模型,从模型2到模型4依次剔除变量x4,x8,x9,最优回归子集模型4的回归方程为:y=-2089.883+1.412x1+2.395x2+2.021x3+0.077x6+0.036x7+0.859x5复决定系数R2 =0.993调整的复决定系数R2α=0.992全模型的复决定系数R2 =0.994,调整的复决定系数R2α=0.991。

自变量的选择与逐步回归实用回归分析ppt课件

自变量的选择与逐步回归实用回归分析ppt课件

§5.2 所有子集回归
准则2 赤池信息量AIC达到最小
设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在 回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:
AIC=-2lnL(θˆ L ,x)+2p 其中θˆ L 是θ的极大似然估计,p 是未知参数的个数。
§5.2 所有子集回归
βˆ p (Xp X p )-1 Xpy
ˆ
2 p
n
1 p
1 SSEp
§5.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况
性质 1. 在 xj与 xp+1, …,xm的相关系数不全为 0 时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即
E(ˆ jp ) jp j (j=1,2, …,p)。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况 性质 2. 选模型的的预测是有偏的。 给定新自变量值x0p (x01, x02,, x0m ) ,因变量新值为 y0=β0+β1x01+β2x02+…+βmx0m+ε0 用选模型的预测值为
(ˆ 0p ,ˆ 1p ,,ˆ pp )
全模型的最小二乘参数估计为βˆ m (ˆ 0m ,ˆ 1m ,,ˆ mm )
这条性质说明 D(ˆ jp ) D(ˆ jm ), j 0,1,, p 。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况

《应用回归分析》自变量选择与逐步回归实验报告

《应用回归分析》自变量选择与逐步回归实验报告

《应用回归分析》自变量选择与逐步回归实验报告二、实验步骤:(只需关键步骤)步骤一:对六个回归自变量x1,x2……x6分别同因变量Y建立一元回归模型步骤二:分别计算这六个一元回归的六个回归系数的F检验值。

步骤三:将因变量y 分别与(x1, x2),(x1, x3), …, (x1, x m)建立m-1个二元线性回归方程, 对这m-1个回归方程中x2, x3, …, x m的回归系数进行F 检验,计算 F 值步骤四:重复步骤二。

三、实验结果分析:(提供关键结果截图和分析)1.建立全模型回归方程;由上图结果可知该问题的全模型方程为:Y=1347.986-0.641x1-0.317x2-0.413x3-0.002x4+0.671x5-0.008x62.用前进法选择自变量;从右图上可以看出:依次引入了变量x5、x1、x2最优回归模型为:Y^=874.583-0.611x1-0.353x2+0.637x5最优模型的复决定系数 :R^2=0.996调整后的复决定系数:R^2=0.9953.用后退法选择自变量;从上图上可以看出:依次剔除变量x4、x3、x6最优回归模型为:y^=874.583-0.611x1-0.353x2+0.637x5最优模型的复决定系数 R^2=0.996调整后的复决定系数R^2=0.995最优模型的复决定系数R^2=0.996调整后的复决定系数R^2=0.9954.用逐步回归法选择自变量;从上图上可以看出:依次引入了变量x5、x1、x2最优回归模型为:y^=874.583-0.611x1-0.353x2+0.637x5最优模型的复决定系数 R^2=0.996调整后的复决定系数R^2=0.9955.根据以上结果分三种方法的差异。

前进法和后退法以及逐步回归法的计算结果完全一致,但是在其计算上又有很大的差异,前进法就是当自变量一旦被选入,就永远保留在模型中。

后退法就是反向法,而逐步回归就比后退法更明确,逐步后退回归的方法。

自变量选择与逐回归

自变量选择与逐回归

自变量选择与逐回归————————————————————————————————作者:————————————————————————————————日期:自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m 个,由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y Λ22110称为全模型。

如果从可供选择的m 个变量中选出p 个,由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++=Λ22110称为选模型。

二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。

以下是这两种情况对回归的影响。

1、全模型正确而误用选模型的情况性质1,在j x 与m p x x ,,1Λ+的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjp jp E βββ≠=)ˆ((p j ,,2,1Λ=) 性质2,选模型的预测是有偏的。

性质3,选模型的参数估计有较小的方差。

性质4,选模型的预测残差有较小的方差。

性质5,选模型的均方误差比全模型预测的方差更小。

性质1和性质2表明,当全模型正确时,而舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。

这是误用选模型产生的弊端。

性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。

性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。

由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。

应用回归分析,第5章课后习题参考答案

应用回归分析,第5章课后习题参考答案

第5章自变量选择与逐步回归思考与练习参考答案自变量选择对回归参数的估计有何影响答:回归自变量的选择是建立回归模型得一个极为重要的问题。

如果模型中丢掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。

自变量选择对回归预测有何影响答:当全模型(m元)正确采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。

当选模型(p元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。

如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣C统计量达到最小的准则来衡量回答:如果所建模型主要用于预测,则应使用p归方程的优劣。

试述前进法的思想方法。

答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m 个一元线性回归方程, 并计算F检验值,选择偏回归平方和显着的变量(F值最大且大于临界值)进入回归方程。

每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显着的两变量变量(F 值最大且大于临界值)进入回归方程。

在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显着的三个变量(F值最大)进入回归方程。

不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。

5自变量选择与逐步回归-精品文档44页

5自变量选择与逐步回归-精品文档44页
11
选模型正确,误用全模型的情况
全模型的预测值是有偏估计
E(yˆ0my0)0
从预测方差的角度看,选模型的预测方 差小于全模型的预测方差
D(yˆ0p)D(yˆ0m)
12
从均方预测误差的角度看,选模型的均方 预测误差小于全模型的均方预测误差
E (y ˆ0 p y 0 )2 E (y ˆ0 m y 0 )2
y (y 1 ,y2, ,yn) 正态经典回归模型的选择
模型复杂度
AIn C ln S(S )2 E p
21
选择回归子集的准则
CP统计量最小(mallows,1964) 从预测角度提出:预测误差最小
E(yˆ0py0)0
8
全模型正确,误用选模型的情况
选模型的参数估计方差较小
D(βˆjp)D(βˆjm)
选模型的预测残差方差较小
D(e0p)D(e0m)
9
全模型正确,误用选模型的情况
全模型估计 β ˆm p(β ˆp1, ,β ˆm)
在 D(β ˆmp)βmpβmp 条件下,
选模型预测的均方误差比全模型预测的方差小
E ( e 0 p ) 2 D ( e 0 p ) ( E ( e 0 p )2 ) D ( e 0 m ) E ( e 0 m ) 2
10
2 自变量选择对预测的影响
全模型正确而误用选模型的情况 • 当全模型正确时,而我们舍去了m-p个自变量, 用剩下的p个自变量去建立选模型,参数估计值是 全模型相应参数的有偏估计,用其作预测,预测值 也是有偏的; • 用选模型作预测,残差的方差比用全模型去作预 测的方差小; • 即使全模型正确,但如果其中有一些自变量对因 变量影响较小或回归系数方差过大,我们丢掉这些 变量后,用选模型去预测,可以提高预测的精度。

(整理)自变量选择与逐步回归

(整理)自变量选择与逐步回归

自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m 个,由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y 22110称为全模型。

如果从可供选择的m 个变量中选出p 个,由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++= 22110称为选模型。

二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。

以下是这两种情况对回归的影响。

1、全模型正确而误用选模型的情况性质1,在j x 与m p x x ,,1 +的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjp jp E βββ≠=)ˆ((p j ,,2,1 =) 性质2,选模型的预测是有偏的。

性质3,选模型的参数估计有较小的方差。

性质4,选模型的预测残差有较小的方差。

性质5,选模型的均方误差比全模型预测的方差更小。

性质1和性质2表明,当全模型正确时,而舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。

这是误用选模型产生的弊端。

性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。

性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。

由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。

2、选模型正确而误用全模型的情况全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。

第五章自变量选择与逐步回归

第五章自变量选择与逐步回归
(4)选模型的预测残差有较小的方差,即
D(e0 p ) D(e0m )
记(
X
X
)1
X X
p q
X X
p p
X
p
X
q
1
X
q
X
q
(
X
p
X
p
)1
ADA
B
B
D
ˆ 的前p 1个分量记为ˆp ,则
cov(ˆp ) 2 (( X p X p )1 ADA)
又 cov( p ) 2 ( X p X p )1, ADA 0
(3)依上法继续进行,到第 s 步,所有的 F ms j F (1, n m s) 为止,则第 s 1 步得到
的方程为最终方程。
三.逐步回归法
前进法与后退法都有各自的不足之处。 前进法的问题是不能反映引进新的自变量后 的变化情况。如某个自变量开始可能是显著 的,当引入其他变量后他变得不显著了,但 没有机会将其剔除。这种只考虑引进,不考 虑剔除的方法是不全面的。
X p ( p ( X p X p )1 X p X q q )
X p p X p ( X p X p )1 X p X q q

E(Yˆ)
E
(
X
ˆ
)
(
X
p
,
X
q
)(
p q
)
X pp Xqq
(3)选模型的参数估计有较小的方差,即
D(ˆ jp ) D(ˆ jm ), j 0,1,..., p
y 7.8 8.4 8.7 9 9.6 10.3 10.6 10.9 11.3 12.3 13.5 14.2 14.9 15.9 18.5 19.5 19.9 20.5

自变量选择与逐步回归

自变量选择与逐步回归

自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m 个,由因变量y 和m 个自变量构成的回归模型εββββ+++++=m m x x x y 22110称为全模型。

如果从可供选择的m 个变量中选出p 个,由选出的p 个自变量组成的回归模型p pp pp p p p x x x y εββββ+++++= 22110称为选模型。

二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。

以下是这两种情况对回归的影响。

1、全模型正确而误用选模型的情况性质1,在j x 与m p x x ,,1 +的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjp jp E βββ≠=)ˆ((p j ,,2,1 =) 性质2,选模型的预测是有偏的。

性质3,选模型的参数估计有较小的方差。

性质4,选模型的预测残差有较小的方差。

性质5,选模型的均方误差比全模型预测的方差更小。

性质1和性质2表明,当全模型正确时,而舍去了m-p 个自变量,用剩下的p 个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。

这是误用选模型产生的弊端。

性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。

性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。

由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。

2、选模型正确而误用全模型的情况全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。

应用回归分析-第5章课后习题参考答案

应用回归分析-第5章课后习题参考答案

第5章自变量选择与逐步回归思考与练习参考答案5.1 自变量选择对回归参数的估计有何影响?答:回归自变量的选择是建立回归模型得一个极为重要的问题。

如果模型中丢掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。

5.2自变量选择对回归预测有何影响?答:当全模型〔m元〕正确采用选模型〔p元〕时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。

当选模型〔p元〕正确采用全模型〔m 元〕时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。

5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?C统计量达到最小的准则来衡量回答:如果所建模型主要用于预测,则应使用p归方程的优劣。

5.4 试述前进法的思想方法。

答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显著的变量〔F值最大且大于临界值〕进入回归方程。

每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的两变量变量〔F值最大且大于临界值〕进入回归方程。

在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的三个变量〔F值最大〕进入回归方程。

不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。

《应用回归分析》自变量选择与逐步回归实验报告二

《应用回归分析》自变量选择与逐步回归实验报告二

《应用回归分析》自变量选择与逐步回归实验报告二、实验步骤:(只需关键步骤)1.建立全模型回归方程;第一步:【分析】—【回归】—【线性】第二步:因变量为y自变量为x1、x2、x3、x4、x5、x62.用前进法选择自变量;第一步:在方法中选择前进第二步:点击【选项】按钮,查看或改变显著性水平的a removal值点击继续、确定,部分输出结果如下3.用后退法选择自变量;第一步:【分析】→【回归】→【线性】第二步:在【方法M】下拉项中选取后退法第三步:点击【选项】按钮,查看或改变显著性水平的a removal值4.用逐步回归法选择自变量;第一步:【分析】→【回归】→【线性】第二步:在【方法M】下拉项中选取逐步法第三步:点击【选项】按钮,查看或改变显著性水平的a entry 、a removal值,注意:要保证a entry ≤a removal三、实验结果分析:(提供关键结果截图和分析)1、回归方程为:y=-0.641x-0.317x2-0.413x3-0.002x4*-.671x5-0.008x6+1347.9862、图上可以看出:依次引入了变量x5、x1、x2、最优回归模型为:y=0.611x1-0.353x2+0.637x5+874.583最优模型的复决定系数R²=0.996调整后的复决定系数R²=0.9953、从右图上可以看出:依次剔除变量x4、x3、x6最优回归模型为:y=-0.611x1-0.353x2+0.637x5+874.583最优模型的复决定系数R²=0.996调整后的复决定系数R²=0.9954、从图上可以看出:先依次引入变量x5、x1、x2最优回归模型为:y=-0.611x1-0.353x2+0.637x5+874.583最优模型的复决定系数R²=0.996调整后的复决定系数R²=0.9955、前进法:思想是变量由少到多,每次增加一个,直到没有可引入的变量为止。

第5章 逐步回归与自变量选择

第5章  逐步回归与自变量选择
浙江财经学院 倪伟才 17
阅读材料
请阅读课本135页-137页 用SAS软件寻找最优子集 操作课本例5.2
浙江财经学院 倪伟才
18
Stata自变量的选择准则.dta (即课本例5.1)
findit rsquare
rsquare y x1 x2 x3
SEE MSE 0.5178 0.8269 0.9375 MSE models with 1 x1 x2 x3 models with 2
Measures of Fit for regress of y
Log-Lik Intercept Only: D(14):
R2: AIC: BIC:
-51.010 30.574
0.981 2.143 -9.891
Log-Lik Full Model: LR(3): Prob > LR: Adjusted R2: AIC*n: BIC':
8.2845 13.2301 14.9995 SEE
7.7093 6.5860 12.9464 SEE 5.7607
0.5140 0.4391 0.8631 MSE 0.4115
x1 x2 x1 x3 x2 x3 models with 3 x1 x2 x3
19
浙江财经学院 倪伟才
Con’d
fitstat
当所增加的自变量对回 归的贡献很小时, 2反而可能减少。 R
浙江财经学院 倪伟才 11
准则2:回归的标准误
ˆ 回归误差项方差 2的无偏估计为: 2= 此无偏估计式中加入了惩罚因子n-p-1, ˆ 2实际上就是用自由度n-p-1作平均的平均残差平方和。 1 SSR n-p-1
当自变量个数从0开始增加时,SSR逐渐减少,作为 除数的惩罚因子n-p-1也随之减少。 ˆ 一般而言,当自变量个数从0开始增加时, 2先是开始 下降,而后开始稳定下来,当自变量个数增加到一定数量后, ˆ 2又开始增加。这是因为刚开始时,随着自变量个数 的增加,SSR能够快速减少,虽然作为除数的 惩罚因子n-p-1也随之减少,但由于SSR减小的速度 ˆ 更快,因而 2是趋于减少的。当自变量个数增加到一定程度,应该 说重要的自变量基本上都已选上了,这是再增加自变量, ˆ SSR减少不多,以致抵消不了n-p-1的减少,最终导致 2增加。

自变量选择和逐步回归76页PPT

自变量选择和逐步回归76页PPT
自变量选择和逐步回归
31、别人笑我太疯癫,我笑他人看不 穿。(名 言网) 32、我不想听失意者的哭泣,抱怨者 的牢骚 ,这是 羊群中 的瘟疫 ,我不 能被它取 每天的 成功, 避免以 失败收 常在别 人停滞 不前时 ,我继 续拼搏 。
33、如果惧怕前面跌宕的山岩,生命 就永远 只能是 死水一 潭。 34、当你眼泪忍不住要流出来的时候 ,睁大 眼睛, 千万别 眨眼!你会看到 世界由 清晰变 模糊的 全过程 ,心会 在你泪 水落下 的那一 刻变得 清澈明 晰。盐 。注定 要融化 的,也 许是用 眼泪的 方式。
35、不要以为自己成功一次就可以了 ,也不 要以为 过去的 光荣可 以被永 远肯定 。
66、节制使快乐增加并使享受加强。 ——德 谟克利 特 67、今天应做的事没有做,明天再早也 是耽误 了。——裴斯 泰洛齐 68、决定一个人的一生,以及整个命运 的,只 是一瞬 之间。 ——歌 德 69、懒人无法享受休息之乐。——拉布 克 70、浪费时间是一桩大罪过。——卢梭

应用回归分析,第5章课后习题参考答案

应用回归分析,第5章课后习题参考答案

第5章自变量选择与逐步回归思考与练习参考答案自变量选择对回归参数的估计有何影响?答:回归自变量的选择是建立回归模型得一个极为重要的问题。

如果模型中丢掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。

自变量选择对回归预测有何影响?答:当全模型(m元)正确采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。

当选模型(p元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。

如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?C统计量达到最小的准则来衡量回答:如果所建模型主要用于预测,则应使用p归方程的优劣。

试述前进法的思想方法。

答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显著的变量(F 值最大且大于临界值)进入回归方程。

每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的两变量变量(F值最大且大于临界值)进入回归方程。

在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的三个变量(F值最大)进入回归方程。

不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ ˆ ˆ ˆ ˆ y 0 m = β 0 + β1 x 01 + β 2 x 02 ⋯ + β m x 0 m 是 y0 的有偏估计。
(二)选模型正确而误用全模型的情况 选模型的预测值是因变量新值的无偏估计,全模型 的预测值为y0的有偏估计。
从预测方差的角度看,根据性质 4,选模型的预测方差 ˆ ˆ D( y 0 p )小于全模型的预测方差 D( y 0 m ) 从均方预测误差的角度看,全模型的均方预测误差 2 2 ˆ ˆ ˆ E( y 0 m − y 0 ) =D( y 0 m )+[E( y 0 m )-E(y0)] 包含预测方差与预测偏差的平方两部分 2 ˆ ˆ 而选模型的均方预测误差 E( y 0 p -y0) =D( y 0 p )
ˆ ˆ ˆ ˆ 全模型的最小二乘参数估计为βm = (β 0 m , β1m ,⋯, β mm ) ′
ˆ ˆ 这条性质说明 D(β jp ) ≤ D(β jm ), j = 0,1预测残差为 e 0 p = y 0 p − y 0
1 ˆ σ = SSE n − p −1
2
此无偏估计式中也加入了惩罚因子n-p-1
ˆ 由以上分析,用平均残差平方和 σ 2 作为自变量选元准则是合理的,
2 那末它和调整的复判定系数 R a 准则有什么关系哪?实际上,这两个
准则是等价的,容易证明以下关系式成立
n −1 2 ˆ R =1− σ SST
2 a
二、自变量选择准则 如何选择一个最优的回归子集,衡量最优子集的标准是什么? 在第3章,我们曾从数据与模型拟合优劣的直观考 虑出发,认为残差平方和SSE最小的回归方程就是最好 的。还曾用复相关系数R来衡量回归拟合的好坏。然而 这两种方法都有明显的不足,这是因为:
SSEp+1≤SSEp
R 2+1 ≥ R 2 p p
第五章 自变量的选择与逐步回归
5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注
从20世纪60年代开始,关于回归自变量的选择成为统 计学中研究的热点问题。统计学家们提出了许多回归选 元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始, 介绍自变量选择常用的几个准则;扼要介绍所有子集回 归选元的几个方法;详细讨论逐步回归方法及其应用。
ˆ ˆ 仅包含预测方差这一项,并且 D( y 0 p )≤D( y 0 m )
因而从均方预测误差的角度看,全模型的预测误差将更大。
上述结论告诉我们,一个好的回归模型,并不是考虑 的自变量越多越好。在建立回归模型时,选择自变量的基 本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y 还有些影响的自变量,由选模型估计的保留变量的回归系 数的方差,要比由全模型所估计的相应变量的回归系数的 方差小。而且,对于所预测的因变量的方差来说也是如此。 丢掉了一些对因变量y有影响的自变量后,所付出的代价是 估计量产生了有偏性。然而,尽管估计量是有偏的,但预 测偏差的方差会下降。另外,如果保留下来的自变量有些 对因变量无关紧要,那么,方程中包括这些变量会导致参 数估计和预测的有偏性和精度降低。
ˆ ˆ ˆ ˆ ˆ y 0 p = β 0 p + β1p x 01 + β 2 p x 02 ⋯ + β pp x 0 p
ˆ 作为 y0 的预测值是有偏的,即 E( y 0 p − y 0 ) ≠ 0 。
性质 3. 选模型的参数估计有较小的方差
ˆ ˆ ˆ ˆ 选模型的最小二乘参数估计为βp = (β 0 p , β1p ,⋯, β pp ) ′
设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在 回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为: ˆ AIC=-2lnL(θ ,x)+2p
L
其中 ˆ L 是θ的极大似然估计,p 是未知参数的个数。 θ θ
假定回归模型的随机误差项ε遵从正态分布,即
ε~N(0,σ2)
对数似然函数为
准则1 准则 自由度调整复相关系数达到最大
n −1 R = 1− (1 − R 2 ) n − p −1
2 a
显然有 Ra ≤R2, Ra 随着自变量的增加并不一定增大。
2 从拟合优度的角度追求“最优” ,则所有回归子集中 R a 最大者
2
2
对应的回归方程就是“最优”方程。
从另外一个角度考虑回归的拟合效果, 回归误差项方差σ2的无偏估计为:
Jp = = 1
n
σ2
1
ˆ ∑(y
i =1 n
− E ( yi )) 2 ip
σ2
ˆ ( β 0 p + β1 p xi1 + ⋯ + β pp xip − ( β 0 + β1 xi1 + ⋯ + β m xim )) 2 ∑ ˆ ˆ
i =1
可以证明,Jp的期望值是
E(J p ) =
E ( SSE p )
σ
2
− n + 2( p + 1)
略去无关的常数2,据此构造出Cp统计量为
SSE p SSE p Cp = − n + 2 p = (n − m − 1) −n+ 2p 2 ˆ σ SSEm
1 ˆ 其中σ = SSE m 是全模型中σ2 的无偏估计。 n − m −1
2
这样我们得到一个选择变量的 Cp 准则: 选择使 Cp 最小的自变量子集,这个自变量子集对应的回归 方程就是“最优”回归方程。
m m m m
n − m −1
把模型(5.2)式的参数估计向量记为
ˆ βp = (X ′ X p )-1 X ′ y p p
ˆ2 σp =
1 SSE p n − p −1
二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。
注:
选模型中的p个自变量x1,x2,…,xp并不一定是全体m个自 变量x1,x2,…,xm中的前p个, x1,x2,…,xp是在m个自变 量中按某种规则挑选出来的p个 模型选择不当会给参数估计和预测带来什么影响? 下面我们将分别给予讨论。
ˆ 为了方便,我们把模型(5.1)式的参数估计向量 β 和σ2的估计记为: 1 2 ˆ = (X′ X )-1 X′ y ˆm = σ SSEm β
自变量子集
R2 0.9728 0.9566 0.9508 0.9747 0.9784 0.9576 0.9811
2 Ra
AIC 40.06 48.48 50.74 40.76 37.93 50.09 37.52
Cp 4.134 16.151 20.452 4.734 2.005 17.461 2.000
例5.1
y表示某种消费品的销售额, x1表示居民可支配收入, x2表示该类消费品的价格指数, x3表示其他消费品平均价格指数。 表5.1给出了某地区18年某种消费品销售情况资 料,试建立该地区该消费品销售额预测方程。
表5.1
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 x1(元) 81.2 82.9 83.2 85.9 88.0 99.9 102.0 105.3 117.7 126.4 131.2 148.0 153.0 161.0 170.0 174.0 185.0 189.0 x2(%) 85.0 92.0 91.5 92.9 93.0 96.0 95.0 95.6 98.9 101.5 102.0 105.0 106.0 109.0 112.0 112.5 113.0 114.0 x3(%) 87.0 94.0 95.0 95.5 96.0 97.0 97.5 97.0 98.0 101.2 102.5 104.0 105.9 109.5 111.0 112.0 112.3 113.0 (百万元) 百万元) 7.8 8.4 8.7 9.0 9.6 10.3 10.6 10.9 11.3 12.3 13.5 14.2 14.9 15.9 18.5 19.5 19.9 20.5
§5.2
一、所有子集的数目
所有子集回归
假设在一个模型中,有m个可供选择的变量x1,x2,…, xm,由于每个自变量都有入选和不入选两种情况,这样y 关于这些自变量的所有可能的回归方程就有2m-1个。 从另一个角度看 选模型包含的自变量数p有从0到m共m+1种可能情 况,则所有模型的数目有:
0 1 m C m + C m + ⋯ + Cm = 2 m
§5.1 自变量选择对估计和预测的影响
一、全模型和选模型 全模型:是指基于影响响应变量y的所有因素建立的多元 线性回归模型。 如:设研究某一实际问题涉及到对因变量有影响的因 素共有m个,不妨记为x1,…,xm.则回归模型为: y=β0+β1x1+β2x2+…+βmxm+ε 称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记 为x1,x2,…,xp,则由所选的p个自变量组成的多元线性的回 归模型为: y=β0p+β1px1+β2px2+…+βppxp+εp 称模型(5.2)式为选模型。 (5.2) (5.1)
(一)全模型正确而误用选模型的情况
性质 1. 在 xj 与 xp+1, …,xm 的相关系数不全为 0 时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即
ˆ E(β jp ) = β jp ≠ β j (j=1,2, …,p) 。
性质 2. 选模型的的预测是有偏的。 给定新自变量值 x 0 p = ( x 01 , x 02 ,⋯, x 0 m ) ′ ,因变量新值为 y0=β0+β1x01+β2x02+…+βmx0m+ε0 用选模型的预测值为
相关文档
最新文档