第5章逐步回归与自变量选择。
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
R2随着自变量的增加并不一定增大 !
由上式知:尽管1-R2随着变量的增加而减少 , 但由于其前面的系数 n -1 起到制衡作用,
n -p -1 才使R 2随着自变量的增加并不 一定增大。 当所增加的自变量对回 归的贡献很小时, R 2反而可能减少。
浙江财经学院 倪伟才
11
准则2:回归的标准误
回归误差项方差? 2的无偏估计为:??2= 1 SSR n-p-1
引入自变量显著性水平记为: ? 进
剔除自变量显著性水平记为:? 出
要使用逐步回归法的前提: ? 进<? 出
Spss中默认的? 进 =0.05
? 出=0.1
例:用逐步回归法建立例3.1回归方程
练习课本例5.5关于香港股市的研究
练习课本152页的习题浙5江.9财经学院 倪伟才
Stata ,SPSS结果一致(课本例5.1)
④直到未被引入方程的p值>0.05为止。
例:用前进法建立例3.1的 回归方程
浙江财经学院 倪伟才
二、后退法
后退法( backwad )的基本 思想:首先用全部的 p个自变量建立一个回归方程,然后将最不重 要的自变量 一个一个地删除 。
具体步骤:①作 y对全部的p个自变x1,x2,….,xp 的回归②在回归方程中,将 x1,x2,….,xp 对y的 影响最小(最不重要或 p值最大)的自变量剔 除,不妨令 x1;③在② 中的回归方程(已没有 x1 ),将x2,….,xp 对y的影响最小(最不重要 或p值最大)的自变量剔除,④直到回归方程 中,自变量对 y的影响都重要为止。 例:用后退法建立例 3.1回归方程
的增加,SSR能够快速减少,虽然作为除数的
惩罚因子n-p-1也随之减少,但由于SSR减小的速度
更快,因而??2是趋于减少的。当自变量个数增加到一定程度,应该
说重要的自变量基本上都已选上了,这是再增加自变量,
SSR减少不多,以致抵消不了n-p-1的减少,最终导致??2增加。
浙江财经学院 倪伟才
12
用平均残差平方和 ??2作为自变量选元准则是合理的。 实际上, ??2和R 2这两个 准则是等价的 。 R 2 ? 1 ? n-1 ??2
此无偏估计式中加入了惩罚因子n-p-1,
??2实际上就是用自由度n-p-1作平均的平均残差平方和。
当自变量个数从0开始增加时,SSR逐渐减少,作为
除数的惩罚因子n-p-1也随之减少。
一般而言,当自变量个数从0开始增加时,??2先是开始
下降,而后开始稳定下来,当自变量个数增加到一定数量后,
??2又开始增加。这是因为刚开始时,随着自变量个数
在一个实际问题的多元回归模型的建模过程中 ,有p 个可供选择的变量 x1,x2,…,xp.
这样,y关于这些自变量的所有可能的回归方程就有 2p个,(此时把回归模型只包含常数项的情况包含在 内)。(请说出为什么是 2p个的理由?)
若把回归模型只包含常数项的情况排除在外,可能 的回归方程就有 2p-1个。
第五章逐步回归法
浙江财经学院 倪伟才
一、前进法
前进法(forward)的思想:自变量由少到多,每次增 加1个,直到没有可引入的变量为止。
具体步骤:①将x1,x2,….,xp 中的一个变量引入回归方
程,作p个一元线性回归方程;选取与y关系最密切
(相关性最强)(或p值最小的)解释变量引入。不妨
设为x1. ②回归方程中已有x1 ,再引入一个变量。
浙江财经学院 倪伟才
9
准则1:调整复决定系数
R2 ? 1? SSR
SST
SSR
R2 ? 1?
n? p?1
SST
n?1
? 1? n ? 1 SSR n ? p ? 1 SST
? 1? 1? R2 (n ? 1)
n? p?1
浙江财经学院 倪伟才
10
调整复决定系数
R 2 ? 1 ? n ? 1 (1? R 2 ) n? p?1
步骤:将变量一个一个引入,当引入一个新的变量时,不 仅对新变量进行检验,而且对已引进的自变量也要检验。 若已引进 的 变量由于后面的 变量引进而变地不显著时, 将其剔除(有进有出),直到不再有显著的变量引入回归 方程,也不再有不显著的变量从回归方程中剔除。(通俗 的说:方程中的自变量都是显著的,方程外的自变量都是 不显著的)
1:Stepwise:
sw reg y x1 x2 x3 , pe(.05) pr(.1) forward
与SPSS的输出结果完全相同!
2:forward:
sw regress y x1 x2 x3 , pe(.05)
3:backward:
sw regress y x1 x2 x3 , pr(.1)
浙江财经学院 倪伟才
三.前进法、后退法的缺点
前进法:终身制。
前面引进的自变量是显著的,但后面引进其它变 量后变地不显著了,此时再也无法将其剔除。
后退法 :一棍子打死。
一旦某个自变量被剔除后,它再也没有机会重新 进入回归方程。
浙江财经学院 倪伟才
四.逐步回归法
思想:有进有出,在前进法的基础上,结合后退法。
4:区别sw reg y x1 x2 x3 , pe(.05) pr(.1) forward
begin with empty model
sw reg y x*,pe(0.05) pr(0.1)
begin with full model
浙江财经学院 倪伟才
6
自变量选择的准则
浙江财经学院 倪伟才
7
所有子集回归
对于有p个自变量的回归模型问题,一切可能的回归 子集有2p个,在这些回归子集中 如何选择一个最 优的回归子集 ,衡量最优子集的标准是什么 ?
浙江财经学院 倪伟才
8
复习残差平方和与复决定系数
1:OLSE的基本思想:使残差平方和达到最 小。
思考:能用残差平方和来选择一个最优的回 归子集吗?理由?
2:能用复决定系数来选择一个最优的回归子 集吗?理由?
SST 由于SST 是与回归无关的固定 值,
因而??2和R 2是等价的。
作p-1个二元线性回归方程;选取x2,….,xp 中与y关系最密切(相关性源自强)(或p值最小的)解释变量引入。
不妨设为x2.
③回归方程中已有x1 , x2,再引
入一个变量。作p-2个三元线性回归方程;选取
x3,….,xp 中与y关系最密切(相关性最强)(或p值最
小的)解释变量引入。不妨设为x3.
。。。。。。。
由上式知:尽管1-R2随着变量的增加而减少 , 但由于其前面的系数 n -1 起到制衡作用,
n -p -1 才使R 2随着自变量的增加并不 一定增大。 当所增加的自变量对回 归的贡献很小时, R 2反而可能减少。
浙江财经学院 倪伟才
11
准则2:回归的标准误
回归误差项方差? 2的无偏估计为:??2= 1 SSR n-p-1
引入自变量显著性水平记为: ? 进
剔除自变量显著性水平记为:? 出
要使用逐步回归法的前提: ? 进<? 出
Spss中默认的? 进 =0.05
? 出=0.1
例:用逐步回归法建立例3.1回归方程
练习课本例5.5关于香港股市的研究
练习课本152页的习题浙5江.9财经学院 倪伟才
Stata ,SPSS结果一致(课本例5.1)
④直到未被引入方程的p值>0.05为止。
例:用前进法建立例3.1的 回归方程
浙江财经学院 倪伟才
二、后退法
后退法( backwad )的基本 思想:首先用全部的 p个自变量建立一个回归方程,然后将最不重 要的自变量 一个一个地删除 。
具体步骤:①作 y对全部的p个自变x1,x2,….,xp 的回归②在回归方程中,将 x1,x2,….,xp 对y的 影响最小(最不重要或 p值最大)的自变量剔 除,不妨令 x1;③在② 中的回归方程(已没有 x1 ),将x2,….,xp 对y的影响最小(最不重要 或p值最大)的自变量剔除,④直到回归方程 中,自变量对 y的影响都重要为止。 例:用后退法建立例 3.1回归方程
的增加,SSR能够快速减少,虽然作为除数的
惩罚因子n-p-1也随之减少,但由于SSR减小的速度
更快,因而??2是趋于减少的。当自变量个数增加到一定程度,应该
说重要的自变量基本上都已选上了,这是再增加自变量,
SSR减少不多,以致抵消不了n-p-1的减少,最终导致??2增加。
浙江财经学院 倪伟才
12
用平均残差平方和 ??2作为自变量选元准则是合理的。 实际上, ??2和R 2这两个 准则是等价的 。 R 2 ? 1 ? n-1 ??2
此无偏估计式中加入了惩罚因子n-p-1,
??2实际上就是用自由度n-p-1作平均的平均残差平方和。
当自变量个数从0开始增加时,SSR逐渐减少,作为
除数的惩罚因子n-p-1也随之减少。
一般而言,当自变量个数从0开始增加时,??2先是开始
下降,而后开始稳定下来,当自变量个数增加到一定数量后,
??2又开始增加。这是因为刚开始时,随着自变量个数
在一个实际问题的多元回归模型的建模过程中 ,有p 个可供选择的变量 x1,x2,…,xp.
这样,y关于这些自变量的所有可能的回归方程就有 2p个,(此时把回归模型只包含常数项的情况包含在 内)。(请说出为什么是 2p个的理由?)
若把回归模型只包含常数项的情况排除在外,可能 的回归方程就有 2p-1个。
第五章逐步回归法
浙江财经学院 倪伟才
一、前进法
前进法(forward)的思想:自变量由少到多,每次增 加1个,直到没有可引入的变量为止。
具体步骤:①将x1,x2,….,xp 中的一个变量引入回归方
程,作p个一元线性回归方程;选取与y关系最密切
(相关性最强)(或p值最小的)解释变量引入。不妨
设为x1. ②回归方程中已有x1 ,再引入一个变量。
浙江财经学院 倪伟才
9
准则1:调整复决定系数
R2 ? 1? SSR
SST
SSR
R2 ? 1?
n? p?1
SST
n?1
? 1? n ? 1 SSR n ? p ? 1 SST
? 1? 1? R2 (n ? 1)
n? p?1
浙江财经学院 倪伟才
10
调整复决定系数
R 2 ? 1 ? n ? 1 (1? R 2 ) n? p?1
步骤:将变量一个一个引入,当引入一个新的变量时,不 仅对新变量进行检验,而且对已引进的自变量也要检验。 若已引进 的 变量由于后面的 变量引进而变地不显著时, 将其剔除(有进有出),直到不再有显著的变量引入回归 方程,也不再有不显著的变量从回归方程中剔除。(通俗 的说:方程中的自变量都是显著的,方程外的自变量都是 不显著的)
1:Stepwise:
sw reg y x1 x2 x3 , pe(.05) pr(.1) forward
与SPSS的输出结果完全相同!
2:forward:
sw regress y x1 x2 x3 , pe(.05)
3:backward:
sw regress y x1 x2 x3 , pr(.1)
浙江财经学院 倪伟才
三.前进法、后退法的缺点
前进法:终身制。
前面引进的自变量是显著的,但后面引进其它变 量后变地不显著了,此时再也无法将其剔除。
后退法 :一棍子打死。
一旦某个自变量被剔除后,它再也没有机会重新 进入回归方程。
浙江财经学院 倪伟才
四.逐步回归法
思想:有进有出,在前进法的基础上,结合后退法。
4:区别sw reg y x1 x2 x3 , pe(.05) pr(.1) forward
begin with empty model
sw reg y x*,pe(0.05) pr(0.1)
begin with full model
浙江财经学院 倪伟才
6
自变量选择的准则
浙江财经学院 倪伟才
7
所有子集回归
对于有p个自变量的回归模型问题,一切可能的回归 子集有2p个,在这些回归子集中 如何选择一个最 优的回归子集 ,衡量最优子集的标准是什么 ?
浙江财经学院 倪伟才
8
复习残差平方和与复决定系数
1:OLSE的基本思想:使残差平方和达到最 小。
思考:能用残差平方和来选择一个最优的回 归子集吗?理由?
2:能用复决定系数来选择一个最优的回归子 集吗?理由?
SST 由于SST 是与回归无关的固定 值,
因而??2和R 2是等价的。
作p-1个二元线性回归方程;选取x2,….,xp 中与y关系最密切(相关性源自强)(或p值最小的)解释变量引入。
不妨设为x2.
③回归方程中已有x1 , x2,再引
入一个变量。作p-2个三元线性回归方程;选取
x3,….,xp 中与y关系最密切(相关性最强)(或p值最
小的)解释变量引入。不妨设为x3.
。。。。。。。