逐步回归分析剖析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前进法的一般步骤: 假设已进行了l步筛选,并选入自变量x1,
x2,…xl,现进行第l+1步筛选:
分别将自变量组 x1, x2 ,, xl , xl1 ,x1, x2 ,, xl , xl2 , …,x1, x2 ,, xl , xm 与y建立l+1元回归方程;回归
方程中 xl1, xl2 ,, xm 的回归系数检验统计量记
s2 A SE (A) n l 1 达到最小
(2)预测均方误差最小
J
( A)
n n
l l
1 1
S
E
A
达到最小
(3) C p 统计量最小准则
Cp
A
SE
SE A n m 1
2l
n
达到最小
(4)AIC或BIC准则
或
AIC ( A)
ln
S
E
A
2l n
BIC
(
A)
ln
S
E
A
l
ln n
n
达到最小
(5)修正 R 2 准则
min{
F1l1 ,
F2l1 ,,
F l1 ml
}
F F l1
kl 1
1, n m l 1
则停止筛选, y与x1,x2,…,xm-l 之间的回归
(3)计算量适中的选择法:
最小R2增量法(MINR) 最大R2增量法(MAXR)
4.6.3逐步回归的基本思想与步骤
基本思想:逐个引入自变量,每次引入对y影响 最显著的自变量,并对方程中的老变量逐个进行 检验,把变得不显著的变量逐个从方程中剔除, 最终的回归方程中既不漏掉对y影响显著的变量, 又不包含对y影响不显著的变量。
前进法的缺点:不能反映自变量选进模型后的变 化情况 。
4.6.3.2 后退法(BACKWARD)
原理:
事先给定从方程中剔除自变量的显著性水平,开 始全部自变量都在模型中,然后按自变量对y的贡 献由小到大依次剔除,直至方程中没有不显著的 变量可剔除为止。
该方法的特点是:自变量一旦被剔除,就不再进入 模型,
R 2 1 n i (1 R 2 ) 达到最大
nl
4.6.2 选择最优回归子集的方法 (1)选择最优子集的简便方法:
逐步筛选法(STEPWISE) 向前引入法或 前进法(FORWARD) 向后剔除法或后退法(BACKWARD)
(2)计算量最大的全子集法:
R2选择法(RSQUARE) Cp选择法(CP) 修正R2选择法(ADJRSQ)。
为: ,记
Fl
l 1 1
,
F l1 l2
,,
F l1 m
F l1 kl 1
max
F l1 l 1
,
F l1 l2
,,
Fml 1
若 得到Fk的ll11回 归F方(1,程n ,(即l 为1)最1优),的停回止归筛方选程,;上一步
若 进行Fk下ll11 一 F步 (筛1, n选。(l 1) 1),将 xkl1 选进模型,
(2)分别计算这m个一元回归方程中回归系数
的检验统计量F,记为:F11, F21,, Fm1 ,
取最大值
F1 k1
max
F11, F21,, Fm1
ቤተ መጻሕፍቲ ባይዱ
,
若
F1 k1
F进
F 1,n 2
,停止筛选;
若
F1 k1
F进
F 1,n 2
,选入
xk1 ,不
妨设 xk1 是 x1 ,进入步骤(3);
(3)分别将自变量组 x1, x,2 x1, x,3 …,
x1, xm 与因变量y建立二元回归方程,计算回
归方程中x2,x3,…,xm的回归系数检验统计
量F,记为: F22 , F32 ,, Fm2 ,取其最大值
F2 k2
max
F22 , F32 ,, Fm2
,若
F2 k2
§4.6 逐步回归分析
4.6.1最优选择的标准
最优回归方程的含义: (1)方程中包含所有对因变量影响显著的变量; (2)方程中所包含的自变量要尽可能地少。
设n为观测样本数,X {x1, x2 ,, xm}
为所有自变量构成的集合,A xi1 , xi2 ,, xil
为X的子集。
(1)均方误差s2最小
(1)建立全部自变量x1,x2,…,xm对因变 量y的回归方程,对方程中m个自变量的回归系 数b1,b2,…,bm进行F检验,相应的F值记
为:F11, F21,, Fm1
,取最小值
F1 k1
min
F11, F21,, Fm1
若
F1 k1
F出
F
1,n
m
1,没有自变量可剔除,
此时的回归方程就是最优的回归方程;
若
F1 k1
F出 F 1,n m 1 ,剔除xk1,不妨设xk1
是xm,进入步骤(2)。
(2)建立x1,x2,…,xm-1与因变量y的回归 方程 ,对方程中自变量的回归系数进行F检验,
相应的F值记为:F12
,
F22
,,
F2 m1
,取最小值
F2 k2
min
F12 , F22 ,, Fm21
,若
F2 k2
F出 F 1,n (m 1) 1
则无自变量可剔除,此时的回归方程即最优的回
归方程;
若
F2 k2
F出
F 1,n (m 1) 1,将xk2
从模型中剔除,不妨设xk2就是xm-1,进入步骤
(3);
(3)重复前面的做法,直至回归方程中各变量 回归系数的F值均大于临界值,即方程中没有变 量可剔除为止,此时的回归方程就是最优的回归 方程。
F进
F
1,n 2 1
则停止筛选,y与 x1之间的回归方程就是最优的
回归方程;若
F2 k2
F进
F 1,n 2 1
,选进xk2
,
不妨设xk2是 x2,进入步骤(4)。
(4)对已经选入模型的变量,x1,x2,如同前 面的方法做下去,直到所有未被选入模型 的自变量的F值都小于相应的临界值为止, 这时的回归方程就是最优回归方程。
4.6.3.1前进法(FORWARD)
原理: 事先给定挑选自变量进入方程的显著性水平, 按自变量对因变量y的贡献由大到小依次挑选自 变量进入方程,直到方程外没有显著的自变量可 引入为止。
该方法的特点是:自变量一旦被选入,就永远保留 在模型中。
图4.1 逐步回归的基本步骤
步骤
(1)将全部m个自变量,分别与因变量y建立 一元回归方程;
后退法的一般步骤:
假设已经进行了l步剔除,模型中的自变量为x1, x2,…,xm-l ,现进行第l+1步剔除:
建立x1,x2,…,xm-l 对y的回归方程,对方程 中x1,x2,…,xm-l的回归系数进行F检验,相
应的F统计量记为
: F1l
1
,
F2l
1
,,
F l1 ml
,取最小值
,若 F l1 kl 1
x2,…xl,现进行第l+1步筛选:
分别将自变量组 x1, x2 ,, xl , xl1 ,x1, x2 ,, xl , xl2 , …,x1, x2 ,, xl , xm 与y建立l+1元回归方程;回归
方程中 xl1, xl2 ,, xm 的回归系数检验统计量记
s2 A SE (A) n l 1 达到最小
(2)预测均方误差最小
J
( A)
n n
l l
1 1
S
E
A
达到最小
(3) C p 统计量最小准则
Cp
A
SE
SE A n m 1
2l
n
达到最小
(4)AIC或BIC准则
或
AIC ( A)
ln
S
E
A
2l n
BIC
(
A)
ln
S
E
A
l
ln n
n
达到最小
(5)修正 R 2 准则
min{
F1l1 ,
F2l1 ,,
F l1 ml
}
F F l1
kl 1
1, n m l 1
则停止筛选, y与x1,x2,…,xm-l 之间的回归
(3)计算量适中的选择法:
最小R2增量法(MINR) 最大R2增量法(MAXR)
4.6.3逐步回归的基本思想与步骤
基本思想:逐个引入自变量,每次引入对y影响 最显著的自变量,并对方程中的老变量逐个进行 检验,把变得不显著的变量逐个从方程中剔除, 最终的回归方程中既不漏掉对y影响显著的变量, 又不包含对y影响不显著的变量。
前进法的缺点:不能反映自变量选进模型后的变 化情况 。
4.6.3.2 后退法(BACKWARD)
原理:
事先给定从方程中剔除自变量的显著性水平,开 始全部自变量都在模型中,然后按自变量对y的贡 献由小到大依次剔除,直至方程中没有不显著的 变量可剔除为止。
该方法的特点是:自变量一旦被剔除,就不再进入 模型,
R 2 1 n i (1 R 2 ) 达到最大
nl
4.6.2 选择最优回归子集的方法 (1)选择最优子集的简便方法:
逐步筛选法(STEPWISE) 向前引入法或 前进法(FORWARD) 向后剔除法或后退法(BACKWARD)
(2)计算量最大的全子集法:
R2选择法(RSQUARE) Cp选择法(CP) 修正R2选择法(ADJRSQ)。
为: ,记
Fl
l 1 1
,
F l1 l2
,,
F l1 m
F l1 kl 1
max
F l1 l 1
,
F l1 l2
,,
Fml 1
若 得到Fk的ll11回 归F方(1,程n ,(即l 为1)最1优),的停回止归筛方选程,;上一步
若 进行Fk下ll11 一 F步 (筛1, n选。(l 1) 1),将 xkl1 选进模型,
(2)分别计算这m个一元回归方程中回归系数
的检验统计量F,记为:F11, F21,, Fm1 ,
取最大值
F1 k1
max
F11, F21,, Fm1
ቤተ መጻሕፍቲ ባይዱ
,
若
F1 k1
F进
F 1,n 2
,停止筛选;
若
F1 k1
F进
F 1,n 2
,选入
xk1 ,不
妨设 xk1 是 x1 ,进入步骤(3);
(3)分别将自变量组 x1, x,2 x1, x,3 …,
x1, xm 与因变量y建立二元回归方程,计算回
归方程中x2,x3,…,xm的回归系数检验统计
量F,记为: F22 , F32 ,, Fm2 ,取其最大值
F2 k2
max
F22 , F32 ,, Fm2
,若
F2 k2
§4.6 逐步回归分析
4.6.1最优选择的标准
最优回归方程的含义: (1)方程中包含所有对因变量影响显著的变量; (2)方程中所包含的自变量要尽可能地少。
设n为观测样本数,X {x1, x2 ,, xm}
为所有自变量构成的集合,A xi1 , xi2 ,, xil
为X的子集。
(1)均方误差s2最小
(1)建立全部自变量x1,x2,…,xm对因变 量y的回归方程,对方程中m个自变量的回归系 数b1,b2,…,bm进行F检验,相应的F值记
为:F11, F21,, Fm1
,取最小值
F1 k1
min
F11, F21,, Fm1
若
F1 k1
F出
F
1,n
m
1,没有自变量可剔除,
此时的回归方程就是最优的回归方程;
若
F1 k1
F出 F 1,n m 1 ,剔除xk1,不妨设xk1
是xm,进入步骤(2)。
(2)建立x1,x2,…,xm-1与因变量y的回归 方程 ,对方程中自变量的回归系数进行F检验,
相应的F值记为:F12
,
F22
,,
F2 m1
,取最小值
F2 k2
min
F12 , F22 ,, Fm21
,若
F2 k2
F出 F 1,n (m 1) 1
则无自变量可剔除,此时的回归方程即最优的回
归方程;
若
F2 k2
F出
F 1,n (m 1) 1,将xk2
从模型中剔除,不妨设xk2就是xm-1,进入步骤
(3);
(3)重复前面的做法,直至回归方程中各变量 回归系数的F值均大于临界值,即方程中没有变 量可剔除为止,此时的回归方程就是最优的回归 方程。
F进
F
1,n 2 1
则停止筛选,y与 x1之间的回归方程就是最优的
回归方程;若
F2 k2
F进
F 1,n 2 1
,选进xk2
,
不妨设xk2是 x2,进入步骤(4)。
(4)对已经选入模型的变量,x1,x2,如同前 面的方法做下去,直到所有未被选入模型 的自变量的F值都小于相应的临界值为止, 这时的回归方程就是最优回归方程。
4.6.3.1前进法(FORWARD)
原理: 事先给定挑选自变量进入方程的显著性水平, 按自变量对因变量y的贡献由大到小依次挑选自 变量进入方程,直到方程外没有显著的自变量可 引入为止。
该方法的特点是:自变量一旦被选入,就永远保留 在模型中。
图4.1 逐步回归的基本步骤
步骤
(1)将全部m个自变量,分别与因变量y建立 一元回归方程;
后退法的一般步骤:
假设已经进行了l步剔除,模型中的自变量为x1, x2,…,xm-l ,现进行第l+1步剔除:
建立x1,x2,…,xm-l 对y的回归方程,对方程 中x1,x2,…,xm-l的回归系数进行F检验,相
应的F统计量记为
: F1l
1
,
F2l
1
,,
F l1 ml
,取最小值
,若 F l1 kl 1