第四讲 回归分析3(逐步回归分析)(课堂PPT)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
43(4)
② “逐步引入“法的缺点: 不能反映后来变化的状况,设想x1、x2、x3引入后,又引 入了x6,也许x3、x6引入后,x1的作用就不重要了,应该 予以剔除,而“逐步引入”法不能达到这个要求
4.逐步回归分析方法
– 按照自变量对因变量所起作用的显著程度,从大到小 逐个地引入回归方程
– 当每一变量引入以后,若先前已经引入的变量由于后 来变量的引入而使其作用变得不显著时,就及时从回 归方程中剔除出去,直到作用显著的变量都引入到回 归方程,而作用不显者的变量都剔出回归方程,得到 一个最佳的变量组合为止
43(2)
选择最优回归方程的方法
1.从所有可能的变量组合中,选择一个最优的回归 方程。这种方法一定能选出一个最优组合,但工 作量特别大
2.逐步剔除法
– 基本步骤:
• 从包含全部p个自变量组合的回归方程中逐个检验回归系数, 剔除对因变量作用不显著的自变量;
• 对剔除后剩下的q个自变量建立对因变量的多元回归方程,再 逐个检验回归系数,剔除不显著的变量;
ui ˆi2 cii
43(13)
利用统计量
F
Q
ui 1 (n (l 1) 1)
Βιβλιοθήκη Baidu
ui
ˆ 2
~
F (1, n l 2)
经F 检验,当 xi 作用显著时,可将其引入。
同理,如果 xi 原来已经在回归方程中,若检验后其 作用不显著,可及时从回归方程中剔除出去。
因此,取剔除和引入变量 xi的标准相同,即
Lyy U (x1,L , xl , xi ) Q(x1,L , xl , xi )
原来的是
Lyy U (x1,L , xl ) Q(x1,L , xl )
注意到上两式左端 Lyy 是一样的,当xi 引入后,回 归平方和从 U(x1,…,xl) 增加到U(x1,…,xl ,xi) ,而残差 平方和从 Q(x1,…,xl) 降到 Q(x1,…,xl ,xi)
43(12)
因此,有
U (x1,L , xl , xi ) U (x1,L , xl ) Q(x1,L , xl ) Q(x1,L , xl , xi )
记
ui U (x1,L , xl , xi ) U (x1,L , xl )
ui就是回归方程中引入 xi 后对回归平方和的贡献, 即偏回归平方和,且有
逐步回归分析
43(1)
最优回归方程的问题
• 在有p个自变量的情况下,根据自变量的不 同组合可能建立的回归方程众多。这些回 归方程的效果有好有坏,而人们希望的是 回归效果最好的,即“最优”的回归方程
• 最优回归方程的要求:
– 回归效果最佳 – 自变量的个数最少
• 一方面对因变量起显著作用的自变量都选进回归方 程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合
43(5)
逐步回归分析的几个问题
一、建立标准正规方程组 二、变量的引入、剔除与消去法的关
系
43(6)
一、建立标准正规方程组
• 为了分辨 p个自变量对因变量 Y 所起影响(或作用) 的大小,一个自然的想法是比较各自变量回归系 数 ˆj (j=1,2,…,p)的绝对值的大小。
– 根据回归系数的含义,Xj 的回归系数 ˆj 是在其余p-1 个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映 了它所代表的因素的重要程度
43(8)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组
• 标准化正规方程组为:
r11ˆ1* r12ˆ2* L
r1
p
ˆ
* p
r1y
r21ˆ1* r22ˆ2* L
r2
p
ˆ
* p
r2 y
L
L
L
rp1ˆ1* rp2ˆ2* L
rpp
ˆ
* p
• 重复上述步骤,直到保留在回归方程中自变量的作用都显著为 止
– 缺点:一开始把全部自变量都要引入回归方程,计算 量很大,实际上有些不重要的就不必引入
43(3)
3.逐步引入法
①基本步骤:
先逐个比较 xl,…,xp 对 y 的回归方程那些是显著的,从显 著的方程中挑选 F 值最大的,相应的自变量 x 就被“引 入”方程。无妨设 x 就是x1 再逐个比较(x1,x2)、(x1,x3)、…、(x1,xp)对y的回归方程,看 有没有F值显著的,此时的F就是考虑添加xi之后, xi的回 归系数是否显著地不为0,将显著的F中最大的F所相应的 变量“引入”方程。无妨设第二次“引入”的自变量是x2 再考察以x1、x2为基础,逐个添加x3、x4、…、xp之后的回 归方程,是否较x1、x2的方程有显著的改进,有就再“引 入”新的自变量……,这样下去,终于到某一步就没有可 以再“引入”的自变量了。这时就获得了最后的回归方程
F剔除
F引入
ui
ˆ 2
43(14)
二、变量的引入、剔除与消去法的关系
• 在逐步回归中引入一个变量与剔除一个变量都要 作变换,变换公式相同,采用求解求逆紧凑格式
在第s 次对第k 列消去的变换公式是:
• 假定已有 l 个自变量引入到回归方程,即
y ˆ1*x1 ˆ2*x2 L ˆl*xl
相应的平方和分解公式是
Lyy U Q
为了表明 U 和 Q 与引入的自变量是有关的,分 别用符号U(x1,…,xl) 和 Q(x1,…,xl) 表示
43(11)
当增加一个自变量 xi ( i = l+1,…, p ) 后,有了新 的回归方程,相应的平方和分解公式是
rpy
43(9)
标准正规方程组
•
标准化正规方程组的解
ˆ
* j
称为标准回归系
数,其常数项 ˆ0* 为0 。由于因变量也进行
了标准化,其总离差平方和 Lyy=1
• 求解标准化正规方程组还需要解决以下两
个问题
①引入变量和剔除变量的标准;
②引入变量与剔除变量的方法。
43(10)
二、变量的引入、剔除与消去法的关系
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(7)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化
• 标准化的方法
xj
Xj X L jj
j
j 1,2, , p
• 经过标准化的变量,其均值为 0,标准离差 Lxjxj为 1
② “逐步引入“法的缺点: 不能反映后来变化的状况,设想x1、x2、x3引入后,又引 入了x6,也许x3、x6引入后,x1的作用就不重要了,应该 予以剔除,而“逐步引入”法不能达到这个要求
4.逐步回归分析方法
– 按照自变量对因变量所起作用的显著程度,从大到小 逐个地引入回归方程
– 当每一变量引入以后,若先前已经引入的变量由于后 来变量的引入而使其作用变得不显著时,就及时从回 归方程中剔除出去,直到作用显著的变量都引入到回 归方程,而作用不显者的变量都剔出回归方程,得到 一个最佳的变量组合为止
43(2)
选择最优回归方程的方法
1.从所有可能的变量组合中,选择一个最优的回归 方程。这种方法一定能选出一个最优组合,但工 作量特别大
2.逐步剔除法
– 基本步骤:
• 从包含全部p个自变量组合的回归方程中逐个检验回归系数, 剔除对因变量作用不显著的自变量;
• 对剔除后剩下的q个自变量建立对因变量的多元回归方程,再 逐个检验回归系数,剔除不显著的变量;
ui ˆi2 cii
43(13)
利用统计量
F
Q
ui 1 (n (l 1) 1)
Βιβλιοθήκη Baidu
ui
ˆ 2
~
F (1, n l 2)
经F 检验,当 xi 作用显著时,可将其引入。
同理,如果 xi 原来已经在回归方程中,若检验后其 作用不显著,可及时从回归方程中剔除出去。
因此,取剔除和引入变量 xi的标准相同,即
Lyy U (x1,L , xl , xi ) Q(x1,L , xl , xi )
原来的是
Lyy U (x1,L , xl ) Q(x1,L , xl )
注意到上两式左端 Lyy 是一样的,当xi 引入后,回 归平方和从 U(x1,…,xl) 增加到U(x1,…,xl ,xi) ,而残差 平方和从 Q(x1,…,xl) 降到 Q(x1,…,xl ,xi)
43(12)
因此,有
U (x1,L , xl , xi ) U (x1,L , xl ) Q(x1,L , xl ) Q(x1,L , xl , xi )
记
ui U (x1,L , xl , xi ) U (x1,L , xl )
ui就是回归方程中引入 xi 后对回归平方和的贡献, 即偏回归平方和,且有
逐步回归分析
43(1)
最优回归方程的问题
• 在有p个自变量的情况下,根据自变量的不 同组合可能建立的回归方程众多。这些回 归方程的效果有好有坏,而人们希望的是 回归效果最好的,即“最优”的回归方程
• 最优回归方程的要求:
– 回归效果最佳 – 自变量的个数最少
• 一方面对因变量起显著作用的自变量都选进回归方 程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合
43(5)
逐步回归分析的几个问题
一、建立标准正规方程组 二、变量的引入、剔除与消去法的关
系
43(6)
一、建立标准正规方程组
• 为了分辨 p个自变量对因变量 Y 所起影响(或作用) 的大小,一个自然的想法是比较各自变量回归系 数 ˆj (j=1,2,…,p)的绝对值的大小。
– 根据回归系数的含义,Xj 的回归系数 ˆj 是在其余p-1 个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映 了它所代表的因素的重要程度
43(8)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组
• 标准化正规方程组为:
r11ˆ1* r12ˆ2* L
r1
p
ˆ
* p
r1y
r21ˆ1* r22ˆ2* L
r2
p
ˆ
* p
r2 y
L
L
L
rp1ˆ1* rp2ˆ2* L
rpp
ˆ
* p
• 重复上述步骤,直到保留在回归方程中自变量的作用都显著为 止
– 缺点:一开始把全部自变量都要引入回归方程,计算 量很大,实际上有些不重要的就不必引入
43(3)
3.逐步引入法
①基本步骤:
先逐个比较 xl,…,xp 对 y 的回归方程那些是显著的,从显 著的方程中挑选 F 值最大的,相应的自变量 x 就被“引 入”方程。无妨设 x 就是x1 再逐个比较(x1,x2)、(x1,x3)、…、(x1,xp)对y的回归方程,看 有没有F值显著的,此时的F就是考虑添加xi之后, xi的回 归系数是否显著地不为0,将显著的F中最大的F所相应的 变量“引入”方程。无妨设第二次“引入”的自变量是x2 再考察以x1、x2为基础,逐个添加x3、x4、…、xp之后的回 归方程,是否较x1、x2的方程有显著的改进,有就再“引 入”新的自变量……,这样下去,终于到某一步就没有可 以再“引入”的自变量了。这时就获得了最后的回归方程
F剔除
F引入
ui
ˆ 2
43(14)
二、变量的引入、剔除与消去法的关系
• 在逐步回归中引入一个变量与剔除一个变量都要 作变换,变换公式相同,采用求解求逆紧凑格式
在第s 次对第k 列消去的变换公式是:
• 假定已有 l 个自变量引入到回归方程,即
y ˆ1*x1 ˆ2*x2 L ˆl*xl
相应的平方和分解公式是
Lyy U Q
为了表明 U 和 Q 与引入的自变量是有关的,分 别用符号U(x1,…,xl) 和 Q(x1,…,xl) 表示
43(11)
当增加一个自变量 xi ( i = l+1,…, p ) 后,有了新 的回归方程,相应的平方和分解公式是
rpy
43(9)
标准正规方程组
•
标准化正规方程组的解
ˆ
* j
称为标准回归系
数,其常数项 ˆ0* 为0 。由于因变量也进行
了标准化,其总离差平方和 Lyy=1
• 求解标准化正规方程组还需要解决以下两
个问题
①引入变量和剔除变量的标准;
②引入变量与剔除变量的方法。
43(10)
二、变量的引入、剔除与消去法的关系
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(7)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化
• 标准化的方法
xj
Xj X L jj
j
j 1,2, , p
• 经过标准化的变量,其均值为 0,标准离差 Lxjxj为 1