第四讲 回归分析3(逐步回归分析)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 缺点:一开始把全部自变量都要引入回归方程,计算 量很大,实际上有些不重要的就不必引入
43(2)
3.逐步引入法
①基本步骤: 先逐个比较 xl,…,xp 对 y 的回归方程那些是显著的,从显 著的方程中挑选 F 值最大的,相应的自变量 x 就被“引 入”方程。无妨设 x 就是x1 再逐个比较(x1,x2)、(x1,x3)、…、(x1,xp)对y的回归方程,看 有没有F值显著的,此时的F就是考虑添加xi之后, xi的回 归系数是否显著地不为0,将显著的F中最大的F所相应的 变量“引入”方程。无妨设第二次“引入”的自变量是x2 再考察以x1、x2为基础,逐个添加x3、x4、…、xp之后的回 归方程,是否较x1、x2的方程有显著的改进,有就再“引 入”新的自变量……,这样下去,终于到某一步就没有可 以再“引入”的自变量了。这时就获得了最后的回归方程
最优回归方程的问题
• 在有p个自变量的情况下,根据自变量的不 同组合可能建立的回归方程众多。这些回 归方程的效果有好有坏,而人们希望的是 回归效果最好的,即“最优”的回归方程 • 最优回归方程的要求:
– 回归效果最佳 – 自变量的个数最少
• 一方面对因变量起显著作用的自变量都选进回归方 程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合
43(3)
② “逐步引入“法的缺点: 不能反映后来变化的状况,设想x1、x2、x3引入后,又引 入了x6,也许x3、x6引入后,x1的作用就不重要了,应该 予以剔除,而“逐步引入”法不能达到这个要求
4.逐步回归分析方法
– 按照自变量对因变量所起作用的显著程度,从大到小 逐个地引入回归方程 – 当每一变量引入以后,若先前已经引入的变量由于后 来变量的引入而使其作用变得不显著时,就及时从回 归方程中剔除出去,直到作用显著的变量都引入到回 归方程,而作用不显者的变量都剔出回归方程,得到 一个最佳的变量组合为止
43(11)
因此,有
U ( x1 ,
, xl , xi ) U ( x1 , Q( x1,
, xl ) , xl , xi )
, xl ) Q( x1,
记
ui U ( x1 ,
, xl , xi ) U ( x1,
, xl )
ui就是回归方程中引入 xi 后对回归平方和的贡献, 即偏回归平方和,且有
Lyy U ( x1,
原来的是
, xl , xi ) Q( x1,
, xl , xi )
Lyy U ( x1,
, xl ) Q( x1,
, xl )
注意到上两式左端 Lyy 是一样的,当xi 引入后,回 归平方和从 U(x1,…,xl) 增加到U(x1,…,xl ,xi) ,而残差 平方和从 Q(x1,…,xl) 降到 Q(x1,…,xl ,xi)
43(4)
逐步回归分析的几个问题
一、建立标准正规方程组 二、变量的引入、剔除与消去法的关 系
43(5)
一、建立标准正规方程组
• 为了分辨 p个自变量对因变量 Y 所起影响(或作用) 的大小,一个自然的想法是比较各自变量回归系 ˆ (j=1,2,…,p)的绝对值的大小。 数 j
ˆ 是在其余p-1 – 根据回归系数的含义,Xj 的回归系数 j 个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映 了它所代表的因素的重要程度
43(8)
标准正规方程组
ˆ * 称为标准回归系 • 标准化正规方程组的解 j ˆ * 为0 。由于因变量也进行 数,其常数项 0 了标准化,其总离差平方和 Lyy=1
• 求解标准化正规方程组还需要解决以下两 个问题
①引入变量和剔除变量的标准; ②引入变量与剔除变量的方法。
43(9)
二、变量的引入、剔除与消去法的关系
• 假定已有 l 个自变量引入到回归方程,即
* * ˆ ˆ y 1 x1 2 x2 * ˆ x l l
相应的平方和分解公式是
Lyy U Q
为了表明 U 和 Q 与引入的自变量是有关的,分 别用符号U(x1,…,xl) 和 Q(x1,…,xl) 表示
43(10)
当增加一个自变量 xi ( i = l+1,…, p ) 后,有了新 的回归方程,相应的平方和分解公式是
43(7)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组 • 标准化正规方程组为:
ˆ* r ˆ* r ˆ* r r11 1 12 2 1p p 1y * * * ˆ ˆ ˆ r r r 21 1 22 2 2 p p r2 y ˆ* ˆ* r ˆ* r r r pp p py p1 1 p 2 2
43(1)
选择最优回归方程Baidu Nhomakorabea方法
1.从所有可能的变量组合中,选择一个最优的回归 方程。这种方法一定能选出一个最优组合,但工 作量特别大 2.逐步剔除法
– 基本步骤:
• 从包含全部p个自变量组合的回归方程中逐个检验回归系数, 剔除对因变量作用不显著的自变量; • 对剔除后剩下的q个自变量建立对因变量的多元回归方程,再 逐个检验回归系数,剔除不显著的变量; • 重复上述步骤,直到保留在回归方程中自变量的作用都显著为 止
2 ˆ ui i cii
43(12)
利用统计量
ui 1 ui F 2 ~ F (1, n l 2) ˆ Q (n (l 1) 1)
经F 检验,当 xi 作用显著时,可将其引入。 同理,如果 xi 原来已经在回归方程中,若检验后其 作用不显著,可及时从回归方程中剔除出去。
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(6)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化 • 标准化的方法
xj Xj Xj L jj j 1,2, , p
• 经过标准化的变量,其均值为 0,标准离差 Lxjxj为 1