第四章回归分析3逐步回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

R (0)
• 从矩阵R(0)中可以看出: x1与x2 两因子不相关,x2与x4、x1与x3之间关 系密切,x3与y关系不太密切,x4与y最相关
43(23)
逐步回归步骤:
第一步(t =1)
①选择第一个变量进入回归方程
对所有4个变量,按下面公式计算偏回归平方和←当变 F0.05 (2,10) 4.10 量引入回归方程后 计算公式:
( s) yy
(s)
1 r
( s) yy
(证明)
由相关矩阵构成的系数矩阵中,第 i 个变量的偏回 归平方和ui(s)为: ( s 1) 2 riy (s) ˆ2 c 由u ui ( s 1) i ii rii 可推倒出来


i
ui(s) 为下一步引进变量的指标,每一步引入都是从 未出现在回归方程的剩余变量中挑选ui(s)的最大者
43(21)
• 说明:按第一种方法选最优,全部可能的 回归方程有C41+C42+C43+C44=15个
• 准备工作:
计算各要素之间的相关系数,得到相关系数矩 阵R(0)
(0) r11 (0) r41 (0) ry1 (0) r14 (0) r44 ry(0) 4
43(16)
构造检验统计量
Fi ( s ) Q
(s)
ui( s ) 1 [n (l 1) 1]
式中,l 为先前已经引入到回归方程中的变量个 数,Fi 服从F(1,n-l-2)分布。 如果已引进的变量中有不显著的,则选其最不显 著者作剔除变换,然后再检验。在未引入的变量中 检验有无回归显著的变量,若有,则挑选最显著的 作引入的消去变换,然后再检验。 反复进行,直到没有变量可以引进,也没有变量 可以从方程中剔除为止。
R (0)
r1(0) y r4(0) y (0) ryy
43(22)
• 根据本例资料,算出
0.2286 0.8241 0.2454 0.7307 1 0.2286 1 0.1392 0.9730 0.8163 0.8241 0.1392 1 0.0295 0.5347 0.2454 0.9730 0.0295 1 0.8213 0.8163 0.5347 0.8213 1 0.7307
43(17)
二、变量的引入、剔除与消去法的关系

用消去法求解正规方程组的过程
• 当消去正规方程组系数矩阵的第一列时,常数 项列的第一个数就是只有x1这一个自变量情况下 ˆ 所建立的回归方程的回归系数 1 这是因为:当回归方程只有一个自变量时, 表明其他自变量在多元回归方程中的回归系数 为0。因此,正规方程的常数项部分就是该变量 的解,即回归系数。
(i k , j k ) (i k , j k ) (i k , j k ) (i k , j k )
43(15)
r
(s) ij
进行上述变换后,回归分析中的剩余平方和Q的值 即为系数矩阵中ryy位置所得的结果。即有,
Q
(0)
r
(0) yy
1, Q
( s)
r , U
43(18)
二、变量的引入、剔除与消去法的关系
• 第二次消去了正规方程组系数矩阵的第一、二 两列时,常数项列中的第一、二两个数即为只 有x1, x2两个自变量情况下所建立回归方程的 ˆ ˆ 和 回归系数 2 1
• 依次类推,得到引入的各个自变量的回归系数 • 系数矩阵中每消去一列,等价于回归方程中引 入一个新的变量,而且与变量排列的顺序无关。
43(12)
因此,有
U ( x1 ,, xl , xi ) U ( x1 ,, xl ) Q( x1,, xl ) Q( x1,, xl , xi )

ui U ( x1,, xl , xi ) U ( x1,, xl )
ui就是回归方程中引入 xi 后对回归平方和的贡献, 即偏回归平方和,且有
43(19)
二、变量的引入、剔除与消去法的关系
由相关系数矩阵得到的回归系数是标准回归系 ˆ * ,如果要把它化为一般回归系数 ˆ 数 i i 两者关系为:
ˆ ˆ* i i
LYY Lii
推导
其中 Lii 和LYY为变量 Xi 和 Y 的方差。
ˆ Y ( ˆ X ˆ X ˆX) 0 1 1 2 2 l l
43(9)
标准正规方程组
ˆ * 称为标准回归系 • 标准化正规方程组的解 j ˆ * 为0 数,其常数项 0
• 由于因变量也进行了标准化,其总离差平 方和 Lyy=1 • 求解标准化正规方程组还需要解决以下两 个问题
①引入变量和剔除变量的标准;
②引入变量与剔除变量去法的关系
因此,取剔除和引入变量 xi的标准相同,即
F剔除 F引入
ui 2 ˆ
43(14)
二、变量的引入、剔除与消去法的关系
• 在逐步回归中引入一个变量与剔除一个变量都涉 及变换,变换公式相同,采用求解求逆紧凑格式
在第s 次对第k 列消去的变换公式是:
( s 1) ( s 1) ( s 1) rij( s 1) rik rkj rkk ( s 1) ( s 1) rkk rkj ( s 1) ( s 1) r r ik kk ( s 1) 1 r kk
Lyy U ( x1,, xl , xi ) Q( x1,, xl , xi )
原来的分解公式是
Lyy U ( x1,, xl ) Q( x1,, xl )
注意到上两式左端 Lyy 是一样的,当xi 引入后,回 归平方和从 U(x1,…,xl) 增加到U(x1,…,xl ,xi) ,而残差 平方和从 Q(x1,…,xl) 降到 Q(x1,…,xl ,xi)
43(5)
逐步回归分析的几个问题
一、建立标准正规方程组 二、变量的引入、剔除与消去法的关 系
43(6)
一、建立标准正规方程组
• 为了分辨 p个自变量对因变量 Y 所起影响(或作用) 的大小,一个自然的想法是比较各自变量回归系 ˆ (j=1,2,…,p)的绝对值的大小。 数 j
ˆ 是在其余p-1 – 根据回归系数的含义,Xj 的回归系数 j 个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映 了它所代表的因素的重要程度
事实上, Lx x (
j j
Xj Xj L jj
)2 1 j 1, 2,, p
43(8)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组 • 标准化正规方程组为:
ˆ* r ˆ* r ˆ* r r11 1 12 2 1p p 1y * * * ˆ ˆ ˆ r r r 21 1 22 2 2 p p r2 y ˆ* ˆ* r ˆ* r r r pp p py p1 1 p 2 2
回归分析(三)
逐步回归分析
43(1)
最优回归方程的问题
• 寻求最优回归方程的问题
– 在有p个自变量的情况下,根据自变量的不同组合可能 建立2p-1个回归方程。这些回归方程的效果有好有坏, 而人们希望的是回归效果最好的,即“最优”的回归 方程
• 最优回归方程的要求
– 回归效果最佳 – 自变量的个数最少
u
(t ) i

[r
r
( t 1) 2 iy ( t 1) ii
]
i 1, 2,3, 4
43(20)
三、例题分析
【例】 某种水泥在凝固时, 放出的热量Y(卡/克)与 水泥中下列4种成分有关: X1:铝酸三钙 X2:硅酸三钙 X3:铁铝硅四钙 X4:硅酸二钙 通过试验,取得数据资料 如右所示:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 X1 7 1 11 11 7 11 3 1 2 21 1 11 10 X2 26 29 56 31 52 55 71 31 54 47 40 66 68 X3 6 15 8 8 6 9 17 22 18 4 23 9 8 X4 60 52 20 47 33 22 6 44 22 26 34 12 12 Y 78.5 74.3 104.2 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4
– 基本步骤:
• 从包含全部p个自变量组合的回归方程中逐个检验回归系数, 剔除对因变量作用不显著的自变量; • 对剔除后剩下的q个自变量建立对因变量的多元回归方程,再 逐个检验回归系数,剔除不显著的变量; • 重复上述步骤,直到保留在回归方程中自变量的作用都显著为 止
– 缺点:一开始把全部自变量都要引入回归方程,计算 量很大,实际上有些不重要的就不必引入
• 选择一个最佳的变量组合
– 一方面对因变量起显著作用的自变量都选进回归方程, 另一方面对因变量作用不显著的自变量都剔除回归方 43(2) 程,
选择最优回归方程的方法
• 方法一:穷尽法
– 从所有可能的变量组合中,选择其中最优的回归方程
• 这种方法一定能选出一个最优组合,但工作量特别大
• 方法二:逐步剔除法
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(7)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化 • 标准化的方法
xj Xj Xj L jj j 1,2, , p
• 经过标准化的变量,其均值为 0,标准离差 Lxjxj为 1
因而回归系数绝对值的大小反映了它所代表的因素的重要程度?由于回归系数和自变量所取的单位或数量级有关而各个自变量取不同的量纲的情况是常见的因而不能将回归系数直接进行比较?j??j?438建立标准正规方程组?为了消除这个影响对自变量和因变量都要加以标准化?标准化的方法?经过标准化的变量其均值为0标准离差lxjxj为1pjlxxxjjjjj21????2112jjjjxxjjxxljpl?????事实上43911112211211222221122?????????ppyppyppppppyrrrrrrrrrrrr?????????????????????????????标准正规方程组?由标准化数据建立的正规方程组的系数矩阵即为变量间的相关系数矩阵称为标准化正规方程组?标准化正规方程组为
• 假定已有 l 个自变量引入到回归方程,即
* * * ˆ ˆ ˆ y 1 x1 2 x2 l xl
相应的平方和分解公式是
Lyy U Q
为了表明 U 和 Q 与引入的自变量是有关的,分 别用符号U(x1,…,xl) 和 Q(x1,…,xl) 表示
43(11)
当增加一个自变量 xi ( i = l+1,…, p ) 后,有了新 的回归方程,相应的平方和分解公式是
43(3)
• 方法三:逐步引入法
(1)基本步骤:
①先逐个比较 xl,…,xp 对 y 的回归方程那些是显著的,从显 著的方程中挑选 F 值最大的,相应的自变量 x 就被“引 入”方程。无妨设 x 就是x1
②再逐个比较(x1,x2)、(x1,x3)、…、(x1,xp)对y的回归方程,看 有没有F值显著的,此时的F就是考虑添加xi之后, xi的回 归系数是否显著地不为0,将显著的F中最大的F所相应的 变量“引入”方程。无妨设第二次“引入”的自变量是x2 ③再考察以x1、x2为基础,逐个添加x3、x4、…、xp之后的回 归方程,是否较x1、x2的方程有显著的改进,有就再“引 入”新的自变量……,这样下去,终于到某一步就没有可 以再“引入”的自变量了。这时就获得了最后的回归方程
43(4)
(2) “逐步引入“法的缺点: 不能反映后来变化的状况,设想x1、x2、x3引入后,又引 入了x6,也许x3、x6引入后,x1的作用就不重要了,应该 予以剔除,而“逐步引入”法不能达到这个要求
• 方法四:逐步回归分析方法
– 按照自变量对因变量所起作用的显著程度,从大到小 逐个地引入回归方程 – 当每一变量引入以后,若先前已经引入的变量由于后 来变量的引入而使其作用变得不显著时,就及时从回 归方程中剔除出去,直到作用显著的变量都引入到回 归方程,而作用不显者的变量都剔出回归方程,得到 一个最佳的变量组合为止
2 ˆ ui i cii
43(13)
利用统计量
ui 1 ui F 2 ~ F (1, n l 2) ˆ Q (n (l 1) 1)
经F 检验,当 xi 作用显著时,可将其引入。 同理,如果 xi 原来已经在回归方程中,若检验后其 作用不显著,可及时从回归方程中剔除出去。
相关文档
最新文档