第四讲 回归分析3(逐步回归分析) PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

rpy
43(9)
标准正规方程组

标准化正规方程组的解
ˆ
* j
称为标准回归系
数,其常数项 ˆ0* 为0 。由于因变量也进行
了标准化,其总离差平方和 Lyy=1
• 求解标准化正规方程组还需要解决以下两
个问题
①引入变量和剔除变量的标准;
②引入变量与剔除变量的方法。
43(10)
二、变量的引入、剔除与消去法的关系
43(2)
选择最优回归方程的方法
1.从所有可能的变量组合中,选择一个最优的回归 方程。这种方法一定能选出一个最优组合,但工 作量特别大
2.逐步剔除法
– 基本步骤:
• 从包含全部p个自变量组合的回归方程中逐个检验回归系数, 剔除对因变量作用不显著的自变量;
• 对剔除后剩下的q个自变量建立对因变量的多元回归方程,再 逐个检验回归系数,剔除不显著的变量;
ui ˆi2 cii
43(13)
利用统计量
F
Q
ui 1 (n (l 1) 1)
ui
ˆ 2
~
F (1, n l 2)
经F 检验,当 xi 作用显著时,可将其引入。
同理,如果 xi 原来已经在回归方程中,若检验后其 作用不显著,可及时从回归方程中剔除出去。
因此,取剔除和引入变量 xi的标准相同,即
12 11 66 9 12 113.3 13 10 68 8 12 109.4
43(21)
• 说明:按第一种方法选最优,全部可能的回归方 程有 C41 C42 C43 C44 15 个
• 准备工作:
计算各要素之间的相关系数,得到相关系数矩阵 R(0)
R(0)
r (0)
11
M
r (0) 41

Q(t ) 剩
1
u(t) i
则统计量 于是
F (t) i
u (t ) i
(1 ui(t) )
1 (n 2)
F (1) 4
u(1) 4
(1
u(1) 4
)
/(n
2)
0.6745 0.3255 /11
22.80
由于F4(1) > F0.05(1,11)=4.84,表明引入的因子x4对 回归方程的贡献是显著的,应将x4引入方程。
43(8)
标准正规方程组
• 由标准化数据建立的正规方程组的系数矩 阵即为变量间的相关系数矩阵,称为标准 化正规方程组
• 标准化正规方程组为:
r11ˆ1* r12ˆ2* L
r1
p
ˆ
* p
r1y
r21ˆ1* r22ˆ2* L
r2
p
ˆ
* p
r2 y
L
L
L
rp1ˆ1* rp2ˆ2* L
rpp
ˆ
* p
rik( s 1)
r ( s1) kk
1
r (s1) kk
r ( s1) kk
(i k, j k ) (i k , j k ) (i k, j k ) (i k, j k )
43(15)
进行上述变换后,回归分析中的剩余平方和Q的值 即为系数矩阵中ryy位置所得的结果。即有,
Q(0)
1 0.0295 0.5347
0.2454 0.9730 0.0295
1 0.8213
0.7307
0.8163
0.5347
0.8213
1
• 从矩阵R(0)中可以看出: x1与x2 两因子不相关,x2与x4、x1与x3之间关 系密切,x3与y关系不太密切,x4与y最相关
43(23)
➢ 逐步回归步骤:
r (0) y1
L L L L
r (0)
14
M r (0)
44
r (0) y4
r1(My0)
r (0) 4y
r (0) yy
43(22)
• 根据本例资料,算出
1
0.2286
R(0) 0.8241
0.2454
0.7307
0.2286 1
0.1392 0.9730 0.8163
0.8241 0.1392
43(19)
二、变量的引入、剔除与消去法的关系
由相关系数矩阵得到的回归系数是标准回归系 数 ˆi* ,如果要把它化为一般回归系数 ˆi ,其关 系为:
ˆi ˆi*
Lyy Lii
其中 Lii 和Lyy为方差协方差矩阵中对应元素,即变 量 Xi 和因变量 Y 的方差。
ˆ0 Y (ˆ1X1 ˆ2 X2 L ˆl Xl )
F剔除
F引入
ui
ˆ 2
43(14)
二、变量的引入、剔除与消去法的关系
• 在逐步回归中引入一个变量与剔除一个变量都要 作变换,变换公式相同,采用求解求逆紧凑格式
在第s 次对第k 列消去的变换公式是:
rij( s 1)
r r (s1) (s1)
ik
kj
r(s) ij
rk(js 1)
r ( s1) kk
Lyy U (x1,L , xl , xi ) Q(x1,L , xl , xi )
原来的是
Lyy U (x1,L , xl ) Q(x1,L , xl )
注意到上两式左端 Lyy 是一样的,当xi 引入后,回 归平方和从 U(x1,…,xl) 增加到U(x1,…,xl ,xi) ,而残差 平方和从 Q(x1,…,xl) 降到 Q(x1,…,xl ,xi)
逐步回归分析
43(1)
最优回归方程的问题
• 在有p个自变量的情况下,根据自变量的不 同组合可能建立的回归方程众多。这些回 归方程的效果有好有坏,而人们希望的是 回归效果最好的,即“最优”的回归方程
• 最优回归方程的要求:
– 回归效果最佳 – 自变量的个数最少
• 一方面对因变量起显著作用的自变量都选进回归方 程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合
43(18)
二、变量的引入、剔除与消去法的关系
• 第二次消去了正规方程组系数矩阵的第一、二 两列时,常数项列中的第一、二两个数即为只 有x1, x2两个自变量情况下所建立回归方程的
回归系数 ˆ1和 ˆ2
• 依次类推,得到引入的各个自变量的回归系数 • 系数矩阵中每消去一列,等价于回归方程中引
入一个新的变量,而且与变量排列的顺序无关。
反复进行,直到没有变量可以引进,也没有变量 可以从方程中剔除为止。
43(17)
二、变量的引入、剔除与消去法的关系
用消去法求解正规方程组的过程
• 当消去正规方程组系数矩阵的第一列时,常数 项列的第一个数就是只有x1这一个自变量情况下
所建立的回归方程的回归系数 ˆ1
这是因为:当回归方程只有一个自变量时, 表明其他自变量在多元回归方程中的回归系数 为0。因此,正规方程的常数项部分就是该变量 的解,即回归系数。
43(5)
逐步回归分析的几个问题
一、建立标准正规方程组 二、变量的引入、剔除与消去法的关

43(6)
一、建立标准正规方程组
• 为了分辨 p个自变量对因变量 Y 所起影响(或作用) 的大小,一个自然的想法是比较各自变量回归系 数 ˆj (j=1,2,…,p)的绝对值的大小。
– 根据回归系数的含义,Xj 的回归系数 ˆj 是在其余p-1 个自变量保持不变的条件下,Xj 改变一个单位所引起 Y 平均变化的大小。因而回归系数绝对值的大小反映 了它所代表的因素的重要程度
X2:硅酸三钙 X3:铁铝硅四钙 X4:硅酸二钙
6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9
通过试验,取得数据资料 11 1 40 23 34 83.8
如右所示:
• 重复上述步骤,直到保留在回归方程中自变量的作用都显著为 止
– 缺点:一开始把全部自变量都要引入回归方程,计算 量很大,实际上有些不重要的就不必引入
43(3)
3.逐步引入法
①基本步骤:
先逐个比较 xl,…,xp 对 y 的回归方程那些是显著的,从显 著的方程中挑选 F 值最大的,相应的自变量 x 就被“引 入”方程。无妨设 x 就是x1 再逐个比较(x1,x2)、(x1,x3)、…、(x1,xp)对y的回归方程,看 有没有F值显著的,此时的F就是考虑添加xi之后, xi的回 归系数是否显著地不为0,将显著的F中最大的F所相应的 变量“引入”方程。无妨设第二次“引入”的自变量是x2 再考察以x1、x2为基础,逐个添加x3、x4、…、xp之后的回 归方程,是否较x1、x2的方程有显著的改进,有就再“引 入”新的自变量……,这样下去,终于到某一步就没有可 以再“引入”的自变量了。这时就获得了最后的回归方程
• 假定已有 l 个自变量引入到回归方程,即
y ˆ1*x1 ˆ2*x2 L ˆl*xl
相应的平方和分解公式是
Lyy U Q
为了表明 U 和 Q 与引入的自变量是有关的,分 别用符号U(x1,…,xl) 和 Q(x1,…,xl) 表示
43(11)
当增加一个自变量 xi ( i = l+1,…, p ) 后,有了新 的回归方程,相应的平方和分解公式是
11
0.73072
0.5339
u (1) 2
[r2(y0) ]2 r(0)
22
0.81632
0.6663
u (1) 3
Fra Baidu bibliotek
0.2859
u (1) 4
0.6745
比较4个ui(1),可知第4个因子的偏回归值最大,即 x4对y的回归贡献最大,于是优先考虑选入x4
43(25)
②引入因素的显著性检验
统计量
43(12)
因此,有
U (x1,L , xl , xi ) U (x1,L , xl ) Q(x1,L , xl ) Q(x1,L , xl , xi )

ui U (x1,L , xl , xi ) U (x1,L , xl )
ui就是回归方程中引入 xi 后对回归平方和的贡献, 即偏回归平方和,且有
r(0) yy
1,
Q(s)
r(s) yy
,
U (s)
1
r(s) yy
(证明)
由相关矩阵构成的系数矩阵中,第 i 个变量的偏回
归平方和ui(s)为:
u(s) i
r (s1) 2
iy
r (s1)
ii
由可u推i 倒 出ˆi2来cii
ui(s) 为下一步引进变量的指标,每一步引入都是从 未出现在回归方程的剩余变量中挑选ui(s)的最大者
43(4)
② “逐步引入“法的缺点: 不能反映后来变化的状况,设想x1、x2、x3引入后,又引 入了x6,也许x3、x6引入后,x1的作用就不重要了,应该 予以剔除,而“逐步引入”法不能达到这个要求
4.逐步回归分析方法
– 按照自变量对因变量所起作用的显著程度,从大到小 逐个地引入回归方程
– 当每一变量引入以后,若先前已经引入的变量由于后 来变量的引入而使其作用变得不显著时,就及时从回 归方程中剔除出去,直到作用显著的变量都引入到回 归方程,而作用不显者的变量都剔出回归方程,得到 一个最佳的变量组合为止
43(20)
三、实例
【例】 某种水泥在凝固时, 编号 X1 X2 X3 X4 Y
放出的热量Y(卡/克)与 水泥中下列4种成分有关:
1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.2
X1:铝酸三钙
4 11 31 8 47 87.6 5 7 52 6 33 95.9
43(16)
构造检验统计量
F (s) i
Q(s)
u(s) i
1
[n (l 1) 1]
式中,l 为先前已经引入到回归方程中的变量个 数,Fi 服从F(1,n-l-2)分布。
如果已引进的变量中有不显著的,则选其最不显 著者作剔除变换,然后再检验。在未引入的变量中 检验有无回归显著的变量,若有,则挑选最显著的 作引入的消去变换,然后再检验。
• 由于回归系数和自变量所取的单位(或数量级)有 关,而各个自变量取不同的量纲的情况是常见的, 因而不能将回归系数直接进行比较
43(7)
建立标准正规方程组
• 为了消除这个影响,对自变量和因变量都 要加以标准化
• 标准化的方法
xj
Xj X L jj
j
j 1,2, , p
• 经过标准化的变量,其均值为 0,标准离差 Lxjxj为 1
F (t) i
Q(t ) 剩
u(t) i
1
(n l
1)
其中,分子的自由度是1,l 为方程中的变量个数
求解回归方程时,若对资料进行标准化处理,可 以证明:
l
Q (t ) 总
1
Q(t) 回
u(t) i
i 1
l
Q (t ) 剩
Q(t) 总
Q(t) 回
1
u(t) i
i 1
43(26)
当引入第一个因子时(l=1),Q回(t) Q偏回 ui(t)
第一步(t =1)
①选择第一个变量进入回归方程 对所有4个变量,按下面公式计算偏回归平方和←当
变量引入回归方F0程.05后(2,10) 4.10
公式:
u(t) i
[riy(t1) ]2 r (t1)
ii
i 1, 2,3, 4
t-变换步数
43(24)
• 计算结果为:
u (1) 1
[r1(y0) ]2 r(0)
相关文档
最新文档