多元回归与逐步回归 例题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y= b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 =
(2)四元线性回归方程的回归平方和
U = b1l1 y + b2l2 y + b3l3 y + b4l4 y =
残差平方和 Q = l yy − U = 由表 3-2 得
−1 = C L = xx
系数 b j 的标准差为
= Sb j = Sb1 = Sb2 = Sb3 = Sb4
2 199.50
3 215.70
4 224.60
5 230.20
2 3 4 5 6 7 8 9 10
18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96
19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10
19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71
ˆ0 。 4)求当 = x01 12, = x02 30, = x03 8, = x04 20 时的 y
表 1-1 原始数据 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 均值
y
78.5 74.3 104.2 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4 95.4154
y= b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 =
(2)四元线性回归方程的回归平方和
U = b1l1 y + b2l2 y + b3l3 y + b4l4 y =
残差平方和 Q = l yy − U = 由表 1-2 得
−1 = C L = xx
系数 b j 的标准差为
= Sb j = Sb1 = Sb2 = Sb3 = Sb4
38.0 3362.0 -2480.7
-617.9 -2480.7 2714.0
解: (1)由表 1-2 得正则方程
Lxx b = Lxy
解得
= b1
= b2
= b3
= b4
b0 = y − b1 x1 − b2 x2 − b3 x3 − b4 x4
故 y 关于 x1 、 x2 、 x3 、 x4 的四元线性回归方程为
2
检验统计量为
= t j b= ( j 1, 2,3, 4) j / Sb j
= t1 b= 1 / Sb1 = t2 b= 2 / Sb2 = t3 b= 3 / Sb3 = t4 b= 4 / Sb4
所以, 与临界值相比后有结论:?与 y 有显著的线性相关性,而?与 y 无线性相关性。 (3)构造回归方程的检验统计量
0 + b 1x + b 2x + b 3x + b 4x 。 ˆ= 1) 求 y 关于 x1 、 x2 、 x3 、 x4 的四元线性回归方程 y b 1 2 3 4
1, b 2,b 3,b 4 作显著性检验。 2) 对回归系数 b
(显著性水平取 α = 0.05 , t0.025 ( n − m = − 1) t0.025 (13 − 4 = − 1) t0.025= (8) 2.306 ) 3) 对回归方程作显著性检验。 (显著性水平取 α = 0.05 ,F0.05 ( m, n − = m − 1) F0.05 (4,13 −= 4 − 1) F0.05 = (4,8) 3.84 )
C jj Q = ( j 1, 2,3, 4) n − m −1 C11Q = n − m −1 C22Q = n − m −1 C33Q = n − m −1 C44Q = n − m −1 t 0.05 (n − m = − 1) t0.025 (13 − 4 = − 1) t0.025= (8) 2.306
例 2:接例 1,由表 1-1 中的原始数据经标准化处理后而得的增广相关系数矩阵如表 1-3 所示。 (其中显著性水平 利用逐步回归分析方法,建立 y 关于 x1 、 x2 、 x3 、 x4 的最优线性回归方程。
α = 0.05 ,进入回归方程的自变量个数为 k = 2 ;逐步回归过程中,每引入或剔除一个自变量
= t1 b= 1 / Sb1 = t2 b= 2 / Sb2 = t3 b= 3 / Sb3 = t4 b= 4 / Sb4
所以, 与临界值相比后有结论:?与 y 有显著的线性相关性,而?与 y 无线性相关性。 (3)构造回归方程的检验统计量
= F
U /m = Q /(n − m − 1)
而 F0.05 ( m, n − m − 1) = 与临界值相比后,有结论:回归方程显著? (4)预测为 或回归方程不显著?
多元回归方程及逐步回归法 例 1:某种水泥在凝固时,放出的热量 y 与水泥中下列四种成分有关: x1 (铝酸三钙)、 x2 ( 硅 酸三钙)、 x3 (铁铝硅四钙)、 x4 (硅酸二钙)。通过实验,取得数据资料,数据见表 1-1(数据量
n = 13 ) 。由表 1-1 中的原始数据计算而得的协方差矩阵如表 1-2 所示。
第三产业 109152.3672 73325.1852 685.3274 4956861.6216 10268.9861
解: (1)由表 3-2 得正则方程
Lxx b = Lxy
解得
= b1
= b2
= b3
= b4
b0 = y − b1 x1 − b2 x2 − b3 x3 − b4 x4
故 y 关于 x1 、 x2 、 x3 、 x4 的四元线性回归方程为
= F
U /m = Q /(n − m − 1)
而 F0.05 ( m, n − = m − 1) F0.05 (4,13 −= 4 − 1) F0.05 = (4,8) 3.84 与临界值相比后,有结论:回归方程显著? (4)点预测为 或回归方程不显著?
y0 = b0 + b1 x01 + b2 x02 + b3 x03 + b4 x04 =
y0 = b0 + b1 x01 + b2 x02 + b3 x03 + b4 x04 =
例 4:接例 3,由表 3-1 中的原始数据经标准化处理后而得的增广相关系数矩阵如表 3-3 所 (其中显 示。利用逐步回归分析方法,建立 y 关于 x1 、 x2 、 x3 、 x4 的最优线性回归方程。 著性水平 α = 0.05 ,进入回归方程的自变量个数为 k = 2 ;逐步回归过程中,每引入或剔除 一个自变量时进行的显著性检验,其参考的临界值取为固定值 Fα (1, n − k − 1) ;F 分布临界 值如表 3-4 所示。 ) 表 3-3 1.00000 0.95090 0.95261 0.96525 0.99119 0.95090 1.00000 0.95363 0.98102 0.96993 标准化后的增广相关系数矩阵 0.95261 0.95363 1.00000 0.91419 0.97897 0.96525 0.98102 0.91419 1.00000 0.96215 0.99119 0.96993 0.97897 0.96215 1.00000
0 + b 1x + b 2x + b 3x + b 4x 。 ˆ= 1) 求 y 关于 x1 、 x2 、 x3 、 x4 的四元线性回归方程 y b 1 2 3 4
1, b 2,b 3,b 4 作显著性检验。 2)对回归系数 b
(显著性水平取 α = 0.05 , t0.025 (n − m = − 1) t0.025 (10 − 4 = − 1) t0.025= (5) ) 3)对回归方程作显著性检验。 (显著性水平取 α = 0.05 , F0.05 ( m, n − = m − 1) F0.05 (4,10 −= 4 − 1) F0.05 = (4,5) )
C jj Q = ( j 1, 2,3, 4) n − m −1 C11Q = n − m −1 C22Q = n − m −1 C33Q = n − m −1 C44Q = n − m −1 t 0.05 (n − m − 1) =
2
检验统计量为
= t j b= ( j 1, 2,3, 4) j / Sb j
ˆ0 。 4) 求当 = x01 Q = , x02 W = , x03 E = , x04 R 时的 y
表 3-1 旅游业及经济增长数据 自变量 年份 国内游客 (万人) 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 平均值 350.97 387.43 337.00 340.00 420.00 444.85 508.46 583.61 595.84 771.54 473.97 第三产业 (亿元) 108.81 130.84 147.12 171.80 195.12 218.51 248.52 278.80 342.20 380.00 222.17 海外游客 (万人) 0.52 0.79 0.70 0.98 1.22 1.45 2.10 2.68 2.30 3.00 1.57 人均 GDP (元) 10025.89 11226.97 12151.96 12935.99 13999.80 15740.58 17082.90 18930.66 24287.17 29662.40 16604.43 因变量 旅游总收入 (亿元) 9.19 12.26 10.38 11.15 18.31 22.00 28.20 34.06 34.05 48.08 22.77
表 3-2 国内游客 国内游客 第三产业 海外游客 人均 GDP 旅游总收入 179698.3402 109152.3672 1071.7116 7635074.6684 16428.1003
由原始数据计算得出的协方差矩阵 海外游客 1071.7116 685.3274 7.0434 45272.1984 101.5829 人均 GDP 7635074.6684 4956861.6217 45272.1984 348181893.9594 701948.6249 旅游总收入 16428.1003 10268.9861 101.5829 701948.6249 1528.6810
x1
7 1 11 11 7 11 3 1 2 21 1 11 10 7.4615
x2
26 29 56 31 52 55 71 31 54 47 40 66 68 48.1538
x3
6 15 8 8 6 9 17 22 18 4 23 9 8 11.7692
x4
60 52 20 47 33 22 6 44 22 26 34 12 12 30
F 分布临界值如表 1-4 所示。 ) 时进行的显著性检验, 其参考的临界值取为固定值 Fα (1, n − k − 1) ; 表 1-3 增广相关系数矩阵
x1 x1 x2 x3 x4
y
1.0000 0.2286 -0.8241 -0.2454 0.7306
x2
0.2286 1.0000 -0.1392 -0.9730 0.8162
表 1-2 由原始数据计算出的协方差矩阵
x1 x1 x2
415.2 251.1
x2
251.1 2905.7
x3
-372.6 -166.5
x4
-290.0 -3041.0
y
775.6 2292.2
x3 x4
y
-372.6 -290.0 775.6
-166.5 -3041.0 2292.2
492.3 38.0 -617.9
x3
-0.8241 -0.1392 1.0000 0.0295 -0.5345
ห้องสมุดไป่ตู้
x4
-0.2454 -0.9730 0.0295 1.0000 -0.8212
y
0.7306 0.8162 -0.5345 -0.8212 1.0000
1-4 F 分布临界值表( α = 0.05 )
f2
1
f1
1 161.40
19.25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48
19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33
解:过程见上课时的课堂笔记。
例 3:某市旅游业的总收入 Y 在 1995 年至 2004 年一共 10 个年份间的数据如表 3-1 所示 ,所考虑的因素包括国内游客数量 x1 、第三产业的发展 x2 、海外游客数量 x3 和 ( n = 10 ) 人均 GDP 数量 x4 这四个因素。由表 3-1 中的原始数据计算而得的协方差矩阵如表 3-2 所示。