第四章 回归分析new
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 回归分析
4.4 某建材实验室再作陶粒混凝土强度试验中,考察每立方米混凝土的水泥用量x (kg )对28天后的混凝土抗压强度y(3/kg cm )的影响,测得如下数据
(1)求y 对x 的线性回归方程,并问:每立方米混凝土中增加1公斤水泥时,可提高的抗压强度是多少? (2)检验线性回归方程效果的显著性(0.05α=); (3)求回归系数1β的区间估计(10.95α-=); (4)求022.5()x kg =时,0y 的预测值及预测区间。
解:
1.计算结果 (1)
一元线性回归模型:只有一个解释变量
01Y X ββε=++
Y 为被解释变量,X 为解释变量,0β与1β为待估参数, ε为随机干扰项。
用普通最小二乘法(Ordinary least squares, OLS )估计0β和1β
记
上述参数估计量可以写成: ()22221
)(∑∑∑∑-
=-=i i i i
X n X X X x
22010111(,)()n n i i i i i Q Q Y X ββεββ=====--∑∑最小
1
0101,ˆˆ(,)min (,)Q Q ββ
ββββ=即,∑∑∑∑∑-=--=i i i i i i i i Y X n
Y X Y Y X X y x 1))((
()()()
()()12
2
221150*56.9260*89.715026056.989.712
0.304
115026015026012
i i
i x y x β∧
++-++++==
=++-++∑
∑ ()0111
(56.989.7)0.304**15026010.2831212
Y X ββ∧
∧
=-=
++-++= 所以求得的回归方程为:y=10.283+0.304x ,即 x 每增加一个
单位,y 相应提高0.304 (2)
回归方程的显著性检验: 总体平方和,简记为S 总或Lyy
回归平方和,记为S 回或U
残差平方和,记为S 残或Qe
SST=SSE(Qe)+SSR(U)
对总体参数1β提出假设
H0: β1=0, H1:β1≠0
因为
所以,拒绝原假设。
T 检验:
22
=2.393/(12-2)=0.239
i
e σ
∧=
=∑
0.9750.975(2)(10) 2.2281t n t -==
因为|t|>2.2281,所以拒绝原假设,即1β对方程有显著影响。
线性关系的显著性检验:
2ˆ22-=∑n e
i σ
22()1323.820
i i SST y Y Y ==-=∑∑22ˆˆ()1321.427i i
SSR y Y Y ==-=∑∑22ˆ() 2.393i i i
SSE e Y Y ==-=∑∑0.95(1,10) 1.49
F F >=
代入数据得:r=0.999
拒绝原假设,即X 与Y 有显著的线性相关关系
对总体参数0β提出假设
H0: β0=0, H1:β0≠0
因为|t|>2.2281,所以拒绝原假设,即0β对方程有显著影响 (3)
回归系数的区间估计,构造统计量
11(2)e t n ββσ∧
∧
--
(1-α)的置信度下, 1β的置信区间是
得出:β1的95%的置信区间为[-0.295,-0.313]。
(4)
求预测值
代入数据计算得: 当x=22.5时,
y=17.123
0ˆˆˆ12.092t S ββ===0
1
ˆˆˆ估计值:Y X ββ=+00010
ˆ()()E Y E Y X ββ==
+()()XY n
i i L r X X Y Y ρ=--=
∑=10.05
0.999(2)(10)0.6581
r r n r α-=>-=
=221011ˆˆ((2)/(2)/e e t n t n ααβσβσ∧∧----+-
求预测区间
构造统计量
其中:
从而在1-α的置信度下, Y0的置信区间为
代入数据计算得:
95%置信度的预测区间为 [15.43 18.815 ]
(2)SPSS 软件运行结果: 根据数据的散点图为:
相关检验:
模型摘要
02
02ˆ000ˆ0ˆˆY Y Y Y S t Y Y S t Y --⨯+<<⨯-αα))(11(ˆ2
2
02
ˆ0
∑-++=-i
Y
Y x X X n S σ)
2(~ˆ0
ˆ0
0--=-n t S Y Y t Y
Y )))(11(,0(~ˆ2
2
02
00∑-++-i
x X X n N Y Y σ)
,(~2
0100σββX N Y +)))(1(,(~ˆ22020100∑-++i
x X X n X N Y σββ
b 因变量: y
由上表可以看出相关系数R 接近于1,y 和x 的线性关系显著。
方差分析表
b 因变量: y
由方差分析表可见,F 值很大,伴随概率p 很小,说明回归方程通过F 检验,及回归方程非常显著 =2.393/(12-2)=0.239
2
ˆ22
-=
∑n e i
σ
a 因变量: y
(1)y对x的线性回归方程,由上图可得回归方程:
y=10.28+0.304x。
p很小,通过T检验。
说明x对y有显著影响。
X增加一个单位y相应提高0.304。
(2)回归方程效果的显著性,以上的R检验、F检验和t检验,已证明。
(3)β1的95%的置信区间为[-0.295,-0.313]。
(4)计算后的数值表:
x y 预测值预测值
误差
预测值
均数的
标准误
差
预测下
限
预测上
限
150 56.9 55.881 1.019 0.266 55.289 56.473
160 58.3 58.921 -0.621 0.232 58.404 59.438
170 61.6 61.96 -0.36 0.201 61.512 62.409
180 64.6 65 -0.4 0.174 64.612 65.389
190 68.1 68.04 0.06 0.154 67.697 68.383
200 71.3 71.08 0.22 0.143 70.762 71.398
210 74.1 74.12 -0.02 0.143 73.802 74.438
220 77.4 77.16 0.24 0.154 76.817 77.503
230 80.2 80.2 0 0.174 79.811 80.588
240 82.6 83.24 -0.64 0.201 82.791 83.688
250 86.4 86.279 0.121 0.232 85.762 86.796
260 89.7 89.319 0.381 0.266 88.727 89.911
22.5 .17.123 .0.76 15.43 18.815
从上表查得,当x=22.5时,y=17.123
95%置信度的预测区间为[15.43 18.815 ]
4.5假设x是一可控变量,y是一随机变量,服从正态分布,
(1) 并求2()D y σ=的无偏估计;
(2) 求回归系数201,0.95ββσ和的置信区间;
(3) 检验x 和y 之间的线性回归方程是否显著(0.05α=); (4) 求y 的0.95预测区间;
(5)
为了把观测值y 限制在区间(1.08,1.68),需要把x 的值限制在和范围之内?(0.05α=) 解:
1.计算过程及结果
(1)一元线性回归模型:只有一个解释变量
01Y X ββε=++
Y 为被解释变量,X 为解释变量,0β与1β为待估参数, ε为随机干扰项。
用普通最小二乘法(Ordinary least squares, OLS )估计0β和1β
记
上述参数估计量可以写成:
带入数字得:
()22221
)(∑∑∑∑-
=-=i i i i X n X X X x 22010111(,)()n n i i i i i Q Q Y X ββεββ=====--∑∑最小
1
0101,ˆˆ(,)min (,)Q Q ββ
ββββ=即,∑∑∑∑∑-=--=i
i i i i i i i Y
X n Y X Y Y X X y x 1))((
()()()()()
12
2
221
0.25*2.57 1.00*1.000.25 1.00 2.57 1.0017 2.070
10.25 1.000.25 1.0017i i
i x y x β∧
++-
++++==
=-++-++∑
∑ ()0111
(2.57 1.00)( 2.070)**0.25 1.00 3.0331217
Y X ββ∧
∧
=-=
++--++= 所以求得的回归方程为:y=3.033-2.070x
可以证明,2σ的最小二乘估计量为
它是关于2σ的无偏估计量,也称为剩余方差(残差的方差)。
代入数据得:
22
0.030
0.0022
172
i
e n σ
∧=
=
=--∑ (2)
由
(2)t n ∧
-
11(2)/e t n ββσ∧
∧
--
于是得到:(1-α)的置信度下的置信区间是
再由22(2)e Q n χσ
- ,还可得2σ的置信水平为1α-的置信区间
22122,(2)(2)e e Q Q n n αα
χχ-⎡⎤
⎢⎥
⎢⎥--⎢⎥⎣⎦
这里,
220.9750.250.97517,(15)27.488,(15) 6.262,(15) 2.1315n t χχ====
代入数据得到,
2ˆ22
-=
∑n e i
σ
22ˆ()0.030e i i i
Q e Y Y ==-=∑
∑2
2
0011ˆˆ((2)(2)e e t n t n αα
βσβσ∧∧
--
--+-
1011ˆˆ((2)/(2)/e e t n t n ααβσβσ∧∧
----+-
β0的95%的置信区间为[2.951,3.116]; β1的95%的置信区间为[-2.183,-1.957]; 2σ的95%的置信区间为
[Qe/X 21-α/2(n-2),Qe/X 2α/2(n-2)]=[0.03/27.488,0.03/6.262]=[0.0011,0.0048]
(3)
回归方程的显著性检验: 总体平方和,简记为S 总或Lyy
回归平方和,记为S 回或U
残差平方和,记为S 残或Qe
SST=SSE(Qe)+SSR(U)
对总体参数1β提出假设
H0: β1=0, H1:β1≠0
因为
所以,拒绝原假设。
T 检验:
22
0.002
i
e σ
∧=
=∑
0.9750.975(2)(15) 2.1315t n t -==
因为|t|>2.1315,所以拒绝原假设,即1
β对方程有显著影响。
线性关系的显著性检验:
2ˆ22-=∑n
e
i σ
22() 3.069
i i SST y Y Y ==-=∑∑22ˆˆ() 3.039i i
SSR y Y Y ==-=∑∑22ˆ()0.030i i i
SSE e Y Y ==-=∑∑0.95(1,15) 1.43
F F >=()()
XY n
i i L r X X Y Y ρ=
--=
∑=
代入数据得:r=0.995
拒绝原假设,即X 与Y 有显著的线性相关关系
对总体参数0β提出假设
H0: β0=0, H1:β0≠0
因为|t|>2.1315,所以拒绝原假设,即0β对方程有显著影响
(4)
12
()(y (),()e x t n x x αδσαδδ∧
-∧∧
=-⎡⎤-+⎢⎥⎣⎦
从而得到的置信水平为1-的预测区间为y y
其中
12
()(0.0445 2.13150.1125e x t n α
δσ-=-=⨯=
(5)因
0ˆˆˆ78.354t S ββ===10.05
0.995(2)(15)0.4821
r r n r α-=>-==
011
2
011
2
1
()1
()
e e x y u
x y u
α
α
σββσββ∧
∧
-
∧
∧
-
''=+-''''=
+-
代入数据得
(
)()
(
)
()
0121
012111
1.68 1.96 3.0330.6115
2.070
11 1.08 1.96 3.0330.9013
2.070
e e x y u x y u α
ασββσββ--'''=--=+-=-'''=+-=+-=-
2.SPSS 软件运行结果 根据数据得到散点图:
由上图可知,x 与y 基本成线性关系。
建立线性模型,进行相关检验:
模型摘要
a 自变量: x
由上表可以看出相关系数R 接近于1,y 和x 的线性关系显著。
由上图可得回归方程:y=3.033+(-2.070)x 。
p 很小,通过T 检验。
说明x 对y 有显著影响。
方差分析表
b 因变量: y
由方差分析表可见,F 值很大,伴随概率sig.p 很小,说明回归方程通过F 检验,及回归方程非常显著
22
0.030
0.0022
172
i
e n σ
∧=
=
=--∑ (2)
线性回归分析的系数
a.因变量:y
由上表可以看出β0的95%的置信区间为[2.951,3.116];β1的95%的置信区间为[-2.183,-1.957];σ2的置信区间为[Qe/X 21-α/2(n-2),
Qe/X 2α/2(n-2)]=[0.030/27.488,0.030/6.262]=[0.0011,0.0048]
(3)回归方程的显著性已在(1)中证明。
(4)
由上表可以得到标准差为0.21056,
可以得到L xx =n σx 2=17*(0.21056)2=0.7103,
17
2
1
0.702917
i
i x
x ==
=∑
12()(0.0445 2.13150.1125e x t n αδσ-=-=⨯=
y 的置信度为
95%预测区间为[ (),()y x y x δδ∧∧
-+]
4.7某种商品的需求量y,消费者的平均收入1x 以及商品的价
格
x 1x 2x 解:
线性回归分析的系数
a.因变量:商品的需求y
由上图可知 012
111.692,0.014,7.188βββ===-,得到回归方程: 0121212
111.6920.0147.188y x x x x βββ=++=+-。
则由后退法,删除第一个变量,得到线性回归分析的系数表
如下:
线性回归分析的系数
a.因变量:商品的需求y
得到回归方程: 0222
140.00010.000y x x ββ=+=-。