方差分析与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
·245·
9 方差分析与回归分析
9.1 基本要求
方差分析与回归分析是数理统计中极具应用价值的统计分析方法,前者定性研究当试验条件变化时,对试验结果影响的显著性;后者则定量地建立一个随机变量与一个或多个非随机变量的相关关系。
1.了解单因素试验的方差分析,了解离差平方和的分解及其意义,掌握检验用统计量及假设检验的一般步骤。
2.了解双因素无重复试验的方差分析及双因素等重复试验的方差分析,了解检验用统计量及假设检验的一般步骤。
3.理解回归分析的基本概念,掌握一元线性回归方程,掌握线性相关显著性检验,会利用线性回归方程进行预测。
了解一些可线性化的非线性回归问题的解决方法。
*4.了解简单的多元线性回归及显著性检验。
9.2 内容提要
9.2.1方差分析
方差分析是考察多总体均值差异的显著性,是二总体均值检验的推广。
1.单因素试验的方差分析 (1)单因素方差分析原理
单因素方差分析是指在影响指标的众多因素中仅就某个因素A 加以考察,并设A 有r 个水平:A 1、A 2、…、A r ,每个水平A i 对应的总体i X (i =1,2,…,r )均服从同方差的正态分布,即i X ~),(2σμi N 。
记(i in i i X X X ,,,21 )是来自第i 个总体i X (r i ,,2,1 =)的容量
·246
· 为n i 的样本,∑==r
i i i n n 11μμ称为理论总平均(其中∑==r i i n n 1
)。
如果因素A 对试验没有显著影响,则试验的全部结果X ij 应来自同一正态总体N (2
,σμ)。
因此,从假设检验的角度看,单因素方差分析的任务就是检验r 个总体N (2
,σμi )(i =1,2,…,r )的均值是否相等,即检验假设:
0H :r μμμ=== 21,1H :r μμμ,,,21 不全相等。
显然,当r =2时就是二总体的均值检验。
(2)单因素方差分析的检验统计量
离差平方和∑∑==-=r
i n j ij T i
X X S 112)(的分解:
A e T S S S +=
其中 ∑∑==-=r
i n j i ij e i
X X S 112
)(,称为误差平方和。
2
2
1
1
2
11
2
)()(X n X n X X n X X S i r
i i r
i i i r i n j i A i
-=-=-=∑∑∑∑====称为因素A 的效应平方和。
且
2
σe
S ~)(2
r n -χ,r
n S e -=2ˆσ
是2
σ的无偏估计量。
当H 0为真时,有检验统计量
)
/()
1/(r n S r S F e A --=
~),1(r n r F --
因此,在检验水平为α时,若由样本观察值算得统计量)
/()1/(r n S r S F e A --=之值f 有f ≥),1(r n r F --α成立,则应当拒绝
H 0,否则就接受H 0。
(3)单因素方差分析的计算
方差分析的计算是复杂而繁琐的,一般为方便起见,通常把计算和检验的主要过程列成表9-1的形式,称为单因素试验方差分析表。
·247·
9-1 单因素试验方差分析表
S T ,S A 和S e 。
记∑===
i
n j ij i r i X T 1
,,2,1, ,∑∑===r i n j ij i
X T 11
,则有
∑∑∑∑====-=-=r
i n j ij
r
i n j ij T i
i
n
T X X n X S 11
22
11
2
2
∑∑==-=-=r
i i
i r
i i
i A n T n T X n X n S 122
1
2
2
A T e S S S -=
2.双因素无重复试验的方差分析
当影响某指标的因素不只一个而是多个时,要分析多个因素的作用,就要进行多因素的方差分析。
进行双因素方差分析的目的,是要检验两个因素A 、B 对试验结果有无显著影响。
因素A 取r 个水平A 1,A 2,…,A r ,因素B 取s 个水平B 1,B 2,…,B s ,在(A i ,B j )水平组合下的试验结果独立地服从同方差的正态分布N (2
,σμij ),s j r i ,,2,1,,,2,1 ==。
若每一因素组合仅做一次试验,则称双因素无重复试验,记试验
结果为X ij ,则ij X ~),(2σμij N ,s j r i ,,2,1,,,2,1 ==。
且各ij X 独立。
·248
· 为判断因素A 对指标影响是否显著,就要检验下列假设
A H 0:j rj j j ∙====μμμμ 21
A H 1:rj j j μμμ,,,21 不全相等,s j ,,2,1 =
为判断因素B 的影响是否显著,就要检验下列假设
B H 0:∙====i is i i μμμμ 21
B H 1:,,,,,21is i i μμμ 不全相等,r i ,,2,1 =
类似单因素方差分析的检验方法一样,记
∑∑==-=r i s
j ij T X X S 11
2)( ,离差平方总和。
∑∑==∙∙+--=r i s
j j i ij e X X X X S 112
)(,称为误差平方和。
∑=∙-=r
i i A X X s S 12)(,称为因素A 的效应平方和。
∑=∙-=s
j j B X X r S 1
2)(,称为因素B 的效应平方和。
则
B A e T S S S S ++=
在A H 0、B H 0均成立时,有检验统计量:
)]1)(1/[()
1/(---=
s r S r S F e A A ~)]1)(1(),1[(---s r r F 和
)]
1)(1/[()
1/(---=s r S s S F e B B ~)]1)(1(),1[(---s r s F 。
类似于单因素的方差分析,对给定的检验水平α。
由样本值算得
)]
1)(1/[()
1/(---=
s r S r S F e A A 之值A f ,若A f ≥)]1)(1(),1[(---s r r F α,
则应拒绝A H 0,接受A H 1;否则就应当接受A H 0。
·249·
由样本值算得)]
1)(1/[()
1/(---=
s r S s S F e B B 之值B f ,若B f ≥
)]1)(1(),1[(---s r s F α,则应拒绝B H 0;否则就应当接受B H 0。
类似于单因素的方差分析,也可将计算的主要结果和检验过程列成表9-2形式,称为双因素不重复试验方差分析表。
表9-2 双因素不重复试验方差分析表
∑=∙=s
j ij i X T 1
,∑=∙=r
i ij j X T 1, ∑∑===r
i s
j ij X T 11
,
s j r i ,,2,1,,,2,1 ==。
rs T X S r
i s
j ij
T 211
2-=∑∑==, ∑=∙-=r i i A rs T T s S 12
21,
∑=∙-=s j j B rs T T r S 12
21,
B A T e S S S S --=。
3.双因素等重复试验的方差分析
若试验指标受因素A 、B 的作用,因素A 有r 个水平A 1,A 2,…,A r ,因素B 有s 个水平B 1,B 2,…,B s 。
若因素A ,B 的每对组合(A i ,
·250
· B j ),i =1,2,…,r ,j =1,2,…,s 都作k (k ≥2)次试验,则称该试验为双因素等重复试验,其试验结果记为ijl X (i =1,2,…,r ,j =1,2,…s ,l =1,2,…,k )。
假设ijl X 相互独立且服从同方差的正态分布,即:
ijl X ~N (2,σμij ),i =1,2,…r ,j =1,2,…s ,l =1,2,…k 。
类似前面的结果,有双因素等重复试验方差分析表(表9-3)。
表9-3 双因素等重复试验方差分析表
其中
B A B A e T S S S S S ⨯+++=
∑∑∑===-=r i s j k
l ijl T X X S 1112)( ,离差平方总和。
∑∑∑===∙-=r
i s
j k
l ij ijl e X X S 111
2
)(,称为误差平方和。
∑=∙∙-=r
i i A X X sk S 12)(,称为因素A 的效应平方和。
∑=∙∙-=s
j j B X X rk S 1
2)( 称为因素B 的效应平方和。
·251·
∑∑==∙∙∙∙∙⨯---=r i s
j j i ij B A X X X X k S 11
2)( 称为因素A 、B
交互效应平方和。
对给定的显著性水平α,有
(1)若统计量))
1(/()
1/(--=
k rs S r S F e A A 的观察值A f ≥
))1(,1(--k rs r F α,则称因素A 对试验指标的影响显著,否则,就
称因素A 对试验指标的影响不显著;
(2)若统计量))
1(/()
1/(--=
k rs S s S F e B B 的观察值B f ≥
))1(),1((--k rs s F α,则称因素B 对试验指标的影响显著,否则,
就称因素B 时试验指标的影响不显著;
(3)若统计量))
1(/()
1)(1/(---=
⨯⨯k rs S s r S F e B A B A 的观察值B A f ⨯≥
))1(),1)(1((---k rs s r F α,则认为A 、B 的交互作用对试验指标的
影响显著,否则认为A 、B 的交互作用对试验指标的影响不显著。
具体计算时,可以应用下列简便公式,记
∑∑∑===∙∙∙=r i s j k
l ijl X T 111
∑=∙=k
l ijl ij X T 1,i =1,2,…,r ,j =1,2,…,s
∑∑==∙∙==s
j k
l ijl i r i X T 11
,,2,1,
s j X T r i k
l ijl j ,,2,1,
11
==∑∑==∙∙
则 ∑∑∑===∙
∙∙-=r
i s j k
l ijl
T rsk T X S 111
22, ∑=∙∙∙∙∙-=r i i A rsk T T sk S 1221
·252
· ∑=∙∙∙∙∙-=s j j B rsk
T T rk S 12
21
B A r i s j ij B A S S rsk T T k S --⎪⎪⎭⎫ ⎝⎛-=∑∑==∙
∙∙∙⨯11
221 B A B A T e S S S S S ⨯---=
9.2.2 回归分析
方差分析是考察因素对试验指标影响的显著性,而在有些问题中还需要了解指标随因素改变的变化规律,也就是寻找指标与因素之间的定量表达式。
这就是回归分析研究的内容。
1.一元回归分析
(1)一元线性回归的数学模型
一元线性回归是讨论随机指标(变量) y 与可控因素(非随机变量) x 之间的统计相关关系。
设随机变量y 与可控变量x 在试验中的n 对实测数据为 (x 1,y 1),(x 2,y 2),…,(x n ,y n )。
其中y i 是x =x i 时随机变量y 的实测值。
将实测点),,2,1)(,(n i y x i i =画在直角坐标平面上,这样得到的图形通常称为散点图。
如果图中的散点大致分布在一条直线附近,就可以认为y 与x 的关系为
ε++=bx a y (1)
如果略去随机项,得到
bx a y
+=ˆ (2) 在y 的上方加“^”是为了区别y 的实测值。
满足(1)回归模型称为一元线性回归模型,而(2)式表示的直线方程称为y 对x 的回归方程(或称经验方程),其中a ,b 称为回归系数。
对于给定的x ,由回归方程
(2)得到的y
ˆ值,称为y 的回归值。
(2)回归系数的计算
回归系数a 、b 是使离差平方和
21
21
))(()ˆ(),(∑∑==+-=-=n
i i n i i i bx a y y
y b a L
·253·
取得最小时,a ,b 的最小二乘估计值a
ˆ、b ˆ: x b y a
ˆˆ-=,xx
xy
S S b =ˆ (3)
其中 ∑==n i i x n x 11,∑==n
i i y n y 1
1
∑∑∑===⎪⎭⎫ ⎝⎛-=-=n i n i i i n i i xx x n x x x S 1
212
121)(
∑∑∑===⎪⎭⎫ ⎝⎛-=-=n i n i i i n i i yy y n y y y S 1
212121)(
∑∑∑∑====-=--=n i n
i n i i i i i n i i i xy y x n y x y y x x S 111
1))((1))((。
由此,在实测数据下求得的y 关于x 的具体方程
x b a y
ˆˆˆ+=,或 )(ˆˆx x b y y -+= 称为经验(样本)回归直线方程,也简称回归方程。
(3)线性回归方程的显著性检验
用最小二乘法求回归直线方程并不需要事先假定y 与x 一定具有线性相关关系,事实上,就方法本身而言,对任意一组数据都可由式(3)形式上求出一个线性方程,描述y 与x 间的关系,但是,这样的表达式可能毫无实际意义。
因此,在按最小二乘法求得y 与x 间线性关系式之后,必须对它的线性相关性作出检验,只有经过检验并达到显著性要求的回归方程才有实用价值。
若线性假设ε++=bx a y 符合实际,则b 不应为零,因为若b =
0,则y 就不依赖x 了。
因此,我们需要检验假设:
H 0:b =0,H 1:b ≠0。
检验统计量为
)
2/(-=
n S S F 残回
~F (1,n -2) (4)
其中,xx
xy
S S S 2=
回,xx
xy
yy yy n
i i i
S S S S S y
y
S 2
1
2
)ˆ(-=-=-=
∑=回残。
·254
· 故,对给定显著性水平α,查F 分布表得临界值)2,1(-n F α。
若由样本值算得统计量)
2/(-=
n S S F 残回的观察值f ≥)2,1(-n F α,则应
拒绝H 0,即认为y 关于x 的线性回归效果显著。
否则,接受H 0,即认为y 关于x 的线性回归效果不显著。
注:回归方程效果检验,除了这里介绍的F - 检验法外,常用的还有相关系数检验法和T - 检验法。
有兴趣的读者可参阅有关书籍。
(4) 预测
回归方程的一个重要应用是,对给定的点x =x 0能对随机变量y 的取值y 0进行估计,即所谓的预测问题。
估计有两种方式——点估计和区间估计。
y 0的点估计就是回归值00ˆˆˆx b a y
+=,工程上叫做预测值。
另一种对y 0的预测是采用在一定置信度下的区间估计。
在置信度为α
-1下0y 的置信区间为
⎪⎪⎭
⎫
⎝
⎛-++-+-++--xx
xx S x x n n t y
S x x n n t y 2
02/0202/0)(11ˆ)2(ˆ,)(11ˆ)2(ˆσσαα 其中2
ˆ2
-=n S 残σ
是2
σ的无偏估计量。
(5) 可线性化的非线性回归问题
如果由实测数据画出的散点图或经验表明两个变量之间的统计相关关系不是线性情形,就不能沿用上述结果。
其随机变量y 与非随机变量x 统计相关关系的回归方程一般来说较为复杂,但有些问题是可以通过变量代换转化成线性回归的情形得到解决。
一般步骤为
1)在作出散点图的基础上,参考常用曲线的拟合类型(参阅有关教材),选择合适的拟合曲线;
2)引入变量代换之后化非线性曲线为线性回归,并进行线性回归的计算与显著性检验;
3)回归系数回代后即可得到所求的非线性回归方程。
2.多元线性回归简介 对于回归问题,还会遇到一个随机变量与一组变量间的相关关系
·255·
问题。
这就需要用到多元回归分析。
在这里,仅介绍多元线性回归的基本概念。
(1)多元线性回归模型
设随机变量y 与k 个普通变量x 1,x 2,…,x k 线性关系式为
)2(22110≥+++++=k x a x a x a a y k k ε (5) 其中ε是随机项,服从正态分布,即),0(~2
σεN ,而a 1,a 2,…,a k ,2
σ都是与x 1,x 2,…,x k 无关的待定参数。
设(x 11,x 12,…,x 1k ;y 1),(x 21,x 22,…,x 2k ; y 2),…,(x n 1,x n 2,…,x nk ;y n )是一个容量为n 的样本。
类似于一元线性回归。
当
我们取k a a a
ˆ,,ˆ,ˆ10 使得当k k a a a a a a ˆ,,ˆ,ˆ1100=== 时,目标函数 []∑=+++-=n
i ik k i i k x a x a a y a a a L 1
2
11010)(),,,(
达到最小时的系数k a a a
ˆ,,ˆ,ˆ10 ,称为回归系数,相应的方程 k k x a x a a y
ˆˆˆˆ110+++= 称为y 关于x 1,x 2,…,x k 的线性回归方程。
其中k a a a
ˆ,,ˆ,ˆ10 是下列方程组(正规方程组)的解
⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧
=++++=++++=++++∑∑∑∑∑∑∑∑∑∑∑∑∑∑==============n
i n
i i ik n i ik k n i i ik i n i ik ik n
i i i ik n i i k i n i i n i i n
i i n
i i n i ik k n i i n i i y x x a x x a x x a x a
y x x x a x x a x a x a
y x a x a x a na 1
11212211101111211212211
101
11221110.,
, (2)几个常用的结论
1)记∑==n i ij j x n x 1
1,j =1,2,…,k ;∑==n
i i y n y 11,则
k k x a x a a
y ˆˆˆ110+++= (6) 2)记
·256
· ))((1))((1
111∑∑∑∑====-=--=n i im n
i ij n
i im ij m im j ij n
i jm x x n x x x x x x l , j , m
=1, 2, …, k 。
))((1))((1
111∑∑∑∑====-=--=n i i n
i ij n
i i ij i j ij n
i jy y x n y x y y x x l ,j =1,
2, …, k 。
21
)(y y l i n i yy -=∑=,⎥⎥⎥⎥⎦⎤
⎢⎢⎢
⎢⎣⎡=kk k k k k l l l l l l l l l L 2
12222111211 则可由 ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥
⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡-ky y y k l l l L a a a
21121ˆˆˆ,解得k a a a
ˆ,,ˆ,ˆ21 ,然后再由(6)式解得 ---=22110ˆˆˆx a x a y a
k k x a ˆ-。
3)j a
ˆ是j a 的无偏估计量(j =1, 2, …, k )。
4)统计量21
)ˆ(11
i i n
i y y k n ---∑=是2σ的一个无偏估量。
记21
2
)ˆ(11ˆi i n i y
y k n ---=∑=σ,则22)ˆ(σσ=E ,且1
ˆˆ1
2---=∑=k n l a
l iy n
i i yy σ。
(3)多项式回归
若随机变量y 与变量x 的回归模型为
ε+++++=k k x a x a x a a y 2210。
其中回归函数是x 的k 次多项式,随机项ε~),0(2
σN 。
则称y 关
·257·
于x 是多项式回归,对于这个一元非线性回归,可以通过简单的变量代换转化为多元线性回归。
即令
x x =1,2
2x x =,…,k k x x =,则
ε+++++=k k x a x a x a a y 22110。
其中回归系数的计算同前面的方法。
(4)多元线性回归模型的检验
类似于一元线性回归,多元线性回归模型往往仅是一种假定,为了考察这一假定是否符合实际,还需要检验假设:
H 0:b 1=b 2=…=b k =0,H 1:b i 不全为零 (7)
检验统计量为
)1,(~)
1/(/----=
k n k F k n S k
S F 残回
类似于一元线性回归,对给定的小概率)10(<<αα,查F 分布表确定临界值)1,(--k n k F α,并与由样本值计算出统计量F 的观察值f 比较,如果f ≥)1,(--k n k F α,则拒绝H 0,接受H 1,即可以认为
线性回归效果显著。
否则,接受H 0,即认为y 与x 1,x 2,…,x k 的线性回归效果不显著。
具体计算时,可采用下述简便算法:
21
22
1)(y n y y y S n
i i i n i yy -=-=∑∑==,
ky k y y i n
i l a l a l a y y
S ˆˆˆ)ˆ(221121
+++=-=∑= 回, 回残S S S yy -=。
9.3 典型例题分析
例1 为考察温度对某化学反应生成物浓度的影响,今列出A 1、
A 2、A 3、A 4的4种温度下该化学反应生成物浓度(单位:%)数据:
温度A 1:20 21 40 33 27 温度A 2:15 18 17 16 26
·258
· 温度A 3:18 19 22
温度A 4:20 18 15 22 19
试问温度对生成物浓度的影响是否显著(取α=0.05)?
解:本例是水平数m =4,重复试验次数为n 1=n 2=5,n 3=3,n 4=5,n =18的单因素试验。
假定温度A i 下的生成物浓度i X 服从独立同方差
的正态分布4,3,2,1),,(2
=i N i σμ。
(1)提出待验假设
H 0:μ1=μ2=μ3=μ4,H 1:μ1、μ2、μ3、μ4不全相等。
(2)计算有关数据:
,1411=T ,922=T 593=T ,944=T ,∑===5
1
386i i T T ,
444.714)386(181
8992184
11
222=⨯-=-=∑∑==i n j ij
T i
T x S ,
978.318)386(181
533.8596184
4
1222=⨯-=-=∑=i i A T T S ,
466.395=-=A T e S S S 。
(3)列出方差分析表如下:
表9-4
(4)结论:因05.0α。
故拒绝H 0,即可以认为不同的温度对该化学反应生成物浓度有显著影响。
注:方差分析是在三个基本假设下进行的:一是正态性,即假定数据所在总体均服从正态分布;二是独立性,即所有总体都是相互独立的;三是等方差性,尽管它们的方差未知,但是却假定是相等的。
所有这些都是引入上述检验统计量的必要条件。
·259·
例2 一批由同一种原料织成的布,用不同的印染工艺处理,然后进行缩水率试验。
假设采用5种不同的工艺,每种工艺处理4块布样,测得缩水率的百分数如下表所示。
等。
试考察不同工艺对布的缩水率有无显著影响(取α=0.05)?
解:本题是水平数r =5,重复试验次数n 1=n 2=n 3=n 4=n 5=4的单因素试验。
假定工艺A i 下的布料强度i X 服从独立同方差的正态分布
5,4,3,2,1),,(2=i N i σμ。
(1)提出待验假设
H 0:μ1=μ2=μ3=μ4=μ5 (不同工艺处理的布的缩水率无显著差异), H 1:μ1、μ2、μ3、μ4、μ5 不全相等。
(2)计算相关数据:
,8.211=T ,7.212=T 3.303=T ,,6.314=T 5.375=T
∑===5
1
9.142i i T T
6095.94)9.142(201
63.1115205
14
1
222=⨯-=-=∑∑==i j ij
T T x S
237.46)9.142(201
2575.1067204
5
1222=⨯-=-=∑=i i A T T S
3725.48=-=A T e S S S
·260
· (3)列出方差分析表如下:
表9-5
(4)结论:因05.0α。
故拒绝H 0,亦即认为不同工艺对布的缩水率有显著影响。
例3 为了解3种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的仔猪各选3头进行试验,分别测得其3个月间体重的增
与不同品种对猪的生长有无显著影响(取α=0.05)。
解:本题双因素不重复试验的方差分析,这里r =s =3。
假定仔猪的体重增加量ij X 服从正态分布3,2,1,),,(2
=j i N ij σμ。
(1) 依题意,建立待检假设:
A H 0:j j j j ∙===μμμμ321
A H 1:j j j 321,,μμμ不全相等,3,2,1=j
B H 0:∙===i i i i μμμμ321
B H 1:,,,321i i i μμμ不全相等,3,2,1=i
(2)计算相关数据:
157,159,152321===∙∙∙T T T ,1561=∙T
·261·
141,17132==∙∙T T ,∑∑====413
1
468i j ij x T
∑∑===⨯-=⨯-=3
13
1
22216246891
2449833i j ij
T T x S
667.846891667.24344333123122=⨯-=⨯-=∑=∙i i A T T S
∑=∙=⨯-=⨯-=3122215046891244863331j j B T T S
333.3=--=B A T e S S S S
(3)列出方差分析表:
表9-6
:
94.6)4,2())1)(1(,1(05.0==---F s r r F α
94.6)
4,2())1)(1(,1(05.0==---F s r s F α
因为94.6)4,2(05.0=<F f A ,94.6)4,2(05.0=>F f B 。
因此,不同的饲料对猪体重的增长无显著影响,而猪品种的差异对猪体重的增长有显著影响。
例 4 为了解不同的工人在四种不同的机器上生产同一种零件的效率,现让3人分别在不同的机器上工作三天,其日产量(单位:个)
·262
·
机器上生产的零件日产量有无显著差异(取α=0.05)。
解:本题双因素等重复试验的方差分析,这里r =3,s =4,k =3。
假定日产量ijl X ~3,2,1;4,3,2,1;3,2,1),,(2===l j i N ij σμ。
利用样本观察值计算所需各项数据(其中∑=∙=3
1
l ijl
ij x
T 的计算结
果见表中括号内的数字):
223,198,206321===∙∙∙∙∙∙T T T 159,
153,
159,
1564321====∙∙∙∙∙∙∙∙T T T T
627=∙∙∙T
故 ∑∑∑===∙∙∙-=4
13
12
1
2
2i j l ijl
T rsk T x S
75.14462736
1
)17171515(22222=⨯-
++++= 同理,17.27627361
)223198206(1212222=⨯-++=
A S 75.2627361
)159153159156(9122222=⨯-+++=B S
75.217.27627361
)515147(312222--⨯-+++=⨯ B A S
5.73=
33.41=---=⨯B A B A T e S S S S S
将上述结果列入方差分析表:
·263·
表9-7
由于 A f F k rs r F <==--40.3)24,2())1(),1((05.0α
B f F k rs s F >==--01.3)24,3())1(),1
((05.0α B A f F k rs s r F ⨯<==---51.2)24,6())1(),1)(1((05.0α
由此可看出,不同的机器对日产量没有显著影响,而不同工人的日产量及不同的工人在不同的机器上生产零件,其日产量均有显著差异。
例5 研究某一化学反应过程中,温度x (℃)对产品得率y (%)的影响,现测得若干数据如下表所示。
(2)试求线性回归方程:x b a y
ˆˆˆ+=;(3)检验线性回归的合理性(取α=0.05);(4)若回归效果显著,试求x =135处y 的置信度为0.95的预测区间。
解:(1)散点图为:
·264
·
从散点图看出,用线性回归效果较好。
(2)为求回归方程,先计算有关数据:
表9-8
注:如果能充分利用计算器上的统计健的功能,可以不必写出中间过程。
下同。
由表中数据得:
82501450101102185002
=⎪⎭
⎫
⎝⎛⨯⨯-=xx S
·265·
3985673101145010110101570=⎪⎭
⎫
⎝⎛⨯⨯⎪⎭⎫ ⎝⎛⨯⨯-=xy S
于是
48303
.08250
3985
ˆ==
=xx xy
S S b
73935.2145010148303.0673101ˆˆ-=⨯⨯-⨯=-=x b y a
故回归直线方程为 x y
48303.073935.2ˆ+-= (3)检验线性回归的合理性
1.193267310110472252
=⎪⎭
⎫
⎝⎛⨯⨯-=yy S
8758.19248250
)3985(2
2===xx xy
S S S 回,
2242.78758.19241.1932=-=-=回残S S S yy
5864.2131)
210/(2242.78758
.1924)2/(=-=-=n S S f 残回。
由05.0=α得临界值f F n F <==-32.5)8,1()2,1(05.0α。
故拒绝H 0,即可以认为温度与产品的得率间存在着线性关系,而且线性回归效果显著。
(4)求x =135处y 的置信度为0.95的预测区间
506.62]48303.073935.2[ˆ13500=+-==x x y
903.02
102242
.72ˆ=-=-=n S 残σ
306.2)8()2(025.02/==-t n t α
xx
S x x n t )(11ˆ2/-++σ
α
·266
· 196.28250
)1450101
135(10
11903.0306.22=⨯-
++
⨯⨯= 因此y 0的预测区间为 (62.506-2.196,62.506+2.196),即 (60.31, 64.702)。
注:这是一道典型的有关一元线性回归的例子,几乎包含了一元线性回归
所有可能涉及到的问题,其解题过程规范有序。
希望读者能仔细研究其方法,真正做到举一反三。
例6 某矿脉中13个相邻样本点处,某种伴生金属的含量数据如下表
试建立回归方程(已知y 与x 有经验公式x
b
a y ˆˆ1+=)。
解: 这是一道可线性化的例子。
令y y 1=',x
x 1
=',则
x
b a
y ˆˆˆ1+=变换为x b a y '+='ˆˆˆ。
将数据作相应变换:
·267·
08009.0131181
.0,1574.013046.2=='==
'y x 2122.01574.0135343.02=⨯-=xx S 0007405.000908.01574.01301932.0=⨯⨯-=xy S
于是
00349
.02122
.00007405
.0ˆ==
=xx
xy S S b
008531.01574.000349.000908.0ˆˆ=⨯-='-'=x b y a
于是回归直线方程为
x y '+='49003.0531008.0,
因此有
x
y 100349.0531008.01+= 注:在解决可线性化的回归问题时,一定要注意将原数据作相应的变换。
否
·268
· 则,将得到错误的结论。
例7 电容器充电达某电压值为时间的计算起点,此后电容器串
求u 对t 的回归方程(已知u 和t 有经验关系c u e u u
与00,=未知)。
解:这也是一道可线性化的例子。
令u y ln =,t x =,0ln u a =,
c b -=,x b a y
e u u t c ˆˆˆˆˆˆ
+==-变为则。
将数据作相应变换: 所以 代入公式得,05.311
,511====
y x : 1105113852
=⨯-=xx S
65.3405.35111.133-=⨯⨯-=xy S
于是
315
.0110
65
.34ˆ-=-=
=xx
xy S S b
625.45315.005.3ˆˆ=⨯+=-=x b y a
于是回归直线方程为:
·269·
x y
315.0625.4ˆ-= 由于315.0ˆˆ-==-b c ,102ˆˆ0==a e u ,因此u 对t 的回归方程为:
t e u
315.0102ˆ-= 例8 在平炉炼钢中,由于矿石与炉气的氧化作用,铁水的总含
碳量在不断降低。
一炉钢在冶炼初期总的去碳量y 与所加的二矿石的量x 1(单位:槽),x 2(单位:槽)及熔化时间x 3(单位:10分钟)有关。
经验表明它们有关系式
3322110ˆˆˆˆˆx a x a x a a y
+++= 试就下列数据求出回归系数
ˆ,ˆ,ˆ,ˆa a a a
,并写出回归方程。
计算有关数据:
625.5161161
11==∑=i i x x , 875.1016116
122==∑=i i x x
,125.4916116133==∑=i i x x
34875.416116
1
==∑=i i y y
75.339)(162116
1
1111=-=∑=x x x l i i i
75.757162216
1
2222=⋅-=∑=x x x x l i i i
75.3537163316
1
3333=⋅-=∑=x x x x l i i i
·270
· 75
.449162116
1212112-=⋅-==∑=x x x x l l i i i 25
.174163116
1
313113-=⋅-==∑=x x x x l l i i i
25.203163216
1
323223=⋅-==∑=x x x x l l i i i
3875.216116
111-=⋅-=∑=y x y x l i i i y
7975
.516216
122=⋅-=∑=y x y x l i i i y
2125.11316116
1
33=⋅-=∑=y x y x l i i i y
故有法方程组:
⎪⎩⎪⎨
⎧=++-=++--=--2125
.11375.353725.20325.1747975
.525.20375.75775.4493875.225.17475.44975.339321321321a a a a a a a a a 解得 03851.0ˆ1=a
,02175.0ˆ2=a ,03265.0ˆ3=a 29167.2ˆˆˆˆ3322110=---=x a x a x a y a
因此抛物线的回归方程
32103265.002175.003851.029167.2ˆx x x y
+++= 例9 一种合金在某种添加剂的不同浓度x (%)下,合金的延伸系
·271·
著性(05.0=α)。
解:(1)散点图为:
从散点图可看出,合金的延伸系数y 随添加剂的浓度x 增加而降低,但当x 超过一定值后,y 有所回升。
根据散点图形状可以认为是二次多项式回归(抛物线回归)
2210ˆˆˆˆx a x a a y
++= 作变量代换x x =1,2
2x x =,则将上述回归方程化为二元线性
回归方程
22110ˆˆˆˆx a x a a y ++=
6875.4016116111==∑=i i x x ,3125.166916116
1
22==∑=i i x x
·272
· 62625.016116
1==∑=i i y y ,44.221)(1621161
1111=-=∑=x x x l i i i 6.182********
1
212112=⋅-==∑=x x x x l l i i i
1513685162216
1
2222=⋅-=∑=x x x x l i i i
64875.1116116
1
11-=⋅-=∑=y x y x l i i i y
05125.92316216
1
22-=⋅-=∑=y x y x l i i i y
故有法程组:
⎩
⎨
⎧-=+-=+05125.92315136856.1828264875
.116.1828244.2212121a a a a 解得 8205.0ˆ1-=a
,009301.0ˆ2=a 484.18ˆˆˆ22110=--=x a x a y a
因此抛物线的回归方程是。
2009301.08205.0484.18ˆx x y
+-=
(3)检验回归方程的显著性 因为 09774.1)(16)
(216
1
2
=-=
=∑=y y l S i i
yy yy ,
y y l a l a
S 2211ˆˆ+=回 9727
.0)
05.923.0(009301.0)649.11()8205.0(=-⨯+⨯-=
12504.09727.009774.1=-=-=回残S S S yy
因此
26.202)
1216/(12504.02
/9727.0)1/(/=--=--=k n S k S f 残回
·273·
而α=0.05时,临界值F 0.05 (2,13) = 3.81<202.26,故拒绝H 0,因此可以认为回归方程效果显著。
9.4 练习与测试
1.把下面的方差分析表(表9-9)填写完整(即求出表中处于字母b 、d 、g 、h 、i 所在空格位的结果),并由此说明因素A 对数据是否有显著影响(取05.0=α)。
2.回归分析是处理变量间 关系的一种数理统计方法,若两个变量(或多个变量)间具有线性关系,则称相应的回归分析为 ,若变量间不具有线性相关系,就称相应的回归分析为 .
3.设y 与x 间的关系为ε++=bx a y ,),0(~2σεN ,
),,2,1(),,(n i y x i i =是),(y x 的n 组观测值,则回归系数的最小二乘估计为=b
ˆ ,a ˆ= 。
4.在k 元线性回归中,确定随机变量y 与普通变量k x x ,,1 间是否有线性关系,通常要进行 检验,检验的方法有(1) ,(2) ,(3) 。
5.设有线性模型:(),,,2,1n i x y i i i =+=εβ其中i ε相互独立,且
),0(~2σεN i ,),,2,1(),,(n i y x i i =是),(y x 的n 组观测值,则β的最大似
然估计为( )。
(A )()
()()2
1
1
/∑∑==---n
i i i n
i i x x y y X X
(B )∑∑==n i n
i i i i x y x 1
12
/
(C )()()∑∑==--n
i i n i i x x y x x 1
2
1
/ (D )()()∑∑==--n
i i i n
i x x y y x 1
2
1
/
6.将大片条件相同的土地分20个小区。
播种5种不同品种的小麦(A ),每一品种在4个小区播种,共得到20个小区产量的独立观察值(单位:kg )如下:
A 1:67 55 67 42; A 2:66 98 96 91; A 3:69 35 50 60; A 4:79 64 81 70; A 5:90 70 79 88;
·274
· 假定各小区小麦品种产量服从正态分布,且方差不变。
试考察不同小麦品种小区产量差异的显著性。
7
假定工人的日产量服从正态分布,且方差相等。
问是否真正存在机器或工人之间的差异(取α=0.05)。
8.一化学反应为寻求最佳反应式,现使用了4种不同的温度和三种不同的催化剂进行试验。
每种温度与每种催化剂的组合各试验两次,得结果如下(生成
假定各种组合下的生成物浓度服从正态分布,且方差相等。
问温度和催化剂对生成物浓度是否有显著影响(取α=0.05)。
9.某钢铁企业为预测产品回收率y ,需要研究它与原料有效成份含量x 间的相关关系。
现从中抽取8对数据经计算得
5281
=∑=i i x ,22881
=∑=i i y ,47881
2=∑=i i x ,18498
1
=∑=i i i y x
试求回收率关于原料有效成份含量的线性回归方程。
10.在镁合金X 光探伤中考虑透视电压u 与透视厚度l 的关系,作了5次试
·275·
回归方程l b a u ˆˆˆ+=;(3)检验线性回归的合理性(取α=0.01);(4)若回归效果显著,
试求l =30处u 的置信度为0.95的预测区间。
11.在某次实验中,需要观察水份的渗透速度,测得时间t 与水的重量W 的
设对于给定的W ,t 为正态变量,且方差与t 无关。
(1)画出散点图;(2)试求回归
方程s
t A W
ˆˆˆ=。
12.某种水泥凝固时释放的热量y (卡/克)与3种化学成份(单位%)x 1、x 2、x 3有关。
现将观测的13组数据列于下表。
1239.5 练习与测试答案
1.b =4975.02,d =4,g =14276.93,h =331.67,f =43.05,因临界值f F r n r F <==--06.3)15,4(),1(05.0α,故因素A 对数据有显著影响。
2.相关;线性回归分析;非线性回归分析。
3.
.ˆ;
)()
)((1
2
1
x b
y S S x x y y x x xx
xy n
i i n
i i i -=
---∑∑== 4.回归方程的显著性;相关系数检验;F -检验;T -检验。
5.(B )
6.A S =3536.3,e S =2162.25;1-r =4,r n -=15;方差比观测值
f =6.13>06.3)15,4(05.0=F ,结论:有显著差异。
7.工人间无显著差异,而机器之间差异显著。
·276
· 8.由于,42.449.3)12,3(05.0=<=A f F 39.989.3)12,2(05.0=<=B f F ,9.1400.3)12,6(05.0=<=⨯B A f F ,
故认为不同的温度或不同的催化剂对生成物的浓度都有显著影响,并且温度与催化剂的交互作用对生成物的浓度也有显著影
响。
9.
y
ˆ=11.4609+2.6214x 。
10.(1)散点图略;(2)l u
521.025.43ˆ+=; (3) 12.34)3,1(63.83)
25/(726.123540774
)2/(01.0=>=-=-=
F n S S f 残回,故回归
效果显著;(3)预测区间为(51.69,66.07)(其中06.2ˆ=σ
)。
11.(1)散点图略;(2)1107.03938.4ˆ-=t W。
12.3212365.04161.0556.126482.71ˆx x x y
-++=。