8概率论与数理统计(茆诗松)第二版课后第八章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)每一个总体都服从正态分布,即 Yi
~
N
(
µ
i
,
σ
2 i
),
i = 1, 2, L, r ;
(2)各个总体的方差都相等,即
σ
2 1
=
σ
2 2
=
L
=
σ
2 r
,都记为σ
2;
(3)各个总体及抽取的样本相互独立,即 Yij 相互独立,i = 1, 2, …, r,j = 1, 2, …, m. 需要比较它们的总体均值是否相等,即检验的原假设与备择假设为
∑ ∑ Ti
=
m
Yij
j =1
, Yi⋅
= Ti m
=
1 m
m
Yij
j =1
,
i = 1, 2, …, r,
∑ ∑ ∑ ∑ ∑ ∑ T
=
r
Ti
i =1
=
r i =1
m
Yij
j =1
,Y
=
1T n
=
1 rm
r i =1
m
Yij
j =1
=1 r
r
Yi⋅
i =1
,
用 Yi⋅ 作为µ i 的点估计,Y 作为µ 的点估计.又记 ε i⋅ 表示第 i 个总体下随机误差平均值,ε 表示总的随机误
i=1 j =1
∑ ∑ 1
σ2
r i =1
m
(Yij
j =1
− Yi⋅ ) 2
~ χ 2 (rm − r) ,
∑∑ 故 Se
σ2
=1 σ2
r i =1
m
(Yij
j =1
− Yi⋅ )2
~
χ 2 (n − r) ,即得 E(S e) = (n − r)σ 2;
4
r
r
r
r
r
∑ ∑ ∑ ∑ ∑ (2) S A = m (Yi⋅ − Y )2 = m (ai + εi⋅ − ε )2 = m ai2 + m (ε i⋅ − ε )2 + 2m ai (εi⋅ − ε ) ,
由于平方和的大小与变量个数(或自由度)有关,为了对偏差进行比较,通常考虑偏差平方和与其自
∑ 由度之商,称为均方和,记为
MS,反映一组数据的平均分散程度,如样本方差 S 2
=
1 n −1
n i =1
(Xi
−
X )2
就
是样本数据偏差的均方和. 四.总平方和分解公式
总偏差平方和记为 ST 或 SST,其自由度记为 fT ,有
般将该因素称为一个因子,所检验的每种情形称为水平.在每个水平下需要考察的指标都分别构成一个总
体,比较它们的总体均值是否相等.对每一个总体都分别抽取一个样本,样本容量称为重复数.
如果只对一个因子中的多个水平进行比较,称为单因子方差分析,对多个因子的水平进行比较,称为
多因子方差分析.本章只进行单因子方差分析.
和
A1
Y11
Y12
…
Y1m
T1
A2
Y21
Y22
…
Y2m
T2
┆
┆
┆
┆
┆
┆
Ar
Yr1
Yr2
…
Yrm
Tr
和的平方 T12
T 22 ┆ T r2
平方和
∑ Y12j
∑Y22j
┆
∑Yr2j
r
rm
Σ
T
∑Ti2
∑ ∑Yij2
i =1
i=1 j =1
2
二.组内偏差与组间偏差 数据 Yij 与样本总均值 Y 之差 Yij − Y 称为样本总偏差,可以分成两部分之和:
8.1.4 检验方法
由于组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应,通过比较
组内偏差平方和与组间偏差平方和检验因子的显著性.下面将证明在假设所有主效应都等于 0 成立的条件
下,它们的均方和之商服从 F 分布.
定理 在单因子方差分析模型中,组内偏差平方和 Se 与组间偏差平方和 SA 满足
差平均值,即
∑ ε i⋅
=
1 m
m
ε ij
j =1
,
i = 1, 2, …, r,
∑∑ ∑ ε
=
1 n
r i =1
m
ε ij
j =1
=1 r
r
ε i⋅
i =1
.
显然有 Yi⋅ = µi + ε i⋅ , Y = µ + ε .
在单因子方差分析中通常将试验数据及基本计算结果写成表格形式
因子水平
试验数据
k
k
∑ (Yi − Y ) = ∑Yi − kY = 0 ,
i =1
i =1
即这 k 个偏差由 k 个独立数据受到一个约束条件形成,可以证明它们与 k − 1 个独立(随机)变量可以相互 线性表示,称之为等价于 k − 1 个独立(随机)变量.一般地,若 k 个独立数据受到 r 个不相关的约束条件, 则它们等价于 k − r 个独立(随机)变量.在统计学中,把形成平方和的变量所等价的独立变量个数,称为 该平方和的自由度,通常记为 f.如上述偏差平方和 Q 的自由度为 k − 1,即 fQ = k − 1.
H0:µ 1 = µ 2 = … = µ r vs H1:µ 1 , µ 2 , …, µ r 不全相等, 如果 H0 成立,就可以认为这 r 个水平下的总体均值相同,称为因子 A 不显著;反之,如果 H0 不成立,就 称为因子 A 显著.
在水平 Ai 下的样品 Yij 与该水平下的总体均值µ i 之差ε ij = Yij − µ i 为随机误差.由于 Yij ~ N (µ i , σ 2 ), 因此随机误差ε ij ~ N (0 , σ 2 ).对所有 r 个水平下的总体均值求平均,即
rm
r
∑∑ ∑ SA =
(Yi⋅ − Y )2 = m (Yi⋅ − Y )2 ,fA = r − 1.
i=1 j=1
i =1
3
组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应. 定理 总偏差平方和 ST 可以分解为组内偏差平方和 Se 与组间偏差平方和 SA 之和,其自由度也可作相应的 分解,即 ST = Se + SA ,fT = fe + fA ,称之为平方和分解公式.
其中
Yij − Y = (Yij − Yi⋅ ) + (Yi⋅ − Y ) ,
Yij − Yi⋅ = (µi + ε ij ) − (µi + ε i⋅ ) = ε ij − ε i⋅
是第 i 个总体内数据与该总体内样本均值的偏差,称为组内偏差,反映第 i 个总体内的随机误差;
Yi⋅ − Y = (µi + ε i⋅ ) − (µ + ε ) = ai + ε i⋅ − ε
∑ µ
=
1 r
(µ1
+
µ2
+L+
µr )
=
1 r
r i =1
µi
称为总均值.每个水平 Ai 下的总体均值µ i 与总均值µ 之差 a i = µ i − µ 称为该水平 Ai 下主效应.显然所有 主效应 a i 之和等于 0,即
r
∑ ai = 0 ,
i =1
1
检验所有水平下的总体均值是否相等,也就是检验所有主效应 a i 是否全等于 0.这样单因子方差分析在重 复数相等的情形下,统计模型为
8.1.2 单因子方差分析的统计模型
设因子 A 有 r 个水平 A1 , A2 , …, Ar ,在每个水平下需要考察的指标都构成一个总体,即有 r 个总体, 分别记为 Y1 , Y2 , …, Yr ,对每一个总体都分别抽取一个样本,首先考虑重复数相等的情形,设重复数都是 m,总体 Yi 的样本 Yi1 , Yi2 , …, Yim ,i = 1, 2, …, r.作出以下假定:
是第 i 个总体内样本均值与总样本均值的偏差,称为组间偏差,反映第 i 个总体的主效应. 三.偏差平方和及其自由度
∑ 在统计学中,对于
k
个独立数据
Y1 ,
Y2 ,
…,
Yk
,平均值 Y
=
1 k
k
Yi
i =1
,称
Yi 与 Y
之差为偏差,所有偏差
的平方和
k
∑ Q = (Yi − Y )2 i =1
称为这 k 个数据的偏差平方和,反映这 k 个数据的分散程度.由于所有偏差之和
rm
∑ ∑ ST =
(Yij − Y ) 2 ,fT = rm − 1 = n − 1;
i=1 j =1
组内偏差平方和记为 Se 或 SSE,其自由度记为 fe ,有
rm
∑ ∑ Se =
(Yij − Yi⋅ ) 2 ,fe = r (m − 1) = n − r;
i=1 j=1
组间偏差平方和记为 SA 或 SSA,其自由度记为 fA ,有
例 在饲料养鸡增肥的研究中,现有三种饲料配方:A1 , A2 , A3 ,为比较三种饲料的效果,特选 24 只相似 的雏鸡随机均分为三组,每组各喂一种饲料,60 天后观察它们的重量.实验结果如下表所示:
饲料
鸡重/g
A1
1073
1009
1060
1001
1002
1012
1009
1028
A2
1107
1092
第八章 方差分析与回归分析
本章前三节研究方差分析,讨论多个正态总体的比较,后两节研究回归分析.讨论两个变量之间的相 关关系.
§8.1 方差分析
8.1.1 问题的提出
上一章讨论了单个或两个正态总体的假设检验,这里讨论多个正态总体的均值比较问题.
通常为了研究某一因素对某项指标的影响情况,将该因素在多种情形下进行抽样检验,作出比较.一
i =1
i =1
i =1
i =1
i =1
因ε ij (i = 1, 2, …, r, j = 1, 2, …, m) 相互独立且都服从正态分布 N (0, σ 2 ),
∑ ∑ 有 ε i⋅
=
1 m
m
ε ij
j =1
(i
= 1,
2,
…,
r)
相互独立且都服从正态分布 N (0,
σ2 )
m
,ε
=
1 r
r
εi⋅ ,
i=1 j=1
i=1 j =1
r
m
r
∑ ∑ ∑ = Se + S A + 2 [(Yi⋅ − Y ) (Yij − Yi⋅ )] = Se + S A + 2 [(Yi⋅ − Y ) × 0] = Se + S A + 0 = Se + S A ,
i =1
j =1
i =1
且显然有 fT = n − 1 = (n − r) + (r − 1) = fe + fA .
i =1
r
∑ ∑ 则 E(εi⋅
−ε ) =
E(εi⋅ ) − E(ε )
=0
且
(ε i⋅ − ε )2
i =1
σ2
~
χ 2 (r
−
1)
,即
E
⎡ ⎢⎣
i
r =1
(ε
i⋅
−
ε
)
2
⎤ ⎥⎦
= (r
−1) σ 2 m
,
m
∑ ∑ ∑ ∑ 故
E(S A )
=
m
r i =1
ai2
=1 m
m
Yij
i =1
,
∑ ∑ 则
m
(Yij
j =1
−
Yi⋅ ) 2
与 Yi⋅ 相互独立,且
1 σ2
m
(Yij − Yi⋅ )2 ~ χ 2 (m −1) ,
j =1
因在不同水平下的样本都相互独立,
rm
∑ ∑ 则
(Yij − Yi⋅ )2 与 Y1⋅ , Y2⋅ , L, Yr⋅ 也相互独立,且根据独立χ 2 变量的可加性知
990
1109
1090
1074
1122
1001
A3
1093
1029
1080
1021
ห้องสมุดไป่ตู้
1022
1032
1029
1048
在此例中,就是要考察饲料对鸡增重的影响,需要比较三种饲料对鸡增肥的作用是否相同.这里,饲
料就是一个因子,三种饲料配方就是该因子的三个水平,每种饲料喂养的雏鸡 60 天后的重量分别构成一 个总体,这里共有 3 个总体,每一个总体抽取样本的重复数都是 8,比较这 3 个总体的均值是否相等.
(1)E(S
e)
=
(n
−
r)σ
2,且
S σ
e 2
~ χ 2 (n − r) ;
∑ (2) E(S A ) = (r −1)σ 2
r
+ m ai2
i =1
,且当
H0:a
1
=
a
2
=
…
=
a
r
=
0
成立时,
S σ
A 2
~
χ 2 (r −1) ;
(3)Se 与 SA 相互独立. 证:根据第五章的定理结论知:
∑ ∑ 设
rm
rm
∑ ∑ ∑ ∑ 证: ST =
(Yij − Y ) 2 =
[(Yij − Yi⋅ ) + (Yi⋅ − Y )]2
i=1 j=1
i=1 j =1
rm
rm
rm
∑∑ ∑∑ ∑∑ =
(Yij − Yi⋅ )2 +
(Yi⋅ − Y )2 + 2
(Yij − Yi⋅ )(Yi⋅ − Y )
i=1 j =1
8.1.3 平方和分解
一.试验数据 对于 r 个总体下的试验数据 Yij , i = 1, 2, …, r,j = 1, 2, …, m ,记 Ti 表示第 i 个总体下试验数据总和,
Yi⋅ 表示第 i 个总体下样本均值,n = rm 表示总的样本容量,T 表示总的试验数据总和, Y 表示总的样本均 值,即
X1 ,
X2,
…,
Xn 相互独立且都服从正态分布
N (µ ,
σ
2 ),记
X
=
1 n
n i =1
Xi
, S0
=
n i =1
(Xi
−
X )2
,
则
X
与
S0
相互独立,且
S0 σ2
~
χ 2 (n −1) .
∑ ∑ ∑ (1) Se
=
r i =1
m
(Yij
j =1
− Yi⋅ ) 2 ,Yi1 , Yi2 , …, Yim 相互独立且都服从正态分布 N (µ i, σ 2 ), Yi⋅
∑ ⎪⎪⎧Yrij
⎨
= µ + ai ai = 0;
+ ε ij ,
i = 1, 2, L, r,
⎪ i=1
⎪⎩ε ij 相互独立,且都服从N (0, σ 2 ).
j = 1, 2, L, m;
检验的原假设与备择假设为 H0:a 1 = a 2 = … = a r = 0 vs H1:a 1 , a 2 , …, a r 不全等于 0.