研究生数理统计之方差分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 ( X X ) , , ( X X ) kj k 之和,每个有 n-1 1 SSe 是 1 j 2 j 1 j 1 n n
个自由度,故 SSE 应有 k(n-1)个自由度。 所以 SST SSA SSe 相应的一个自由度分解: kn-1 = (k-1 ) + k(n-1)。 在统计上,把一个平方和除以其自由度,称为“平 均平方和” , “均方离差” 或简称 “均方” , 用 MS 记。 例如,因素 A 的平均平方和为: MSA SS A (k 1) 误差平均平方和为: MSe SSe (k (n 1))
由此分解式可写为: SST SSA SSe 。 这就是方差分析的含义:把一个“总方差”SST 分 解为由种种原因 (因素 A, 随机误差等) 形成的 “部 分方差” 。
SST 有 kn-1 个自由度;
SS A 是由 k 个数 X 1 , X 2 , , X k 算出的样本方差,
有 k-1 个自由度;
S * S 2 C ,C 为一常数
2
C 的值依水平数 k, 每水平试验次数及指定的检 验水平 而定。 可以证明:
F nS
*2
n k S ( X i X )2 k 1 i 1
2
k n 1 ( X ij X i ) 2 k (n 1) i 1 j 1
在给定的检验水平 时, 原假设 H 0 : 1 2 k 的拒绝域为:
k 4 。我们就据此推断
3 4 1 2 。 如 越大越好, 则应挑选水平 3。
(2) 一般地,我们还关心特定的两水平之差。 例如: i
l ,我们用 X i X l 作为 i l 的估计。
而其区间估计则使用 t 分布,具体形式为: (置信系数为
A1
A2
A3
A4
试问:这四个学生成绩是否存在差异( 0.025 ) 。
现在再回到单因素方差分析的一般模型。 如果检验的结果,原假设 H 0 : 1 则认为该因素各水平效应一样。
2 k 通过了,
如果 H 0
: 1 2 k 被拒绝了, 则认为 1 , 2 ,, k 有
怎样去检验这个假设呢?
1.1 方差分析与 F 检验 (各水平试验的次数相同时) 单因素问题的一般模型:有一个因素 A,它有 k 个 水平: 1,2,, k 。在水平取 i 时进行 n 次实验,得 到数据 X i1 , X i 2 ,, X in 。
2 X N ( , ) ij 假定每个 有正态分布 i
0.05 水平下显著时,在其
F 上加一个“*” ;若 0.01水平下显
著时,则加两个 “*” ;
例 1.2:设用 3 台机器 A,B,C 制造同一种产品,对每台机 器观察 5 天的日产量,记录如下(单位:件) A: B: C: 41 48 41 57 49 65 57 54 72 64 45 51 56 48 48
1 )
Xi Xl 2 2 MS E t (k (n 1)) i l X i X l MS E t (k (n 1)) 2 2 n n
1.3 各水平试验次数不一定相同的情况 一切与前面相同,只是在 A 的各水平下的试验次数不一定都等 于同一个 n。这样,就得到如下的模型: 水平 1: X 11 , X 12 ,, X 1 j ,, X 1n1 水平 2: X 21 , X 22 ,, X 2 j ,, X 2 n2 。 。 。。 。 。。 。 。。 。 。。 。 。。 。 。 水平 k: X k1 , X k 2 ,, X kj ,, X knk 要检验假设
§1 单因素方差分析 1.1 模型 单因素问题是指在问题中只考虑一个 对指标有影响的因素 A(应当说明的是, 对指标有影响的因素仅此一个). 把别的因素都适当固定下来,而只让 因素 A 在试验中有变化,以观察和分析 它对指标的影响。这样就构成了一个单 因素问题。
例 1.1:一工厂用三种不同的工艺生产某类型电 池。 从各种工艺生产的电池中分别抽取样本并测 得样本的寿命(使用时间)如下: (单位:小时)
得到 2 的估计为
k n 1 2 S ( X X ) ij i 〈组内方差的算术平均〉 , k (n 1) i 1 j 1 2
1 n X X ij 其中 i n 。 j 1
接下来分析各水平不同的影响。 水平 i 的平均 i 的估计为 X i 。
X 1 , X 2 , , X k 之间的差异越大,则 1 , 2 , , k
之间的差异就越大,从而各水平之间的差异也 越大。 因 此 , 算 出 X 1 , X 2 ,, X k 的 样 本 方 差 :
S
*2
1 k (X i X )2 〈组间方差〉 , k 1 i 1
反映各水平差异的影响
1 k 1 k n X X i X ij 其中 k i 1 kn i 1 j 1
SST
kn-1
在实际计算时,采用以下的步骤:
2 (1) 对每个 i,算出 Ti X i1 X in 及 Ti i 1,2,, k ,从
2 2 T T T , H T T 1 k 而算出 1 k ;
(2) 算出每个 X ij 的平方 X ij ,然后算出它们的和:
要检验假设
H 0 : 1 2 k H 1 : 1 , 2 ,, k 不全相同。
先分析随机误差的影响有多大。 看水平 1 下的那 n 个数据 X 11 , X 12 ,, X 1n ,
2 N ( , ) 中抽出的,它们 这全是从同一个总体 1
之间的差异只反映了随机误差的影响,故计算 出其样本方差为:
1 1 n 2 2 X S1 ( X 1 j X 1 ) 〈组内方差〉 ,其中 1 n n 1 j 1
X
j 1
n
1j
它可以作为随机误差大小的衡量。事实上,它就是方差 2 的估计。
对每个水平都这样做,就一共得到 2 的 k 个估
2 2 2 S , S , ,wk.baidu.comS 计 1 2 k ,将它们平均,
全部 kn 个数据 X ij 的算术平均。
* 2 把 S 与 S 比较,即计算比值 S S 。 若此比值大,则说明水平差异的影响大于随机 2
*2
2
误差的影响,这时就只能拒绝 H 0 ; 反之,若比值不大,则说明水平差异的影响未 能大于随机误差的影响,因而不能拒绝 H 0 。
由此,原假设 H 0 : 1 2 k 的拒绝域为
2 G ( X X ) ( X X ) X ij 2 11 2 1n 2 k1 2 kn i 1 j 1 k n
2
(3) 计算
SSA 1 1 1 1 H T 2 , SSe G H , SST G T 2 n nk n nk
在方差分析的实践中,习惯上是当某一因素(如此处的 A)在
j 1,2, , n 。
2
~ N ( 1 , ) 即: 水平 1: X 11 , X 12 ,, X 1 j ,, X 1n ~ N ( 2 , 2 ) 水平 2:X 21 , X 22 ,, X 2 j ,, X 2 n 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 ~ N (i , 2 ) 水平 i: X i1 , X i 2 ,, X ij ,, X in 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 ~ N ( k , 2 ) 水平 k:X k1 , X k 2 ,, X kj ,, X kn
以上全部讨论可以总结为下表,即单因素方差分析表。 单因素方差分析表(各水平试验次数相同) 方差来源 (组间) 因素 A (组内) 随机误差 总和 平方和 自由度 k-1 均方
MSA SS A (k 1)
F值
MS A MS e
SS A
SSe
k(n-1)
MS e SSe (k (n 1))
则 i 是工艺 i 生产的电池的平均寿命, 方差 2 反映了随机误差的大小。
注意这里 与 i 无关,即假定了随机误差的大小与工艺无关。
2
因此在这个提法中就牵涉到两项假定: 正态性和等方差性
常用的方差分析都是在这两项基本假定下得出的。
所要弄清楚的问题是三种工艺是否有优劣之分,把 “无优劣之分”作为原假设, 即 H 0 : 1 2 3 H 1 : 1 , 2 , 3 不全相同。
第五章 方差分析、正交试验设计
一种工业产品的产量或质量往往受到许多因素的 影响。例如,电池的寿命与生产工艺、原材料、工人 操作技术和工厂管理水平等等有关。任何一个因素的 改变都可能对电池的寿命产生一定的影响。为了提高 经济效益, 需要分析各种因素对电池寿命的影响如何, 那些因素是重要的、那些因素是次要的,从而找出一 种最佳的生产条件 (即各因素最佳的配置) , 以达到最 好的经济效益。
工艺 1 工艺 2 工艺 3 40 46 38 42 44 26 34 30 28 32 39 40 43 48 50
我们感兴趣的指标是电池的寿命,而把“工艺” 作为对它可能影响的“因素” 。这个因素有 3 个 水平:工艺 1 是水平 1,等等。
如果假定第 i 种工艺下生产的电池寿命服从正态分
2 N ( , ) i 1,2,3 , 布 i
~
~
N ( 1 , 2 ) ;
N ( 2 , 2 ) ;
~
N ( k , 2 )
H 0 : 1 2 k H 1 : 1 , 2 ,, k 不全相同。
注意: ( X
i 1 j 1 k ni ij
X ) ni ( X i X ) ( X ij X i ) 2 。
F F (k 1, k (n 1))
注意到如下的代数式分解:
2 ( X X ) n ( X X ) ( X X ) ij i ij i 2 2 i 1 j 1 i 1 i 1 j 1 k n k k n
分析:1. ( X ij X ) 2 :全部
试问: 在日产量上, 各台机器之间是否有显著差异 ( 0.05 ) 。 例 1.3:从某校初中二年级的四个平行班各随机抽取一个学 生先后参加五次年级数学竞赛,其结果如下:
试验号 水平
1 81 83 76 70
2 80 89 92 99
3 88 85 83 82
4 85 91 90 80
5 95 88 95 78
i 1 j 1
k
n
kn 个数据{ X ij }的样本方差(没
k
有除以自由度 kn-1) , 它反映了全部数据的差异程度(原因: 随机 误差和水平之间的差异 ) 。 2 . n( X
i 1 i
X ) 2 : 水平差异的影响,
( X
i 1 j 1
k
n
ij
X i ) 2 :随机误差的影响。
: 1 2 3 , 即 1 , 2 并无区别。
差别。这里面情况很复杂。 例如当 k 3 , 可以有 H 0 当 H0
: 1 2 k 被否定时:
X 1 , X 2 ,, X k
按大小排队,
(1) 把 k 个样本平均值
例如 X 3 X 4 X 1 X 2
( X
i 1 j 1
k
k
n
ij
X ) 2 :“总离差平方和”或“总平方和” ,记为 SST ;
n( X
i 1
k n
i
X ) 2 :“因素 A 平方和”或“组间离差平方和” ,记
为 SS A ;
( X
i 1 j 1
ij
X i ) 2 “误差平方和” : 或 “组内离差平方和” , 记为 SSe 。
个自由度,故 SSE 应有 k(n-1)个自由度。 所以 SST SSA SSe 相应的一个自由度分解: kn-1 = (k-1 ) + k(n-1)。 在统计上,把一个平方和除以其自由度,称为“平 均平方和” , “均方离差” 或简称 “均方” , 用 MS 记。 例如,因素 A 的平均平方和为: MSA SS A (k 1) 误差平均平方和为: MSe SSe (k (n 1))
由此分解式可写为: SST SSA SSe 。 这就是方差分析的含义:把一个“总方差”SST 分 解为由种种原因 (因素 A, 随机误差等) 形成的 “部 分方差” 。
SST 有 kn-1 个自由度;
SS A 是由 k 个数 X 1 , X 2 , , X k 算出的样本方差,
有 k-1 个自由度;
S * S 2 C ,C 为一常数
2
C 的值依水平数 k, 每水平试验次数及指定的检 验水平 而定。 可以证明:
F nS
*2
n k S ( X i X )2 k 1 i 1
2
k n 1 ( X ij X i ) 2 k (n 1) i 1 j 1
在给定的检验水平 时, 原假设 H 0 : 1 2 k 的拒绝域为:
k 4 。我们就据此推断
3 4 1 2 。 如 越大越好, 则应挑选水平 3。
(2) 一般地,我们还关心特定的两水平之差。 例如: i
l ,我们用 X i X l 作为 i l 的估计。
而其区间估计则使用 t 分布,具体形式为: (置信系数为
A1
A2
A3
A4
试问:这四个学生成绩是否存在差异( 0.025 ) 。
现在再回到单因素方差分析的一般模型。 如果检验的结果,原假设 H 0 : 1 则认为该因素各水平效应一样。
2 k 通过了,
如果 H 0
: 1 2 k 被拒绝了, 则认为 1 , 2 ,, k 有
怎样去检验这个假设呢?
1.1 方差分析与 F 检验 (各水平试验的次数相同时) 单因素问题的一般模型:有一个因素 A,它有 k 个 水平: 1,2,, k 。在水平取 i 时进行 n 次实验,得 到数据 X i1 , X i 2 ,, X in 。
2 X N ( , ) ij 假定每个 有正态分布 i
0.05 水平下显著时,在其
F 上加一个“*” ;若 0.01水平下显
著时,则加两个 “*” ;
例 1.2:设用 3 台机器 A,B,C 制造同一种产品,对每台机 器观察 5 天的日产量,记录如下(单位:件) A: B: C: 41 48 41 57 49 65 57 54 72 64 45 51 56 48 48
1 )
Xi Xl 2 2 MS E t (k (n 1)) i l X i X l MS E t (k (n 1)) 2 2 n n
1.3 各水平试验次数不一定相同的情况 一切与前面相同,只是在 A 的各水平下的试验次数不一定都等 于同一个 n。这样,就得到如下的模型: 水平 1: X 11 , X 12 ,, X 1 j ,, X 1n1 水平 2: X 21 , X 22 ,, X 2 j ,, X 2 n2 。 。 。。 。 。。 。 。。 。 。。 。 。。 。 。 水平 k: X k1 , X k 2 ,, X kj ,, X knk 要检验假设
§1 单因素方差分析 1.1 模型 单因素问题是指在问题中只考虑一个 对指标有影响的因素 A(应当说明的是, 对指标有影响的因素仅此一个). 把别的因素都适当固定下来,而只让 因素 A 在试验中有变化,以观察和分析 它对指标的影响。这样就构成了一个单 因素问题。
例 1.1:一工厂用三种不同的工艺生产某类型电 池。 从各种工艺生产的电池中分别抽取样本并测 得样本的寿命(使用时间)如下: (单位:小时)
得到 2 的估计为
k n 1 2 S ( X X ) ij i 〈组内方差的算术平均〉 , k (n 1) i 1 j 1 2
1 n X X ij 其中 i n 。 j 1
接下来分析各水平不同的影响。 水平 i 的平均 i 的估计为 X i 。
X 1 , X 2 , , X k 之间的差异越大,则 1 , 2 , , k
之间的差异就越大,从而各水平之间的差异也 越大。 因 此 , 算 出 X 1 , X 2 ,, X k 的 样 本 方 差 :
S
*2
1 k (X i X )2 〈组间方差〉 , k 1 i 1
反映各水平差异的影响
1 k 1 k n X X i X ij 其中 k i 1 kn i 1 j 1
SST
kn-1
在实际计算时,采用以下的步骤:
2 (1) 对每个 i,算出 Ti X i1 X in 及 Ti i 1,2,, k ,从
2 2 T T T , H T T 1 k 而算出 1 k ;
(2) 算出每个 X ij 的平方 X ij ,然后算出它们的和:
要检验假设
H 0 : 1 2 k H 1 : 1 , 2 ,, k 不全相同。
先分析随机误差的影响有多大。 看水平 1 下的那 n 个数据 X 11 , X 12 ,, X 1n ,
2 N ( , ) 中抽出的,它们 这全是从同一个总体 1
之间的差异只反映了随机误差的影响,故计算 出其样本方差为:
1 1 n 2 2 X S1 ( X 1 j X 1 ) 〈组内方差〉 ,其中 1 n n 1 j 1
X
j 1
n
1j
它可以作为随机误差大小的衡量。事实上,它就是方差 2 的估计。
对每个水平都这样做,就一共得到 2 的 k 个估
2 2 2 S , S , ,wk.baidu.comS 计 1 2 k ,将它们平均,
全部 kn 个数据 X ij 的算术平均。
* 2 把 S 与 S 比较,即计算比值 S S 。 若此比值大,则说明水平差异的影响大于随机 2
*2
2
误差的影响,这时就只能拒绝 H 0 ; 反之,若比值不大,则说明水平差异的影响未 能大于随机误差的影响,因而不能拒绝 H 0 。
由此,原假设 H 0 : 1 2 k 的拒绝域为
2 G ( X X ) ( X X ) X ij 2 11 2 1n 2 k1 2 kn i 1 j 1 k n
2
(3) 计算
SSA 1 1 1 1 H T 2 , SSe G H , SST G T 2 n nk n nk
在方差分析的实践中,习惯上是当某一因素(如此处的 A)在
j 1,2, , n 。
2
~ N ( 1 , ) 即: 水平 1: X 11 , X 12 ,, X 1 j ,, X 1n ~ N ( 2 , 2 ) 水平 2:X 21 , X 22 ,, X 2 j ,, X 2 n 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 ~ N (i , 2 ) 水平 i: X i1 , X i 2 ,, X ij ,, X in 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 。 ~ N ( k , 2 ) 水平 k:X k1 , X k 2 ,, X kj ,, X kn
以上全部讨论可以总结为下表,即单因素方差分析表。 单因素方差分析表(各水平试验次数相同) 方差来源 (组间) 因素 A (组内) 随机误差 总和 平方和 自由度 k-1 均方
MSA SS A (k 1)
F值
MS A MS e
SS A
SSe
k(n-1)
MS e SSe (k (n 1))
则 i 是工艺 i 生产的电池的平均寿命, 方差 2 反映了随机误差的大小。
注意这里 与 i 无关,即假定了随机误差的大小与工艺无关。
2
因此在这个提法中就牵涉到两项假定: 正态性和等方差性
常用的方差分析都是在这两项基本假定下得出的。
所要弄清楚的问题是三种工艺是否有优劣之分,把 “无优劣之分”作为原假设, 即 H 0 : 1 2 3 H 1 : 1 , 2 , 3 不全相同。
第五章 方差分析、正交试验设计
一种工业产品的产量或质量往往受到许多因素的 影响。例如,电池的寿命与生产工艺、原材料、工人 操作技术和工厂管理水平等等有关。任何一个因素的 改变都可能对电池的寿命产生一定的影响。为了提高 经济效益, 需要分析各种因素对电池寿命的影响如何, 那些因素是重要的、那些因素是次要的,从而找出一 种最佳的生产条件 (即各因素最佳的配置) , 以达到最 好的经济效益。
工艺 1 工艺 2 工艺 3 40 46 38 42 44 26 34 30 28 32 39 40 43 48 50
我们感兴趣的指标是电池的寿命,而把“工艺” 作为对它可能影响的“因素” 。这个因素有 3 个 水平:工艺 1 是水平 1,等等。
如果假定第 i 种工艺下生产的电池寿命服从正态分
2 N ( , ) i 1,2,3 , 布 i
~
~
N ( 1 , 2 ) ;
N ( 2 , 2 ) ;
~
N ( k , 2 )
H 0 : 1 2 k H 1 : 1 , 2 ,, k 不全相同。
注意: ( X
i 1 j 1 k ni ij
X ) ni ( X i X ) ( X ij X i ) 2 。
F F (k 1, k (n 1))
注意到如下的代数式分解:
2 ( X X ) n ( X X ) ( X X ) ij i ij i 2 2 i 1 j 1 i 1 i 1 j 1 k n k k n
分析:1. ( X ij X ) 2 :全部
试问: 在日产量上, 各台机器之间是否有显著差异 ( 0.05 ) 。 例 1.3:从某校初中二年级的四个平行班各随机抽取一个学 生先后参加五次年级数学竞赛,其结果如下:
试验号 水平
1 81 83 76 70
2 80 89 92 99
3 88 85 83 82
4 85 91 90 80
5 95 88 95 78
i 1 j 1
k
n
kn 个数据{ X ij }的样本方差(没
k
有除以自由度 kn-1) , 它反映了全部数据的差异程度(原因: 随机 误差和水平之间的差异 ) 。 2 . n( X
i 1 i
X ) 2 : 水平差异的影响,
( X
i 1 j 1
k
n
ij
X i ) 2 :随机误差的影响。
: 1 2 3 , 即 1 , 2 并无区别。
差别。这里面情况很复杂。 例如当 k 3 , 可以有 H 0 当 H0
: 1 2 k 被否定时:
X 1 , X 2 ,, X k
按大小排队,
(1) 把 k 个样本平均值
例如 X 3 X 4 X 1 X 2
( X
i 1 j 1
k
k
n
ij
X ) 2 :“总离差平方和”或“总平方和” ,记为 SST ;
n( X
i 1
k n
i
X ) 2 :“因素 A 平方和”或“组间离差平方和” ,记
为 SS A ;
( X
i 1 j 1
ij
X i ) 2 “误差平方和” : 或 “组内离差平方和” , 记为 SSe 。