单因素试验的方差分析——概率论与数理统计(李长青版)

合集下载

《数理统计》第9章§1单因素试验的方差分析

S A nj n 118515 114720.5 3794.5 j 1
S E ST - S A 3972.5 3794.5 178方差分析及回归分析第九章
§1 单因素试验的方差分析
14/14
2
第九章方差分析及回归分析
第九章方差分析及回归分析
§1 单因素试验的方差分析记
n nj
j 1 s
7/14
样本总容量总均值第 j 组样本均值
1
s
s j
1
s
1 Xj n j
j 1 nj
X ij i 1
s nj nj
Xn
1
X ij s X j j 1 j 1i 1 ( X ij X j )2 i 1
只有当 H 0 : 1 2 s成立时,统计量
S A SA s 1 S A ~ 2 ( s 1) ;当才是 2的无偏估计,且 H 0 不真时, S A有 2
偏大于 2的趋势 SE , S A相互独立对于给定的显著性水平 , H 0的拒绝域是
SA S A /( s 1) F ( s 1, n s) S E /(n s ) SE
90 56 55 92 75 88 62 48 99 72 87 95 81 94 91 252 359 118 103 377 228 ( 0.01) 21194 32249 ( 6980 5329 35571 17370 j) 2 X 59~ N51.5 ( j , ) ( j76 1, 2, , 6) 84 89.75 94.25
j 1
S j2 nj 1 1
X j 是 j的无偏估计 S j2 是 2的无偏估计

概率论与数理统计第九章方差分析与回归分析

版权所有 BY 张学毅
2019/7/25
21
【例9.2】某市消费者协会为了评价该地旅游业、居民服务业、
公路客运业和保险业的服务质量，从这4个行业中分别抽取了不同数量的企业。经统计，最近一年消费者对这23家企业投诉的次数资料如下表所示。这4个行业之间服务质量是否有显著差异？如果有，究竟是在哪些行业之间？
2
二、单因素方差分析的数据结构

2019/7/25
版权所有 BY 统计学课程组
3
因素A 水平A1 水平A2…水平As
1 2 :
2019/7/25
版权所有 BY 张学毅
4
表中： X i j 为第 i个水平的第j个观测值。记第j个水平观测值的均值为X .j ,则有
nj
X ij
X .j

2019/7/25
版权所有 BY 张学毅
31
【例9.4】某种火箭使用了四种燃料，三种推进器做试验。每种燃料和每种推进器的组合各做一次试验，得火箭射程数据如下表所示。试问不同的燃料、不同的推进器分别对火箭射程有无显著影响？
2019/7/25
版权所有 BY 张学毅
32
列方差分析表：
2019/7/25
版权所有 BY 张学毅
19
从未采 1年前采 8年前采
伐过
伐过
伐过
27
12
18
22
12
4
29
15
22
21
9
15
19
20
18
33
18
19
16
17
22
20
14
12
24
14

第4.3节协方差与相关系数——概率论与数理统计(李长青版)讲解

XY 0
X ,Y 相互独立
X , Y 不相关
cov( X ,Y ) 0
E(XY ) EX EY D(X Y) DX DY
X , Y 不相关
当 XY 1 时，X 与 Y 之间以概率1存在线性关系； XY 越接近于0时, X 与 Y 之间的线性关系越弱;
当 XY 0 时，X 与 Y 之间不存在线性关系(不相关).
EY EX 7， EY 2 EX 2 5 .
6
3
cov(X ,Y ) E(XY ) EX EY 4 49 1 ， 3 36 36
DY DX EX 2 (EX )2 5 (7)2 11， 3 6 36
D(X Y ) DX DY 2cov(X ,Y ) 5， 9

0 08
6
EX 2 x2 f (x, y)dxdy 2 2 x2 (x y)dxdy 5，

0 08
3

2 2 xy
4
E(XY)
xyf (x, y)dxdy
(x y)dxdy .

0 08
3
由x,y 在f (x,y)的表达式中的对称性, 可知
时, 等式成立.
协方差的数值虽然在一定程度上反映了X和Y 相互间的联系, 但其值还受X和Y本身取值大小的影响, 比如X和Y同时增大到k倍, 即X1= kX, Y1= kY, 这时X1和Y1间的相互联系与X和Y间的相互联系是相同的, 然而协方差却增大到了k2倍, 即
cov(X1 ,Y1) k 2 cov(X,Y ).
33 8
88
E(XY )
xi yi pij

概率论与数理统计第九章方差分析与回归分析

七、 SA，SE 的统计特征P228
根据概率论与数理统计学知识： 1） MSE 是总体方差 2 的无偏估计量，且与原假设成
立与否无关。
即 E MSE 2
2） MSA 是否是总体方差 2的无偏估计量，与原假设
成立与否有关。当且仅当原假设成立时，MSA才是
总体方差 2 的无偏估计量。
1/11/2020
版权所有 BY 张学毅
33
1/11/2020
版权所有 BY 张学毅
34
1/11/2020
版权所有 BY 张学毅
35
二、有交互作用的双因素方差分析

所谓交互作用，简单来说就是不同因素对
试验指标的复合作用，因素A和B的综合效应
不是二因素效应的简单相加。为了能分辨出两
个因素的交互作用，一般每组试验至少作两次。
1/11/2020
版权所有 BY 张学毅
36
有交互作用的双因素方差分析数据结构
1/11/2020
版权所有 BY 张学毅
37
2．建立假设
1/11/2020
版权所有 BY 张学毅
38
这就是有交互作用的双因素方差分析的数学模型。
版权所有 BY 张学毅
1/11/2020
21
【例9.2】某市消费者协会为了评价该地旅游业、居民服务
业、公路客运业和保险业的服务质量，从这4个行业中分别抽取了不同数量的企业。经统计，最近一年消费者对这23家企业投诉的次数资料如下表所示。这4个行业之间服务质量是否有显著差异？如果有，究竟是在哪些行业之间？
1/11/2020
版权所有BY 张学毅
22
解(1) 建立假设

第9.1节单因素试验的方差分析——概率论与数理统计(李长青版)

ES A ( s 1) 2 n j 2 j
j 1
s
由此得
Se 2 E , ns
1 s SA 2 2 E n j j s 1 s 1 j 1
在 H0 为真时, 即 1 2 s 0 时, 有
S A ( s 1) 将从而在 H0 不真时, 比值 S ( n s ) 有偏大的趋势, 其 e
S A ( s 1) . 记为 F, 即 F Se (n s )
则 F 可以作为检验 H0 的统
计量. 将 Se 写成如下分项相加的形式
Se ( xi1 x1 ) 2 ( xi 2 x2 ) 2 ( xis xs ) 2
的影响.
种子品种代号 (水平) 重复试验序号及作物实测产量
1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品种.因此, 每个品种下产量的均值差异检验是我们的主要任务.这种由因素(种子品种)造成的差异称为条件(系
s nj
从而有
Se ( ij j ) ,
2 j 1 i 1
s
nj
S A n j ( j j ) 2
j 1
s
由此知, Se 反映了误差的波动, 称其为误差的偏差平方和(或称为组内平方和), 它集中反映了试验中与因素及其水平无关的全部随机误差. 在 H0 为真时, SA 反映误差的波动, 在 H0 不真时, SA 反映因子A 的不同水

概率论难与数理统计(91 单因素试验的方差分析)

《概率论与数理统计》
*****大学理学院数学系
伯努利（Bernoulli）柯尔莫哥洛夫(Kolmogorov)
2020年4月14日星期二
1
目录
上页
下页
返回
第九章方差分析与回归分析
§9.1 单因素试验的方差分析 §9.2 双因素试验的方差分析 §9.3 一元线性回归 §9.4 多元线性回归
2020年4月14日星期二
13
目录
上页
下页
返回
二、平方和的分解
ST 分解成
其中
ST SE SA ,
s nj
SE
( Xij X gj )2 ,
j1 i1
s nj
s
s
SA
(Xgj X )2
nj (Xgj X )2 Leabharlann nj X2 gjnX
2
j1 i1
j 1
j 1
SE 为组内平方和或误差平方和(error sum of squares)
A1
A2
…
As
X 11
X 12
…
X 1s
X 21
X 22
…
X 2s
M
M
M
X n11
X n2 2
…
X nss
样本总和
Tg1
Tg2
…
Tg s
样本均值
X g1
X g2
…
X gs
总体均值
1
2
…
s
2020年4月14日星期二
8
目录
上页
下页
返回
二、平方和的分解
从例 1 中可以看出，同一种饲料喂养的小鸡体重的增加存在着差异，这种差异看作试验过程中各种随机因素的干扰和测量误差造成的，这部分差异称为试验误差 (test error)，它反映了因素同一水平下的差异．而不同饲料喂养的小鸡体重的增量也不同，引起这部分差异的原因除了试验误差之外，更主要的原因是饲料的配方不同，这部分差异称为系统误差(system error)，它主要反映了不同水平的影响．

概率论与数理统计李长青版答案第一

概率论与数理统计李长青版答案第一p(a)=a所含样本点数/总体所含样本点数。

实用中经常采用“排列组合”的方法计算。

用数理统计方法去解决一个实际问题时，一般有如下几个公式：p(a)\ue0，p(b|a)=p(ab)/p(a) 、p(ab)=p(a)×p(b|a)=p(b)×p(a|b) 、p(a∪b)=p(a)+p(b)－p(ab)。

p(a)=a所含样本点数/总体所含样本点数。

实用中经常采用“排列组合”的方法计算·条件概率当p(a)\ue0，p(b|a)=p(ab)/p(a)乘法公式p(ab)=p(a)×p(b|a)=p(b)×p(a|b)计算方法“排列组合”的方法计算记法p(a)=a乘法法则p(a∪b)=p(a)+p(b)－p(ab)用数理统计方法回去化解一个实际问题时，通常存有如下几个步骤：创建数学模型，收集整理数据，展开统计数据推测、预测和决策。

这些环节无法截然分离，也不一定按上述次序，有时就是互相交叠的。

①模型的选择和建立。

在数理统计学中，模型是指关于所研究总体的某种假定，一般是给总体分布规定一定的类型。

建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本（数据）。

②数据的搜集。

存有全面观测、样本观测和精心安排特定的实验3种方式。

全面观测又称普查，即为对总体中每个个体都予以观测，测量所须要的指标。

样本观测又称抽检，就是所指从总体中提取一部分，测量其有关的指标值。

这方面的研究内容形成数理统计的一个分支学科。

叫做抽样调查。

③安排特定实验以收集数据，这些特定的实验要有代表性，并使所得数据便于进行分析。

这里面所包含的数学问题，构成数理统计学的又一分支学科，即实验设计的内容。

④数据整理。

目的就是把涵盖在数据中的有价值信息提取出。

一种形式就是制订适度的图表，例如图表，以充分反映暗含在数据中的粗略的规律性或通常趋势。

另一种形式就是排序若干数字特征，以刻画样本某些方面的性质，例如样本均值、样本方差等直观描述性统计数据量。

概率论与数理统计第九章方差分析

第九章方差分析在生产过程和科学实验中，我们经常遇到这样的问题：影响产品产量、质量的因素很多.例如，在化工生产中，影响结果的因素有：配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔，可以成功地应用在试验工作的很多方面.第一节单因素试验的方差分析在试验中，我们将要考察的指标称为试验指标，影响试验指标的条件称为因素.因素可分为两类，一类是人们可以控制的；一类是人们不能控制的.例如，原料成分、反应温度、溶液浓度等是可以控制的，而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素，因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变，这样的试验称为单因素试验，如果多于一个因素在改变，就称为多因素试验.本节通过实例来讨论单因素试验.1.数学模型例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后，投入到20℃的水中急冷，这样反复进行到试件断裂为止，试验次数越多，试件质量越好.试验结果如表9-1.表9-1试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异.这里，试验的指标是钢锭模的热疲劳值，钢锭模的材质是因素，4种不同的材质表示钢锭模的4个水平，这项试验叫做4水平单因素试验.例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率，在40℃，50℃, (90)的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响？表9-2 （%）单因素试验的一般数学模型为：因素A 有s 个水平A 1，A 2，…，A s ,在水平A j (j =1,2,…,s )下进行n j (n j ≥2)次独立试验，得到如表9-3的结果：表9-3x 11 x 12 … x 1s x 21 x 22 … x 2s … … … … 11n x 22n x … s n s xT ·1 T ·2 … T ·s1x • 2x • … s x •μ1 μ2 … μs假定：各水平A j (j =1,2,…,s )下的样本x ij ~N (j ,),i =1,2,…,n j ,j =1,2,…,s ,且相互独立. 故x ij -μj 可看成随机误差，它们是试验中无法控制的各种因素所引起的，记x ij -μj =εij ,则⎪⎩⎪⎨⎧==+=.,),0(~,,,2,1;,,2,1,2相互独立各ij ij j ij j ij N s j n i x εσεεμ (9.1) 其中μj 与σ2均为未知参数.（9.1）式称为单因素试验方差分析的数学模型.方差分析的任务是对于模型（9.1），检验s 个总体N (μ１，σ2),…,N (μs ,σ2)的均值是否相等，即检验假设012112:;:,,,s s H H μμμσσσ===⎧⎨⎩不全相等. (9.2) 为将问题（9.2）写成便于讨论的形式，采用记号μ=11sj j j n n μ=∑，其中n =1sjj n=∑，μ表示μ１，μ2,…,μs 的加权平均，μ称为总平均.δj =μj -μ, j =1,2,…,s ，δj 表示水平Aj 下的总体平均值与总平均的差异.习惯上将δj 称为水平A j 的效应.利用这些记号，模型（9.1）可改写成：x ij =μ+δj +εij ,x ij 可分解成总平均、水平A j 的效应及随机误差三部分之和120,~(0,),.1,2,,;1,2,,.sj j j ijij j n N i n j s δεσε=⎧=⎪⎨⎪==⎩∑各相互独立 (9.1)′假设（9.2）等价于假设012112:0;:,,,s s H H δδδδδδ====⎧⎨⎩不全零.（9.2）′ 2.平方和分解我们寻找适当的统计量，对参数作假设检验.下面从平方和的分解着手，导出假设检验（9.2）′的检验统计量.记S T =211()jn sijj i xx ==-∑∑， (9.3)这里111jns ij j i x x n ===∑∑，S T 能反应全部试验数据之间的差异.又称为总变差.A j 下的样本均值 11jn j iji jx xn •==∑. (9.4)注意到2222()()()()2()()ij ij j j ij j j ij j j x x x x x x x x x x x x x x ••••••-=-+-=-+-+--，而 1111()()()()jj n n ssij j j j ij j j i j i x x x x x x x x ••••====⎡⎤--=--⎢⎥⎣⎦∑∑∑∑=11()0.j n sj ij j j j i x x x n x ••==⎛⎫--= ⎪ ⎪⎝⎭∑∑记 S E =211()jn sijj j i xx •==-∑∑，（9.5）S E 称为误差平方和;记 S A =22111()()jn ssjj j j i j xx n x x ••===-=-∑∑∑，（9.6）S A 称为因素A 的效应平方和.于是S T =S E +S A . （9.7）利用εij 可更清楚地看到S E ,S A 的含义，记111jns ij j i n εε===∑∑为随机误差的总平均,11jn j iji jn εε•==∑, j =1,2,…,s .于是S E =221111()()jjn n ssijj ij j j i j i xx εε••====-=-∑∑∑∑; (9.8)S A =2211()()ssj jj j j j j n xx n δεε••==-=+-∑∑. (9.9)平方和的分解公式（9.7）说明.总平方和分解成误差平方和与因素A 的效应平方和.（9.8）式说明S E 完全是由随机波动引起的.而（9.9）式说明S A 除随机误差外还含有各水平的效应δj ，当δj 不全为零时，S A 主要反映了这些效应的差异.若H 0成立，各水平的效应为零，S A 中也只含随机误差，因而S A 与S E 相比较相对于某一显著性水平来说不应太大.方差分析的目的是研究S A 相对于S E 有多大，若S A 比S E 显著地大，这表明各水平对指标的影响有显著差异.故需研究与S A /S E 有关的统计量.3.假设检验问题当H 0成立时，设x ij ~N (μ,σ2)(i =1,2,…,n j ；j =1,2,…,s )且相互独立，利用抽样分布的有关定理，我们有22~(1)AS s χσ-, (9.10) 22~()ES n s χσ-, (9.11)F =()(1)AEn s S s S -- ~F (s -1,n -s ). (9.12)于是，对于给定的显著性水平α(0<α<1),由于P {F ≥F α(s -1,n -s )}=α, (9.13)由此得检验问题（9.2）′的拒绝域为F ≥F α(s -1,n -s ).（9.14）由样本值计算F 的值，若F ≥F α,则拒绝H 0，即认为水平的改变对指标有显著性的影响；若F <F α,则接受原假设H 0，即认为水平的改变对指标无显著影响. 上面的分析结果可排成表9-4的形式，称为方差分析表.当F ≥F 0.05(s -1,n -s )时，称为显著，当F ≥F 0.01(s -1,n -s )时，称为高度显著.在实际中，我们可以按以下较简便的公式来计算S T ，S A 和S E .记T ·j =1jn iji x=∑, j =1,2,…,s ,T ··=11jn sijj i x==∑∑，即有22221111222211,,.j jn n s s T ij ij j i j i s s j A j j j j j E T AT S x nx x n T T S n x nx n n S S S ••====••••==⎧=-=-⎪⎪⎪⎪=-=-⎨⎪⎪=-⎪⎪⎩∑∑∑∑∑∑ (9.15) 例9.3 如上所述，在例9.1中需检验假设H 0:μ1=μ2=μ3=μ4；H 1:μ1,μ2,μ3,μ4不全相等.给定α=0.05,完成这一假设检验.解 s =4,n 1=7,n 2=5,n 3=8,n 4=6,n =26.S T =22211(4257)69895926jn sij j i T x n ••==-=-∑∑=1957.12， S A =2221(4257)697445.4926sj j j T T n n •••=-=-∑=443.61， S E =S T -S A =1513.51.得方差分析表9-5.表9-5因 F (3,22)=2.15<F 0.05(3,22)=3.05. 则接受H 0，即认为4种生铁试样的热疲劳性无显著差异.例9.4 如上所述，在例9.2中需检验假设H 0:μ1=μ2=…=μ6； H 1:μ1,μ2,…,μ6不全相等.试取α=0.05,α=0.01，完成这一假设检验.解 s =6, n 1=n 2=…=n 6=4,n =24.S T =2211jn sij j i T x n ••==-∑∑=112.27,S A =221sj j j T T n n•••=-∑=56,S E=S T-S A=56.27.得方差分析表9-6.0.050.01由于 4.25=F0.01(5,18)>F A=3.583>F0.05(5,18)=2.77,故浸泡水的温度对缩水率有显著影响，但不能说有高度显著的影响.本节的方差分析是在这两项假设下，检验各个正态总体均值是否相等.一是正态性假设，假定数据服从正态分布；二是等方差性假设，假定各正态总体方差相等.由大数定律及中心极限定理，以及多年来的方差分析应用，知正态性和等方差性这两项假设是合理的.第二节双因素试验的方差分析进行某一项试验，当影响指标的因素不是一个而是多个时，要分析各因素的作用是否显著，就要用到多因素的方差分析.本节就两个因素的方差分析作一简介.当有两个因素时，除每个因素的影响之外，还有这两个因素的搭配问题.如表9-7中的两组试验结果，都有两个因素A和B，每个因素取两个水平.表9-7(b)表9-7（a）中，无论B在什么水平（B1还是B2），水平A2下的结果总比A1下的高20；同样地，无论A是什么水平，B2下的结果总比B1下的高40.这说明A和B单独地各自影响结果，互相之间没有作用.表9-7(b)中，当B为B1时，A2下的结果比A1的高，而且当B为B2时，A1下的结果比A2的高；类似地，当A为A1时，B2下的结果比B1的高70，而A为A2时，B2下的结果比B1的高30.这表明A的作用与B所取的水平有关，而B的作用也与A所取的水平有关.即A 和B不仅各自对结果有影响，而且它们的搭配方式也有影响.我们把这种影响称作因素A和B的交互作用，记作A×B.在双因素试验的方差分析中，我们不仅要检验水平A和B的作用，还要检验它们的交互作用.1.双因素等重复试验的方差分析设有两个因素A，B作用于试验的指标，因素A有r个水平A1,A2,…,Ar,因素B有s个水平B1,B2,…,B s,现对因素A，B的水平的每对组合(A i,B j),i=1,2,…,r；j=1,2,…,s都作t(t≥2)次试验（称为等重复试验），得到如表9-8的结果：表9-8设x ijk ~N (ij ,), i =1,2,…,r ； j =1,2,…,s ； k =1,2,…,t ,各x ijk 独立.这里ij ,均为未知参数.或写为⎪⎩⎪⎨⎧===+=.,,,2,1),,0(~,,,2,1;,,2,1,2相互独立各ijkijk ijk ij ijk t k N s j r j x εσεεμ (9.16) 记μ=111,r s ij i j rs μ==∑∑, 11si ij j s μμ•==∑, i =1,2,…,r ,11rj ij i r μμ•==∑, j =1,2,…,s ,,i i αμμ•=-, i =1,2,…,r , j j βμμ•=-, j =1,2,…,s ,ij ij i j γμμμμ••=--+.于是 μij =μ+αi +βj +γij . (9.17)称μ为总平均，αi 为水平A i 的效应，βj 为水平B j 的效应，γij 为水平A i 和水平B j 的交互效应，这是由A i ,B j 搭配起来联合作用而引起的.易知1rii α=∑=0,1sjj β=∑=0，1riji γ=∑=0, j =1,2,…,s ,1sijj γ=∑=0, i =1,2,…,r ，这样（9.16）式可写成⎪⎪⎪⎩⎪⎪⎪⎨⎧=======++++=∑∑∑∑====.,,,2,1;,,2,1;,,2,1),,0(~,0,0,0,0,21111相互独立各ijkijk s j ij r i ij s j j r i i ijk ij j i ijk t k s j r i N x εσεγγβαεγβαμ (9.18) 其中μ,αi ,βj ,γij 及σ2都为未知参数.（9.18）式就是我们所要研究的双因素试验方差分析的数学模型.我们要检验因素A ，B 及交互作用A ×B 是否显著.要检验以下3个假设：⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ ⎩⎨⎧=====.,,:,0:121113121103不全为零rs rs H H γγγγγγ 类似于单因素情况，对这些问题的检验方法也是建立在平方和分解上的.记1111r s tijk i j k x x rst ====∑∑∑, 11tij ijk k x x t •==∑, i =1,2,…,r ； j =1,2,…,s ，111s ti ijk j k x x st ••===∑∑, i =1,2,…,r ， 111r tj ijk i k x x rt ••===∑∑, j =1,2,…,s ， S T =2111()rstijk i j k x x ===-∑∑∑. 不难验证,,,i j ij x x x x •••••分别是μ,μi ·,μ·j ,μij 的无偏估计.由 ()()()()ijk ijk ij i j ij i j x x x x x x x x x x x x ••••••••••-=-+-+-+--+，1≤i ≤r ,1≤j ≤s ,1≤k ≤t得平方和的分解式：S T =S E ＋S A ＋S B ＋S A ×B ， (9.19)其中S E =2111()rstijkij i j k xx •===-∑∑∑，S A =1()2ri i stxx ••=-∑，S B =21()sj j rtxx ••=-∑，S A ×B =211()rsij i j i j txx x x •••••==--+∑∑.S E 称为误差平方和，S A ，S B 分别称为因素A ，B 的效应平方和，SA ×B 称为A ，B 交互效应平方和.当H 01:α1=α2=…=αr =0为真时，F A =[](1)(1)A ES S r rs t -- ~F (r -1,rs (t -1))；当假设H 02为真时，F B =[](1)(1)BES S s rs t --~F (s -1,rs (t -1))；当假设H 03为真时，F A ×B =[](1)(1)(1)A BES S r s rs t ⨯--- ~F ((r -1)(s -1),rs (t -1)).当给定显著性水平α后，假设H 01，H 02，H 03的拒绝域分别为：(1,(1));(1,(1));(1)(1),(1)).A B A BF F r rs t F F s rs t F F r s rs t ααα⨯≥--⎧⎪≥--⎨⎪≥---⎩ (9.20) 经过上面的分析和计算，可得出双因素试验的方差分析表9-9.在实际中，与单因素方差分析类似可按以下较简便的公式来计算S T ，S A ，S B ，S A ×B ,S E . 记 T ···=111r s tijki j k x===∑∑∑，T ij ·=1tijkk x=∑, i =1,2,…,r ; j =1,2,…,s ，T i ··=11stijkj k x==∑∑, i =1,2,…,r ,T ·j ·=11r tijki k x==∑∑, j =1,2,…,s ,即有221112212212211,1,1,1,.r s tT ijk i j k r A i i s B j j r s A B ij A B i j E T A B A B T S x rst T S T st rst T S T rt rst T S T S S t rst S S S S S •••===•••••=•••••=•••⨯•==⨯⎧=-⎪⎪⎪=-⎪⎪⎪⎨=-⎪⎪⎪=---⎪⎪⎪=---⎩∑∑∑∑∑∑∑ (9.21) 例9.5 用不同的生产方法（不同的硫化时间和不同的加速剂）制造的硬橡胶的抗牵拉强度（以kg ·cm -2为单位）的观察数据如表9-10所示.试在显著水平0.10下分析不同的硫化时间（A ），加速剂（B ）以及它们的交互作用（A ×B ）对抗牵拉强度有无显著影响.表9-10010203r =s =3, t =2， T ···,T ij ·,T i ··,T ·j ·的计算如表9-11.表9-11S T =22111,r s tijki j k T xrst•••===-∑∑∑=178.44， S A =2211r i i T T st rst•••••=-∑=15.44，S B =2211s j j T T rt rst •••••=-∑=30.11，S A ×B =22111r s ij A B i j T T S S t rst••••==---∑∑ =2.89，S E =S T -S A -S B -S A ×B =130，得方差分析表9-12.由于F 0.10(2,9)=3.01>F A ,F 0.10(2,9)>F B ,F 0.10(4,9)=2.69>F A ×B ,因而接受假设H 01,H 02,H 03,即硫化时间、加速剂以及它们的交互作用对硬橡胶的抗牵拉强度的影响不显著.2.双因素无重复试验的方差分析在双因素试验中，如果对每一对水平的组合（A i ,B j ）只做一次试验，即不重复试验，所得结果如表9-13.这时ij x •=x ijk ,S E =0,S E 的自由度为0，故不能利用双因素等重复试验中的公式进行方差分析.但是，如果我们认为A ，B 两因素无交互作用，或已知交互作用对试验指标影响很小，则可将S A ×B 取作S E ，仍可利用等重复的双因素试验对因素A ，B 进行方差分析.对这种情况下的数学模型及统计分析表示如下：由（9.18）式,112,0,0,~(0,),1,2,,;1,2,,,.ij i j ij r si j i j ij ijk x N i r j s μαβεαβεσε===+++⎧⎪⎪==⎪⎨⎪==⎪⎪⎩∑∑各相互独立 (9.22)要检验的假设有以下两个：⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ 记 1111111,,,r s s rij i ij j ij i j j i x x x x x x rs s r ••=======∑∑∑∑平方和分解公式为：S T =S A +S B +S E ， (9.23)其中 22111(),(),rssT ijA i i j j S xx S s x x •====-=-∑∑∑22111(),(),srsB j E ij i j j i j S r x x S x x x x •••====-=--+∑∑∑分别为总平方和、因素A ，B 的效应平方和和误差平方和.取显著性水平为α,当H 01成立时，F A =(1)AEs S S - ~F ((r -1),(r -1)(s -1))， H 01拒绝域为F A ≥F α((r -1),(r -1)(s -1)). (9.24)当H 02成立时，F B =(1)BEr S S - ~F ((s -1),(r -1)(s -1))， H 02拒绝域为F B ≥F α((s -1),(r -1)(s -1)). (9.25)得方差分析表9-14.例9.6 测试某种钢不同含铜量在各种温度下的冲击值（单位：kg ·m ·cm ），表9-15列出了试验的数据（冲击值），问试验温度、含铜量对钢的冲击值的影响是否显著？（α=0.01）解由已知，r =4,s =3,需检验假设H 01,H 02，经计算得方差分析表9-16.0.01A 01F 0.01（2,6）=10.92<F B ,拒绝H 02.检验结果表明，试验温度、含铜量对钢冲击值的影响是显著的.第三节正交试验设计及其方差分析在工农业生产和科学实验中，为改革旧工艺，寻求最优生产条件等，经常要做许多试验，而影响这些试验结果的因素很多，我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验（即每一个因素的各种水平的相互搭配都要进行试验），多因素试验由于要考虑的因素较多，当每个因素的水平数较大时，若进行全面试验，则试验次数将会更大.因此，对于多因素试验，存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法，它利用一套现存规格化的表——正交表，来安排试验，通过少量的试验，获得满意的试验结果.1.正交试验设计的基本方法正交试验设计包含两个内容：（1）怎样安排试验方案；（2）如何分析试验结果.先介绍正交表.正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交，它的3个数字有3种不同的含义：(1) L4（23）表的结构：有4行、3列，表中出现2个反映水平的数码1，2.列数↓L4 （23）↑↑行数水平数（2）L4（23）表的用法：做4次试验，最多可安排2水平的因素3个.最多能安排的因素数↓L4(23)↑↑试验次数水平数(3) L4（23）表的效率：3个2水平的因素.它的全面试验数为23=8次，使用正交表只需从8次试验中选出4次来做试验，效率是高的.L4(23)↑↑实际试验数理论上的试验数正交表的特点：（1）表中任一列，不同数字出现的次数相同.如正交表L4(23)中，数字1，2在每列中均出现2次.（2）表中任两列，其横向形成的有序数对出现的次数相同.如表L4（23）中任意两列，数字1，2间的搭配是均衡的.凡满足上述两性质的表都称为正交表(Orthogonal table).常用的正交表有L9（34），L8（27），L16（45）等，见附表.用正交表来安排试验的方法，就叫正交试验设计.一般正交表L p（n m）中，p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.例9.7 提高某化工产品转化率的试验.某种化工产品的转化率可能与反应温度A，反应时间B，某两种原料之配比C和真空度D有关.为了寻找最优的生产条件，因此考虑对A，B，C，D这4个因素进行试验.根据以往的经验，确定各个因素的3个不同水平，如表9-18所示.表9-18分析各因素对产品的转化率是否产生显著影响，并指出最好生产条件.解本题是4因素3水平，选用正交表L9（34）.将各因素的诸水平所表示的实际状态或条件代入正交表中，得到9个试验方案，如表9-20所示.表9-20从表9-20看出，第一行是1号试验，其试验条件是：反应温度为60℃，反应时间为2.5小时，原料配比为1.1∶1，真空度为500毫米汞柱，记作A1B1C1D1.依此类推，第9号试验条件是A3B3C2D1.由此可见，因素和水平可以任意排，但一经排定，试验条件也就完全确定.按正交试验表9-20安排试验，试验的结果依次记于试验方案右侧，见表9-21.2.试验结果的直观分析正交试验设计的直观分析就是要通过计算，将各因素、水平对试验结果指标的影响大小，通过极差分析，综合比较，以确定最优化试验方案的方法.有时也称为极差分析法.例9.7中试验结果转化率列在表9-21中，在9次试验中，以第9次试验的指标86为最高，其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种，现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢？还需进一步分析. （1）极差计算在代表因素A 的表9-21的第1列中，将与水平“1”相对应的第1，2，3号3个试验结果相加，记作T 11，求得T 11=151.同样，将第1列中与水平“2”对应的第4，5，6号试验结果相加，记作T 21，求得T 21=183.一般地，定义T ij 为表9-21的第j 列中，与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和，R j 为第j 列的3个T ij 中最大值与最小值之差，称为极差.显然T =31iji T=∑，j =1,2,3,4.此处T 11大致反映了A 1对试验结果的影响，T 21大致反映了A 2对试验结果的影响， T 31大致反映了A 3对试验结果的影响，T 12，T 22和T 32分别反映了B 1，B 2，B 3对试验结果的影响， T 13，T 23和T 33分别反映了C 1，C 2，C 3对试验结果的影响， T 14，T 24和T 34分别反映了D 1，D 2，D 3对试验结果的影响.R j 反映了第j 列因素的水平改变对试验结果的影响大小，R j 越大反映第j 列因素影响越大.上述结果列表9-22.(2) 极差分析(Analysis of range)由极差大小顺序排出因素的主次顺序：主→次 B ；A 、D ；C这里，R j 值相近的两因素间用“、”号隔开，而R j 值相差较大的两因素间用“；”号隔开.由此看出，特别要求在生产过程中控制好因素B ，即反应时间.其次是要考虑因素A 和D ，即要控制好反应温度和真空度.至于原料配比就不那么重要了.选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好，则应选取指标大的水平.反之，若希望指标越小越好，应选取指标小的水平.例9.7中，希望转化率越高越好，所以应在第1列选最大的T 31=185；即取水平A 3，同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.例9.8 某试验被考察的因素有5个：A ，B ，C ，D ，E .每个因素有两个水平.选用正交表L 8(27)，现分别把A ，B ，C ，D ，E 安排在表L 8(27)的第1，2，4，5，7列上，空出第3，6列仿例9.7做法，按方案试验.记下试验结果，进行极差计算，得表9-23.试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j的大小顺序排出因素的主次顺序为主 → 次 A 、B ；D ；C 、E最优工艺条件为A 2B 1C 1D 2E 1.表9-23中因没有安排因素而空出了第3，6列.从理论上说，这两列的极差R j 应为0，但因存有随机误差，这两个空列的极差值实际上是相当小的.3.方差分析正交试验设计的极差分析简便易行，计算量小，也较直观，但极差分析精度较差，判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.设有一试验，使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记T =1pi i y =∑, y =11p i i Ty p p ==∑，S T =21()pii yy =-∑为试验的p 个结果的总变差；S j =222111nn ij ij i i T T T r T r p r p ==⎛⎫-=- ⎪⎝⎭∑∑ 为第j 列上安排因素的变差平方和，其中r =p/n .可证明S T =1mij S=∑即总变差为各列变差平方和之和，且S T 的自由度为p -1，S j 的自由度为n -1.当正交表的所有列没被排满因素时，即有空列时，所有空列的S j 之和就是误差的变差平方和S e ，这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时，即无空列时，取S j 中的最小值作为误差的变差平方和S e .从以上分析知，在使用正交表L p (n m )的正交试验方差分析中，对正交表所安排的因素选用的统计量为：F =1jeeS S n f -.当因素作用不显著时，F ~F (n -1,f e ),其中第j 列安排的是被检因素.在实际应用时，先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时，则这第j 列就可当作误差列并入S e 中去，这样使误差S e 的自由度增大，在作F 检验时会更灵敏，将所有可当作误差列的S j 全并入S e 后得新的误差变差平方和，记为S e Δ,其相应的自由度为f e Δ,这时选用统计量F =1je eS S n f - ~F (n -1,f e Δ).例9.9 对例9.8的表9-23作方差分析.解由表9-23的最后一行的极差值R j ，利用公式S j =2211n ij i T T r p=-∑,得表9-24.表9-24表9-24中第3，6列为空列，因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125，S 7/f 7=0.1251=0.125比S e /f e 小，故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ=3.整理成方差分析表9-25.eeS fC 3.125 1 3.125 6.818D 6.125 1 6.125 13.364E Δ 0.125 1 0.125 e 1.1250 2 0.625 e Δ 1.37530.458由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ，B 作用高度显著，因素C 作用不显著，因素D 作用显著，这与前面极差分析的结果是一致的.F 检验法要求选取S e ，且希望f e 要大，故在安排试验时，适当留出些空列会有好处的.前面的方差分析中，讨论因素A 和B 的交互作用A ×B .这类交互作用在正交试验设计中同样有表现，即一个因素A 的水平对试验结果指标的影响同另一个因素B 的水平选取有关.当试验考虑交互作用时，也可用前面讲的基本方法来处理.本章就不再介绍了.小结本章介绍了数理统计的基本方法之一：方差分析.在生产实践中，试验结果往往要受到一种或多种因素的影响.方差分析就是通过对试验数据进行分析，检验方差相同的多个正态总体的均值是否相等，用以判断各因素对试验结果的影响是否显著.方差分析按影响试验结果的因素的个数分为单因素方差分析、双因素方差分析和多因素方差分析.1. 单因素方差分析的情况.试验数据总是参差不齐，我们用总偏差平方和S T =211()jn sijj i xx ==-∑∑来度量数据间的离散程度.将S T 分解为试验随机误差的平方和(S E )与因素A 的偏差平方和（S A ）之和.若S A 比S E 大得较多，则有理由认为因素的各个水平对应的试验结果有显著差异，从而拒绝因素各水平对应的正态总体的均值相等这一原假设.这就是单因素方差分析法的基本思想.2. 双因素方差分析的基本思想类似于单因素方差分析.但双因素试验的方差分析中，我们不仅要检验因素A 和B 各自的作用，还要检验它们之间的交互作用.3. 正交试验设计及其方差分析.根据因素的个数及各个因素的水平个数，选取适当的正交表并按表进行试验.我们通过对这少数的试验数据进行分析，推断出各因素对试验结果影响的大小.对正交试验结果的分析，通常采用两种方法，一种是直观分析法（极差分析法）,它通过对各因素极差R j 的排序来确定各因素对试验结果影响的大小.一种是方差分析法，它的基本思想类似于双因素的方差分析. 重要术语及主题单因素试验方差分析的数学模型 S T =S E +S A单因素方差分析表双因素方差分析表正交试验表极差分析表习题九1.灯泡厂用4种不同的材料制成灯丝，检验灯线材料这一因素对灯泡寿命的影响.若灯泡寿命服从正态分布，不同材料的灯丝制成的灯泡寿命的方差相同，试根据表中试验结果记录，在显著性水平0.05下检验灯泡寿命是否因灯丝材料不同而有显著差异？2.一个年级有三个小班，他们进行了一次数学考试，现从各个班级随机地抽取了一些学生，试在显著性水平0.05下检验各班级的平均分数有无显著差异.设各个总体服从正态分布，且方差相等.4.为了解3种不同配比的饲料对仔猪生长影响的差异，对3种不同品种的猪各选3头进行试验，分别测得其3个月间体重增加量如下表所示，取显著性水平α=0.05，试分析不同饲料与不同品种对猪的生长有无显著影响？假定其体重增长量服从正态分布，且各种配比的方5.研究氯乙醇胶在各种硫化系统下的性能（油体膨胀绝对值越小越好）需要考察补强剂（A）、防老剂（B）、硫化系统（C）3个因素（各取3个水平），根据专业理论经验，交互4(2) 给定α=0.05,作方差分析与(1)比较.6.某农科站进行早稻品种试验（产量越高越好），需考察品种（A），施氮肥量（B），氮、磷、钾肥比例（C），插植规格（D）4个因素，根据专业理论和经验，交互作用全忽略，早(1) 试作出最优生产条件的直观分析，并对4因素排出主次关系.(2) 给定α=0.05,作方差分析，与(1)比较.。

第9.2节回归分析原理——概率论与数理统计(李长青版)

9
xi2 115.11,
i 1
9
xi yi 345.09,
i 1
9
yi2 1036.65, Sxx 13.100, Sxy 38.387, Syy 114.516,
i 1
aˆ Sxy 2.9303, bˆ y aˆx 0.2569.
Sxx
i 1
i 1
aˆ Sxy 0.302，bˆ y aˆx 33.76 Sxx
由此得回归方程为 yˆ 0.302x 33.76
回归系数的检验 0.05
检验假设 H0：a 0, H1：a 0 计算回归平方和与剩余平和
Q回
U
aˆ2Sxx

S 2xy Sxx
程 yˆ 0.302x 33.76 显著有效.
三、可线性化的非线性回归分析问题
(1)双曲线型 y a b x
令 x 1
x
y ax b
(2)指数型 y c eax
若 c >0, 令 y ln y，b ln c
y ax b
若 c <0, 令 y ln(y),b ln(c)
由于观测误差等随机因素引起的.
n
Q回 ( yi y)2 ………… 回归平方和
i 1
n
n
Q回 [(bˆ aˆxi ) (bˆ aˆx)]2 aˆ2 (xi x )2
i 1
i 1
回归平方和反映回归值的分散度，这种分散是
由于Y与x之间得线性相关关系引起的； Q剩与Q回的比值反映了这种线性相关关系与随机
i 1
i 1
i 1
注意到 yˆi bˆ aˆxi 及 bˆ y aˆx, 对上式中的

概率论与数理统计_方差分析

第10章方差分析在生产实践和科学研究中，经常要分析各种因素对试验指标是否有显著的影响。

例如，工业生产中，需要研究各种不同的配料方案对生产出的产品的质量有无显著差异，从中筛选出较好的原料配方；农业生产中，为了提高农作物的产量，需要考察不同的种子、不同数量的肥料对农作物产量的影响，并从中确定最适宜该地区种植的农作物品种和施肥数量。

要解决诸如上述问题，一方面需要设计一个试验，使其充分反映各因素的作用，并力求试验次数尽可能少，以便节省各种资源和成本；另一方面就是要对试验结果数据进行合理的分析，以便确定各因素对试验指标的影响程度。

§10.1 单因素方差分析仅考虑一个因素A 对试验指标有无显著影响，可以让A 取r 个水平：r A A A ,,,21 ，在水平i A 下进行i n 次试验，称为单因素试验，试验结果观测数据ij x 列于下表：并设在水平i A 下的数据i in i i x x x ,,21来自总体),(~2σμi i N X ，),,2,1(r i =。

检验如下假设：r H μμμ=== 210:， r H μμμ,,,:211 不全相等检验统计量为),1(~)/()1/(r n r F r n S r S F e A ----=其中21211)()(x x n x x S iri i ri n j i A i-=-=∑∑∑===，称为组间差平方和。

211)(i ri n j ije x xS i-=∑∑==，称为组内差平方和。

这里 ∑==ri i n n 1，∑==in j ij i i x n x 11，∑∑===r i n j ij ix n x 111。

对于给定的显著性水平)05.001.0(或=αα，如果),1(r n r F F -->α，则拒绝0H ，即认为因素A 对试验指标有显著影响。

实际计算时，可事先对原始数据作如下处理：ba x x ij ij -='再进行计算，不会影响F 值的大小。

概率论与数理统计单因素试验的方差分析讲课文档

乙 1580 1640 1640 1700 1750
丙 1460 1550 1600 1620 1640 1740 1660 1820
丁
第三页，共21页。
1510 1520 1530 1570 1680 1600
第三页，共21页。
引例
灯泡的使用寿命——试验指标
灯丝的配料方案——试验因素（唯一的一个）四种配料方案（甲乙丙丁）——四个水平
第十八页，共21页。
第十八页，共21页。
例2的上机实现步骤
1、输入原始数据列，并存到A，B，C列；
第十九页，共21页。
第十九页，共21页。
2、选择Stat>ANOVA>one-way(unstacked)
第二十页，共21页。
各水平数据放同一列各水平数据放在不同列
第二十页，共21页。
第二十一页，共21页。
r
SSE
i1
ni
T 2 X ij n j1
r2 i
i1 i
第十五页，共21页。
ni
其中 T i X ij , j1 同一水平下观测值之和
r
T Ti i1
所以观测值之和
第十五页，共21页。
例2 P195 2 以 A、B、C 三种饲料喂猪，得一个月后每猪所增体重（单位：500g）于下表，试作方差分析。
饲料
增重
A
51
40
43
48
B
23
25
26
C
23
28
解：T1 51404348182,
T2 232526 74,
T 1 8 2 7 4 5 1 3 0 7
T3 232851
dfAr12, dfEnr936,

概率论与数理统计教案第9章方差分析及回归分析

概率论与数理统计教案第9章方差分析及回归分析第9章方差分析及回归分析教学要求1．理解单因素实验的基本概念；了解单因素实验中数学模型的建立思想；了解偏差平方和的分解过程，掌握偏差分解的分解式.2．掌握单因素方差分析表，会用单因素方差分析表进行方差分析.3．了解一元线性回归思想，掌握一元线性回归模型所要解决的问题.4．掌握一元线性回归模型中参数,a b 的点估计方法；掌握一元线性回归模型中参数2σ的估计方法；会对一元线性回归方程进行假设检验，掌握三种常见假设检验方法.5．理解预测和控制的概念，会用回归方程进行预测和控制.6．了解常见的非线性回归函数的形式，会利用变量代换将非线性函数转化为一元线性函数.教学重点单因素实验的基本概念，单因素方差分析表，一元线性回归模型中参数,a b 的点估计方法，一元线性回归模型中参数2σ的估计方法，三种常见假设检验方法，用回归方程进行预测和控制，利用变量代换将非线性函数转化为一元线性函数方法.教学难点偏差分解的分解式，单因素方差分析表的推导过程，一元线性回归模型中参数,a b 的点估计方法，一元线性回归模型中参数2σ的估计方法，三种常见假设检验方法. 课时安排本章安排8课时.教学内容和要点一、单因素试验的方差分析1.单因素实验的基本概念2.单因素实验的数学模型3.偏差平方和及其分解4.统计分析二、一元线性回归1.一元线性回归模型2.未知参数,a b 的点估计3.未知参数2σ的估计4.回归方程的假设检验5.预测与控制问题6.可化为一元线性回归的情形主要概念1.单因素试验方差分析的数学模型2.单因素方差分析表3.一元线性回归模型4.未知参数的点估计和方差的无偏估计5.线性假设的显著性检验6.观察值000Y a bx ε=++的点预测和区间预测。

习题8解答—概率论与数理统计(李长青)

2 ) 其中 1 和 2 未知. 检验假设为 8. 解记两正态总体为 N ( 1 , 12 ) 和 N ( 2 , 2
2 2 H 0 : 12 2 ； H1 : 12 2
取检验统计量为
F S12 ， 2 S2
在 H 0 为真时 F ~ F (m 1, n 1) . 该检验法的拒绝域为
对于 0.01 查 t 分布表, 得 t / 2 (m n 2) t0.005 (18) 2.878 . 显然
t 4.66 2.878 t0.005 (18) ,
因此拒绝 H 0 ，即甲，乙两种作物的产量有显著差异. 5. 解 (1) 检验灌装是否合格，即检验均值是否为 18，故提出假设， H 0 : 18 ， H1 : 18 由于方差 2 0.42 已知，取检验统计量设为
H 0 : 90 , H1 : 90 .
由于 n 100 为大样本, 故用 U 检验法. 总体标准差未知, 用样本标准差 S 代替. 取检
验统计量为
U X 90 S / 100
,
在 H 0 为真时 , 近似地有 U ~ N (0,1) . 该检验法的拒绝域为 {u u } . 由已知 , x 96,
U X S n
,
在 H 0 为真时 , 近似地有 U ~ N (0,1) . 本检验法的拒绝域为 u u . 由已知 , 0.05,
x 6.5 , s 2 , 查标准正态分布表可得 u u0.05 1.645 . 将观测值代入检验统计量得统计量
将观测值 s 2 2500 代入检验统计量得统计量的观测值为

习题5解答—概率论与数理统计(李长青)

由 X i 的独立性,有
E ( X ) E ( X i ) 100 E ( X i ) 915 ， D ( X ) D ( X i ) 100 D ( X i ) 122.75 ，
i 1 i 1 100 100
由独立同分布的中心极限定理知，近似地有 X ~ N (915,122.75) ，由此可得 (1) P 900 X 930 P (2) P X 950 P
i 1 i 1
16
16
定理可知, X 近似服从正态分布 N (1600, 4002 ) , 从而有
1920 1600 P X 1920 1 P X 1920 1 400 1 (0.8) 1 0.7881 0.2119 .
5.解设 X i 表示第 i 只电器元件的寿命,则依题意可知 X 1 , X 2 ,…, X 16 相互独立且服从均值为 100 小时的指数分布, EX i 100 , DX i 1002 ( i 1,2,…,16).记 X X i ,则
i 1 16
EX EX i 16 100 1600 , DX DX i 16 10000 160000 .利用独立同分布的中心极限
9.解由已知 EX i 性知
30 1 1 10 , DX i 100 .记 T X i ,由 X i ( i 1,2,…,30)的独立 2 0.1 0.1 i 1
30 30 30 30 ET E X i EX i 30 10 300 , DT D X i DX i 30 100 3000 . i 1 i 1 i 1 i 1

概率论与数理统计第九章方差分析与回归分析

9.当这个比值大到某种程度时，就可以说不同水平之间存在着显著差异，也就是自变量对因变量有影响。
2020/8/2
版权所有 BY 张学毅
11
六、离差平方和与自由度的分解
总离差平方和 ST （ sum of squares for total）
1)全部观察值 Xij与总均值 X 的离差平方和；
2)反映全部观察值的离散状况。
若方差分析中考察的因素只有一个时，称为单因素方差分析；若同时研究两个因素对试验指标的影响时，则称为两因
素试验。同时针对两个因素进行，则称为双因素方差分析。
2020/8/2
版权所有 BY 张学毅
2
二、单因素方差分析的数据结构
2020/8/2
版权所有 BY 统计学课程组
3
2020/8/2
版权所有 BY 张学毅
2020/8/2
版权所有 BY 张学毅
6
四、单因素方差分析的数学模型
由于 xij : N(j , 2 ), ij xij j : N(0, 2 )
则有单因素方差分析的数学模型1：
xij j ij
ij
:
N(0, 2),各ij 相互独立。
2020/8/2
版权所有 BY 张学毅
7
四、单因素方差分析的数学模型
3)该平方和既包括随机误差，也包括系统误差。计算公式为：A
X.j X nj X.j X
i1 j1
j 1
误差平方和（组内平方和）
SE :Sum of squares for error
1)每个水平或组的各样本数据与其组平均值的离差平方和；
2)反映每个样本各观察值的离散状况，又称组内离差平方和；
变差源

《概率论与数理统计》实验报告方差分析以及回归分析

0.177979
小麦品种P值=0.013364<
0.05，试验田因素P值=0.177979>
0.05所以认不同小麦品种对收获量有显著影响，而试验田不同对收获量无显著影响
3．某粮食加工产试验三种储藏方法对粮食含水率有无显著影响，现取一批粮食分成若干份，分别用三种不同的方法储藏，过段时间后测得的含水率如下表：
第3步：在出现的对话框中输入相关的内容->点击【确定】按钮，得到方差分析结果。
P-value
2.62E-05
0.136299
0.000591
收缩率P值=0.0000262<0.05，拉伸倍数P值=0.136299>0.05,交互因素P值=0.000591<0.05,所以认为收缩率及其与拉伸倍数的交互作用对纤维弹性有显著影响，而单拉伸倍数对纤维弹性无显著影响。
（2）样本相关系数为：0.68557.
（3）P值=0.0199<0.05,所以认为线性关系显著。
2．随机调查10个城市居民的家庭平均收入与电器用电支出Y情况得数据（单位：千元）如下：
收入
18
20
22
24
26
支出
0.9
1.1
1.1
1.4
1.7
收入
28
30
30
34
38
支出
2.0
2.3
2.5
2.9
3.1
(1)求电器用电支出y与家庭平均收入之间的线性回归方程；
(2)计算样本相关系数；
(3)在显著性水平 0.05下，作线性回归关系显著性检验；
(4)若线性回归关系显著,求 =25时，电器用电支出的点估计值.
第1步：进入Excel表–>选择【工具（T）】，在下拉菜单中选择【回归】->点击【确定】按钮。

第一节单因素试验的方差分析

第八章方差分析与回归分析第一节单因素试验的方差分析在科学试验、生产实践和社会生活中，影响一个事件的因素往往很多。

例如，在工业生产中，产品的质量往往受到原材料、设备、技术及员工素质等因素的影响；又如，在工作中，影响个人收入的因素也是多方面的，除了学历、专业、工作时间、性别等方面外，还受到个人能力、经历及机遇等偶然因素的影响. 虽然在这众多因素中，每一个因素的改变都可能影响最终的结果，但有些因素影响较大，有些因素影响较小. 故在实际问题中，就有必要找出对事件最终结果有显著影响的那些因素. 方差分析就是根据试验的结果进行分析，通过建立数学模型，鉴别各个因素影响效应的一种有效方法.分布图示★ 引言★ 基本概念 ★ 例1★ 例2★ 假设前提 ★ 方差分析的任务★ 偏差平方和及其分解 ★ E S 和A S 的统计特性 ★ 检验方法★ 例3★ 例4★ 习题8-1内容要点一、基本概念在方差分析中，我们将要考察的对象的某种特征称为试验指标. 影响试验指标的条件称为因素. 因素可分为两类，一类是人们可以控制的（如上例的原材料、设备、学历、专业等因素）；另一类人们无法控制的（如上例中员工素质与机遇等因素）.今后，我们所讨论的因素都是指可控制因素。

因素所处的状态，称为该因素的水平. 如果在一项试验中只有一个因素在改变，则称为单因素试验；如果多于一个因素在改变，则称为多因素试验. 为方便起见，今后用大写字母,,,C B A 等表示因素，用大写字母加下标表示该因素的水平，如 ,,21A A 等.二、假设前提设单因素A 具有r 个水平，分别记为,,,,21r A A A 在每个水平),,2,1(r i A i 下，要考察的指标可以看成一个总体，故有r 个总体，并假设:(1) 每个总体均服从正态分布; (2) 每个总体的方差相同;(3) 从每个总体中抽取的样本相互独立.那么，要比较各个总体的均值是否一致，就是要检验各个总体的均值是否相等，设第i 个总体的均值为i μ，则假设检验为 .:210r H μμμ=== 备择假设为 .,,,:211不全相等r H μμμ 通常备择假设可以不写.在水平),,2,1(r i A i =下，进行i n 次独立试验，得到试验数据为,,,,21i in i i X X X 记数据的总个数为n =.1∑=ri i n由假设有 ~ij X ),(2σμi N （i μ和2σ未知），即有-ij X i μ~),,0(2σN 故-ij X i μ可视为随机误差.记-ij X i μ=ij ε，从而得到如下数学模型:⎩⎨⎧==+=未知和相互独立各个2i 2, ),,0(~,,2,1,,,2,1,σμεσεεμij ij iij i ij N n j r i X （1）方差分析的任务:1) 检验该模型中r 个总体),(2σμi N ),,2,1(r i =的均值是否相等; 2) 作出未知参数r μμμ,,,21 , 2σ的估计.为了更仔细地描述数据，常在方差分析中引入总平均和效应的概念. 称各均值的加权平均,11∑==ri ii n nμμ为总平均. 其中n =.1∑=ri i n 再引入,μμδ-=i i ,,,2,1r i =i δ表示在水平i A 下总体的均值i μ与总平均μ的差异，称其为因子A 的第i 个水平i A 的效应.易见，效应间有如下关系式：,0)(11=-=∑∑==ri iir i ii n n μμδ利用上述记号，前述数学模型可改写为⎪⎪⎩⎪⎪⎨⎧===++=∑=未知和相互独立各个2i 21,),,0(~0,,2,1,,,2,1,σμεσεδεδμij ijr i i i r ij i ij N n n j r i X （2）而前述检验假设则等价于:.,,,:.:211210不全为零r r H H δδδδδδ ===三、偏差平方和及其分解为了使造成各ij X 之间的差异的大小能定量表示出来，我们先引入:记在水平i A 下数据和记为: ∑==in j ij i X X 1.，其样本均值为.i X =,11∑=in j ij iXn 因素A 下的所有水平的样本总均值为X =∑∑==ri n j ij iX n111=∑=ri i Xr 1.1,为了通过分析对比产生样本ij X , r i ,,2,1 =，k j ,,2,1 =之间差异性的原因，从而确定因素A 的影响是否显著，我们引入偏差平方和来度量各个体间的差异程度:=T S ∑∑==-ri n j ij iX X 112)( （3）T S 能反映全部试验数据之间的差异，又称为总偏差平方和.如果0H 成立，则r 个总体间无显著差异，也就是说因素A 对指标没有显著影响，所有的ij X 可以认为来自同一个总体),(2σμN ，各个ij X 间的差异只是由随机因素引起的。

单因素试验方差分析(试验数据处理)概论

将SSA ,SSe分别除以dfA，dfe，得：
MS A SSA / dfA MSe SSe / dfe
称MSA 为组间均方（mean square between group）
称MSe为组内均方（mean square in group）或误差的均方（error mean square）
（5）F检验
* * F MSA 467.36 31.10 MSE 15.03
F0.01 2,6 10.92 F0.05 2,6 5.14
则称因素A无显著影响，无标记。
例2 以 A、B、C 三种饲料喂猪，得一个月后每猪所增体重（单位：500g）于下表，试作方差分析。
饲料
增重
A
51
40
43
48
B
23
25
26
C
23
28
解：T1 51 40 43 48 182, X 1 45.5
T2 23 25 26 74, X 2 24.6
列平均Xi Ti ni X 1
（组内平均值）
X 2 ...
Xr
X
1 n
r i 1
ni X i
r
（总平均值）
其中诸 ni 可以不一样，n i1 ni
(2)计算离差平方和
总平方和： (sum of square for total )
r nj
SST
( X ij X )2
j1 i1
r nj
MSe SSe / dfe 90.17 / 6 15.03
(5)F检验
* * FA MSA 467.36 31.10 MSe 15.03
F0.01 2,6 10.92 F0.05 2,6 5.14

第三节__单因素试验资料的方差分析

上一张下一张主页
退出
3、多重比较采用新复极差法，各处理、采用新复极差法，平均数多重比较表见表6-14。。平均数多重比较表见表
表6-14 不同品种母猪的平均窝产仔数多重比较表(SSR法) 多重比较表法
上一张下一张主页
ቤተ መጻሕፍቲ ባይዱ退出
因为MSE=3.14，n=5，所以 S x 为：，因为，
(6-28)
SSE = SST − SSB
上一张下一张主页退出
df T = N − 1, df b = k − 1, df e = df T − df b
(6-28)
个不同品种猪的育肥试验，【例6.4】 5个不同品种猪的育肥试验，后期】个不同品种猪的育肥试验 30天增重天增重(kg)如表如表6-16所示。试比较品种间增重所示。天增重如表所示有无差异。有无差异。个品种猪30天增重表6-16 5个品种猪天增重个品种猪
上一张下一张主页退出
表6-18 5个品种育肥猪平均增重个品种育肥猪平均增重多重比较表(SSR法) 多重比较表法
上一张下一张主页
退出
根据df 根据 e=20，秩次距，秩次距k=2,3,4,5，从SSR表中查，表中查的临界SSR值，乘以出α=0.05与α=0.01的临界与的临界值 =0.625，，
Sx =
M SE / n = 3 . 14 / 5 = 0 . 793
根据dfe=20，秩次距根据，秩次距k=2，3，4，5由SSR表查，，，由表查的各临界SSR值，乘以出α=0.05和α=0.01的各临界和的各临界值， S x即
得各最小显著极差，所得结果列于表得各最小显著极差，所得结果列于表6-15。。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其次, 同一品种下数据表现出来的差异称为试验(随
机)误差, 这是由客观条件的偶然干扰造成, 与因素(品种) 无直接联系.
方差分析正是分析两类误差的有效工具.
本问题只考虑品种一种因素，故是单因素试验，即只有
一个因子，记为 A, 5个不同的品种就是该因子的5个不同的水平，分别记为 A1 , A2 , A3 , A4 , A5 , 由于同一品种在不同的田块上的亩产量不同，故可以认为一个品种的亩产量就是一个母体，在方差分析中，总是假定各母体相互独立地服从同方差的正态分布，即第 j 个品种的亩产量是一个随机变量，它服从正态分布:
nj
ns , 称为总平均,
它是从 s 个总体中抽得的样本的样本均值.
用样本值 xij 与总平均
x 之间的偏差平方和来反映
种子品种代号 (水平)
重复试验序号及作物实测产量 1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品种.因此, 每个品种下产量的均值差异检验是我们的主要任务.这种由因素(种子品种)造成的差异称为条件(系统)误差.
H 0 : 1 2 s 0, H1 : 1 , 2 , , s 不全为零.
(二) 离差平方和分解引入记号
nj
1 xj nj
s
x
i 1
ij
( j 1, 2,
, s) 水平Aj下的样本均值,
称为组内平均(或列平均)
1 x xij , n n1 n2 n j 1 i 1
在试验中变化的因素称为因子，用A、B、C ...... 表示，因子在试验中所取的不同状态称为水平，因子A的不同水
平用A1 , A2 , 变量。
, As表示。以下用字母 x, y,
等表示随机
例1 为考察种子品种对作物产量的影响, 同一作的种子, 分别在条件大物选用三个命名为 A1 , A2 , A3 体相同的 5 块等面积的小田块上试种, 其作物产量 ( 单位 : kg),如下表，试分析种子的不同品种对作物产量的影响.
j 1
s
j j ( j 1, 2, , s)
j A的第 j 个水平的效应, 表示水平 Aj下的总体平均
值与总平均的差异, 效应间的关系：
n
j 1 j
s
j
0
利用上述记号, 将单因素试验方差分析模的型改写成如下形式: X ij j ij , 2 ij ~ N (0, ), 各 ij 相互独立，（ 3） i 1, 2, , n j , j 1, 2, , s. n11 n2 2 ns s 0. 显然,当且仅当 1 2 s 时, j , 即 j 0 ( j 1, 2, , s) 由此知假设(2)等价于假设
N ( j , ), j 1, 2,3, 4,5.
2
试验的目的是检验假设是否成立。
H 0 : 1 2 3 4 5
二、单因素试验的数学模型
设在单因素试验中,所考察的因素为A，A有 s 个水平
j 1, 2, A1 , A2 , A3 , , As , 现在 Aj 水平下做了 nj 次试验，
X j N ( j , 2 )
要检验的假设是：
H 0 : 1 2 H1 : 1 , 2 ,
s , s 不全相等
（ 1）
我们假定各个水平Aj下的样本 X1 j，X 2 j，，X n j 为
j
来自具有相同方差σ2 均值分别为 j ( j 1, 2,
, s) 的正
态总体 N ( j , 2 ), j 与σ2 均未知. 设不同水平 Aj下的样本之间相互独立. 由于 X ij ~ N ( j , 2 ), X ij j ~ N (0, 2 ), 从而将 X ij j 可看成随机误差, 将其记作 ij , 则 X ij 可表为 X ij j ij
相等,即检验下述假设
, s) 的均值是否
H 0 : 1 2 H1 : 1 , 2 ,
2. 对未知参数 j ( j 1, 2,
s , s 不全相等
, s) 及σ2进行估计.
（ 2）
引入记号
1 s nj j n j 1
其中 n n j , μ称为总平均.
第九章
方差分析与回归分析
第一节单因素试验的方差分析一、方差分析原理把考察事物的结果称为试验结果,也称为试验指标.
影响试验指标的条件称为因素。
因素可分为两类: 一类是人们可以控制的，称为可控因素；另一类是人们不能控制的，称为不可控因素。为了考虑某个因素A对所考察的随机变量X的影响, 可以在实验时让其他因素保持不变，而仅让因素A改变, 这样的试验称为单因素试验，因素A所处的状态称为水平。
试验的实测数据由下表给出:
, s.
A1
A2
As
x11
x21
xn11
x12 x22
xn2 2
x1s
x2 s
xns s
为考察因素对指标的影响, 把第 j 个水平 Aj下的实测数据 X1 j , X 2 j , , X n j 看做是从第 j 个总体 X j 中抽取的容
j
量为 n j 的样本 ( j 1, 2, , s). 在方差分析中总是假定 s个总体相互独立且服从相同方差(未知)的正态分布. 即水平 Aj 对应的总体
ij ~ N (0, ), 各 ij 相互独立， i 1, 2, , n j , j 1, 2, , s,
2
此即单因素试验方差分析的数学模型.
三、单因素方差分析及其显著性检验的方法
(一) 方差分析的任务
2 N ( , ) ( j 1, 2, 1. 检验 s 个总体 j

单因素试验的方差分析——概率论与数理统计(李长青版)

《数理统计》第9章§1单因素试验的方差分析

概率论与数理统计第九章方差分析与回归分析

第4.3节 协方差与相关系数——概率论与数理统计(李长青版)讲解

概率论与数理统计第九章方差分析与回归分析

第9.1节 单因素试验的方差分析——概率论与数理统计(李长青版)

概率论难与数理统计(91 单因素试验的方差分析)

概率论与数理统计李长青版答案第一

概率论与数理统计第九章 方差分析

第9.2节 回归分析原理——概率论与数理统计(李长青版)

概率论与数理统计_方差分析

概率论与数理统计单因素试验的方差分析讲课文档

概率论与数理统计教案第9章方差分析及回归分析

习题8解答—概率论与数理统计(李长青)

习题5解答—概率论与数理统计(李长青)

概率论与数理统计第九章方差分析与回归分析

《概率论与数理统计》实验报告 方差分析以及回归分析

第一节 单因素试验的方差分析

单因素试验方差分析(试验数据处理)概论

第三节__单因素试验资料的方差分析

第4.3节协方差与相关系数——概率论与数理统计(李长青版)讲解

第9.1节单因素试验的方差分析——概率论与数理统计(李长青版)

概率论与数理统计第九章方差分析

第9.2节回归分析原理——概率论与数理统计(李长青版)

《概率论与数理统计》实验报告方差分析以及回归分析

第一节单因素试验的方差分析