单因素试验的方差分析——概率论与数理统计(李长青版)

合集下载

《数理统计》第9章§1单因素试验的方差分析

《数理统计》第9章§1单因素试验的方差分析

S A nj n 118515 114720.5 3794.5 j 1
S E ST - S A 3972.5 3794.5 178方差分析及回归分析 第九章
§1 单因素试验的方差分析
14/14
2
第九章 方差分析及回归分析
第九章 方差分析及回归分析
§1 单因素试验的方差分析 记
n nj
j 1 s
7/14
样本总容量 总均值 第 j 组样本均值
1
s
s j
1
s
1 Xj n j
j 1 nj
X ij i 1
s nj nj
Xn
1
X ij s X j j 1 j 1i 1 ( X ij X j )2 i 1
只有当 H 0 : 1 2 s成立时,统计量
S A SA s 1 S A ~ 2 ( s 1) ;当 才是 2的无偏估计,且 H 0 不真时, S A有 2
偏大于 2的趋势 SE , S A相互独立 对于给定的显著性水平 , H 0的拒绝域是
SA S A /( s 1) F ( s 1, n s) S E /(n s ) SE
90 56 55 92 75 88 62 48 99 72 87 95 81 94 91 252 359 118 103 377 228 ( 0.01) 21194 32249 ( 6980 5329 35571 17370 j) 2 X 59~ N51.5 ( j , ) ( j76 1, 2, , 6) 84 89.75 94.25
j 1
S j2 nj 1 1
X j 是 j的无偏估计 S j2 是 2的无偏估计

概率论与数理统计第九章方差分析与回归分析

概率论与数理统计第九章方差分析与回归分析

版权所有 BY 张学毅
2019/7/25
21
【例9.2】 某市消费者协会为了评价该地旅游业、居民服务业、
公路客运业和保险业的服务质量,从这4个行业中分别抽取了不 同数量的企业。经统计,最近一年消费者对这23家企业投诉的 次数资料如下表所示。这4个行业之间服务质量是否有显著差异? 如果有,究竟是在哪些行业之间?
2
二、单因素方差分析的数据结构

2019/7/25
版权所有 BY 统计学课程组
3
因素A 水平A1 水平A2…水平As
1 2 :
2019/7/25
版权所有 BY 张学毅
4
表中: X i j 为第 i个水平的第j个观测值。 记第j个水平观测值的均值为X .j ,则有
nj
X ij
X .j

2019/7/25
版权所有 BY 张学毅
31
【例9.4】 某种火箭使用了四种燃料,三种推进 器做试验。每种燃料和每种推进器的组合各做一 次试验,得火箭射程数据如下表所示。试问不同 的燃料、不同的推进器分别对火箭射程有无显著 影响?
2019/7/25
版权所有 BY 张学毅
32
列方差分析表:
2019/7/25
版权所有 BY 张学毅
19
从未采 1年前采 8年前采
伐过
伐过
伐过
27
12
18
22
12
4
29
15
22
21
9
15
19
20
18
33
18
19
16
17
22
20
14
12
24
14

第4.3节 协方差与相关系数——概率论与数理统计(李长青版)讲解

第4.3节 协方差与相关系数——概率论与数理统计(李长青版)讲解

XY 0
X ,Y 相互独立
X , Y 不相关
cov( X ,Y ) 0
E(XY ) EX EY D(X Y) DX DY
X , Y 不相关
当 XY 1 时,X 与 Y 之间以概率1存在线性关系; XY 越接近于0时, X 与 Y 之间的线性关系越弱;
当 XY 0 时,X 与 Y 之间不存在线性关系(不相关).
EY EX 7, EY 2 EX 2 5 .
6
3
cov(X ,Y ) E(XY ) EX EY 4 49 1 , 3 36 36
DY DX EX 2 (EX )2 5 (7)2 11, 3 6 36
D(X Y ) DX DY 2cov(X ,Y ) 5, 9

0 08
6
EX 2 x2 f (x, y)dxdy 2 2 x2 (x y)dxdy 5,

0 08
3

2 2 xy
4
E(XY)
xyf (x, y)dxdy
(x y)dxdy .

0 08
3
由x,y 在f (x,y)的表达式中的对称性, 可知
时, 等式成立.
协方差的数值虽然在一定程度上反映了X和Y 相互间的联系, 但其值还受X和Y本身取值大小的 影响, 比如X和Y同时增大到k倍, 即X1= kX, Y1= kY, 这时X1和Y1间的相互联系与X和Y间的相互联系是 相同的, 然而协方差却增大到了k2倍, 即
cov(X1 ,Y1) k 2 cov(X,Y ).
33 8
88
E(XY )
xi yi pij

概率论与数理统计第九章方差分析与回归分析

概率论与数理统计第九章方差分析与回归分析

七、 SA,SE 的统计特征P228
根据概率论与数理统计学知识 : 1) MSE 是总体方差 2 的无偏估计量,且与原假设成
立与否无关。
即 E MSE 2
2) MSA 是否是总体方差 2的无偏估计量,与原假设
成立与否有关 。当且仅当原假设成立时,MSA才是
总体方差 2 的无偏估计量。
1/11/2020
版权所有 BY 张学毅
33
1/11/2020
版权所有 BY 张学毅
34
1/11/2020
版权所有 BY 张学毅
35
二、有交互作用的双因素方差分析

所谓交互作用,简单来说就是不同因素对
试验指标的复合作用,因素A和B的综合效应
不是二因素效应的简单相加。为了能分辨出两
个因素的交互作用,一般每组试验至少作两次。
1/11/2020
版权所有 BY 张学毅
36
有交互作用的双因素方差分析数据结构
1/11/2020
版权所有 BY 张学毅
37
2.建立假设
1/11/2020
版权所有 BY 张学毅
38
这就是有交互作用的双因素方差分析的数学模 型。
版权所有 BY 张学毅
1/11/2020
21
【例9.2】 某市消费者协会为了评价该地旅游业、居民服务
业、公路客运业和保险业的服务质量,从这4个行业中分别抽取 了不同数量的企业。经统计,最近一年消费者对这23家企业投 诉的次数资料如下表所示。这4个行业之间服务质量是否有显著 差异?如果有,究竟是在哪些行业之间?
1/11/2020
版权所有BY 张学毅
22
解(1) 建立假设

第9.1节 单因素试验的方差分析——概率论与数理统计(李长青版)

第9.1节 单因素试验的方差分析——概率论与数理统计(李长青版)

ES A ( s 1) 2 n j 2 j
j 1
s
由此得
Se 2 E , ns
1 s SA 2 2 E n j j s 1 s 1 j 1
在 H0 为真时, 即 1 2 s 0 时, 有
S A ( s 1) 将 从而在 H0 不真时, 比值 S ( n s ) 有偏大的趋势, 其 e
S A ( s 1) . 记为 F, 即 F Se (n s )
则 F 可以作为检验 H0 的统
计量. 将 Se 写成如下分项相加的形式
Se ( xi1 x1 ) 2 ( xi 2 x2 ) 2 ( xis xs ) 2
的 影响.
种子品种代 号 (水平) 重复试验序号及作物实测产量
1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种 子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品 种.因此, 每个品种下产量的均值差异检验是我们的主 要任务.这种由因素(种子品种)造成的差异称为条件(系
s nj
从而有
Se ( ij j ) ,
2 j 1 i 1
s
nj
S A n j ( j j ) 2
j 1
s
由此知, Se 反映了误差的波动, 称其为误差的偏差 平方和(或称为组内平方和), 它集中反映了试验中与因 素及其水平无关的全部随机误差. 在 H0 为真时, SA 反 映误差的波动, 在 H0 不真时, SA 反映因子A 的不同水

概率论难与数理统计(91 单因素试验的方差分析)

概率论难与数理统计(91 单因素试验的方差分析)
《概率论与数理统计》
*****大学理学院数学系
伯努利(Bernoulli) 柯尔莫哥洛夫(Kolmogorov)
2020年4月14日星期二
1
目录
上页
下页
返回
第九章 方差分析与回归分析
§9.1 单因素试验的方差分析 §9.2 双因素试验的方差分析 §9.3 一元线性回归 §9.4 多元线性回归
2020年4月14日星期二
13
目录
上页
下页
返回
二、平方和的分解
ST 分解成
其中
ST SE SA ,
s nj
SE
( Xij X gj )2 ,
j1 i1
s nj
s
s
SA
(Xgj X )2
nj (Xgj X )2 Leabharlann nj X2 gjnX
2
j1 i1
j 1
j 1
SE 为组内平方和或误差平方和(error sum of squares)
A1
A2

As
X 11
X 12

X 1s
X 21
X 22

X 2s
M
M
M
X n11
X n2 2

X nss
样本总和
Tg1
Tg2

Tg s
样本均值
X g1
X g2

X gs
总体均值
1
2

s
2020年4月14日星期二
8
目录
上页
下页
返回
二、平方和的分解
从例 1 中可以看出,同一种饲料喂养的小鸡体重的 增加存在着差异,这种差异看作试验过程中各种随机因 素的干扰和测量误差造成的,这部分差异称为试验误差 (test error),它反映了因素同一水平下的差异.而不 同饲料喂养的小鸡体重的增量也不同,引起这部分差异 的原因除了试验误差之外,更主要的原因是饲料的配方 不同,这部分差异称为系统误差(system error),它主 要反映了不同水平的影响.

概率论与数理统计李长青版答案第一

概率论与数理统计李长青版答案第一

概率论与数理统计李长青版答案第一p(a)=a所含样本点数/总体所含样本点数。

实用中经常采用“排列组合”的方法计算。

用数理统计方法去解决一个实际问题时,一般有如下几个公式:p(a)\ue0,p(b|a)=p(ab)/p(a) 、p(ab)=p(a)×p(b|a)=p(b)×p(a|b) 、p(a∪b)=p(a)+p(b)-p(ab)。

p(a)=a所含样本点数/总体所含样本点数。

实用中经常采用“排列组合”的方法计算·条件概率当p(a)\ue0,p(b|a)=p(ab)/p(a)乘法公式p(ab)=p(a)×p(b|a)=p(b)×p(a|b)计算方法“排列组合”的方法计算记法p(a)=a乘法法则p(a∪b)=p(a)+p(b)-p(ab)用数理统计方法回去化解一个实际问题时,通常存有如下几个步骤:创建数学模型,收集整理数据,展开统计数据推测、预测和决策。

这些环节无法截然分离,也不一定按上述次序,有时就是互相交叠的。

①模型的选择和建立。

在数理统计学中,模型是指关于所研究总体的某种假定,一般是给总体分布规定一定的类型。

建立模型要依据概率的知识、所研究问题的专业知识、以往的经验以及从总体中抽取的样本(数据)。

②数据的搜集。

存有全面观测、样本观测和精心安排特定的实验3种方式。

全面观测又称普查,即为对总体中每个个体都予以观测,测量所须要的指标。

样本观测又称抽检,就是所指从总体中提取一部分,测量其有关的指标值。

这方面的研究内容形成数理统计的一个分支学科。

叫做抽样调查。

③安排特定实验以收集数据,这些特定的实验要有代表性,并使所得数据便于进行分析。

这里面所包含的数学问题,构成数理统计学的又一分支学科,即实验设计的内容。

④数据整理。

目的就是把涵盖在数据中的有价值信息提取出。

一种形式就是制订适度的图表,例如图表,以充分反映暗含在数据中的粗略的规律性或通常趋势。

另一种形式就是排序若干数字特征,以刻画样本某些方面的性质,例如样本均值、样本方差等直观描述性统计数据量。

概率论与数理统计第九章 方差分析

概率论与数理统计第九章 方差分析

第九章方差分析在生产过程和科学实验中,我们经常遇到这样的问题:影响产品产量、质量的因素很多.例如,在化工生产中,影响结果的因素有:配方、设备、温度、压力、催化剂、操作人员等.我们需要通过观察或试验来判断哪些因素对产品的产量、质量有显著的影响.方差分析(Analysis of variance)就是用来解决这类问题的一种有效方法.它是在20世纪20年代由英国统计学家费舍尔首先使用到农业试验上去的.后来发现这种方法的应用范围十分广阔,可以成功地应用在试验工作的很多方面.第一节单因素试验的方差分析在试验中,我们将要考察的指标称为试验指标,影响试验指标的条件称为因素.因素可分为两类,一类是人们可以控制的;一类是人们不能控制的.例如,原料成分、反应温度、溶液浓度等是可以控制的,而测量误差、气象条件等一般是难以控制的.以下我们所说的因素都是可控因素,因素所处的状态称为该因素的水平.如果在一项试验中只有一个因素在改变,这样的试验称为单因素试验,如果多于一个因素在改变,就称为多因素试验.本节通过实例来讨论单因素试验.1.数学模型例9.1某试验室对钢锭模进行选材试验.其方法是将试件加热到700℃后,投入到20℃的水中急冷,这样反复进行到试件断裂为止,试验次数越多,试件质量越好.试验结果如表9-1.表9-1试验的目的是确定4种生铁试件的抗热疲劳性能是否有显著差异.这里,试验的指标是钢锭模的热疲劳值,钢锭模的材质是因素,4种不同的材质表示钢锭模的4个水平,这项试验叫做4水平单因素试验.例9.2考察一种人造纤维在不同温度的水中浸泡后的缩水率,在40℃,50℃, (90)的水中分别进行4次试验.得到该种纤维在每次试验中的缩水率如表92.试问浸泡水的温度对缩水率有无显著的影响?表9-2 (%)单因素试验的一般数学模型为:因素A 有s 个水平A 1,A 2,…,A s ,在水平A j (j =1,2,…,s )下进行n j (n j ≥2)次独立试验,得到如表9-3的结果:表9-3x 11 x 12 … x 1s x 21 x 22 … x 2s … … … … 11n x 22n x … s n s xT ·1 T ·2 … T ·s1x • 2x • … s x •μ1 μ2 … μs假定:各水平A j (j =1,2,…,s )下的样本x ij ~N (j ,),i =1,2,…,n j ,j =1,2,…,s ,且相互独立. 故x ij -μj 可看成随机误差,它们是试验中无法控制的各种因素所引起的,记x ij -μj =εij ,则⎪⎩⎪⎨⎧==+=.,),0(~,,,2,1;,,2,1,2相互独立各ij ij j ij j ij N s j n i x εσεεμ (9.1) 其中μj 与σ2均为未知参数.(9.1)式称为单因素试验方差分析的数学模型.方差分析的任务是对于模型(9.1),检验s 个总体N (μ1,σ2),…,N (μs ,σ2)的均值是否相等, 即检验假设012112:;:,,,s s H H μμμσσσ===⎧⎨⎩不全相等. (9.2) 为将问题(9.2)写成便于讨论的形式,采用记号μ=11sj j j n n μ=∑,其中n =1sjj n=∑,μ表示μ1,μ2,…,μs 的加权平均,μ称为总平均.δj =μj -μ, j =1,2,…,s ,δj 表示水平Aj 下的总体平均值与总平均的差异.习惯上将δj 称为水平A j 的效应.利用这些记号,模型(9.1)可改写成:x ij =μ+δj +εij ,x ij 可分解成总平均、水平A j 的效应及随机误差三部分之和120,~(0,),.1,2,,;1,2,,.sj j j ijij j n N i n j s δεσε=⎧=⎪⎨⎪==⎩∑各相互独立 (9.1)′假设(9.2)等价于假设012112:0;:,,,s s H H δδδδδδ====⎧⎨⎩不全零.(9.2)′ 2.平方和分解我们寻找适当的统计量,对参数作假设检验.下面从平方和的分解着手,导出假设检验(9.2)′的检验统计量.记S T =211()jn sijj i xx ==-∑∑, (9.3)这里111jns ij j i x x n ===∑∑,S T 能反应全部试验数据之间的差异.又称为总变差.A j 下的样本均值 11jn j iji jx xn •==∑. (9.4)注意到2222()()()()2()()ij ij j j ij j j ij j j x x x x x x x x x x x x x x ••••••-=-+-=-+-+--,而 1111()()()()jj n n ssij j j j ij j j i j i x x x x x x x x ••••====⎡⎤--=--⎢⎥⎣⎦∑∑∑∑=11()0.j n sj ij j j j i x x x n x ••==⎛⎫--= ⎪ ⎪⎝⎭∑∑记 S E =211()jn sijj j i xx •==-∑∑, (9.5)S E 称为误差平方和;记 S A =22111()()jn ssjj j j i j xx n x x ••===-=-∑∑∑, (9.6)S A 称为因素A 的效应平方和.于是S T =S E +S A . (9.7)利用εij 可更清楚地看到S E ,S A 的含义,记111jns ij j i n εε===∑∑为随机误差的总平均,11jn j iji jn εε•==∑, j =1,2,…,s .于是S E =221111()()jjn n ssijj ij j j i j i xx εε••====-=-∑∑∑∑; (9.8)S A =2211()()ssj jj j j j j n xx n δεε••==-=+-∑∑. (9.9)平方和的分解公式(9.7)说明.总平方和分解成误差平方和与因素A 的效应平方和.(9.8)式说明S E 完全是由随机波动引起的.而(9.9)式说明S A 除随机误差外还含有各水平的效应δj ,当δj 不全为零时,S A 主要反映了这些效应的差异.若H 0成立,各水平的效应为零,S A 中也只含随机误差,因而S A 与S E 相比较相对于某一显著性水平来说不应太大.方差分析的目的是研究S A 相对于S E 有多大,若S A 比S E 显著地大,这表明各水平对指标的影响有显著差异.故需研究与S A /S E 有关的统计量.3.假设检验问题当H 0成立时,设x ij ~N (μ,σ2)(i =1,2,…,n j ;j =1,2,…,s )且相互独立,利用抽样分布的有关定理,我们有22~(1)AS s χσ-, (9.10) 22~()ES n s χσ-, (9.11)F =()(1)AEn s S s S -- ~F (s -1,n -s ). (9.12)于是,对于给定的显著性水平α(0<α<1),由于P {F ≥F α(s -1,n -s )}=α, (9.13)由此得检验问题(9.2)′的拒绝域为F ≥F α(s -1,n -s ).(9.14)由样本值计算F 的值,若F ≥F α,则拒绝H 0,即认为水平的改变对指标有显著性的影响;若F <F α,则接受原假设H 0,即认为水平的改变对指标无显著影响. 上面的分析结果可排成表9-4的形式,称为方差分析表.当F ≥F 0.05(s -1,n -s )时,称为显著, 当F ≥F 0.01(s -1,n -s )时,称为高度显著.在实际中,我们可以按以下较简便的公式来计算S T ,S A 和S E .记T ·j =1jn iji x=∑, j =1,2,…,s ,T ··=11jn sijj i x==∑∑,即有22221111222211,,.j jn n s s T ij ij j i j i s s j A j j j j j E T AT S x nx x n T T S n x nx n n S S S ••====••••==⎧=-=-⎪⎪⎪⎪=-=-⎨⎪⎪=-⎪⎪⎩∑∑∑∑∑∑ (9.15) 例9.3 如上所述,在例9.1中需检验假设H 0:μ1=μ2=μ3=μ4;H 1:μ1,μ2,μ3,μ4不全相等.给定α=0.05,完成这一假设检验.解 s =4,n 1=7,n 2=5,n 3=8,n 4=6,n =26.S T =22211(4257)69895926jn sij j i T x n ••==-=-∑∑=1957.12, S A =2221(4257)697445.4926sj j j T T n n •••=-=-∑=443.61, S E =S T -S A =1513.51.得方差分析表9-5.表9-5因 F (3,22)=2.15<F 0.05(3,22)=3.05. 则接受H 0,即认为4种生铁试样的热疲劳性无显著差异.例9.4 如上所述,在例9.2中需检验假设H 0:μ1=μ2=…=μ6; H 1:μ1,μ2,…,μ6不全相等.试取α=0.05,α=0.01,完成这一假设检验.解 s =6, n 1=n 2=…=n 6=4,n =24.S T =2211jn sij j i T x n ••==-∑∑=112.27,S A =221sj j j T T n n•••=-∑=56,S E=S T-S A=56.27.得方差分析表9-6.0.050.01由于 4.25=F0.01(5,18)>F A=3.583>F0.05(5,18)=2.77,故浸泡水的温度对缩水率有显著影响,但不能说有高度显著的影响.本节的方差分析是在这两项假设下,检验各个正态总体均值是否相等.一是正态性假设,假定数据服从正态分布;二是等方差性假设,假定各正态总体方差相等.由大数定律及中心极限定理,以及多年来的方差分析应用,知正态性和等方差性这两项假设是合理的.第二节双因素试验的方差分析进行某一项试验,当影响指标的因素不是一个而是多个时,要分析各因素的作用是否显著,就要用到多因素的方差分析.本节就两个因素的方差分析作一简介.当有两个因素时,除每个因素的影响之外,还有这两个因素的搭配问题.如表9-7中的两组试验结果,都有两个因素A和B,每个因素取两个水平.表9-7(b)表9-7(a)中,无论B在什么水平(B1还是B2),水平A2下的结果总比A1下的高20;同样地,无论A是什么水平,B2下的结果总比B1下的高40.这说明A和B单独地各自影响结果,互相之间没有作用.表9-7(b)中,当B为B1时,A2下的结果比A1的高,而且当B为B2时,A1下的结果比A2的高;类似地,当A为A1时,B2下的结果比B1的高70,而A为A2时,B2下的结果比B1的高30.这表明A的作用与B所取的水平有关,而B的作用也与A所取的水平有关.即A 和B不仅各自对结果有影响,而且它们的搭配方式也有影响.我们把这种影响称作因素A和B的交互作用,记作A×B.在双因素试验的方差分析中,我们不仅要检验水平A和B的作用,还要检验它们的交互作用.1.双因素等重复试验的方差分析设有两个因素A,B作用于试验的指标,因素A有r个水平A1,A2,…,Ar,因素B有s个水平B1,B2,…,B s,现对因素A,B的水平的每对组合(A i,B j),i=1,2,…,r;j=1,2,…,s都作t(t≥2)次试验(称为等重复试验),得到如表9-8的结果:表9-8设x ijk ~N (ij ,), i =1,2,…,r ; j =1,2,…,s ; k =1,2,…,t ,各x ijk 独立.这里ij ,均为未知参数.或写为⎪⎩⎪⎨⎧===+=.,,,2,1),,0(~,,,2,1;,,2,1,2相互独立各ijkijk ijk ij ijk t k N s j r j x εσεεμ (9.16) 记μ=111,r s ij i j rs μ==∑∑, 11si ij j s μμ•==∑, i =1,2,…,r ,11rj ij i r μμ•==∑, j =1,2,…,s ,,i i αμμ•=-, i =1,2,…,r , j j βμμ•=-, j =1,2,…,s ,ij ij i j γμμμμ••=--+.于是 μij =μ+αi +βj +γij . (9.17)称μ为总平均,αi 为水平A i 的效应,βj 为水平B j 的效应,γij 为水平A i 和水平B j 的交互效应,这是由A i ,B j 搭配起来联合作用而引起的.易知1rii α=∑=0,1sjj β=∑=0,1riji γ=∑=0, j =1,2,…,s ,1sijj γ=∑=0, i =1,2,…,r ,这样(9.16)式可写成⎪⎪⎪⎩⎪⎪⎪⎨⎧=======++++=∑∑∑∑====.,,,2,1;,,2,1;,,2,1),,0(~,0,0,0,0,21111相互独立各ijkijk s j ij r i ij s j j r i i ijk ij j i ijk t k s j r i N x εσεγγβαεγβαμ (9.18) 其中μ,αi ,βj ,γij 及σ2都为未知参数.(9.18)式就是我们所要研究的双因素试验方差分析的数学模型.我们要检验因素A ,B 及交互作用A ×B 是否显著.要检验以下3个假设:⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ ⎩⎨⎧=====.,,:,0:121113121103不全为零rs rs H H γγγγγγ 类似于单因素情况,对这些问题的检验方法也是建立在平方和分解上的.记1111r s tijk i j k x x rst ====∑∑∑, 11tij ijk k x x t •==∑, i =1,2,…,r ; j =1,2,…,s ,111s ti ijk j k x x st ••===∑∑, i =1,2,…,r , 111r tj ijk i k x x rt ••===∑∑, j =1,2,…,s , S T =2111()rstijk i j k x x ===-∑∑∑. 不难验证,,,i j ij x x x x •••••分别是μ,μi ·,μ·j ,μij 的无偏估计.由 ()()()()ijk ijk ij i j ij i j x x x x x x x x x x x x ••••••••••-=-+-+-+--+,1≤i ≤r ,1≤j ≤s ,1≤k ≤t得平方和的分解式:S T =S E +S A +S B +S A ×B , (9.19)其中S E =2111()rstijkij i j k xx •===-∑∑∑,S A =1()2ri i stxx ••=-∑,S B =21()sj j rtxx ••=-∑,S A ×B =211()rsij i j i j txx x x •••••==--+∑∑.S E 称为误差平方和,S A ,S B 分别称为因素A ,B 的效应平方和,SA ×B 称为A ,B 交互效应平方和.当H 01:α1=α2=…=αr =0为真时,F A =[](1)(1)A ES S r rs t -- ~F (r -1,rs (t -1));当假设H 02为真时,F B =[](1)(1)BES S s rs t --~F (s -1,rs (t -1));当假设H 03为真时,F A ×B =[](1)(1)(1)A BES S r s rs t ⨯--- ~F ((r -1)(s -1),rs (t -1)).当给定显著性水平α后,假设H 01,H 02,H 03的拒绝域分别为:(1,(1));(1,(1));(1)(1),(1)).A B A BF F r rs t F F s rs t F F r s rs t ααα⨯≥--⎧⎪≥--⎨⎪≥---⎩ (9.20) 经过上面的分析和计算,可得出双因素试验的方差分析表9-9.在实际中,与单因素方差分析类似可按以下较简便的公式来计算S T ,S A ,S B ,S A ×B ,S E . 记 T ···=111r s tijki j k x===∑∑∑,T ij ·=1tijkk x=∑, i =1,2,…,r ; j =1,2,…,s ,T i ··=11stijkj k x==∑∑, i =1,2,…,r ,T ·j ·=11r tijki k x==∑∑, j =1,2,…,s ,即有221112212212211,1,1,1,.r s tT ijk i j k r A i i s B j j r s A B ij A B i j E T A B A B T S x rst T S T st rst T S T rt rst T S T S S t rst S S S S S •••===•••••=•••••=•••⨯•==⨯⎧=-⎪⎪⎪=-⎪⎪⎪⎨=-⎪⎪⎪=---⎪⎪⎪=---⎩∑∑∑∑∑∑∑ (9.21) 例9.5 用不同的生产方法(不同的硫化时间和不同的加速剂)制造的硬橡胶的抗牵拉强度(以kg ·cm -2为单位)的观察数据如表9-10所示.试在显著水平0.10下分析不同的硫化时间(A ),加速剂(B )以及它们的交互作用(A ×B )对抗牵拉强度有无显著影响.表9-10010203r =s =3, t =2, T ···,T ij ·,T i ··,T ·j ·的计算如表9-11.表9-11S T =22111,r s tijki j k T xrst•••===-∑∑∑=178.44, S A =2211r i i T T st rst•••••=-∑=15.44,S B =2211s j j T T rt rst •••••=-∑=30.11,S A ×B =22111r s ij A B i j T T S S t rst••••==---∑∑ =2.89,S E =S T -S A -S B -S A ×B =130,得方差分析表9-12.由于F 0.10(2,9)=3.01>F A ,F 0.10(2,9)>F B ,F 0.10(4,9)=2.69>F A ×B ,因而接受假设H 01,H 02,H 03,即硫化时间、加速剂以及它们的交互作用对硬橡胶的抗牵拉强度的影响不显著.2.双因素无重复试验的方差分析在双因素试验中,如果对每一对水平的组合(A i ,B j )只做一次试验,即不重复试验,所得结果如表9-13.这时ij x •=x ijk ,S E =0,S E 的自由度为0,故不能利用双因素等重复试验中的公式进行方差分析.但是,如果我们认为A ,B 两因素无交互作用,或已知交互作用对试验指标影响很小,则可将S A ×B 取作S E ,仍可利用等重复的双因素试验对因素A ,B 进行方差分析.对这种情况下的数学模型及统计分析表示如下:由(9.18)式,112,0,0,~(0,),1,2,,;1,2,,,.ij i j ij r si j i j ij ijk x N i r j s μαβεαβεσε===+++⎧⎪⎪==⎪⎨⎪==⎪⎪⎩∑∑各相互独立 (9.22)要检验的假设有以下两个:⎩⎨⎧=====.,,:,0:21112101不全为零r r H H αααααα ⎩⎨⎧=====.,,:,0:21122102不全为零s s H H ββββββ 记 1111111,,,r s s rij i ij j ij i j j i x x x x x x rs s r ••=======∑∑∑∑平方和分解公式为:S T =S A +S B +S E , (9.23)其中 22111(),(),rssT ijA i i j j S xx S s x x •====-=-∑∑∑22111(),(),srsB j E ij i j j i j S r x x S x x x x •••====-=--+∑∑∑分别为总平方和、因素A ,B 的效应平方和和误差平方和.取显著性水平为α,当H 01成立时,F A =(1)AEs S S - ~F ((r -1),(r -1)(s -1)), H 01拒绝域为F A ≥F α((r -1),(r -1)(s -1)). (9.24)当H 02成立时,F B =(1)BEr S S - ~F ((s -1),(r -1)(s -1)), H 02拒绝域为F B ≥F α((s -1),(r -1)(s -1)). (9.25)得方差分析表9-14.例9.6 测试某种钢不同含铜量在各种温度下的冲击值(单位:kg ·m ·cm ),表9-15列出了试验的数据(冲击值),问试验温度、含铜量对钢的冲击值的影响是否显著?(α=0.01)解 由已知,r =4,s =3,需检验假设H 01,H 02,经计算得方差分析表9-16.0.01A 01F 0.01(2,6)=10.92<F B ,拒绝H 02.检验结果表明,试验温度、含铜量对钢冲击值的影响是显著的.第三节 正交试验设计及其方差分析在工农业生产和科学实验中,为改革旧工艺,寻求最优生产条件等,经常要做许多试验,而影响这些试验结果的因素很多,我们把含有两个以上因素的试验称为多因素试验.前两节讨论的单因素试验和双因素试验均属于全面试验(即每一个因素的各种水平的相互搭配都要进行试验),多因素试验由于要考虑的因素较多,当每个因素的水平数较大时,若进行全面试验,则试验次数将会更大.因此,对于多因素试验,存在一个如何安排好试验的问题.正交试验设计是研究和处理多因素试验的一种科学方法,它利用一套现存规格化的表——正交表,来安排试验,通过少量的试验,获得满意的试验结果.1.正交试验设计的基本方法正交试验设计包含两个内容:(1)怎样安排试验方案;(2)如何分析试验结果.先介绍正交表.正交表是预先编制好的一种表格.比如表9-17即为正交表L4(23),其中字母L表示正交,它的3个数字有3种不同的含义:(1) L4(23)表的结构:有4行、3列,表中出现2个反映水平的数码1,2.列数↓L4 (23)↑↑行数水平数(2)L4(23)表的用法:做4次试验,最多可安排2水平的因素3个.最多能安排的因素数↓L4(23)↑↑试验次数水平数(3) L4(23)表的效率:3个2水平的因素.它的全面试验数为23=8次,使用正交表只需从8次试验中选出4次来做试验,效率是高的.L4(23)↑↑实际试验数理论上的试验数正交表的特点:(1)表中任一列,不同数字出现的次数相同.如正交表L4(23)中,数字1,2在每列中均出现2次.(2)表中任两列,其横向形成的有序数对出现的次数相同.如表L4(23)中任意两列,数字1,2间的搭配是均衡的.凡满足上述两性质的表都称为正交表(Orthogonal table).常用的正交表有L9(34),L8(27),L16(45)等,见附表.用正交表来安排试验的方法,就叫正交试验设计.一般正交表L p(n m)中,p=m(n-1)+1.下面通过实例来说明如何用正交表来安排试验.例9.7 提高某化工产品转化率的试验.某种化工产品的转化率可能与反应温度A,反应时间B,某两种原料之配比C和真空度D有关.为了寻找最优的生产条件,因此考虑对A,B,C,D这4个因素进行试验.根据以往的经验,确定各个因素的3个不同水平,如表9-18所示.表9-18分析各因素对产品的转化率是否产生显著影响,并指出最好生产条件.解本题是4因素3水平,选用正交表L9(34).将各因素的诸水平所表示的实际状态或条件代入正交表中,得到9个试验方案,如表9-20所示.表9-20从表9-20看出,第一行是1号试验,其试验条件是:反应温度为60℃,反应时间为2.5小时,原料配比为1.1∶1,真空度为500毫米汞柱,记作A1B1C1D1.依此类推,第9号试验条件是A3B3C2D1.由此可见,因素和水平可以任意排,但一经排定,试验条件也就完全确定.按正交试验表9-20安排试验,试验的结果依次记于试验方案右侧,见表9-21.2.试验结果的直观分析正交试验设计的直观分析就是要通过计算,将各因素、水平对试验结果指标的影响大小,通过极差分析,综合比较,以确定最优化试验方案的方法.有时也称为极差分析法.例9.7中试验结果转化率列在表9-21中,在9次试验中,以第9次试验的指标86为最高,其生产条件是A 3B 3C 2D 1.由于全面搭配试验有81种,现只做了9次.9次试验中最好的结果是否一定是全面搭配试验中最好的结果呢?还需进一步分析. (1) 极差计算在代表因素A 的表9-21的第1列中,将与水平“1”相对应的第1,2,3号3个试验结果相加,记作T 11,求得T 11=151.同样,将第1列中与水平“2”对应的第4,5,6号试验结果相加,记作T 21,求得T 21=183.一般地,定义T ij 为表9-21的第j 列中,与水平i 对应的各次试验结果之和(i =1,2,3; j =1,2,3,4).记T 为9次试验结果的总和,R j 为第j 列的3个T ij 中最大值与最小值之差,称为极差.显然T =31iji T=∑,j =1,2,3,4.此处T 11大致反映了A 1对试验结果的影响,T 21大致反映了A 2对试验结果的影响, T 31大致反映了A 3对试验结果的影响,T 12,T 22和T 32分别反映了B 1,B 2,B 3对试验结果的影响, T 13,T 23和T 33分别反映了C 1,C 2,C 3对试验结果的影响, T 14,T 24和T 34分别反映了D 1,D 2,D 3对试验结果的影响.R j 反映了第j 列因素的水平改变对试验结果的影响大小,R j 越大反映第j 列因素影响越大.上述结果列表9-22.(2) 极差分析(Analysis of range)由极差大小顺序排出因素的主次顺序:主→次 B ;A 、D ;C这里,R j 值相近的两因素间用“、”号隔开,而R j 值相差较大的两因素间用“;”号隔开.由此看出,特别要求在生产过程中控制好因素B ,即反应时间.其次是要考虑因素A 和D ,即要控制好反应温度和真空度.至于原料配比就不那么重要了.选择较好的因素水平搭配与所要求的指标有关.若要求指标越大越好,则应选取指标大的水平.反之,若希望指标越小越好,应选取指标小的水平.例9.7中,希望转化率越高越好,所以应在第1列选最大的T 31=185;即取水平A 3,同理可选B 3C 1D 3.故例9.7中较好的因素水平搭配是A 3B 3C 1D 3.例9.8 某试验被考察的因素有5个:A ,B ,C ,D ,E .每个因素有两个水平.选用正交表L 8(27),现分别把A ,B ,C ,D ,E 安排在表L 8(27)的第1,2,4,5,7列上,空出第3,6列仿例9.7做法,按方案试验.记下试验结果,进行极差计算,得表9-23.试验目的要找出试验结果最小的工艺条件及因素影响的主次顺序.从表9-23的极差R j的大小顺序排出因素的主次顺序为主 → 次 A 、B ;D ;C 、E最优工艺条件为A 2B 1C 1D 2E 1.表9-23中因没有安排因素而空出了第3,6列.从理论上说,这两列的极差R j 应为0,但因存有随机误差,这两个空列的极差值实际上是相当小的.3.方差分析正交试验设计的极差分析简便易行,计算量小,也较直观,但极差分析精度较差,判断因素的作用时缺乏一个定量的标准.这些问题要用方差分析解决.设有一试验,使用正交表L p (n m ),试验的p 个结果为y 1,y 2,…,y p ,记T =1pi i y =∑, y =11p i i Ty p p ==∑,S T =21()pii yy =-∑为试验的p 个结果的总变差;S j =222111nn ij ij i i T T T r T r p r p ==⎛⎫-=- ⎪⎝⎭∑∑ 为第j 列上安排因素的变差平方和,其中r =p/n .可证明S T =1mij S=∑即总变差为各列变差平方和之和,且S T 的自由度为p -1,S j 的自由度为n -1.当正交表的所有列没被排满因素时,即有空列时,所有空列的S j 之和就是误差的变差平方和S e ,这时S e 的自由度f e 也为这些空列自由度之和.当正交表的所有列都排有因素时,即无空列时,取S j 中的最小值作为误差的变差平方和S e .从以上分析知,在使用正交表L p (n m )的正交试验方差分析中,对正交表所安排的因素选用的统计量为:F =1jeeS S n f -.当因素作用不显著时,F ~F (n -1,f e ),其中第j 列安排的是被检因素.在实际应用时,先求出各列的S j /(n -1)及S e /f e ,若某个S j /(n -1)比S e /f e 还小时,则这第j 列就可当作误差列并入S e 中去,这样使误差S e 的自由度增大,在作F 检验时会更灵敏,将所有可当作误差列的S j 全并入S e 后得新的误差变差平方和,记为S e Δ,其相应的自由度为f e Δ,这时选用统计量F =1je eS S n f - ~F (n -1,f e Δ).例9.9 对例9.8的表9-23作方差分析.解 由表9-23的最后一行的极差值R j ,利用公式S j =2211n ij i T T r p=-∑,得表9-24.表9-24表9-24中第3,6列为空列,因此S e =S 3+S 6=1.250,其中f e =1+1=2,所以S e /f e =0.625,而第7列的S 7=0.125,S 7/f 7=0.1251=0.125比S e /f e 小,故将它并入误差. S e Δ=S e +S 7=1.375,f e Δ=3.整理成方差分析表9-25.eeS fC 3.125 1 3.125 6.818D 6.125 1 6.125 13.364E Δ 0.125 1 0.125 e 1.1250 2 0.625 e Δ 1.37530.458由于F 0.05(1,3)=10.13, F 0.01(1,3)=34.12,故因素A ,B 作用高度显著,因素C 作用不显著,因素D 作用显著,这与前面极差分析的结果是一致的.F 检验法要求选取S e ,且希望f e 要大,故在安排试验时,适当留出些空列会有好处的.前面的方差分析中,讨论因素A 和B 的交互作用A ×B .这类交互作用在正交试验设计中同样有表现,即一个因素A 的水平对试验结果指标的影响同另一个因素B 的水平选取有关.当试验考虑交互作用时,也可用前面讲的基本方法来处理.本章就不再介绍了.小 结本章介绍了数理统计的基本方法之一:方差分析.在生产实践中,试验结果往往要受到一种或多种因素的影响.方差分析就是通过对试验数据进行分析,检验方差相同的多个正态总体的均值是否相等,用以判断各因素对试验结果的影响是否显著.方差分析按影响试验结果的因素的个数分为单因素方差分析、双因素方差分析和多因素方差分析.1. 单因素方差分析的情况.试验数据总是参差不齐,我们用总偏差平方和S T =211()jn sijj i xx ==-∑∑来度量数据间的离散程度.将S T 分解为试验随机误差的平方和(S E )与因素A 的偏差平方和(S A )之和.若S A 比S E 大得较多,则有理由认为因素的各个水平对应的试验结果有显著差异,从而拒绝因素各水平对应的正态总体的均值相等这一原假设.这就是单因素方差分析法的基本思想.2. 双因素方差分析的基本思想类似于单因素方差分析.但双因素试验的方差分析中,我们不仅要检验因素A 和B 各自的作用,还要检验它们之间的交互作用.3. 正交试验设计及其方差分析.根据因素的个数及各个因素的水平个数,选取适当的正交表并按表进行试验.我们通过对这少数的试验数据进行分析,推断出各因素对试验结果影响的大小.对正交试验结果的分析,通常采用两种方法,一种是直观分析法(极差分析法),它通过对各因素极差R j 的排序来确定各因素对试验结果影响的大小.一种是方差分析法,它的基本思想类似于双因素的方差分析. 重要术语及主题单因素试验方差分析的数学模型 S T =S E +S A单因素方差分析表 双因素方差分析表 正交试验表极 差分析表习题九1.灯泡厂用4种不同的材料制成灯丝,检验灯线材料这一因素对灯泡寿命的影响.若灯泡寿命服从正态分布,不同材料的灯丝制成的灯泡寿命的方差相同,试根据表中试验结果记录,在显著性水平0.05下检验灯泡寿命是否因灯丝材料不同而有显著差异?2.一个年级有三个小班,他们进行了一次数学考试,现从各个班级随机地抽取了一些学生,试在显著性水平0.05下检验各班级的平均分数有无显著差异.设各个总体服从正态分布,且方差相等.4.为了解3种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的猪各选3头进行试验,分别测得其3个月间体重增加量如下表所示,取显著性水平α=0.05,试分析不同饲料与不同品种对猪的生长有无显著影响?假定其体重增长量服从正态分布,且各种配比的方5.研究氯乙醇胶在各种硫化系统下的性能(油体膨胀绝对值越小越好)需要考察补强剂(A)、防老剂(B)、硫化系统(C)3个因素(各取3个水平),根据专业理论经验,交互4(2) 给定α=0.05,作方差分析与(1)比较.6.某农科站进行早稻品种试验(产量越高越好),需考察品种(A),施氮肥量(B),氮、磷、钾肥比例(C),插植规格(D)4个因素,根据专业理论和经验,交互作用全忽略,早(1) 试作出最优生产条件的直观分析,并对4因素排出主次关系.(2) 给定α=0.05,作方差分析,与(1)比较.。

第9.2节 回归分析原理——概率论与数理统计(李长青版)

第9.2节 回归分析原理——概率论与数理统计(李长青版)

9
xi2 115.11,
i 1
9
xi yi 345.09,
i 1
9
yi2 1036.65, Sxx 13.100, Sxy 38.387, Syy 114.516,
i 1
aˆ Sxy 2.9303, bˆ y aˆx 0.2569.
Sxx
i 1
i 1
aˆ Sxy 0.302,bˆ y aˆx 33.76 Sxx
由此得回归方程为 yˆ 0.302x 33.76
回归系数的检验 0.05
检验假设 H0:a 0, H1:a 0 计算回归平方和与剩余平和
Q回
U
aˆ2Sxx

S 2xy Sxx
程 yˆ 0.302x 33.76 显著有效.
三、可线性化的非线性回归分析问题
(1)双曲线型 y a b x
令 x 1
x
y ax b
(2)指数型 y c eax
若 c >0, 令 y ln y,b ln c
y ax b
若 c <0, 令 y ln(y),b ln(c)
由于观测误差等随机因素引起的.
n
Q回 ( yi y)2 ………… 回归平方和
i 1
n
n
Q回 [(bˆ aˆxi ) (bˆ aˆx)]2 aˆ2 (xi x )2
i 1
i 1
回归平方和反映回归值的分散度,这种分散是
由于Y与x之间得线性相关关系引起的; Q剩与Q回的比值反映了这种线性相关关系与随机
i 1
i 1
i 1
注意到 yˆi bˆ aˆxi 及 bˆ y aˆx, 对上式中的

概率论与数理统计_方差分析

概率论与数理统计_方差分析

第10章 方差分析在生产实践和科学研究中,经常要分析各种因素对试验指标是否有显著的影响。

例如,工业生产中,需要研究各种不同的配料方案对生产出的产品的质量有无显著差异,从中筛选出较好的原料配方;农业生产中,为了提高农作物的产量,需要考察不同的种子、不同数量的肥料对农作物产量的影响,并从中确定最适宜该地区种植的农作物品种和施肥数量。

要解决诸如上述问题,一方面需要设计一个试验,使其充分反映各因素的作用,并力求试验次数尽可能少,以便节省各种资源和成本;另一方面就是要对试验结果数据进行合理的分析,以便确定各因素对试验指标的影响程度。

§10.1 单因素方差分析仅考虑一个因素A 对试验指标有无显著影响,可以让A 取r 个水平:r A A A ,,,21 ,在水平i A 下进行i n 次试验,称为单因素试验,试验结果观测数据ij x 列于下表:并设在水平i A 下的数据i in i i x x x ,,21来自总体),(~2σμi i N X ,),,2,1(r i =。

检验如下假设:r H μμμ=== 210:, r H μμμ,,,:211 不全相等 检验统计量为),1(~)/()1/(r n r F r n S r S F e A ----=其中21211)()(x x n x x S iri i ri n j i A i-=-=∑∑∑===,称为组间差平方和。

211)(i ri n j ije x xS i-=∑∑==,称为组内差平方和。

这里 ∑==ri i n n 1,∑==in j ij i i x n x 11,∑∑===r i n j ij ix n x 111。

对于给定的显著性水平)05.001.0(或=αα,如果),1(r n r F F -->α,则拒绝0H ,即认为因素A 对试验指标有显著影响。

实际计算时,可事先对原始数据作如下处理:ba x x ij ij -='再进行计算,不会影响F 值的大小。

概率论与数理统计单因素试验的方差分析讲课文档

概率论与数理统计单因素试验的方差分析讲课文档

乙 1580 1640 1640 1700 1750
丙 1460 1550 1600 1620 1640 1740 1660 1820

第三页,共21页。
1510 1520 1530 1570 1680 1600
第三页,共21页。
引例
灯泡的使用寿命——试验指标
灯丝的配料方案——试验因素(唯一的一个) 四种配料方案(甲乙丙丁)——四个水平
第十八页,共21页。
第十八页,共21页。
例2的上机实现步骤
1、输入原始数据列,并存到A,B,C列;
第十九页,共21页。
第十九页,共21页。
2、选择Stat>ANOVA>one-way(unstacked)
第二十页,共21页。
各水平数据放同一列 各水平数据放在不同列
第二十页,共21页。
第二十一页,共21页。
r
SSE
i1
ni
T 2 X ij n j1
r2 i
i1 i
第十五页,共21页。
ni
其中 T i X ij , j1 同一水平 下观测值 之和
r
T Ti i1
所以观测 值之和
第十五页,共21页。
例2 P195 2 以 A、B、C 三种饲料喂猪,得一个月后每猪 所增体重(单位:500g)于下表,试作方差分析。
饲料
增重
A
51
40
43
48
B
23
25
26
C
23
28
解:T1 51404348182,
T2 232526 74,
T 1 8 2 7 4 5 1 3 0 7
T3 232851
dfAr12, dfEnr936,

概率论与数理统计教案第9章方差分析及回归分析

概率论与数理统计教案第9章方差分析及回归分析

概率论与数理统计教案第9章方差分析及回归分析第9章方差分析及回归分析教学要求1.理解单因素实验的基本概念;了解单因素实验中数学模型的建立思想;了解偏差平方和的分解过程,掌握偏差分解的分解式.2.掌握单因素方差分析表,会用单因素方差分析表进行方差分析.3.了解一元线性回归思想,掌握一元线性回归模型所要解决的问题.4.掌握一元线性回归模型中参数,a b 的点估计方法;掌握一元线性回归模型中参数2σ的估计方法;会对一元线性回归方程进行假设检验,掌握三种常见假设检验方法.5.理解预测和控制的概念,会用回归方程进行预测和控制.6.了解常见的非线性回归函数的形式,会利用变量代换将非线性函数转化为一元线性函数.教学重点单因素实验的基本概念,单因素方差分析表,一元线性回归模型中参数,a b 的点估计方法,一元线性回归模型中参数2σ的估计方法,三种常见假设检验方法,用回归方程进行预测和控制,利用变量代换将非线性函数转化为一元线性函数方法.教学难点偏差分解的分解式,单因素方差分析表的推导过程,一元线性回归模型中参数,a b 的点估计方法,一元线性回归模型中参数2σ的估计方法,三种常见假设检验方法. 课时安排本章安排8课时.教学内容和要点一、单因素试验的方差分析1.单因素实验的基本概念2.单因素实验的数学模型3.偏差平方和及其分解4.统计分析二、一元线性回归1.一元线性回归模型2.未知参数,a b 的点估计3.未知参数2σ的估计4.回归方程的假设检验5.预测与控制问题6.可化为一元线性回归的情形主要概念1.单因素试验方差分析的数学模型2.单因素方差分析表3.一元线性回归模型4.未知参数的点估计和方差的无偏估计5.线性假设的显著性检验6.观察值000Y a bx ε=++的点预测和区间预测。

习题8解答—概率论与数理统计(李长青)

习题8解答—概率论与数理统计(李长青)
2 ) 其中 1 和 2 未知. 检验假设为 8. 解 记两正态总体为 N ( 1 , 12 ) 和 N ( 2 , 2
2 2 H 0 : 12 2 ; H1 : 12 2
取检验统计量为
F S12 , 2 S2
在 H 0 为真时 F ~ F (m 1, n 1) . 该检验法的拒绝域为
对于 0.01 查 t 分布表, 得 t / 2 (m n 2) t0.005 (18) 2.878 . 显然
t 4.66 2.878 t0.005 (18) ,
因此拒绝 H 0 ,即甲,乙两种作物的产量有显著差异. 5. 解 (1) 检验灌装是否合格,即检验均值是否为 18,故提出假设, H 0 : 18 , H1 : 18 由于方差 2 0.42 已知,取检验统计量设为
H 0 : 90 , H1 : 90 .
由于 n 100 为大样本, 故用 U 检验法. 总体标准差 未知, 用样本标准差 S 代替. 取检
验统计量为
U X 90 S / 100
,
在 H 0 为 真 时 , 近 似 地 有 U ~ N (0,1) . 该 检 验 法 的 拒 绝 域 为 {u u } . 由 已 知 , x 96,
U X S n
,
在 H 0 为 真 时 , 近 似 地有 U ~ N (0,1) . 本 检 验法 的 拒 绝 域 为 u u . 由 已 知 , 0.05,
x 6.5 , s 2 , 查标准正态分布表可得 u u0.05 1.645 . 将观测值代入检验统计量得统计量
将观测值 s 2 2500 代入检验统计量得统计量的观测值为

习题5解答—概率论与数理统计(李长青)

习题5解答—概率论与数理统计(李长青)

由 X i 的独立性,有
E ( X ) E ( X i ) 100 E ( X i ) 915 , D ( X ) D ( X i ) 100 D ( X i ) 122.75 ,
i 1 i 1 100 100
由独立同分布的中心极限定理知,近似地有 X ~ N (915,122.75) ,由此可得 (1) P 900 X 930 P (2) P X 950 P
i 1 i 1
16
16
定理可知, X 近似服从正态分布 N (1600, 4002 ) , 从而有
1920 1600 P X 1920 1 P X 1920 1 400 1 (0.8) 1 0.7881 0.2119 .
5.解 设 X i 表示第 i 只电器元件的寿命,则依题意可知 X 1 , X 2 ,…, X 16 相互独立且服从 均值为 100 小时的指数分布, EX i 100 , DX i 1002 ( i 1,2,…,16).记 X X i ,则
i 1 16
EX EX i 16 100 1600 , DX DX i 16 10000 160000 .利用独立同分布的中心极限
9.解 由已知 EX i 性知
30 1 1 10 , DX i 100 .记 T X i ,由 X i ( i 1,2,…,30)的独立 2 0.1 0.1 i 1
30 30 30 30 ET E X i EX i 30 10 300 , DT D X i DX i 30 100 3000 . i 1 i 1 i 1 i 1

概率论与数理统计第九章方差分析与回归分析

概率论与数理统计第九章方差分析与回归分析
9.当这个比值大到某种程度时,就可以说不同水平之间 存在着显著差异,也就是自变量对因变量有影响。
2020/8/2
版权所有 BY 张学毅
11
六、离差平方和与自由度的分解
总离差平方和 ST ( sum of squares for total)
1)全部观察值 Xij与总均值 X 的离差平方和;
2)反映全部观察值的离散状况。
若方差分析中考察的因素只有一个时,称为单因素方差分 析;若同时研究两个因素对试验指标的影响时,则称为两因
素试验。同时针对两个因素进行,则称为双因素方差分析。
2020/8/2
版权所有 BY 张学毅
2
二、单因素方差分析的数据结构
2020/8/2
版权所有 BY 统计学课程组
3
2020/8/2
版权所有 BY 张学毅
2020/8/2
版权所有 BY 张学毅
6
四、单因素方差分析的数学模型
由于 xij : N(j , 2 ), ij xij j : N(0, 2 )
则有单因素方差分析的数学模型1:
xij j ij
ij
:
N(0, 2),各ij 相互独立。
2020/8/2
版权所有 BY 张学毅
7
四、单因素方差分析的数学模型
3)该平方和既包括随机误差,也包括系统误差。 计算公式为:A
X.j X nj X.j X
i1 j1
j 1
误差平方和(组内平方和)
SE :Sum of squares for error
1)每个水平或组的各样本数据与其组平均值的离差 平方和;
2)反映每个样本各观察值的离散状况,又称组内离 差平方和;
变差源

《概率论与数理统计》实验报告 方差分析以及回归分析

《概率论与数理统计》实验报告 方差分析以及回归分析
0.177979
小麦品种P值=0.013364<
0.05,试验田因素P值=0.177979>
0.05所以认不同小麦品种对收获量有显著影响,而试验田不同对收获量无显著影响
3.某粮食加工产试验三种储藏方法对粮食含水率有无显著影响,现取一批粮食分成若干份,分别用三种不同的方法储藏,过段时间后测得的含水率如下表:
第3步:在出现的对话框中输入相关的内容->点击【确定】按钮,得到方差分析结果。
P-value
2.62E-05
0.136299
0.000591
收缩率P值=0.0000262<0.05,拉伸倍数P值=0.136299>0.05,交互因素P值=0.000591<0.05,所以认为收缩率及其与拉伸倍数的交互作用对纤维弹性有显著影响,而单拉伸倍数对纤维弹性无显著影响。
(2)样本相关系数为:0.68557.
(3)P值=0.0199<0.05,所以认为线性关系显著。
2.随机调查10个城市居民的家庭平均收入 与电器用电支出Y情况得数据(单位:千元)如下:
收入
18
20
22
24
26
支出
0.9
1.1
1.1
1.4
1.7
收入
28
30
30
34
38
支出
2.0
2.3
2.5
2.9
3.1
(1)求电器用电支出y与家庭平均收入 之间的线性回归方程;
(2)计算样本相关系数;
(3)在显著性水平 0.05下,作线性回归关系显著性检验;
(4)若线性回归关系显著,求 =25时,电器用电支出的点估计值.
第1步:进入Excel表–>选择【工具(T)】,在下拉菜单中选择【回归】->点击【确定】按钮。

第一节 单因素试验的方差分析

第一节 单因素试验的方差分析

第八章 方差分析与回归分析第一节 单因素试验的方差分析在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。

例如,在工业生产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中,影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个人能力、经历及机遇等偶然因素的影响. 虽然在这众多因素中,每一个因素的改变都可能影响最终的结果,但有些因素影响较大,有些因素影响较小. 故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素. 方差分析就是根据试验的结果进行分析,通过建立数学模型,鉴别各个因素影响效应的一种有效方法.分布图示★ 引言★ 基本概念 ★ 例1★ 例2★ 假设前提 ★ 方差分析的任务★ 偏差平方和及其分解 ★ E S 和A S 的统计特性 ★ 检验方法★ 例3★ 例4★ 习题8-1内容要点一、基本概念在方差分析中,我们将要考察的对象的某种特征称为试验指标. 影响试验指标的条件称为因素. 因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等因素);另一类人们无法控制的(如上例中员工素质与机遇等因素).今后,我们所讨论的因素都是指可控制因素。

因素所处的状态,称为该因素的水平. 如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验. 为方便起见,今后用大写字母,,,C B A 等表示因素,用大写字母加下标表示该因素的水平,如 ,,21A A 等.二、假设前提设单因素A 具有r 个水平,分别记为,,,,21r A A A 在每个水平),,2,1(r i A i 下,要考察的指标可以看成一个总体,故有r 个总体,并假设:(1) 每个总体均服从正态分布; (2) 每个总体的方差相同;(3) 从每个总体中抽取的样本相互独立.那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第i 个总体的均值为i μ,则假设检验为 .:210r H μμμ=== 备择假设为 .,,,:211不全相等r H μμμ 通常备择假设可以不写.在水平),,2,1(r i A i =下,进行i n 次独立试验,得到试验数据为,,,,21i in i i X X X 记数据的总个数为n =.1∑=ri i n由假设有 ~ij X ),(2σμi N (i μ和2σ未知),即有-ij X i μ~),,0(2σN 故-ij X i μ可视为随机误差.记-ij X i μ=ij ε,从而得到如下数学模型:⎩⎨⎧==+=未知和相互独立各个2i 2, ),,0(~,,2,1,,,2,1,σμεσεεμij ij iij i ij N n j r i X (1) 方差分析的任务:1) 检验该模型中r 个总体),(2σμi N ),,2,1(r i =的均值是否相等; 2) 作出未知参数r μμμ,,,21 , 2σ的估计.为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念. 称各均值的加权平均,11∑==ri ii n nμμ为总平均. 其中n =.1∑=ri i n 再引入,μμδ-=i i ,,,2,1r i =i δ表示在水平i A 下总体的均值i μ与总平均μ的差异,称其为因子A 的第i 个水平i A 的效应.易见,效应间有如下关系式:,0)(11=-=∑∑==ri iir i ii n n μμδ利用上述记号,前述数学模型可改写为⎪⎪⎩⎪⎪⎨⎧===++=∑=未知和相互独立各个2i 21,),,0(~0,,2,1,,,2,1,σμεσεδεδμij ijr i i i r ij i ij N n n j r i X (2) 而前述检验假设则等价于:.,,,:.:211210不全为零r r H H δδδδδδ ===三、偏差平方和及其分解为了使造成各ij X 之间的差异的大小能定量表示出来,我们先引入:记在水平i A 下数据和记为: ∑==in j ij i X X 1.,其样本均值为.i X =,11∑=in j ij iXn 因素A 下的所有水平的样本总均值为X =∑∑==ri n j ij iX n111=∑=ri i Xr 1.1,为了通过分析对比产生样本ij X , r i ,,2,1 =,k j ,,2,1 =之间差异性的原因,从而确定因素A 的影响是否显著,我们引入偏差平方和来度量各个体间的差异程度:=T S ∑∑==-ri n j ij iX X 112)( (3)T S 能反映全部试验数据之间的差异,又称为总偏差平方和.如果0H 成立,则r 个总体间无显著差异,也就是说因素A 对指标没有显著影响,所有的ij X 可以认为来自同一个总体),(2σμN ,各个ij X 间的差异只是由随机因素引起的。

单因素试验方差分析(试验数据处理)概论

单因素试验方差分析(试验数据处理)概论
将SSA ,SSe分别除以dfA,dfe,得:
MS A SSA / dfA MSe SSe / dfe
称MSA 为组间均方(mean square between group)
称MSe为组内均方(mean square in group) 或误差的均方(error mean square)
(5)F检验
* * F MSA 467.36 31.10 MSE 15.03
F0.01 2,6 10.92 F0.05 2,6 5.14
则称因素A无显著影响,无标记。
例2 以 A、B、C 三种饲料喂猪,得一个月后每猪 所增体重(单位:500g)于下表,试作方差分析。
饲料
增重
A
51
40
43
48
B
23
25
26
C
23
28
解:T1 51 40 43 48 182, X 1 45.5
T2 23 25 26 74, X 2 24.6
列平均Xi Ti ni X 1
(组内平均值)
X 2 ...
Xr
X
1 n
r i 1
ni X i
r
(总平均值)
其中诸 ni 可以不一样,n i1 ni
(2)计算离差平方和
总平方和: (sum of square for total )
r nj
SST
( X ij X )2
j1 i1
r nj
MSe SSe / dfe 90.17 / 6 15.03
(5)F检验
* * FA MSA 467.36 31.10 MSe 15.03
F0.01 2,6 10.92 F0.05 2,6 5.14

第三节__单因素试验资料的方差分析

第三节__单因素试验资料的方差分析

上一张 下一张 主 页
退 出
3、多重比较 采用新复极差法,各处理 、 采用新复极差法, 平均数多重比较表见表6-14。 。 平均数多重比较表见表
表6-14 不同品种母猪的平均窝产仔数 多重比较表(SSR法) 多重比较表 法
上一张 下一张 主 页
ቤተ መጻሕፍቲ ባይዱ退 出
因为MSE=3.14,n=5,所以 S x 为: , 因为 ,
(6-28)
SSE = SST − SSB
上一张 下一张 主 页 退 出
df T = N − 1, df b = k − 1, df e = df T − df b
(6-28)
个不同品种猪的育肥试验, 【例6.4】 5个不同品种猪的育肥试验,后期 】 个不同品种猪的育肥试验 30天增重 天增重(kg)如表 如表6-16所示。试比较品种间增重 所示。 天增重 如表 所示 有无差异。 有无差异。 个品种猪30天增重 表6-16 5个品种猪 天增重 个品种猪
上一张 下一张 主 页 退 出
表6-18 5个品种育肥猪平均增重 个品种育肥猪平均增重 多重比较表(SSR法) 多重比较表 法
上一张 下一张 主 页
退 出
根据df 根据 e=20,秩次距 ,秩次距k=2,3,4,5,从SSR表中查 , 表中查 的临界SSR值,乘以 出α=0.05与α=0.01的临界 与 的临界 值 =0.625, ,
Sx =
M SE / n = 3 . 14 / 5 = 0 . 793
根据dfe=20,秩次距 根据 ,秩次距k=2,3,4,5由SSR表查 , , , 由 表查 的各临界SSR值,乘以 出α=0.05和α=0.01的各临界 和 的各临界 值 , S x即
得各最小显著极差,所得结果列于表 得各最小显著极差,所得结果列于表6-15。 。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

其次, 同一品种下数据表现出来的差异称为试验(随
机)误差, 这是由客观条件的偶然干扰造成, 与因素(品种) 无直接联系.
方差分析正是分析两类误差的有效工具.
本问题只考虑品种一种因素,故是单因素试验,即只有
一个因子,记为 A, 5个不同的品种就是该因子的5个不同 的水平,分别记为 A1 , A2 , A3 , A4 , A5 , 由于同一品种在不 同的田块上的亩产量不同,故可以认为一个品种的亩产 量 就是一个母体,在方差分析中,总是假定各母体相互独 立地服从同方差的正态分布,即第 j 个品种的亩产量是 一个随机变量,它服从正态分布:
nj
ns , 称为总平均,
它是从 s 个总体中抽得的样本的样本均值.
用样本值 xij 与总平均
x 之间的偏差平方和来反映
种子品种代 号 (水平)
重复试验序号及作物实测产量 1 128 125 148 2 126 137 132 3 139 125 139 4 130 117 125 5 142 106 151 133 122 139
A1 A2
A3
这里试验的指标是作物产量, 作物是因素, 三种种 子品种代表三个不同的水平. 首先,形成数据差异的直接原因是种子的不同品 种.因此, 每个品种下产量的均值差异检验是我们的主 要任务.这种由因素(种子品种)造成的差异称为条件(系 统)误差.
H 0 : 1 2 s 0, H1 : 1 , 2 , , s 不全为零.
(二) 离差平方和分解 引入记号
nj
1 xj nj
s
x
i 1
ij
( j 1, 2,
, s) 水平Aj下的样本均值,
称为组内平均(或列平均)
1 x xij , n n1 n2 n j 1 i 1
在试验中变化的因素称为因子,用A、B、C ...... 表示, 因子在试验中所取的不同状态称为水平,因子A的不同水
平用A1 , A2 , 变量。
, As表示。以下用字母 x, y,
等表示随机
例1 为考察种子品种对作物产量的影响, 同一 作 的种子, 分别在条件大 物选用三个命名为 A1 , A2 , A3 体 相同的 5 块等面积的小田块上试种, 其作物产量 ( 单 位 : kg),如下表,试分析种子的不同品种对作物产量 的 影响.
j 1
s
j j ( j 1, 2, , s)
j A的第 j 个水平的效应, 表示水平 Aj下的总体平均
值与总平均的差异, 效应间的关系:
n
j 1 j
s
j
0
利用上述记号, 将单因素试验方差分析模的型改写 成如下形式: X ij j ij , 2 ij ~ N (0, ), 各 ij 相互独立, ( 3) i 1, 2, , n j , j 1, 2, , s. n11 n2 2 ns s 0. 显然,当且仅当 1 2 s 时, j , 即 j 0 ( j 1, 2, , s) 由此知假设(2)等价于假设
N ( j , ), j 1, 2,3, 4,5.
2
试验的目的是检验假设 是否成立。
H 0 : 1 2 3 4 5
二、单因素试验的数学模型
设在单因素试验中,所考察的因素为A,A有 s 个水平
j 1, 2, A1 , A2 , A3 , , As , 现在 Aj 水平下做了 nj 次试验,
X j N ( j , 2 )
要检验的假设是:
H 0 : 1 2 H1 : 1 , 2 ,
s , s 不全相等
( 1)
我们假定各个水平Aj下的样本 X1 j,X 2 j, ,X n j 为
j
来自具有相同方差σ2 均值分别为 j ( j 1, 2,
, s) 的正
态总体 N ( j , 2 ), j 与σ2 均未知. 设不同水平 Aj下的 样本之间相互独立. 由于 X ij ~ N ( j , 2 ), X ij j ~ N (0, 2 ), 从而将 X ij j 可看成随机误差, 将其记作 ij , 则 X ij 可表为 X ij j ij
相等,即检验下述假 设
, s) 的均值是 否
H 0 : 1 2 H1 : 1 , 2 ,
2. 对未知参数 j ( j 1, 2,
s , s 不全相等
, s) 及σ2进行估计.
( 2)
引入记号
1 s nj j n j 1
其中 n n j , μ称为总平均.
第 九 章
方差分析与回归分析
第一节 单因素试验的方差分析 一、方差分析原理 把考察事物的结果称为试验结果,也称为试验指标.
影响试验指标的条件称为因素。
因素可分为两类: 一类是人们可以控制的,称为可控因素; 另一类是人们不能控制的,称为不可控因素。 为了考虑某个因素A对所考察的随机变量X的影响, 可以在实验时让其他因素保持不变,而仅让因素A改变, 这样的试验称为单因素试验,因素A所处的状态称为水 平。
试验的实测数据由下表给出:
, s.
A1
A2
As
x11
x21
xn11
x12 x22
xn2 2
x1s
x2 s
xns s
为考察因素对指标的影响, 把第 j 个水平 Aj下的实测 数据 X1 j , X 2 j , , X n j 看做是从第 j 个总体 X j 中抽取的容
j
量为 n j 的样本 ( j 1, 2, , s). 在方差分析中总是假定 s个总体相互独立且服从相 同方差(未知)的正态分布. 即水平 Aj 对应的总体
ij ~ N (0, ), 各 ij 相互独立, i 1, 2, , n j , j 1, 2, , s,
2
此即单因素试验方差分析的数学模型.
三、单因素方差分析及其显著性检验的方法
(一) 方差分析的任务
2 N ( , ) ( j 1, 2, 1. 检验 s 个总体 j
相关文档
最新文档