数理统计典型例题分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
典型例题分析
例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。
解 以21
S 和22
S 分别表示两个(修正)样本方差。
由22
22
12σσy x S S F =知统计量
22
2
1222175.13520S S S S F ==
服从F 分布,自由度为(7,9)。
1) 事件{}2
2
212S S =的概率 {}{}05.32035235
20222221222122
2
1
===⎭⎬⎫
⎩⎨⎧⨯==⎭⎬⎫⎩⎨⎧===F P S S P S S P S S P
因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等于0。
2) 现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率:
{}
{}5.322
221≥=≥=F P S S P p 。
由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值:
)9,7(20.45.329.3)9,7(025.005.0F F =<<=。
由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<<p 。
例2.设n X X X ,,
, 21是取自正态总体),(2σμN 的一个样本,2s 为样本方差,求满足不等式
95.05.122≥⎭⎬⎫
⎩⎨⎧≤σS P 的最小n 值。
解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度
1-=n v ,于是,有
{}{}95.0)1(5.1)1(5.1)1(2,05.0222
2=≤≥-≤=⎭
⎬⎫⎩⎨⎧-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2
,05.0v χ是自由度为1-=n v 的水
平05.0=α的2χ分布上侧分位数(见附表)。
我们欲求满足
2,05.015.1v n χ≥-)(
的最小1+=v n 值,由附表可见
2
26,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。
于是,所求27=n 。
例3.假设随机变量X 在区间[]1,+θθ上有均匀分布,其中θ未知:
)(1n X X ,, 是来自X 的简单随机样本,X 是样本的均值,{}
n X X X ,,min 1)1( =是最小观察值。
证明
21ˆ1-=X θ 和 11ˆ12+-=n X )
(θ 都是θ的无偏估计量。
解 由X 在[]1,+θθ上均匀分布,知2/)12(+==θEX EX i 。
1) 由
θθθθ=-+=-+=-=∑∑==2
121212221211ˆ111n i n i i n EX n E , 可见1ˆθ是θ的无偏估计量。
2) 为证明2ˆθ是θ的无偏估计。
我们先求统计量)1(X 的概率分布。
{}⎪⎩
⎪
⎨⎧>+≤≤-<=≤=。
若,;若;若)(111,,0θθθθθx x x x X P x F
其密度为
⎩
⎨⎧+≤≤=。
其他,
若,01,1)(θθx x f
由于n X X ,,
1独立且与X 同分布,知)1(X 的分布函数为 {}{}{}x X x X P x X P x X P x F n >>-=>-=≤=,,111)1()1(1 )
()( {}{}x X P x X P n >>-= 11 []n
x F )(11--=;
[])1()1()()(1)()(1
1
)1()1(+≤≤-+=-='=--θθθx x n x f x F n x F x f n n
于是,有
⎰
⎰
+-+-+==1
11)1()1()1()(θθ
θθ
θdx x x n dx x xf EX n
⎰
⎰
+-+-+++-+-+=111
)1)(1()1()1(θθ
θθ
θθθθdx x n x d x n n n
θθ++=
⎪⎭
⎫ ⎝⎛
+++-=11111n n n n 。
θθ=+-=1
1
ˆ)
1(2n EX E , 从而2ˆθ是θ的无偏估计。
在证2ˆθ的无偏估计时,先求估计量分布再求其数学期望。
此外,下面将看到,1ˆθ是矩估计量,)1(X 是最大似然估计量。
3) 有效性的验证,即验证两个无偏估计量哪一个更有效(方差较小),只需 计算它们的方差并加以比较,验证估计量的最小方差超出了本课程的要求。
读者只需了解一些常用的最小方差估计量。
例如,对于正态分布总体),(2σμN ,样本
均值X 和修正样本方差2S 相应为μ和2σ的最小方差无偏估计量;事件频率n p
ˆ
是它的概率p 的最小方差无偏估计量。
如果要求有效率,则用公式
)ˆ()(0θ
θD D 计算,其中()2
),(ln 1
)()ˆ(⎥⎦
⎤
⎢⎣⎡∂∂=≥θθθθx f nE D D ——称为罗.克拉美不等式。
例4.设总X 服从正态分布),(2
0σμN ,其中方差20σ为已知常数;关于未
知数学期望μ有两个二者必居其一的假设: 1100μμμμ==:,:H H ,
其中0μ和1μ都有已知常数,并且10μμ<。
根据来自总体X 的简单随机样本
n X X X ,,, 21,确定假设0H 的α水平否定域(即拒绝域),并计算第二类错误
概率。
解 取统计量 n
X U 0
σμ-=
做检验的统计量。
在假设00μμ=:H 成立的条件下,),(10~N U 。
由于
{}{}{}{}ααααα=≤=-≤=≥=≥-122u U p u U P u U P u U P 。
所以以下四种都是假设0H 的水平α的否定域: {}{}αα221u U V u U V ≥=≥=;; {}{}αα-≤=-≤=1423u U V u U V ;, 其中αu 是标准正态分布α水平双侧分位数(见附表)。
在假设11:μμ=H 成立的条件下,统计量)1,(~∆N U ,其中
001/)(σμμ-=∆n 。
因此,以)4,3,2,1(=i V i 为假设否定域的检验的第二类错误概率为:
{}{}⎰∆--
=
===i
V x i i dx e V P H V P 2
)(112
21
π
μμβ。
特别(设)(x Φ是标准正态分布函数)
1)()(21
21
2
2
)(12
2
-∆-Φ+∆+Φ==
=⎰⎰∆
-∆
---∆--
ααμπ
π
βαμα
α
u du e dx e
u u u u u x ;
)(21
22
)(222
∆-Φ==⎰∞
-∆--
αα
πβu dx e
u x ; )(21
22
)(322
∆+Φ==
⎰∞
+-∆--
αα
π
βu dx e
u x ;
)()(221
21112
)(2
)(412
12
∆-Φ-∆+Φ-=+
=
--∞
+∆--∞
-∆--
⎰⎰--ααμπ
π
βα
α
u dx e
dx e
u x u x 。
为了便于比较,设91101.0010=====n ;,,,σμμα,则
13.0,28.1,65.1,39.02.01.0====∆u u u 。
查附表并经计算,容易得到
9988.09999.00427.00855.04321====ββββ,,,。
计算结果表明,尽管四个检验的一类错误的概率都等于1.0=α,但它们的第二类错误的概率却不相同。
以2V 为否定域的检验的第二类错误的概率最小,为我们所选用。
例5.对二项分布),(p n B 作统计假设 3.0:,6.0:10==p H p H 。
假设0H 的否定域取为
{}{}21c c V n n ≥≤=μμ ,
其中n μ表示n 次试验中成功的次数。
对(1);3,9,1,1021====n c c n μ (2)6,17,7,2021====n c c n μ,求显著性水平α和第二类错误的概率β。
解 (1)显著性水平α是第一类错误的概率,于是 {}{}6.00=∈=∈=p V P H V P n μμα
0479.04.06.04
.06.010
9
10101
1010
≈+=∑∑=-=-i i i i
i i
i
i C C 。
{}{}111H V P H V P n n ∈-=∈=μμβ {}3.01=∈-=p V P n μ 8506.07.03.07
.03.0110
910101
01010
≈--=∑∑=-=-i i i i
i i
i
i
C C 。
(2)
{}{}6.00=∈=∈=p V P H V P n n μμα 0370.04.06.04
.06.020
17207
02020
≈+=∑∑==-i i i i
i i
i
i
C C 。
{}{}3.011=∈-=∈=p V P H V P n n μμβ 2277.07.03.07
.03.0120
1720207
02010
≈--=∑∑=-=-i i i i
i i
i
i
C C 。
例6.谋装置的平均工作温度据制造厂家称不高于190℃。
今从一个由16台装置构成的随机样本册的工作温度的平均值和标准差分别为195℃和8℃。
根据这些数据能否说明平均工作温度比制造厂所说的要高?设05.0=α,并假定工作温度服从正态分布。
解 设工作温度为X ,根据题设),(~2σμN X 。
考虑假设 190,190:10>≤H H μ 由于总体方差2σ未知,故用t 检验。
这里,151,16=-==n v n 对给定的05.0=α,查表得75.15.1,1.0,20==t t v 。
于是由表情形知假设0H 的否定域为
{}75.1≥=t V 。
由条件和0H 知8,195,1900===S X μ,因此
5.216
/8190195=-=
t 。
由于75.15.2>=t ,所以否定域假设0H ,说明平均工作温度比制造厂说的要高。
例7 某电话交换台在一小时(60分钟)内每分钟接到电话用户的呼唤次数
有如下纪录:
问统计资料是否可以说明,每分钟电话呼唤次数服从泊松分布?()
05.0=α 解 设X 表示每分钟电话呼唤次数,需要检验的假设 X H :0服从泊松分布。
泊松分布中未知参数λ的最大似然估计为
∑===6
2601ˆk k kv λ。
我们用
)6,,1,0(!
2ˆ ==-k e k p
k k k
估计概率{})6,,1,0( ===k k X P p k ;用)4,3,2,1,0(ˆ==k p
n E k k 估计{}k X =的期望频数。
为避免期望频数太小,将呼唤次数为5和6的情况,合并为5≥X 的情况,为第6组:其实际频数为2+1=3,期望频数为 16.3)(655=+=p p n E 。
计算结果列入下表:
所以统计量
1762.0)(5
02
2
=-=∑=k k
k k E E v χ。
统计量2χ的自由度16-
-=m v ,其中1=m 是用到参数估计值的个数,故4=v 。
对于, 05.0=α,查表得488.92
4,05.0=χ;假设0H 的否定域为
{}488.92≥=χV 。
由于2χ=0.1762<9.488,所以不否定假设0H ,即可以认为电话呼唤次数服从泊松分布。
例8 对200个电池左寿命试验,得如下统计分布:
试求所得统计分布与指数分布的拟合优度。
解 设X 表示电池的寿命,需要检验假设X H :0服从指数分布。
指数分布中未知参数λ需要用其最大似然估计X /1=λ来估计。
在这里
5)15.2725.2245.17155.12455.71335.2(200
1
=⨯+⨯+⨯+⨯+⨯+⨯=
X 。
所以5/1ˆ=λ。
在5/1:0服从指数分布,参数为“X H ”
成立前提下,观察值落入各组的概率
{})6,,2,1(5
1ˆ5
5
5
111 =-==≤=-
-----⎰i e
e
dx e u X u P p
i i i
i u u u u x
i i i 。
计算结果列入下表:
所以统计量
∑=-=6279.1)(2
2
i
i i E E v χ。
统计量2χ的自由度4116=--=v ,查表得24,94.0χ=1.064,195.22
4,7.0=χ。
由于
1.064<1.6297<
2.195,的可得统计分布与指数分布的拟合优度不小于0.70。
例9设随机变量X 和Y 相互独立,),(~),,(~2
2
2211σμσμN Y N X 。
1621,,,X X X
是X 的一个样本,1021,,,Y Y Y 是Y 的一个样本,测得数据
∑∑∑∑========10
1
2101
161
216
1
72,18,563,84i i i i i i i i
y y x x
(1)分别求21,μμ的矩估计量;(2)分别求2
221σσ,的极大似然估计值; (3)在显著水平05.0=α下检验假设 22210σσ≤:H ,2
2211σσ>:H 。
解 (1)用样本一阶原点矩估计总体一阶矩,即得1μ和2μ的矩估计值:
8.1101ˆ,25.5161ˆ10
1
21611=====∑∑==i i i i y x x μμ。
(2)正态总体),(~2σμN X 的参数2σ的极大似然估计量为
∑=-==n i i X X n 1
22
)(1ˆσ。
因此2
221σσ和的极大似然估计值为
625.716161)(161ˆ1611222
21
=⎪⎭
⎫ ⎝⎛-=-==∑∑==i n i i i x x x x σ
96.316101)(101ˆ1011222
22
=⎪⎭
⎫ ⎝⎛-=-==∑∑==i n i i i y y y y σ
(3)是21,μμ未知,双总体方差的假设检验。
待检假设2
2210σσ≤:H ;
2
2211σσ>:H ,是在05.0=α下的单侧检验。
因为4.4)(91,31.8)(1511
21221221
=-==-=∑∑==n i n i i y y S x x S 。
所以F 同机量得
值
847.14.415
.822
21===S S F
查F 分布表,得01.391505
.0=),(F .经比较知,01.3)9,15(847.105.0=<=F F ,故接 受0H ,认为2
221σσ不比大。
例10 有三台机器,生产同一种规格的铝合金薄板,测量三台机器所生产的 薄板厚度(单位:厘米),得结果如表所示。
机器1 机器2 机器3 0.236 0.257 0.258 0.238 0.253 0.264 0.248 0.255 0.259 0.245 0.254 0.267 0.243
0.261
0.262
试考察机器对薄板厚度有无显著的影响)
(05.0=α。
解 检验假设3210μμμ==:H 。
i μ是各台机器生产的薄板总体的均值。
经计算15,5,3321=====n n n n s ,
8102.4,8.3,963912.03
1
2315
1
2
===∑∑∑=⋅==j j j i ij
T T x。
3
001245.015
12
3
15
1
2
=-
=∑∑==T x S j i ij T , 3
001053.015
151312
2 =-=∑=⋅j j A T T S , 000192.0=-=E T E S S S .
列出方差分析表如下
因为92.3293.821205
.0=<=比),(F F ,故拒绝0H ,认为各台机器生产的薄板厚度有显著差异。
在进行方差分析时,还常要对未知参数进行估计。
下面写出常用的几个估计:
①s
n S E
-=2ˆσ
是的无偏估计。
②j j x x ⋅==μμ
ˆ,ˆ分别是j μμ,的无偏估计。
③x x j j -=⋅σ
ˆ是j δ的无偏估计,且∑=0j j n δ。
④两总体),.(2σμj N 与),(2σμK N 的均差值k j μμ-的置信度为α-1的置信区间为
))11()((k j E k j n n S s n t x x +--⋅⋅α 。
例11 求上例中未知参数j j δμσ,,2的点估计及均值差的置信度为0.95的 置信区间。
解 000016.03
15000192
.0ˆ2=-=-=s n S E σ
, 262.0ˆˆ256.0ˆ240.0ˆ332211======⋅⋅⋅x x x μμμ
,,, 011.0ˆ253.0ˆ1
-=-===⋅x x x δμ,, 又由1788.2315025
.0=-)(t , 36
10256.15
2
10
1611--⨯=⨯⨯=+k j E n n S (, 知0055.01112025.0=+k j E n n S t ()(,故323121μμμμμμ---及,的置信度为0.95的置信区间分别为
(0.242-0.256 0.0055)=(-0.0195,-0.0085), (0.242-0.262 0.0055)=(-0.0255,-0.0145), (0.256-0.262 0.0055)=(-0.0115,-0.0005)。
例12 某工厂在生产一种产品时使用了三种不同的催化剂和四种不同的原 料,每种搭配都做一种试验,测的产品成品的压强(单位:兆帕)数据如下表:
试在05.0=α下检验不同催化剂和原料对压强有无显著影响。
解 设i α为因素A 在水平i A 的效应,j β为因素B 在水平j β的效应。
待检验 假设
032101===ααα:H ,
0432102====χβββ:H 。
因为43==s r ,,所以
67.984364
31159402
=⨯⨯-
=)(T S , 17.2543643163466412
=⨯⨯-⨯=)(A S ,
34.693644
3147732312
=⨯⨯-⨯=)(B S ,
16.4=--=B A T E S S S S 。
列出方差分析表如下
因为35.3376.4)6,3(16.18145.62(05.005.0=<==<=比比,),
F F F F ,所以拒绝01H 和02H ,认为催化剂和原料的影响都是显著的。
例13 设关于某设备的使用年限x 和支出的维修费用(单位:千元)y 如下 所示:
求(1)关于x 的回归方程,2σ的无偏估计;
(2)检验回归是否显著,并求7=x 时,维修费用y 的0.95预测区间。
解 (1)左散点图(略),数据分布呈直线趋势。
列计算表:
并计算下列数据:
,
)(1020519012
112=⨯-=⎪⎭
⎫ ⎝⎛-=∑∑==n i i n
i i
xx x n x l 3
.12252051
3.1121111=⨯⨯-=⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛-=∑∑∑===n i i n i i n
i i i xy y x n y x l 78.15255178.14012
2
11
2=⨯-=⎪⎭⎫ ⎝⎛-=∑∑==)(n i i n
i i yy
y n y l ,
解得 23.110
3.12ˆ===xx xy l l b
, 08.0423.15ˆ1ˆ1
=⨯-=-=∑=x b y n a
n
i i 。
所以,线性回归方程为
x y
23.108.0ˆ+=。
2σ的无偏估计为
8837.0)3.11223.178.140(3
1)ˆ(21ˆ2=⨯-=--=xy
yy l b l n σ。
(2)将70=x 代入回归方程得69.8ˆ0=y。
因为35.2)3(,5025.0==t n ,所以0y 的置信度为0.95的置信区间为
))(11ˆ)2(ˆ2020xx l x x n n t y
-++-±σα( )893.11,487.5()45.194.035.269.8(=⨯⨯±=。
计算t 统计量
187.13908837
.023
.1ˆˆ===xx l b t σ。
因为187.131824.3)3(025.0=<=t t ,故知回归效果是显著的。
例14(单因素方差分析)下表给出了小白鼠在接种三种不同菌型伤寒杆菌后的存活天数,问
三种菌型的平均存活天数有无显著差异? 表4-3
6
Ⅲ型(3A ) 7 11 6 6 7 9 5 10 6
67
计算:222.6,444.7,22.7,4321====X X X X
()()8889.66)168(27
1
44894225129691271)(9111224
53351517667
,65,3622
12
322211212
3219
12
3219
1
=-++=⎪
⎭⎫ ⎝⎛-++=⎪⎭⎫ ⎝⎛-==++=++=====⇒=∑∑∑∑∑=====r i i r i i r
i i
i
A j ij i j ij i S S S S S n n S Q SS SS SS x SS S S S x S
()6667.1788889.667778.1117778
.1112222.111253351517693
1
2
3
1=+=+==-++=-=∑∑==A E T i i i i E Q Q Q S SS Q 列成表格 如下,其中,27,3==n r 方差来源 平方和
自由度 均方 F 值 因素 8889.66=A Q
2 33.4445 7.1809 误差 7778.111=E Q
24 4.6574 总和
6667.178=T Q
26
657
.424
7778.1114445.332
8889
.6612
2==-===-=
r n Q S r Q S E E A A
1809.76574
.44445.33220===E A S S F ,查表 ()40.324,205.0=F
对给定的显著水平05.0=α,查表,40.3)24,2(05.0=F 因
40.3)24,2(1809.705.0=>=F F ,故拒绝0H ,即认为这三种不同菌型的伤寒杆菌
的平均存活天数有显著差异。
例15.(正交试验)为了制造轴承,寻求新钢种最佳等温淬火工艺。
考察试验指标是径向抗压负荷与硬度,对试验指标有影响的主要因素:加热温度(单位:
C 0
)
,等温温度 (单位:C 0),淬火返修次数(单位:次),将因素列如下表。
因为是3元素3水平,选择正交表)3(49L 合适。
制定试验方案表
确定试验方案 在上表中,每一个横行就代表了一个试验条件,共有9个试验条件。
等1号试验条件是:加热温度是900C 0(1A ),等温温度是250C 0()1B ,返修次数是2次(3C ),记作为 311C B A ,类似地第2号试验条件是 ,112C B A ,第9号试验条件是333C B A 。
试验方案的实施 按正交表中的试验条件严格操作。
将各次的试验结果记录
下并列如下表中。
其中 jk T ——第j 列因素水平)3,2,1(=k k ,3
jk jk T T =——第j 列因素水平k 的
3次试验指标的平均
例 ,6.194.87.55.5)(11=++=负荷T 对因素B ,有硬度25.573/)325.57(23=⨯=T 。
2.633
1==∑=k jk j
T S (负荷)——各因素的3个水平的负荷之和 15.5831)(3
1==∑=k jk j T S 硬度——各元素的3个水平平均硬度。
)(负荷j R ={}{}3
13
1min max ≤≤≤≤-k jk jk k T T
j R (硬度)={}{}jk k jk k T T 3
13
1min max ≤≤≤≤-
正交试验结果的分析
1. 直接看:(1)比较9次试验的负荷:抗压负荷最高的试验条件是232C B A , 即第8号试验,其次是131C B A (第7号试验),123C B A (第6号试验),112C B A (第2号试验)。
(2)再比较9次试验的硬度是:硬度的高低主要取决于等温温度,加热温度和返修次数对硬度无明显影响。
综合考虑,等2号试验的条件较好。
2. 计算分析;(1)负荷
因素A 平均负荷是C T 01288067.7→= 因素B 平均负荷是27.823=T 因素C 平均负荷是87.731=T
由此分析出132C B A 是最好的试验条件。
但这个条件在表中没有出现。
类似 (1)硬度——C AB 1
根据每个因素对试验指标的影响不同,区分出主次。
由上表可见 主——————— 次
负荷⎩⎨
⎧C
C A
C B 008800270次水平
因素
硬度⎩⎨⎧各水平
各水平水平因素
250C
C
A B
用极差大小来区分主次:若某因素的极差越大,则该因素对指标的影响就越 大。
结果可以看出是因素B 。
综合平衡考虑:硬度不能低于)(58HRC 。
在这一条件下高负荷的好水平组合为122C B A 。
试验结果的分析分别在正交 表中进行。
3. 方差分析
这是3元素3水平的无重复试验设计问题。
其效应模型为
是相互独立
各约束条件ijk ijk k k j j i i
ijk
k j i ijk N Y εσεγβα
εγβαμ),,0(~0,0,023
1
31
3
1
--===++++=∑∑∑===
设921,,,Y Y Y 表示从第1号试验到第9号试验的试验指标。
具体效应模型表示如下
9
33398232871317612365322542214321332112213111εγβαμεγβαμεγβαμεγβαμεγβαμεγβαμεγβαμεγβαμεγβαμ++++=++++=++++=++++=++++=++++=++++=++++=++++=Y Y Y Y Y Y Y Y Y 检验假设 0
:0:0
:321033210232101=========γγγβββαααH H H
总离差平方()∑∑===-=4
1
9
1
2
j j i i t SS Y Y SS
其中j SS ——第j 列的离差平方和,由于正交表具有均衡分散性和综合可比性的
特点,所以2
91312
9
1)(913133∑∑∑===-=⎪⎪⎭
⎫ ⎝
⎛-=i i i jr r jr
j Y T Y T SS ()⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎭⎫ ⎝⎛-+++⎪⎭⎫ ⎝⎛-+++⎪⎭⎫
⎝
⎛-++=⎪⎭
⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛-=∑∑∑===29
19632918
522917412
132
122
1119139139133]
333[3i i i i i i Y Y Y Y Y Y Y Y Y Y Y Y E Y T
Y T Y T E SS E =()22
322
2123σααα+++ 同理 ()()2232221223σβββ+++=SS E
()()22
322
21323σγγγ+++=SS E ()242σ=SS E
记 A SS SS =1——为因素A 的平方和
B SS SS =2——为因素B 的平方和
C SS SS =3——为因素C 的平方和。
4SS ——1C SS
则
χ
σχσ~),
13(~2221
C C
SS SS -)13(~),
13(~),
19(~22
22
22
---χσχσχσB
A
t
SS SS SS
)13(~22-χσC SS ,)13(~221-χσC SS
当01H 为真时,检验统计量)2,2(~2
/2
/1F SS SS F C A A =分布;
当02H 为真时,检验统计量)2,2(~2
/2
/1F SS SS F C B B =
分布;
当03H 为真时,检验统计量)2,2(~2
/2
/1F SS SS F C C C =
分布。
若给定显著系性水平α,拒绝域()2,2αF F ≥, 当拒绝01H ,则认为因素A 对试验指标有显著影响; 当拒绝02H ,则认为因素B 对试验指标有显著影响; 当拒绝03H ,则认为因素C 对试验指标有显著影响;
利用正交表进行方差分析时,要确定自由度可以用如下方法。
t SS n f =-=1)总试验组数(总;
正交表每列的自由度
正交表总的自由度1-=该列数字种数列f
即每个因素平方和的自由度1-=该因素水平数因素f 正交表总的自由度=各自由度之和,即∑=列总f f ; 正交表空白列的自由度=误差平方和的自由度。
若无空白列,则将最小的离差平方和作为误差平方和,即 {}j k
j C SS SS ≤≤=1min 1。
将例7的关于抗压负荷的方差列如下表
方差分析表
效应是未知参数,应先求效应估计值,效应估计值大的所对应的水平是好水平。
前面已经分析过因素C A ,对试验指标的影响不显著,可以认为
0,0321321======γγγααα,所以 ()()()()()()3
987232654221
32121333333βμ
βμβμ+=++=+=++=+=++=Y Y Y E T E Y Y Y E T E Y Y Y E T E 由于Y =μ
ˆ 所以 Y T Y T Y T -=-=-=ˆ,3ˆ,3ˆ23
3222211βββ, 比较 321ˆ,ˆ,ˆβββ的大小,只需比较232221,,T T T 的大小,得出80.2423=T 最大,故因素B 的3水平是好水平。
结合直接看和计算分析,确定好的工艺条件为132C B A
例16 设关于某设备的使用年限X 和所支出的维修费用,有如下统计资料:
1) 建立关于),(Y X 的统计数据的散点图,并确定Y 对X 的统计相依关系的
特点;
2) 假设Y 对X 有一元线性回归的统计相依关系,求回归系数b a ,和2σ得无
偏估计;
3) 假设Y 对X 有一元正态线性回归的统计相依关系,试检验回归效果的显 著性;对于7=X ,求维修费用Y 的0.95预测区间。
1) 将点(2,2.2),(3,3.8),(4,5.5),(5,6.5),(6,7.0)标在坐标系 中,得散点图
由散点图可见,所给数据具有模型的特点。
2) 由散点图可见,可以用模型描述维修费用与使用年限的统计相依关
系,为估计b a , 和2σ,首先作如下计算:
x
Y
2x
xY Y ˆ 2)ˆ(Y Y
- )ˆ(Y Y
- 2 2.2 4 4.4 2.54
6.0516 0.1156 3 3.8 9 11.4 3.77 1.5129 0.0009 4 5.5 16 22.0 5 0 0.2500 5 6.5 25 32.5 6.23 1.5129 0.2700 6 7 36 42.0
7.46 6.0516
0.2116
20 25
90
112.3
15.1290 0.8481
将结果代入,得a 和b 得无偏估计。
23.14
5905
453.112ˆ2
2
2
=⨯-⨯⨯⨯=
--=∑∑x
n x Y
x n xY b
;
08.0423.15ˆˆ=⨯-=-=x b Y a。
2σ的无偏估计为
212
25317.02827.02
58481.0)ˆ(21==-=--=∑=n j j
j e
Y Y n s , 其中)5,4,3,2,1(23.108.0ˆˆˆ=+=+=j x x b a Y j
j j 。
3)为检验回归效果,计算统计量F 。
5161.532827
.01290
.153/===
e R Q Q F 。
查表,得13.10)3,1()2,1(05.0==-F n F α。
由于 )3,1(13.105161.5305.0F F =>=, 可见回归效果显著。
于是,可以利用回归防城建立使用年限为7=X ,应支付维修费用的预测区
间:69.87ˆˆˆ7
=⨯+=b a Y ,则 2
2
3
,05.0)(11)(x
e nS x x n t S x -++=δ, 其中4(18.35317.02827.053,05.0=====x t S n e 附表);;,,
245
901)(1212212
2=-=
-=-=∑∑==n j j n j j x
x x n x x n S 。
将相应数据代入上式,得
2)5(1253.0-+=x x )(δ,
12.2)57(1253.0)7(2=-+=δ 。
于是,使7年应支付费用的0.95预测区间为
),())(),((12.269.812.269.87ˆ7ˆ7
7+-=+-δδY Y ),(81.1076.5=。
例17 假设X 是一个普通变量,Y 是一个随机变量,且与X 有形如一元线 性回归的统计相依关系。
在X =0.25,0.37,…,0.95,1.00的条件下,独立地分别对Y 进行观察,得如下数据:
1) 求Y 对X 的经验回归方程; 2) 求DY =2σ的无偏估计;
3) 假设观测误差)17,,2,1( =j e j 服从正态分布),0(2σN ,(1)检验回归效 果是否显著;(2)求观测值Y 的0.95的预测区间;(3)问欲以不小于0.95的概率,把Y 值控制在区间(1.08,1.67),应把X 的值控制在何范围内?
解 由回归系数的估计,得22
20.0,58.1,70.0===X
s Y x ;回归系数a 和b 得罪小二乘估计07.2ˆ,03.3ˆ-==b a。
1) 经验回归方程为
X Y
07.203.3ˆ-=。
2)2σ无偏估计是按均方残差计算的,见下表:
于是,2σ的无偏估计值
217
1
22
04.0)07.203.3(2171=+--=∑=j j j E
x Y S 。
3)由条件知,所给数据符合模型。
由上面计算结果,可见
97.258.117ˆ)58.1ˆ(ˆ17
1
2217
1
217
1
2=⨯-=-=-=∑∑∑===j j
j j j j R Y Y Y Y Q )(。
(1) 检验回归效果,由统计量公式,则
25.186204.097.2)2/(2
2===-=
e R e R S Q n Q Q F 。
由附表知,86.8)15,1(01.0<F 。
可见
01.086.825.1862F F >>=,
说明回归效果非常显著。
(2) 预测区间。
这里,
13.2,2.0,04.0,7.0,05.0,1715,05.022
22======t S S x n x e α。
将上列数据代入,得
22
)7.0(72.0103.04.017)7.0(171104.013.2-+⨯=⨯-++⨯⨯=x x x )(δ。
于是,对于任意结合给定e bx a Y x ++=,的0.95预测区间为
))(07.203.3,)(07.203.3(x x x x δδ+---。
(3)为使Y 值以不小于0.95的概率处在区间(1.08,1.67)内,应将x 控制在区间),(21x x 之内,其中1x 和2x 相应为下列二个方程得解: 2)7.0(72.003.107.203.307.1-+--=x x , 2)7.0(72.003.107.203.307.1-++-=x x .
由第一个方程,得51.01≈x ,由第二个方程,得03.12≈x 。
于是,欲将Y 的值以不小于0.95的概率控制在区间(1.06,1.68)之内,应将x 控制在区间(0.51,1.03)之内。