概率论与数理统计 参数检验案例
《概率论与数理统计》案例

实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.每张彩票平均能得到奖金05512()10000500001010E X p =⨯+⨯++⨯0.5(),=元每张彩票平均可赚20.50.3 1.2(),--=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().⨯=元 实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则()80.320.71(),E X =⨯-⨯=万元存入银行的利息:1050.5(),%⨯=万元故应选择投资.实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500;3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100,0.x X x f x x Y -⎧>⎪=⎨⎪≤⎩ 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望解:11001{1}e d 10x P X x -≤=⎰0.11e -=-0.0952,= 21011{12}e d 10x P X x -<≤=⎰0.10.2e e --=-0.0861,= 31021{23}e d 10x P X x -<≤=⎰0.20.3e e 0.0779,--=-= 1031{3}e d 10x P X x +∞->=⎰0.3e 0.7408.-== Y 因而一台收费的分布律为()2732.15,E Y =得2732.15.即平均一台家用电器收费元例1 某单位内部有260部电话分机,每个分机有4%的时间要与外线通话,可以认为每个电话分机用不同的外线是相互独立的,问总机需备多少条外线才能95%满足每个分机在用外线时不用等候?解: 令),260,2,1(01 =⎩⎨⎧=k k k X K 个分机不要用外线第个分机要用外线第,26021,,,X X X 是260个相互独立的随机变量,且04.0)(=i X E ,26021X X X m +++= 表示同时使用外线的分机数,根据题意应确定最小的x 使%95}{≥<x m P 成立。
概率论与数理统计(第三版)第六章2正态总体均值的假设检验-文档资料

|拒绝域 x
在这个检验问题中, 我们都是利用统计量
X 0 U 来确定拒绝域的 , 这种检验法称为 / n
U检验法 .
例2 某化学日用品厂用包装机包装洗衣粉. 包装机正常工作时, 包装量 X ~ N(500, 22), 每天开工后须先检查包装机工作是否正常.某天开工后, 在装好的洗衣粉中任取了 9 袋,称得重量的平均值 ─ x = 502 (g) . 设总体方差不变, 问包装机工作是否正常.
952 1202 X Y ~ N ( 1 2, ), 100 75 X Y 若原假设成立 H0 : 1 2 则 ~ N (0,1), 952 1202 =0.1 100 75 查标准正态分布表得临界值
U 1.65 拒绝域:W ( , 1.65) (1.65, ) ,
例10 比较甲,乙两种安眠药的疗效。将20名患者分 成两组,每组10人.其中10人服用甲药后延长睡眠的 时数分别为1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4; 另10人服用乙药后延长睡眠的时数分别为0.7, -1.6, -0.2, -1.2, -0.1, 3.4, 3.7, 0.8, 0.0, 2.0.若服用两种安眠 药后增加的睡眠时数服从方差相同的正态分布.试问 两种安眠药的疗效有无显著性差异?(=0.10) 解: H : ; H : 0 1 2 ( 5) S 6 能衡量差异
大小且分布 已知
第三步:
对给定的显著性水平 =0.01,查表确 定临界值 t (5) t0.01 (5) 4.032 ,使
P{| t | t (5)}
即“| t | t (5) ”是一个小概率事件 . 得否定域 W: |t |>4.0322
《概率论与数理统计》典型例题第五章数理统计初步

第五章 数理统计初步例1.若总体2~(,)X N µσ,其中2σ已知,但µ未知,而为来自总体的一个简单随机样本,试指出下列样本函数中 12,,n X X X …是统计量, 不是统计量:(1)11n i i X n =∑; (2)211(n i i X n )µ=−∑; (3)211()1n i i X X n =−−∑;;X 。
分析:利用统计量的定义即可辨别,特别注意不能含有未知参数。
解:由统计量的定义:设为总体12,,n X X X …X 的一个样本,为连续函数,如果不包含任何未知参数,则称其为一个统计量。
12(,,)n g x x x …12(,,)n g X X X …显然,(1),(3),(4),(6)给出的是统计量;而(2),(5)给出的量因含有未知参数µ,所以不是统计量。
注:统计量不包含任何未知参数,它具有两重性。
统计量是样本的一个函数,所以是一个随机变量。
若是的一组观察值,则统计量12,,nX X X …12(,,)n g X X X …12,,n x x x …12,,n X X X …12(,,)n g x x x …又是一个确定的数。
例2.设随机变量X 和Y 都服从标准正态分布,则 。
(A ) X Y +服从正态分布。
(B ) 22X Y +服从2χ分布。
(C ) 2X 和都服从2Y 2χ分布。
() D 22X 服从F 分布。
分析:考察统计中三种常见分布的构成,注意正态分布的性质。
解:由于的联合分布是否为二维正态分布未知,不能确定(,)X Y X Y +服从正态分布,又因X 与Y 是否独立未知,因而不能确定X Y +服从正态分布,也不能确定22X Y +服从2χ分布,也不能确定22X Y 服从F 分布,因而选。
C 注:本例重在强调各分布的构成中,都有独立性的要求。
另外,正态分布的性质中也同样要求独立性。
例3.设2~(,)X N µσ,则样本均值X 与总体期望µ的偏差不超过(n 为样本容量)的概率为 。
概率论与数理统计72正态总体的均值和方差的假设检验

( = 0.05)?
解 以X表示物品在处理前的含脂率,Y表示物品在
处理后的含脂率,且 X ~ N ( μ1,σ12 ),Y ~ N ( μ2,σ22 )
样本(Y1,Y2, ,Yn2 )来自总体Y .
1. 已知方差时两个正态总体均值的检验
σ12,σ22为已知, μ1, μ2未知的检验(U检验法)
1 假设 H0 : 1 2 , H1 : 1 2;
2 取检验统计量为
U (X Y)/
σ12 σ22 n1 n2
~ N (0,1)
(当H0成立时)
3 取显著性水平为 α. P{ U u/2 } ,
~
t(n1 n2
2),
(当H0成立时)
其中 Sw2
( n1
1)S1*n21 (n2 1)S2*n22 n1 n2 2
.
3° 给定显著水平 ( 0< < 1)
P{ | T | t /2(n1 n2 2) } ,
查表可得 tα / 2(n1 n2 2). 拒绝域:
W1 {( x1, x2,, xn1; y1, y2,, yn2 ) :| t | t/2(n1 n2 2)}
X
~
N
(
1
,
2 1
),Y
~
N
(
2
,
2 2
),
为了考察温度对材料断裂强力的影响,在70 C与80 C
下,分别重复作了8次试验,得数据如下:
选择统计量
U X 800 9 40
当H0成立时,U~N(0,1).对于 = 0.05,由正态分布函
概率论与数理统计案例分析

概率论与数理统计案例分析概率论与数理统计作为数学的一个重要分支,广泛应用于各个领域。
本文将通过一些具体案例来分析概率论和数理统计在实际中的应用。
案例一:市场营销中的A/B测试在市场营销领域,A/B测试是一种常见的实验设计方法,用于比较两种不同的营销策略、广告设计或产品设计等。
假设某电商公司希望提高其网站用户的转化率,他们可以设计一个A/B测试来比较两种不同的促销活动对用户购买行为的影响。
首先,将用户随机分为两组,一组接受A方案,另一组接受B方案。
然后通过收集和分析用户的购买数据,可以利用概率论和数理统计方法来评估两种方案的效果。
通过统计显著性检验和置信区间分析,可以得出结论,哪种方案对用户购买行为影响更大,从而指导公司的营销策略。
案例二:医学研究中的双盲试验在医学研究领域,双盲试验是一种常用的研究设计,用于评估新药物的疗效。
在一次双盲试验中,研究者和参与者都不知道哪些人接受了治疗,哪些人接受了安慰剂。
通过随机分组和盲法设计,可以最大程度地减少实验结果的偏倚。
利用概率论和数理统计方法,研究人员可以对试验数据进行分析,来评估新药物的疗效是否显著,以及是否出现不良反应等情况。
通过以上案例分析,可以看出概率论和数理统计在实际中的重要性和应用价值。
无论是市场营销领域还是医学研究领域,都离不开对数据的收集、分析和解释。
掌握好概率论和数理统计知识,对于提高决策的科学性和准确性有着重要的意义。
希望本文的案例分析能够让读者更深入地理解概率论和数理统计的实际应用,为他们在相关领域的工作和研究提供一定的启发和帮助。
概率论与数理统计实验实验3参数估计假设检验

概率论与数理统计实验实验3 参数估计假设检验实验目的实验内容直观了解统计描述的基本内容。
2、假设检验1、参数估计3、实例4、作业一、参数估计参数估计问题的一般提法X1, X2,…, Xn要依据该样本对参数作出估计,或估计的某个已知函数.现从该总体抽样,得样本设有一个统计总体,总体的分布函数向量). 为F(x, ),其中为未知参数( 可以是参数估计点估计区间估计点估计——估计未知参数的值区间估计——根据样本构造出适当的区间,使他以一定的概率包含未知参数或未知参数的已知函数的真?(一)、点估计的求法1、矩估计法基本思想是用样本矩估计总体矩.令设总体分布含有个m未知参数??1 ,…,??m解此方程组得其根为分别估计参数??i ,i=1,...,m,并称其为??i 的矩估计。
2、最大似然估计法(二)、区间估计的求法反复抽取容量为n的样本,都可得到一个区间,这个区间可能包含未知参数的真值,也可能不包含未知参数的真值,包含真值的区间占置信区间的意义1、数学期望的置信区间设样本来自正态母体X(1) 方差?? 2已知, ?? 的置信区间(2) 方差?? 2 未知, ?? 的置信区间2、方差的区间估计未知时, 方差?? 2 的置信区间为(三)参数估计的命令1、正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha)此命令以alpha 为显著性水平,在数据X下,对参数进行估计。
(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.例1、给出两列参数?? =10, ??=2正态分布随机数,并以此为样本值,给出?? 和?? 的点估计和区间估计命令:r=normrnd(10,2,100,2);[mu,sigm,muci,sigmci]=normfit(r);[mu1,sigm1,muci1,si gmci1]=normfit(r,0.01);mu=9.8437 9.9803sigm=1.91381.9955muci=9.4639 9.584310.2234 10.3762sigmci=1.68031.75202.2232 2.3181mu1=9.8437 9.9803sigm1=1.91381.9955muci1=9.3410 9.456210.3463 10.5043sigmci1=1.6152 1.68412.3349 2.4346例2、产生正态分布随机数作为样本值,计算区间估计的覆盖率。
概率论与数理统计案例

概率论部分:案例1 邮局开设多少服务窗口合理案例2 国家邮政局发行贺年(有奖)明信片的利润计算案例3 彩民获奖的概率问题案例4 人寿保险问题案例5 免费抽奖问题案例6 双色球彩票中奖概率的理论计算与验证案例7 公交大巴车门高度如何设计案例8 怎样由脚印长度估计罪犯身高案例9 生日问题案例10 排队等待问题案例11 传送带效率问题案例12 商品订货案例13 交货时间为随机变量的存贮模型。
案例14 轧钢问题续集案例15 销售量为随机的存储模型(报童卖报问题)案例16 到货时间为随机的存储模型(报童卖报问题)案例17 随机性人口模型案例18 捕鱼问题案例19 足球门的危险区域案例20 利用蒙特卡洛方法(随机模拟)计算积分统计部分案例21 计算常用描述性统计量,绘制常用统计图案例22 卡方分布问题:案例23 工程师的建议是否应采纳案例24 化妆品销售量的预测案例25 假设检验(配对样本的t检验,本题目源于2012年全国大学生数学建模竞赛A题)案例26 气候预测案例27 蠓虫的分类模型案例1 邮局开设多少服务窗口合理某居民区有n 个人,设有一个邮局,开m 个服务窗口,每个窗口都在办理所有业务。
m 太小则经常排长队。
m 太大又不经济。
假定在每一指定时刻,这n 个人中每一个是否去邮局是独立的。
每个人在邮局的概率都是p 。
现要求“在营业中任一时刻每个窗口的排队人数(包括正在被服务的那个人)不超过s ”这个事件的概率不小于α(一般取95.090.0,80.0或=α)则至少需开设多少窗口? 利用伯努利分布解决这个问题 设事件),,(个人在邮局办事在指定时刻恰有sm k k A k ⋯==2,1,0}{由题设条件知k n k k n k p p C A P --=)1()(由于sm A A A A ,,,,210⋯为两两互斥事件。
故∑∑=-==≥-===smk k n kk n smk k smk k p p C A P A P s P 0)1()()()(α每个窗口人数都不超过找一个最小的自然数m ,使上面不等式成立。
概率论与数理统计-第7章-第2讲-正态总体参数的假设检验(1)

~
N (0,1)
| U | u 2
n
100.66 100
U
0.9
2.2 > u0.025 1.96
9
拒绝H0
认为机器不正常
9
02 典型例题
例
设某次考试的考生成绩 服从正态分布,随机抽取36位考生的成绩,
算得平均成绩为 66.5分,标准差为15分,问在显著性水平0.05下,是否
可以认为这次考试全体考生的平均成绩为 70分 ?
2
2
1
2
(n
1)或
2
2
(n
1)
2
2
(n 1)S 2
2 0
0.03112 0.0482 13.51
>
2 0.025
(4)
11.143
2 0.975
(4)
0.485
11
第2讲 正态总体参数的假设检验(1)
知识点解读—正态总体的参数检验 重点:掌握单个正态总体的均值和方差的假设检验.
12
概率论与数理统计
设每袋重量 X 服从正态分布且标准差 0.9不变. 某天抽取 9袋,
测得重量为
99.3, 98.7, 101.2, 100.5, 98.3, 99.7, 102.6, 100.5, 105.1
问机器工作是否正常( 0.05)?
H0: 100 ; H1: 100
U 检验法
构造统计量
U
X
100
10
02 典型例题
例 已知维尼纶纤度 X 在正常情况下服从正态分布 N (, 0.0482 ) .
现在测了5 根纤维,其纤度分别为:
1.44, 1.36 , 1.40 , 1.55, 1.32,
概率论与数理统计--参数估计-excel实践报告

实践报告题目1实践内容:已知幼儿身高服从正态分布,标准差σ=7.现从5—6岁的幼儿中随机地抽查了9人,其身高(单位:cm)分别为:115120 131 115 109 115 115 105 110试求身高均值μ的置信度为95%的置信区间。
实践步骤:(1)在Excel中输入样本数据,如下图中A列(2)列出求解所需要的有关统计量,如图中B列所示,其中:①总体标准差、样本容量、置信度为已知值,直接输入;②计算“样本均值”:在“C2”中输入公式“=A VERAGE(A2:A10)”;③计算“估计误差”:在“C5”中输入公式“=CONFIDENCE(1-C4,C3,C1)”,其中“1-C4”指的是显著性水平α的值,“C3”中数据是数据区域的总体标准差“C1”为(n-1)的值;④计算“置信上限”:在“C7”中输入“=C2+C5”;⑤计算“置信下限”:在“C8”中输入“=C2-C5”;实践结果:如图所示,身高均值μ的置信度为95%的置信区间为[110.43,119.57].实践操作:如图题目2实践内容:用仪器测量温度,重复测量7次,测得温度分别为:115 120 131 115 109 105 110设温度X~N(μ,σ2),在置信度为95%时,试求温度的真值所在范围。
实践步骤:(3)在Excel中输入样本数据,如下图中A列(4)列出求解所需要的有关统计量,如图中B列所示,其中:①样本容量、置信度为已知值,直接输入;②计算“样本均值”:在“C2”中输入公式“=A VERAGE(A2:A8)”;③ 计算)6()1(205.02t n t =-α:在“C5”中输入公式“=TINV (1-C4,C1-1)”,其中“1-C4”为显著性水平α的值,“C1—1”为(n -1)的值;④ 计算“样本标准差”:在“C3”中输入公式“=STDEV (A2:A8)”;⑤ 计算“估计误差”:在“C6”中输入公式“=C5*C3/SQRT (C1)”,这依据公式nn t s )1(*2-α,SQRT表示对C1开方; ⑥ 计算“置信上限”:在“C7”中输入“=C2+C6”;⑦ 计算“置信下限”:在“C8”中输入“=C2-C6”;实践结果:如图所示,在置信度为95%时,温度的真值所在范围为[107.06,122.94]. 实践操作:如图题目3实践内容:设某灯泡的寿命X ~N (μ,σ2),μ,δ2未知,现从中任取5只灯泡进行寿命试验,得到数据:10.5 11.0 11.2 12.5 12.8(单位:千小时)试求置信水平为90%时σ2区间估计。
概率论与数理统计 参数检验案例

葡萄酒的评价
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
附件1给出了某一年份一些葡萄酒的评价结果。
请尝试建立数学模型讨论下面问题:
1、分析附件1中两组评酒员对白葡萄酒的评价结果有无显著性差异,哪一组结果更可信?
*2、(选作题)分析附件1中两组评酒员对红葡萄酒的评价结果有无显著性差异,哪一组结果更可信?
要求:
一、以PPT的形式,阐述下列问题(*部分为选作问题)
(一)参数假设检验
1、Z检验的作用与适用条件;
2、T检验的作用与适用条件;
3、x2检验的作用与适用条件;
4、与上述检验法对应的MATLA函数;
*5、非正态数据常用的转化法。
(二)非参数假设检验
1、分布拟合检验
(1)x2拟合检验作用与适用条件;
(2)偏度与峰度拟合检验作用与适用条件;
(3)夏皮罗-威尔克检验作用与适用条件;
*(4)常用的正态性检验法;
(5)MATLAB中,正态检验函数及其对应的检验法;
*2、秩和检验、符号检验及符号秩和检验的作用与适用范围,秩和检验优点与缺点;
*3、秩和检验对应的MATLAB函数;
(三)假设检验问题P值法的定义
二、提交案例分析报告(具体要求看附件2)。
附件1:葡萄酒品尝评分表(含4个表格)
附件2:附件2-案例报告要求。
概率论与数理统计案例

概率论与数理统计案例案例背景在概率论与数理统计这个领域中,我们可以通过案例分析来更好地理解和应用所学的理论知识。
本文将通过介绍一个实际案例来探讨概率论与数理统计的应用。
案例介绍假设某个电商平台希望在销售季节到来之前预测某款商品的销售量,以便做好库存管理,制定营销策略和预测盈利情况。
该电商平台采集了过去一年的销售数据,并希望通过概率论与数理统计方法来预测未来的销售量。
数据收集该电商平台从过去一年的销售数据中获取到了每天该商品的销售量。
数据包括商品编号、销售日期和销售数量。
为了简化问题,我们仅考虑某一款商品的销售情况。
数据预处理在进行数据分析之前,首先对数据进行预处理。
预处理包括去除异常值、缺失值处理以及数据归一化等。
对于销售数量这个变量,我们可以先检查是否存在异常值,如果存在则进行删除或修正。
然后,我们需要处理可能存在的缺失值,可以使用均值填充或者删除缺失值较多的样本。
最后,为了进行统计分析,需要将数据进行归一化处理,例如使用z-score标准化方法。
数据分析在数据预处理完成后,我们可以开始进行数据分析了。
首先,我们可以计算该商品的每日平均销售量,并进行可视化展示。
通过对平均销售量的观察,我们可以初步判断销售量的分布情况。
平均销售量分布我们可以绘制柱状图来展示每天销售量的分布情况。
柱状图可以展示销售量的频数分布,帮助我们了解销售量的区间和分布特征。
同时,可以计算平均值和标准差来描述销售量的集中趋势和变异程度。
时间序列分析在考察销售量整体情况后,我们还可以进行时间序列分析。
时间序列分析可以帮助我们了解销售量的趋势和季节性变动。
通过绘制时间序列图和计算季节指数,我们可以确定销售量是否存在明显的趋势和周期性。
模型建立与预测在了解销售量的分布和规律后,我们可以基于概率论与数理统计的方法建立模型来预测未来的销售量。
随机游动模型随机游动模型是一种常用的时间序列模型,用于描述一系列随机变量的演化过程。
在本案例中,我们可以考虑用随机游动模型来预测未来的销售量。
概率论与数理统计假设检验正态总体参数的假设检验(2)

概率论与数理统计第7章假设检验第3讲正态总体参数的假设检验(2)01 两个正态总体参数的假设检验02单侧检验03 p 值检验法—简介本讲内容*21μμ-2221σσ检验目的本节将讨论两个相互独立的正态总体,211(,)X N μσ222(,)Y N μσ的参数检验问题.设是来自总体X 的简单随机样本;112,,,n X X X 是来自总体Y 的简单随机样本;212,,,n Y Y Y 样本均值.X Y 、为两为两样本方差. 显著性水平为α .2212S S 、(3) μ1 , μ2 未知,检验.2222012112::H H σσσσ=≠,(1)σ12,σ22已知,检验.012112::H H μμμμ=≠,这些假设检验可细分为许多种情形,这里只介绍3种最常见的类型:(2)σ12,σ22未知但σ12 =σ22,检验.012112::H H μμμμ=≠,两个正态总体的参数检验,主要有比较两个均值μ1与μ2的大小,比较两个方差σ12与σ22的大小.根据已知条件的不同,由样本观测值求出统计量的观测值u ,然后作判断.确定拒绝域2{}U u α>选取检验统计量221212~(0,1)X YU N n n σσ-=+U 检验法建立假设012112::.H H μμμμ=≠,借鉴上一章区间估计(1) 已知,检验.12μμ-2212,σσ1212~(2)11w X Y T t n n S n n -=+-+122{(2)}T t n n α>+-(2) 未知但σ12 =σ22,检验.2212,σσ12μμ-T 检验法建立假设012112::.H H μμμμ=≠,由样本观测值求出统计量的观测值t ,然后作判断.确定拒绝域选取检验统计量211222~(1,1)S F F n n S =--2212121{(1,1)(1,1) 或}F F n n F F n n αα-<-->--2222012112::H H σσσσ=≠,(3) μ1 , μ2 未知,检验.2212/σσF 检验法建立假设由样本观测值求出统计量的观测值,然后作判断.确定拒绝域选取检验统计量在某种制造过程中需要比较两种钢板的强度,一种是冷轧钢板,另一种双面镀锌钢板。
概率论与数理统计第八章 假设检验

第八章假设检验第一节概述统计推断中的另一类重要问题是假设检验(Hypothesis testing).当总体的分布函数未知,或只知其形式而不知道它的参数的情况时,我们常需要判断总体是否具有我们所感兴趣的某些特性.这样,我们就提出某些关于总体分布或关于总体参数的假设,然后根据样本对所提出的假设作出判断:是接受还是拒绝.这就是本章所要讨论的假设检验问题.我们先从下面的例子来说明假设检验的一般提法.例8.1某工厂用包装机包装奶粉,额定标准为每袋净重0.5kg.设包装机称得奶粉重量X服从正态分布N(μ,σ2).根据长期的经验知其标准差σ=0.015(kg).为检验某台包装机的工作是否正常;随机抽取包装的奶粉9袋,称得净重(单位:kg)为0.499 0.515 0.508 0.512 0.4980.515 0.516 0.513 0.524问该包装机的工作是否正常?由于长期实践表明标准差比较稳定,于是我们假设X~N(μ,0.0152).如果奶粉重量X 的均值μ等于0.5kg,我们说包装机的工作是正常的.于是提出假设:H0:μ=μ0=0.5;H1:μ≠μ0=0.5.这样的假设叫统计假设.1.统计假设关于总体X的分布(或随机事件之概率)的各种论断叫统计假设,简称假设,用“H”表示,例如:(1)对于检验某个总体X的分布,可以提出假设:H0:X服从正态分布,H1: X不服从正态分布.H0:X服从泊松分布,H1: X不服从泊松分布.(2)对于总体X的分布的参数,若检验均值,可以提出假设:H0:μ=μ0;H1:μ≠μ0.H0:μ≤μ0;H1:μ>μ0.若检验标准差,可提出假设:H0:σ=σ0;H1:σ≠σ0.H0:σ≥σ0;H1:σ<σ0.这里μ0,σ0是已知数,而μ=E(X),σ2=D(X)是未知参数.上面对于总体X的每个论断,我们都提出了两个互相对立的(统计)假设:H0和H1,显然,H0与H1只有一个成立,或H0真H1假,或H0假H1真,其中假设H0,称为原假设(Original hypothesis)(又叫零假设、基本假设),而H1称为H0的对立假设(又叫备择假设).在处理实际问题时,通常把希望得到的陈述视为备择假设,而把这一陈述的否定作为原假设.例如在上例中,H0:μ=μ0=0.5为原假设,它的对立假设是H1:μ≠μ0=0.5.统计假设提出之后,我们关心的是它的真伪.所谓对假设H0的检验,就是根据来自总体的样本,按照一定的规则对H0作出判断:是接受,还是拒绝,这个用来对假设作出判断的规则叫做检验准则,简称检验,如何对统计假设进行检验呢?我们结合上例来说明假设检验的基本思想和做法.2.假设检验的基本思想 在例8.1中所提假设是H 0:μ=μ0=0.5(备择假设H 1:μ≠μ0).由于要检验的假设涉及总体均值μ,故首先想到是否可借助样本均值这一统计量来进行判断.从抽样的结果来看,样本均值x =19(0.499+0.515+0.508+0.512+0.498+0.515+0.516+0.513+0.524)=0.5110,与μ=0.5之间有差异.对于与μ0之间的差异可以有两种不同的解释.(1) 统计假设H 0是正确的,即μ=μ0=0.5,只是由于抽样的随机性造成了与μ0之间的差异;(2) 统计假设H 0是不正确的,即μ≠μ0=0.5,由于系统误差,也就是包装机工作不正常,造成了与μ0之间的差异.对于这两种解释到底哪一种比较合理呢?为了回答这个问题,我们适当选择一个小正数α(α=0.1,0.05等),叫做显著性水平(Level of significance).在假设H0成立的条件下,确定统计量X -μ0的临界值αλ,使得事件{|X -μ0|>αλ}为小概率事件,即P{|X -μ0|>αλ}=α.(8.1)例如,取定显著性水平α=0.05.现在来确定临界值λ0.05.因为X ~N (μ,σ2),当H 0:μ=μ0=0.5为真时,有X ~N (μ0,σ2),于是2011~,n i i X X N n n σμ=⎛⎫= ⎪⎝⎭∑,ZX X =N (0,1),所以 P {|Z |>z α/2}=α.由(8.1)式,有P Z ⎧>⎨⎩=α,因此22,z z αααλ==λ0.05=z 0.0250.015/3=0.0098. 故有P {|X -μ0|>0.0098}=0.05.因为α=0.05很小,根据实际推断原理,即“小概率事件在一次试验中几乎是不可能发生的”原理,我们认为当H 0为真时,事件{|X -μ0|>0.0098}是小概率事件,实际上是不可能发生的.现在抽样的结果是|x -μ0|=|0.5110-0.5|=0.0110>0.0098.也就是说,小概率事件{|X -μ0|>0.0098}居然在一次抽样中发生了,这说明抽样得到的结果与假设H 0不相符,因而不能不使人怀疑假设H 0的正确性,所以在显著性水平α=0.05下, 我们拒绝H 0,接受H 1,即认为这一天包装机的工作是不正常的.通过上例的分析,我们知道假设检验的基本思想是小概率事件原理,检验的基本步骤是: (1) 根据实际问题的要求,提出原假设H 0及备择假设H 1;(2) 选取适当的显著性水平α(通常α=0.10,0.05等)以及样本容量n ;(3) 构造检验用的统计量U ,当H 0为真时,U 的分布要已知,找出临界值αλ使P {|U |>αλ}=α.我们称|U |>αλ所确定的区域为H 0的拒绝域(Rejection region),记作W ; (4) 取样,根据样本观察值,计算统计量U 的观察值U 0;(5) 作出判断,将U 的观察值U 0与临界值αλ比较,若U 0落入拒绝域W 内,则拒绝H 0接受H 1;否则就说H 0相容(接受H 0).3.两类错误由于我们是根据样本作出接受H 0或拒绝H 0的决定,而样本具有随机性,因此在进行判断时,我们可能会犯两个方面的错误:一类错误是,当H 0为真时,而样本的观察值U 0落入拒绝域W 中,按给定的法则,我们拒绝了H 0,这种错误称为第一类错误.其发生的概率称为犯第一类错误的概率或称弃真概率,通常记为α,即P {拒绝H 0|H 0为真}=α;另一种错误是,当H 0不真时,而样本的观察值落入拒绝域W 之外,按给定的检验法则,我们却接受了H 0.这种错误称为第二类错误,其发生的概率称为犯第二类错误的概率或取伪概率,通常记为β,即P {接受H 0|H 0不真}=β.显然这里的α就是检验的显著性水平.总体与样本各种情况的搭配见表8-1.表8-1对给定的一对H 0和H 1,总可以找到许多拒绝域W .当然我们希望寻找这样的拒绝域W ,使得犯两类错误的概率α与β都很小.但是在样本容量n 固定时,要使α与β都很小是不可能的,一般情形下,减小犯其中一类错误的概率,会增加犯另一类错误的概率,它们之间的关系犹如区间估计问题中置信水平与置信区间的长度的关系那样.通常的做法是控制犯第一类错误的概率不超过某个事先指定的显著性水平α(0<α<1),而使犯第二类错误的概率也尽可能地小.具体实行这个原则会有许多困难,因而有时把这个原则简化成只要求犯第一类错误的概率等于α,称这类假设检验问题为显著性检验问题,相应的检验为显著性检验.在一般情况下,显著性检验法则是较容易找到的,我们将在以下各节中详细讨论.在实际问题中,要确定一个检验问题的原假设,一方面要根据问题要求检验的是什么,另一方面要使原假设尽量简单,这是因为在下面将讲到的检验法中,必须要了解某统计量在原假设成立时的精确分布或渐近分布.下面各节中,我们先介绍正态总体下参数的几种显著性检验,再介绍总体分布函数的假设检验.第二节 单个正态总体的假设检验1.单个正态总体数学期望的假设检验(1) σ2已知关于μ的假设检验(Z 检验法(Z -test)) 设总体X ~N (μ,σ2),方差σ2已知,检验假设H 0:μ=μ0;H 1:μ≠μ0 (μ0为已知常数) 由X ~N (μ,n σ)X N (0,1), 我们选取ZX (8.2)作为此假设检验的统计量,显然当假设H 0为真(即μ=μ0正确)时,Z ~N (0,1),所以对于给定的显著性水平α,可求z α/2使P {|Z |>z α/2}=α,见图8-1,即P {Z <-z α/2}+P {Z >z α/2}=α.从而有P {Z >z α/2}=α/2, P {Z ≤z α/2}=1-α/2.图8-1利用概率1-α/2,反查标准正态分布函数表,得双侧α分位点(即临界值)z α/2. 另一方面,利用样本观察值x 1,x 2,…,x n 计算统计量Z 的观察值z 0x (8.3)如果:(a )|z 0|>z α/2,则在显著性水平α下,拒绝原假设H 0(接受备择假设H 1),所以|z 0|>z α/2便是H0的拒绝域.(b ) |z 0|≤z α/2,则在显著性水平α下,接受原假设H 0,认为H 0正确.这里我们是利用H0为真时服从N (0,1)分布的统计量Z 来确定拒绝域的,这种检验法称为Z 检验法(或称U 检验法).例8.1中所用的方法就是Z 检验法.为了熟悉这类假设检验的具体作法,现在我们再举一例.例8.2 根据长期经验和资料的分析,某砖厂生产的砖的“抗断强度”X 服从正态分布,方差σ2=1.21.从该厂产品中随机抽取6块,测得抗断强度如下(单位:kg ·cm -2):32.56 29.66 31.64 30.00 31.87 31.03检验这批砖的平均抗断强度为32.50kg ·cm -2是否成立(取α=0.05,并假设砖的抗断强度的方差不会有什么变化)?解 ① 提出假设H 0:μ=μ0=32.50;H 1:μ≠μ0. ② 选取统计量ZX ,若H 0为真,则Z ~N (0,1).③ 对给定的显著性水平α=0.05,求z α/2使P {|Z |>z α/2}=α,这里z σ/2=z 0.025=1.96.④ 计算统计量Z 的观察值:|z 0| ≈3.05.⑤ 判断:由于|z 0|=3.05>z 0.025=1.96,所以在显著性水平α=0.05下否定H 0,即不能认为这批产品的平均抗断强度是32.50 kg ·cm -2.把上面的检验过程加以概括,得到了关于方差已知的正态总体期望值μ的检验步骤: (a ) 提出待检验的假设H 0:μ=μ0;H 1:μ≠μ0. (b ) 构造统计量Z ,并计算其观察值z 0:ZX ,z 0x(c ) 对给定的显著性水平α,根据P {|Z |>z α/2}=α,P {Z >z α/2}=α/2,P {Z ≤z α/2}=1-α/2查标准正态分布表,得双侧α分位点z α/2. (d ) 作出判断:根据H 0的拒绝域 若|z 0|>z α/2,则拒绝H 0,接受H 1; 若|z 0|≤z α/2,则接受H 0.(2) 方差σ2未知,检验μ(t 检验法(t -test)) 设总体X ~N (μ,σ2),方差σ2未知,检验H 0:μ=μ0;H 1:μ≠μ0.由于σ2X 便不是统计量,这时我们自然想到用σ2的无偏估计量——样本方差S 2代替σ2,由于X t (n -1),故选取样本的函数tX (8.4)图8-2作为统计量,当H 0为真(μ=μ0)时t ~t (n -1),对给定的检验显著性水平α,由P {|t |>t α/2(n -1)}=α, P {t >t α/2(n -1)}=α/2,见图8-2,直接查t 分布表,得t 分布分位点t α/2(n -1).利用样本观察值,计算统计量t 的观察值t 0x 因而原假设H0的拒绝域为|t 0|>t α/2(n -1). (8.5)所以,若|t 0|>t α/2(n -1),则拒绝H 0,接受H 1;若|t 0|≤t α/2(n -1),则接受原假设H 0.上述利用t 统计量得出的检验法称为t 检验法.在实际中,正态总体的方差常为未知,所以我们常用t 检验法来检验关于正态总体均值的问题.例8.3 用某仪器间接测量温度,重复5次,所得的数据是1250°,1265°,1245°,1260°,1275°,而用别的精确办法测得温度为1277°(可看作温度的真值),试问此仪器间接测量有无系统偏差?这里假设测量值X 服从N (μ,σ2)分布. 解 问题是要检验H 0:μ=μ0=1277;H 1:μ≠μ0.由于σ2未知(即仪器的精度不知道),我们选取统计量tX .当H 0为真时,t ~t (n -1),t 的观察值为|t 0|185.399-==>3.对于给定的检验水平α=0.05,由P {|t |>t α/2(n -1)}=α, P {t >t α/2(n -1)}=α/2, P {t >t 0.025(4)}=0.025,查t 分布表得双侧α分位点t α/2(n -1)=t 0.025(4)=2.776.因为|t 0|>3>t 0.025(4)=2.776,故应拒绝H 0,认为该仪器间接测量有系统偏差.(3) 双边检验与单边检验上面讨论的假设检验中,H 0为μ=μ0,而备择假设H 1:μ≠μ0意思是μ可能大于μ0,也可能小于μ0,称为双边备择假设,而称形如H 0:μ=μ0,H 1:μ≠μ0的假设检验为双边检验.有时我们只关心总体均值是否增大,例如,试验新工艺以提高材料的强度,这时所考虑的总体的均值应该越大越好,如果我们能判断在新工艺下总体均值较以往正常生产的大,则可考虑采用新工艺.此时,我们需要检验假设H 0:μ=μ0;H 1:μ>μ0. (8.6)(我们在这里作了不言而喻的假定,即新工艺不可能比旧的更差),形如(8.6)的假设检验,称为右边检验,类似地,有时我们需要检验假设H 0:μ=μ0;H 1:μ<μ0. (8.7)形如(8.7)的假设检验,称为左边检验,右边检验与左边检验统称为单边检验.下面来讨论单边检验的拒绝域. 设总体X ~N (μ,σ2),σ2为已知,x 1,x 2,…,x n 是来自X 的样本观察值.给定显著性水平α,我们先求检验问题H 0:μ=μ0;H 1:μ>μ0.的拒绝域.取检验统计量ZX ,当H 0为真时,Z 不应太大,而在H 1为真时,由于X 是μ的无偏估计,当μ偏大时,X 也偏大,从而Z 往往偏大,因此拒绝域的形式为ZX ≥k ,k 待定.因为当H 0X ~N (0,1),由P {拒绝H 0|H 0为真}=PX k ⎫≥⎬⎭=α得k =z α,故拒绝域为ZX ≥z α. (8.8)类似地,左边检验问题H 0:μ=μ0;H 1:μ<μ0.的拒绝域为ZX ≤-z α. 8.9)例8.4 从甲地发送一个信号到乙地,设发送的信号值为μ,由于信号传送时有噪声迭加到信号上,这个噪声是随机的,它服从正态分布N (0,22),从而乙地接到的信号值是一个服从正态分布N (μ,22)的随机变量.设甲地发送某信号5次,乙地收到的信号值为: 8.4 10.5 9.1 9.6 9.9由以往经验,信号值为8,于是乙方猜测甲地发送的信号值为8,能否接受这种猜测?取α=0.05.解 按题意需检验假设H 0:μ=8;H 1:μ>8.这是右边检验问题,其拒绝域如(8.8)式所示, 即 Z =X ≥z 0.05=1.645.而现在z 0=1.68>1.645,所以拒绝H 0,认为发出的信号值μ>8.2.单个正态总体方差的假设检验(2χ检验法(2χ-test)) (1) 双边检验设总体X ~N (μ,σ2),μ未知,检验假设H 0:σ2=σ02;H 1:σ2≠σ2.其中σ02为已知常数.由于样本方差S 2是σ2的无偏估计,当H 0为真时,比值22S σ一般来说应在1附近摆动,而不应过分大于1或过分小于1,由第六章知当H 0为真时2χ=220(1)n S σ-~2χ(n -1). (8.10)所以对于给定的显著性水平α有(图8-3)图8-3P {21/2αχ-(n -1)≤2χ≤2/2αχ(n -1)}=1-α. (8.11)对于给定的α,查2χ分布表可求得2χ分布分位点21/2αχ-(n -1)与2/2αχ(n -1).由(8.11)知,H 0的接受域是21/2αχ- (n -1)≤2χ≤2/2αχ (n -1); (8.12)H 0的拒绝域为2χ<21/2αχ-(n -1)或2χ>2/2αχ(n -1). (8.13)这种用服从2χ分布的统计量对个单正态总体方差进行假设检验的方法,称为2χ检验法. 例8.5 某厂生产的某种型号的电池,其寿命长期以来服从方差σ2=5000(小时2)的正态分布,现有一批这种电池,从它的生产情况来看,寿命的波动性有所改变,现随机抽取26只电池,测得其寿命的样本方差s 2=9200(小时2).问根据这一数据能否推断这批电池的寿命的波动性较以往有显著的变化(取α=0.02)?解 本题要求在α=0.02下检验假设H 0:σ2=5000;H 1:σ2≠5000.现在n =26,2/2αχ(n -1)=20.01(25)χ=44.314,21/2αχ- (n -1)= 20.99(25)χ=11.524,σ02=5000.由(8.13)拒绝域为2σ>44.314或220(1)n s σ-<11.524由观察值s 2=9200得22(1)n s σ-=46>44.314,所以拒绝H 0,认为这批电池寿命的波动性较以往有显著的变化.(2) 单边检验(右检验或左检验) 设总体X ~N (μ,σ2),μ未知,检验假设H 0:σ2≤σ02;H 1:σ2>σ02.(右检验)由于X ~N (μ,σ2),故随机变量*2χ=22(1)n S σ-~2χ(n -1).当H 0为真时,统计量2χ=22(1)n S σ-≤*2χ.对于显著性水平α,有P {*2χ>2αχ(n -1)}=α图8-4(图8-4).于是有P {2χ>2αχ(n -1)}≤P {*2χ>2αχ(n -1)}=α.可见,当α很小时,{2χ>2αχ(n -1)}是小概率事件,在一次的抽样中认为不可能发生,所以H 0的拒绝域是:2χ=22(1)n S σ->2αχ(n -1)(右检验). (8.14)类似地,可得左检验假设H 0:σ2≥σ02,H 1:σ2<σ2的拒绝域为2χ<21αχ-(n -1)(左检验). (8.15) 例8.6 今进行某项工艺革新,从革新后的产品中抽取25个零件,测量其直径,计算得样本方差为s 2=0.00066,已知革新前零件直径的方差σ2=0.0012,设零件直径服从正态分布,问革新后生产的零件直径的方差是否显著减小?(α=0.05)解 (1) 提出假设H 0:σ2≥σ02=0.0012;H 1:σ2<σ02. (2) 选取统计量2χ=22(1)n S σ-.*2χ=22(1)n S σ-~2χ(n -1),且当H 0为真时,*2χ≤2χ(3) 对于显著性水平α=0.05,查2χ分布表得21αχ-(n -1)=20.95(24)χ=13.848,当H 0为真时,P {2χ<21αχ- (n -1)}≤P 2212(1)(1)n S n αχσ-⎧⎫-<-⎨⎬⎩⎭=α. 故拒绝域为2χ<21αχ- (n -1)=13.848.(4) 根据样本观察值计算2χ的观察值2χ=220(1)240.000660.0012n s σ-⨯==13.2.(5) 作判断:由于2χ=13.2<21αχ- (n -1)=13.848,即2χ落入拒绝域中,所以拒绝H 0:σ2≥σ02,即认为革新后生产的零件直径的方差小于革新前生产的零件直径的方差.最后我们指出,以上讨论的是在均值未知的情况下,对方差的假设检验,这种情况在实际问题中较多.至于均值已知的情况下,对方差的假设检验,其方法类似,只是所选的统计量为2χ=2120()nii Xμσ=-∑.当σ2=σ2为真时,2χ~2χ(n ).关于单个正态总体的假设检验可列表8-2.表8-2注:上表中H0中的不等号改成等号,所得的拒绝域不变.第三节两个正态总体的假设检验上一节介绍了单个正态总体的数学期望与方差的检验问题,在实际工作中还常碰到两个正态总体的比较问题.1.两正态总体数学期望假设检验(1)方差已知,关于数学期望的假设检验(Z检验法)设X~N(μ1,σ12),Y~N(μ2,σ22),且X,Y相互独立,σ12与σ22已知,要检验的是H0:μ1=μ2;H1:μ1≠μ2.(双边检验)怎样寻找检验用的统计量呢?从总体X 与Y 中分别抽取容量为n 1,n 2的样本X 1,X 2,…,1n X 及Y 1,Y 2,…,2n Y ,由于2111~,X N n σμ⎛⎫ ⎪⎝⎭,2222~,Y N n σμ⎛⎫⎪⎝⎭,E (X -Y )=E (X )-E (Y )=μ1-μ2, D (X -Y )=D (X )+D (Y )=221212n n σσ+,故随机变量X -Y 也服从正态分布,即X -Y ~N (μ1-μ2,221212n n σσ+).从而X Y ~N (0,1).于是我们按如下步骤判断.(a ) 选取统计量 ZX Y , (8.16)当H 0为真时,Z ~N (0,1).(b ) 对于给定的显著性水平α,查标准正态分布表求z α/2使P {|Z |>z α/2}=α,或P {Z ≤z α/2}=1-α/2. (8.17) (c ) 由两个样本观察值计算Z 的观察值z 0:z 0x y .(d ) 作出判断:若|z 0|>z α/2,则拒绝假设H 0,接受H 1; 若|z 0|≤z α/2,则与H 0相容,可以接受H 0.例8.7 A ,B 两台车床加工同一种轴,现在要测量轴的椭圆度.设A 车床加工的轴的椭圆度X ~N (μ1,σ12),B 车床加工的轴的椭圆度Y ~N (μ2,σ22),且σ12=0.0006(mm 2),σ22=0.0038(mm 2),现从A ,B 两台车床加工的轴中分别测量了n 1=200,n 2=150根轴的椭圆度,并计算得样本均值分别为=0.081(mm),=0.060(mm).试问这两台车床加工的轴的椭圆度是否有显著性差异?(给定α=0.05)解 ① 提出假设H 0:μ1=μ2;H 1:μ1≠μ2. ② 选取统计量ZX Y ,在H 0为真时,Z ~N (0,1).③ 给定α=0.05,因为是双边检验,α/2=0.025.P {|Z |>z α/2}=0.05, P {Z >z α/2}=0.025,P {Z ≤z α/2}=1-0.025=0.975.查标准正态分布表,得z α/2=z 0.025=1.96.④ 计算统计量Z 的观察值zz 0x y =.⑤ 作判断:由于|z 0|=3.95>1.96=z α/2,故拒绝H 0,即在显著性水平α=0.05下,认为两台车床加工的轴的椭圆度有显著差异.用Z 检验法对两正态总体的均值作假设检验时,必须知道总体的方差,但在许多实际问题中总体方差σ12与σ22往往是未知的,这时只能用如下的t 检验法.(2) 方差σ12,σ22未知,关于均值的假设检验(t 检验法) 设两正态总体X 与Y 相互独立,X ~N (μ1,σ12),Y ~N (μ2,σ22),σ12,σ22未知,但知σ12=σ22,检验假设H 0:μ1=μ2;H 1:μ1≠μ2.(双边检验) 从总体X ,Y 中分别抽取样本X 1,X 2,…,1n X 与Y 1,Y 2,…,2n Y ,则随机变量tX Y μμ---t (n 1+n 2-2),式中S w 2=22112212(1)(1)2n S n S n n -+-+-,S 12,S 22分别是X 与Y 的样本方差.当假设H 0为真时,统计量t ~t (n 1+n 2-2). (8.18)对给定的显著性水平α,查t 分布得t α/2(n 1+n 2-2),使得P {|t |>t α/2(n 1+n 2-2)}=α. (8.19)再由样本观察值计算t 的观察值t 0x y(8.20)最后作出判断:若|t 0|>t α/2(n 1+n 2-2),则拒绝H 0; 若|t 0|≤t α/2(n 1+n 2-2),则接受H 0.例8.8 在一台自动车床上加工直径为2.050毫米的轴,现在每相隔两小时,各取容量都为10的样本,所得数据列表如表8-3所示.12是未知常数.问这台自动车床的工作是否稳定?(取α=0.01)解 这里实际上是已知σ12=σ22=σ2,但σ2未知的情况下检验假设H 0:μ1=μ2;H 1:μ1≠μ2.我们用t 检验法,由样本观察值算得:x =2.063, y =2.059,s 12=0.00000956, s 22=0.00000489,s w 2=2212990.0000860.0000441010218s s ⨯+⨯+=+-=0.0000072.由(8.20)式计算得t 0=3.3.对于α=0.01,查自由度为18的t 分布表得t 0.005(18)=2.878.由于|t 0|=3.3>t 0.005(18)=2.878,于是拒绝原假设H 0:μ1=μ2.这说明两个样本在生产上是有差异的,可能这台自动车床受时间的影响而生产不稳定.2. 两正态总体方差的假设检验(F 检验法(F -test )) (1) 双边检验设两正态总体X ~N (μ1,σ12),Y ~N (μ2,σ22),X 与Y 独立,X 1,X 2,…,1n X 与Y 1,Y 2,…,2n Y 分别是来自这两个总体的样本,且μ1与μ2未知.现在要检验假设H 0:σ12=σ22;H 1:σ12≠σ22.在原假设H 0成立下,两个样本方差的比应该在1附近随机地摆动,所以这个比不能太大又不能太小.于是我们选取统计量F =2122S S . (8.21) 显然,只有当F 接近1时,才认为有σ12=σ22.由于随机变量F *=22112222//S S σσ ~F (n 1-1,n 2-1),所以当假设H 0:σ12=σ22成立时,统计量F =2122S S ~F (n 1-1,n 2-1). 对于给定的显著性水平α,可以由F 分布表求得临界值12a F-(n 1-1,n 2-1)与F α/2(n 1-1,n 2-1)使得 P { 12a F-(n 1-1,n 2-1)≤F ≤F α/2(n 1-1,n 2-1)}=1-α(图8-5),由此可知H 0的接受区域是12aF-(n 1-1,n 2-1)≤F ≤F α/2(n 1-1,n 2-1);而H 0的拒绝域为F <12a F-(n 1-1,n 2-1),或 F >F α/2(n 1-1,n 2-1).然后,根据样本观察值计算统计量F 的观察值,若F 的观察值落在拒绝域中,则拒绝H 0,接受H 1;若F 的观察值落在接受域中,则接受H 0.图8-5例8.9 在例8.8中我们认为两个总体的方差σ12=σ22,它们是否真的相等呢?为此我们来检验假设H 0:σ12=σ22(给定α=0.1).解 这里n 1=n 2=10,s 12=0.00000956,s 22=0.00000489,于是统计量F 的观察值为F =0.00000956/0.00000489=1.95.查F 分布表得F α/2(n 1-1,n 2-1)=F 0.05(9,9)=3.18,F 1-α/2(n 1-1,n 2-1)=F 0.95(9,9)=1/F 0.05(9,9)=1/3.18.由样本观察值算出的F 满足F 0.95(9,9)=1/3.18<F =1.95<3.18=F 0.05(9,9).可见它不落入拒绝域,因此不能拒绝原假设H 0:σ12=σ22,从而认为两个总体的方差无显著差异.注意:在μ1与μ2已知时,要检验假设H 0:σ12=σ22,其检验方法类同均值未知的情况,此时所采用的检验统计量是:F =12211122121()1()n i i n i i X n Y n μμ==--∑∑~F (n 1,n 2). 其拒绝域参看表8-4.表8-4(2) 单边检验可作类似的讨论,限于篇幅,这里不作介绍了.第四节总体分布函数的假设检验上两节中,我们在总体分布形式为已知的前提下,讨论了参数的检验问题.然而在实际问题中,有时不能确知总体服从什么类型的分布,此时就要根据样本来检验关于总体分布的χ检验法.假设.例如检验假设:“总体服从正态分布”等.本节仅介绍2χ检验法是在总体的分布为未知时,根据样本值x1,x2,…,x n来检验关于总体所谓2分布的假设H0:总体X的分布函数为F(x);H1:总体X的分布函数不是F(x)(8.22)的一种方法(这里的备择假设H1可不必写出).注意,若总体X为离散型,则假设(8.22)相当于H0:总体X的分布律为P{X=x i}=p i,i=1,2,…;(8.23)若总体X为连续型,则假设(8.22)相当于H0:总体X的概率密度为f(x). (8.24)在用2χ检验法检验假设H 0时,若在假设H 0下F (x )的形式已知,而其参数值未知,此时需先用极大似然估计法估计参数,然后再作检验.2χ检验法的基本思想与方法如下:(1) 将随机试验可能结果的全体Ω分为k 个互不相容的事件A 1,A 2,…,A k (1ki i A ==Ω,A i A j =∅,i ≠j ;i ,j =1,2,…,k ),于是在H 0为真时,可以计算概率ˆi p =P (A i )(i =1,2,…,k ).(2) 寻找用于检验的统计量及相应的分布,在n 次试验中,事件A i 出现的频率if n与概率ˆi p往往有差异,但由大数定律可以知道,如果样本容量n 较大(一般要求n 至少为50,最好在100以上),在H 0成立条件下ˆii f p n-的值应该比较小,基于这种想法,皮尔逊使用 2χ=21ˆ()ˆki i i if npnp =-∑ (8.25) 作为检验H 0的统计量,并证明了如下的定理.定理8.1 若n 充分大(n ≥50),则当H 0为真时(不论H 0中的分布属什么分布),统计量(8.25)总是近似地服从自由度为k -r -1的2χ分布,其中r 是被估计的参数的个数.(3) 对于给定的检验水平α,查表确定临界值2(1)k r αχ--使P {2χ>2(1)k r αχ--)}=α,从而得到H 0的拒绝域为2χ>2(1)k r αχ--).(4)由样本值x 1,x 2,…,x n 计算2χ的值,并与2(1)k r αχ--比较.(5) 作结论:若2χ>2(1)k r αχ--,则拒绝H 0,即不能认为总体分布函数为F (x );否则接受H 0.例8.10 一本书的一页中印刷错误的个数X 是一个随机变量,现检查了一本书的100页,记录每页中印刷错误的个数,其结果如表8-5所示.i =0.05)?解 由题意首先提出假设:H 0:总体X 服从泊松分布.P {X =i }=!e ii λλ-,i =0,1,2,…,这里H 0中参数λ为未知,所以需先来估计参数.由最大似然估计法得03614061ˆ+70100x λ⨯+⨯++⨯⨯===1.将试验结果的全体分为A 0,A 1,…,A 7两两不相容的事件.若H 0为真,则P {X =i }有估计111ˆˆ{}!!e e i p P X i i i --====,i =0,1,2,….例如10ˆˆ{0},e pP X -=== 11ˆˆ{1},e pP X -=== 12ˆˆ{2},2e pP X -=== ………………166701ˆˆˆ{7}11.!e i i i pP X p i -===≥=-=-∑∑ 计算结果如表8-6所示.将其中有些np i <5的组予以适当合并,使新的每一组内有np i ≥5,如表8-6所示,此处并组后k =4,但因在计算概率时,估计了一个未知参数λ,故24221ˆ()~(411).ˆi i i i f npnp χχ=-=--∑计算结果为2χ=1.460(表8-6).因为220.05(411)(2)αχχ--==5.991>1.46,所以在显著性水平为0.05下接受H 0,即认为总体服从泊松分布. 表8-68-7).n =61ii f=∑=200.要求在给定的检验水平α=0.05下检验假设H 0:抗压强度X ~N (μ,σ2).解 原假设所定的正态分布的参数是未知的,我们需先求μ与σ的极大似然估计值.由第七章知,μ与σ2的极大似然估计值为ˆx μ=, 2211ˆ()ni i x x n σ==-∑. 设*i x 为第i 组的组中值,我们有*1195102052624514200i ii x x f n ⨯+⨯++⨯==∑=221,{}2*222211ˆ()(26)10(16)262414200i ii x x f n σ=-=-⨯+-⨯++⨯∑=152,ˆσ=12.33. 原假设H 0改写成X 是正态N (221,12.332)分布,计算每个区间的理论概率值{}11ˆ()()i i i i i pP a X a μμΦΦ--=≤<=-, i =1,2,…,6, 其中ˆi i a xμσ-=, 22()i t i t μμ--∞=e d Φ. 为了计算出统计量2χ之值,我们把需要进行的计算列表如下(表8-8).表8-8从上面计算得出2χ的观察值为1.35.在检验水平α=0.05下,查自由度m =6-2-1=3的2χ分布表,得到临界值20.05(3)χ=7.815.由于2χ=1.35<7.815=20.05(3)χ,不能拒绝原假设,所以认为混凝土制件的抗压强度的分布是正态分布N (221,152).小 结有关总体分布的未知参数或未知分布形式的种种论断叫做统计假设.一般统计假设分为原假设H 0(在实际问题中至关重要的假设)及与原假设H 0对立假设即是备择假设H 1.假设检验就是人们根据样本提供的信息作出“接受H 0、拒绝H 1”或“拒绝H 0、接受H 1”的判断.假设检验的思想是小概率原理,即小概率事件在一次试验中几乎不会发生.这种原理是人们处理实际问题中公认的原则.由于样本的随机性,当H 0为真时,我们可能会作出拒绝H 0、接受H 1的错误判断(弃当样本容量n 固定时,我们无法同时控制犯二类错误,即减小犯第一类错误的概率,就会增大犯第二类错误的概率,反之亦然.在假设检验中我们主要控制(减小)犯第一类错误的概率.使P {拒绝H 0|H 0为真}≤α,其中α很小.(0<α<1),α称为检验的显著性水平,这种只对犯第一类错误的概率加以控制而不考虑犯第二类错误的概率的检验称为显著性假设检验.单个、两个正态总体的均值、方差的假设检验是本章重点问题,读者需掌握Z 检验法、2χ检验法、t 检验法等.这些检验法中原假设H 0备择假设H 1及H 0的拒绝域分别见表8-2、表8-4.重要术语及主题原假设 备择假设 检验统计量 单边检验 双边检验 显著性水平 拒绝域 显著性检验 一个正态总体的参数的检验 两个正态总体均值差、方差比的检验 总体分布函数的假设检验习 题 八1. 已知某炼铁厂的铁水含碳量在正常情况下服从正态分布N (4.55,0.1082).现在测了5炉铁水,其含碳量(%)分别为4.28 4.40 4.42 4.35 4.37问若标准差不改变,总体平均值有无显著性变化(α=0.05)? 2.某种矿砂的5个样品中的含镍量(%)经测定为:3.24 3.26 3.24 3.27 3.25设含镍量服从正态分布,问在α=0.01下能否接收假设:这批矿砂的含镍量为3.25. 3.在正常状态下,某种牌子的香烟一支平均1.1克,若从这种香烟堆中任取36支作为样本;测得样本均值为1.008(克),样本方差s 2=0.1(克2).问这堆香烟是否处于正常状态.已知香烟(支)的重量(克)近似服从正态分布(取α=0.05).4.某公司宣称由他们生产的某种型号的电池其平均寿命为21.5小时,标准差为2.9小时.在实验室测试了该公司生产的6只电池,得到它们的寿命(以小时计)为19,18,20,22,16,25,问这些结果是否表明这种电池的平均寿命比该公司宣称的平均寿命要短?设电池寿命近似地服从正态分布(取α=0.05).5.测量某种溶液中的水分,从它的10个测定值得出x =0.452(%),s =0.037(%).设测定值总体为正态,μ为总体均值,σ为总体标准差,试在水平α=0.05下检验. (1) H 0:μ=0.5(%);H 1:μ<0.5(%).(2)0H ':σ=0.04(%);1H ':σ<0.04(%). 6.某种导线的电阻服从正态分布N (μ,0.0052).今从新生产的一批导线中抽取9根,测其电阻,得s =0.008欧.对于α=0.05,能否认为这批导线电阻的标准差仍为0.005? 7.有两批棉纱,为比较其断裂强度,从中各取一个样本,测试得到: 第一批棉纱样本:n 1=200,x =0.532kg, s 1=0.218kg ; 第二批棉纱样本:n 2=200,x =0.57kg, s 2=0.176kg .设两强度总体服从正态分布,方差未知但相等,两批强度均值有无显著差异?(α=0.05) 8.两位化验员A ,B 对一种矿砂的含铁量各自独立地用同一方法做了5次分析,得到样本方差分别为0.4322(%2)与0.5006(%2).若A ,B 所得的测定值的总体都是正态分布,其方差分别为σA 2,σB 2,试在水平α=0.05下检验方差齐性的假设H 0:σA 2=σB 2; H 1:σA 2≠σB 2.9.在π的前800位小数的数字中,0,1,…,9相应的出现了74,92,83,79,80,73,77,75,76,91次.试用2χ检验法检验假设H 0:P (X =0)=P (X =1)=P (X =2)=…=P (X =9)=1/10,其中X 为π的小数中所出现的数字,α=0.10.10.在一副扑克牌(52张)中任意抽3张,记录3张牌中含红桃的张数,放回,然后再任抽。
(课件)概率论与数理统计:单正态总体的检验

• 原假设和对立假设
H0 : 0 H0 : 0 H0 : 0
H1 :
双侧假设检验
H1 : 0
单侧假设检验
H1 : 0
U X ~ N (0,1) U检验 n
H0 : 0 H1 :0 : 0 H1 : 0
X
n
u
H0 : 0 H1 : 0
的样本方差为9000(小时),试在0.05的显著水平下,检验这批电池寿命的
波动性,较以往是否有显著性变化?
分析:
正常: 未知
2 5000
样本: 显著性水平: 检验统计量:
S 2 9000
0.05
(n 1)S 2
2
~
2 (n 1)
—— 2 验
n 26 检
假设:
H0 : 2 5000 H1 : 2 5000
X
n
u
例3某车间生产铜丝,其主要质量指标是折断力的大小,用 X 表示该车间生产
的铜丝折断力,根据过去的资料来看,可以服从N (285,42 )
为提高折断力,
今换一种原材料,估计方差不会有较大变化,现抽取10个样本,测得折断力为
(kg):
289,286,285,284,286,285,285,286,298,292
拒绝域: (1.645,)
检验统计值: U X 287.6 285 2.05 1.645 n 4 10
决策: 在显著性水平5%下,拒绝原假设 H0 ,接受H1 : 285
,
说明折断力显著性变大。
小结:单正态总体均值 的检验
检验 条 检验
名称 件 类别 H0
检验统计量
H1
双侧
2 检验
单正态总体
均值的假设检验
《概率论于数理统计》PPT课件

若样本容量足够大,则不论把哪个假设作为原假设所得检验结果基本上应该是一样的.否则假设检验便无意义了!
由于假设检验是控制犯第一类错误的概率, 使得拒绝原假设 H0 的决策变得比较慎重, 也就是 H0 得到特别的保护. 因而, 通常把有把握的, 经验的结论作为原假设, 或者尽量使后果严重的错误成为第一类错误.
查表得 F0.05( 17, 12 ) = 2.59,
F0.95( 17, 12 ) =
拒绝外,故接受原假设, 即认为内径的稳定程度相同.
8.2.4 样本容量的选取
虽然当样本容量 n 固定时, 我们不能同时控制犯两类错误的概率, 但可以适当选取 n 的值, 使犯取伪错误的概率 控制在预先给定的限度内.
8.2 正态总体的参数检验
8.2.1 单个正态总体情况
1. 方差 已知,关于 的检验(u检验法)
(2) 选取检验统计量
~ N(0,1)
(1)
(3) 对给定的显著性水平 ,可以在N(0,1)表中查到分位点的值 ,使
得拒绝域为
W:
(4) 由样本观察值算出统计量的实测值
假设检验与置信区间对照
接受域
置信区间
检验统计量及其在 H0为真时的分布
枢轴量及其分布
0
0
( 2 已知)
( 2 已知)
原假设 H0
备择假设 H1
待估参数
接受域
置信区间
检验统计量及其在 H0为真时的分布
枢轴量及其分布
原假设 H0
备择假设 H1
待估参数
0
0
0
0
0
《概率论与数理统计》实验报告

实验目的及要求
1.掌握【正态总体均值的Z检验活动表】的使用方法;
2.掌握【正态总体均值的t检验活动表】的使用方法;
3.掌握【正态总体方差的卡方检验活动表】的使用方法;
4.掌握正态总体参数的检验方法,并能对统计结果进行正确的分析.
实验原理
实验内容
实验过程(实验操作步骤)
实验结果
1.已知某炼铁厂铁水含碳量 ,现测定9炉铁水,其平均含碳量为 ,如果铁水含碳量的方差没有变化,在显著性水平 下,可否认为现在生产的铁水平均含碳量仍为4.55.
5.掌握单个正态总体参数的区间估计方法.
实验原理
实验内容
实验过程(实验操作步骤)
实验结果
1.某厂生产的化纤强度 ,现抽取一个容量为 的样本,测定其强度,得样本均值 ,试求这批化纤平均强度的置信水平为0.95的置信区间.
2.已知某种材料的抗压强度 ,现随机抽取10个试件进行抗压试验,测得数据如下:
482,493,457,471,510,446,435,418,394,469
实验结果
1.已知玉米亩产量服从正态分布,现对甲、乙两种玉米进行品比试验,得到如下数据(单位:kg/亩):
甲
951
966
1008
1082
983
乙
730
864
742
774
990
已知两个品种的玉米产量方差相同,在显著性水平 下,检验两个品种的玉米产量是否有明显差异.
2.设机床加工的轴直径服从正态分布,现从甲、乙两台机床加工的轴中分别抽取若干个测其直径,结果如下:
甲
20.5
19.8
19.7
20.4
20.1
20.0
19.0
概率论与数理统计参数假设检验PPT课件

时,拒绝H0.
《概率统计》
返回
下页
结束
例3. 采用两种育苗方案作杨树的育苗试验,已知苗高的标准差
分别为σ1=20cm, σ2=18cm各取80株树苗作为样本,算得苗高样
本均值为:甲 x 6812 , 乙 y 5865
已知苗高服从正态分布,判断两种试验方案对平均苗高有无显著
差异(α=0.01)?
车床乙:1.11, 1.12, 1.18, 1.22, 1.33, 1.35, 1.36, 1.38
解:
H0
:
2 1
2 2
(
2 1
,
22分别为两台机床的方差)
选统计量
F
S12
S
2 2
~
F (9,7)
查表得 F 2 (9,7) F0.05 (9,7) 3.68
F1 2 (9,7) F0.95 (9,7) 1/ F0.05 (7,9) 0.304
H0: μ=μ0
H1: μ ≠ μ0
双侧检验
2)μ比μ0有无显著
H0: μ=μ0
H1: μ > μ0
右单侧检验
提高(增大)?
3)μ比μ0有无显著
降低(减少)?
(μ≤μ0) H0: μ=μ0
H1: μ < μ0
左单侧检验
(μ≥μ0)
要点:含等号“=”的作为原假设(这样做就是为了数学处理的方便).
《概率统计》
15 36
μ=μ0=70
显然统计量的值t = -1.4在接受域内,所以接受H0,即可以认 为全体考生平均分为70分.
《概率统计》
返回
下页
结束
例2. 一种元件,要求使用寿命不得低于1000小时,现在从一批这种元件中随 机抽取25件,测得其使用寿命的平均值为950小时,已知该元件寿命服从标准 差σ=100小时的正态分布,试在显著性水平α=0.05下确定这批元件是否合 格.
概率论与数理统计实验报告

(4)求 的置信度为95%置信区间;
(5)求当 时产品质量指标 的95%置信区间。
自我创新实验:
教师评分:
价格:1.19 1.18 1.17 1.15 1.15 1.15 1.16 1.22 1.12 1.18
1.21 1.21 1.15 1.20 1.22 1.22 1.16 1.20 1.18 1.13
1.09 1.20 1.12 1.23 1.19 1.21 1.12 1.09 1.17 1.17
问:是否有理由认为元件的平均寿命大于225(小时)?
三、两个正态总体均值差的检验( 检验)。
3.在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一只平炉上进行的,每炼一炉钢时除操作方法外,其他条件都尽可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交替进行,各炼10炉,其得钢率分别为
概率论与数理统计实验报告
实验题目:假设检验与回归分析
实验时间:
姓名:
学号TLAB和Mathematica对统计数据进行假设检验,和建立回归分析模型。
实验内容:1.假设检验2.回归分析
使用命令格式:
必做实验:
一、 已知时的 检验。
1.有西红柿价格数据向量,共40个数据,分别为2001年1~3月的价格。假设武汉各菜场西红柿价格的标准差为每斤0.14元,用 检验来判断原假设:1~3月份每斤西红柿的平均价格为1.15元
1.13 1.17 1.14 1.20 1.09 1.16 1.09 1.18 1.18 1.25
二、 未知时的 检验。
2.某种电子元件的寿命 (以小时计)服从正态分布,, , 均未知,现测得16只元件的寿命如下:
概率论与数理统计第23讲

(1) 建立待检假设H0:s2=s02;
(2) 如H0成立, 则
2
(n 1)S 2
s
2 0
~
2 (n 1)
35
(3) 由给定的检验水平a查表求a2,b2满足:
(n 1)S 2
P
s
2 0
b2
(n 1)S 2
P
s
2 0
2 a
a
2
(4) 计算2的值与a2,b2比较; (5) 若2>b2或2<a2拒绝H0否则接收H0;
是否成立(a=0.05)?
16
解 设H0:m=32.50. 如果H0正确, 则样本(X1,...,
X6)来自正态总体N(32.50, 1.12), 令 U X 32.50 ~ N (0,1) 1.1/ 6
17
U X 32.50 ~ N (0,1) 1.1/ 6
对给定的a 0.05,查表得ua / 2 u0.025 1.96
(2) 选取样本(X1,...,Xn)的统计量, 如H0成立,则
U X m0 ~ N (0,1) s0 / n
(s 0为已知)
20
(3) 根据检验水平a, 查表确定临界值ua/2, 使 P(|U|>ua/2)=a, 即(ua/2)=1a/2.
(4) 根据样本观察值计算统计量U的值u并 与临界值ua比较 (5) 若|u|>ua则否定H0, 否则接收H0.
2 a
P
(n 1)S 2 0.1082
b2
a
2
33
查表得
2 a
2 0.975
(4)
0.484,
b2
2 0.025
(4)
11.1,具体计算统计量 2的值 :
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
葡萄酒的评价
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
附件1给出了某一年份一些葡萄酒的评价结果。
请尝试建立数学模型讨论下面问题:
1、分析附件1中两组评酒员对白葡萄酒的评价结果有无显著性差异,哪一组结果更可信?
*2、(选作题)分析附件1中两组评酒员对红葡萄酒的评价结果有无显著性差异,哪一组结果更可信?
要求:
一、以PPT的形式,阐述下列问题(*部分为选作问题)
(一)参数假设检验
1、Z检验的作用与适用条件;
2、T检验的作用与适用条件;
3、x2检验的作用与适用条件;
4、与上述检验法对应的MATLA函数;
*5、非正态数据常用的转化法。
(二)非参数假设检验
1、分布拟合检验
(1)x2拟合检验作用与适用条件;
(2)偏度与峰度拟合检验作用与适用条件;
(3)夏皮罗-威尔克检验作用与适用条件;
*(4)常用的正态性检验法;
(5)MATLAB中,正态检验函数及其对应的检验法;
*2、秩和检验、符号检验及符号秩和检验的作用与适用范围,秩和检验优点与缺点;
*3、秩和检验对应的MATLAB函数;
(三)假设检验问题P值法的定义
二、提交案例分析报告(具体要求看附件2)。
附件1:葡萄酒品尝评分表(含4个表格)
附件2:附件2-案例报告要求。