第4章2 假设检验
第4章 统计推断2
![第4章 统计推断2](https://img.taocdn.com/s3/m/b5a60c0add36a32d73758140.png)
成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2
x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d
假设检验的步骤 (2)
![假设检验的步骤 (2)](https://img.taocdn.com/s3/m/61111621dcccda38376baf1ffc4ffe473368fd22.png)
假设检验的步骤
假设检验是统计学中用来判断关于总体参数的假设是否成立的方法。
它的步骤通常包括以下几个部分:
1. 提出假设:根据研究问题,明确原假设(H0)和备择假设(H1),它们是互斥的。
2. 选择合适的检验统计量:根据研究问题和数据的特性,选择合适的检验统计量,如t检验、χ²检验、F检验等。
3. 设置显著水平:明确显著水平(α),即拒绝原假设的最小可接受准则。
常见的显著水平有0.05和0.01。
4. 计算统计量的观察值:根据样本数据,计算统计量的观察值。
5. 确定拒绝域:根据显著水平和分布的特性,确定统计量观察值在拒绝域的位置。
6. 进行假设检验:根据统计量观察值的位置,判断是否拒绝原假设。
如果观察值落在拒绝域内,则拒绝原假设;如果观察值落在接受域内,则接受原假设。
7. 得出结论:根据假设检验结果,进行相应的结论,判断是否存在统计显著性或差异的实际意义。
需要注意的是,假设检验的步骤可以根据具体的情况和问题而有所差异,而且在实际应用中还需要考虑诸如样本选择、抽样误差等因素的影响。
假设检验的基本概念2
![假设检验的基本概念2](https://img.taocdn.com/s3/m/4d31bf4cf08583d049649b6648d7c1c708a10b32.png)
二、假设检验旳基本原理
在大量观察中频频出现旳事件具有较大旳概率, 出现次数较小旳事件,具有小旳概率。
在日常生活中,人们习惯于把概率很小旳事件, 看成在一次观察中是不可能出现旳事件,这个原理 称作小概率原理。
举例说,我们几乎每天从电视、报纸、甚至街头 广告牌上都能看到交通事故旳统计,但人们绝不所 以而放弃交通工具旳使用 ,可见,在日常生活中, 人们是在不自觉利用小概率原理。
统计假设检验旳基本原理是小概率原理。
小概率原理能够归纳为两个方面:
能够以为小概率事件在一次观察中是不 可能出现旳。
假如在一次观察中出现了小概率事件, 那么,合理旳想法是否定原有事件具有小 概率旳说法(或称假设)。
即直接检验H0,间接检验H1。
•小概率 原理:
假如对总体旳某种假设是真实旳,那么不利于 或不能支持这一假设旳事件A(小概率事件)在 一次试验中几乎不可能发生旳;要是在一次试 验中A居然发生了,就有理由怀疑该假设旳真实 性,拒绝这一假设。
总体
抽样
(某种假设)
检验
(接受)
小概率事件 未发生
样本 (观察成果)
(拒绝) 小概率事件 发生
三、假设检验旳基本形式
虚无假设HO如前面所举女青年初婚年龄=20。原假设
在不会研被究假否中设定是,稳一不定般然、涉也受就到及失保两去护其旳部研,分究但意另:义一虚。方当面无经也假过并抽不设样表H调达O查永和,远研 究当假实际设数H据1。否定了原有假设H0时,就产生了需要接受其逻辑
拟定α,就拟定了 临界点c。拟定了 临界点c,就拟定 了否定域旳大小。
假设检验的基本概念 (2)
![假设检验的基本概念 (2)](https://img.taocdn.com/s3/m/d0b59d124693daef5ff73d05.png)
原假设 H0
备择假设 检验统计量及其在
H1
H0为真时的分布
拒绝域
1 – 2 = 1 – 2 1 – 2 1 – 2 < 1 – 2 1 – 2 >
U X Y
2 1
2 2
nm
~ N (0,1)
( 12,22 已知)
U z
2
U z
U z
原假设 备择假设 检验统计量及其在
H0
犯取伪错误的概率 控制在预先给定的限度内.
由于假设检验是控制犯第一类错误的概率, 使得拒绝原假设 H0 的决策变得比较慎重, 也就 是 H0 得到特别的保护. 因而, 通常把有把握的, 经验的结论作为原假设, 或者尽量使后果严重 的错误成为第一类错误.
上述两种解法的立场不同,因此得到不同 的结论.第一种假设是不轻易否定厂方的结论; 第二种假设是不轻易相信厂方的结论.
0.29
故接受原假设, 即认为内径的稳定程度相同.
假设检验与区间估计的联系
同一函数
假 统计量
设
检 接受域 验
枢轴量
区
间
置信区间 估 计
1
对偶关系
例5 新设计的某种化学天平,其测量的误差 服从正态分布,现要求 99.7% 的测量误差不超过
0.1mg, 即要求 3 0.1。现拿它与标准天平相比,
得10个误差数据,其样本方差s2 =0.0009. 试问在
PH0 (
X 0
k
)P ( H0
X0ຫໍສະໝຸດ Z12 ) nn
取 k Z12
n
n
所以本检验的拒绝域为
U z 0:
12
U 检验法
U 检验法 (2 已知)
常用的假设检验方法(U检验、T检验、卡方检验、F检验)
![常用的假设检验方法(U检验、T检验、卡方检验、F检验)](https://img.taocdn.com/s3/m/be890719773231126edb6f1aff00bed5b9f37309.png)
常⽤的假设检验⽅法(U检验、T检验、卡⽅检验、F检验)⼀、假设检验假设检验是根据⼀定的假设条件,由样本推断总体的⼀种⽅法。
假设检验的基本思想是⼩概率反证法思想,⼩概率思想认为⼩概率事件在⼀次试验中基本上不可能发⽣,在这个⽅法下,我们⾸先对总体作出⼀个假设,这个假设⼤概率会成⽴,如果在⼀次试验中,试验结果和原假设相背离,也就是⼩概率事件竟然发⽣了,那我们就有理由怀疑原假设的真实性,从⽽拒绝这⼀假设。
⼆、假设检验的四种⽅法1、有关平均值参数u的假设检验根据是否已知⽅差,分为两类检验:U检验和T检验。
如果已知⽅差,则使⽤U检验,如果⽅差未知则采取T检验。
2、有关参数⽅差σ2的假设检验F检验是对两个正态分布的⽅差齐性检验,简单来说,就是检验两个分布的⽅差是否相等3、检验两个或多个变量之间是否关联卡⽅检验属于⾮参数检验,主要是⽐较两个及两个以上样本率(构成⽐)以及两个分类变量的关联性分析。
根本思想在于⽐较理论频数和实际频数的吻合程度或者拟合优度问题。
三、U检验(Z检验)U检验⼜称Z检验。
Z检验是⼀般⽤于⼤样本(即⼤于30)平均值差异性检验的⽅法(总体的⽅差已知)。
它是⽤标准的理论来推断差异发⽣的概率,从⽽⽐较两个的差异是否显著。
Z检验步骤:第⼀步:建⽴虚⽆假设 H0:µ1 = µ2 ,即先假定两个平均数之间没有显著差异,第⼆步:计算Z值,对于不同类型的问题选⽤不同的计算⽅法,1、如果检验⼀个样本平均数(X)与⼀个已知的总体平均数(µ0)的差异是否显著。
其Z值计算公式为:其中:X是检验样本的均值;µ0是已知总体的平均数;S是总体的标准差;n是样本容量。
2、如果检验来⾃两个的两组样本平均数的差异性,从⽽判断它们各⾃代表的总体的差异是否显著。
其Z值计算公式为:第三步:⽐较计算所得Z值与理论Z值,推断发⽣的概率,依据Z值与差异显著性关系表作出判断。
如下表所⽰:第四步:根据是以上分析,结合具体情况,作出结论。
假设检验——非参数检验
![假设检验——非参数检验](https://img.taocdn.com/s3/m/b323ff10d5bbfd0a785673bd.png)
假设检验(二)——非参数检验假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。
上一节我们所介绍的Z 检验、t 检验,都是参数检验。
它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。
参数检验就是要通过样本统计量去推断或估计总体参数。
然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。
这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。
非参数检验是通过检验总体分布情况来实现对总体参数的推断。
非参数检验法与参数检验法相比,特点可以归纳如下:(1)非参数检验一般不需要严格的前提假设;(2)非参数检验特别适用于顺序资料;(3)非参数检验很适用于小样本,并且计算简单;(4)非参数检验法最大的不足是没能充分利用数据资料的全部信息;(5 )非参数检验法目前还不能用于处理因素间的交互作用。
非参数检验的方法很多,分别适用于各种特点的资料。
本节将介绍几种常用的非参数检验方法。
一.2检验2检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。
22检验的方法主要包括适合性检验和独立性检验。
(一)2检验概述2是实得数据与理论数据偏离程度的指标。
其基本公式为:2 ( f0 f e)(公式11—9)fe式中,f0 为实际观察次数,f e 为理论次数。
分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。
观察公式可发现,如果实际观察次数与理论次数的差异越小, 2值也就越小。
当 f 0 与 f e 完全相同时,2值为零。
际次数与理论次数之差的大小而变化利用2值去检验实际观察次数与理论次数的差异是否显著的方法称为2检验有两个主要的作第一,可以用来检验各种实际次数与理论次数是否吻合的这类问题统称为适合性检验; 第二, 判断计数的两组或多组资料是否相互关联还是相互独立的问 题,这类问题统称为独立性检验。
《统计学(第二版)》电子课件 第4章 假设检验
![《统计学(第二版)》电子课件 第4章 假设检验](https://img.taocdn.com/s3/m/8bcd9c01f8c75fbfc67db2c4.png)
显著性检验本身对原假设起保护作用,水平越小, 检验犯第一类错误的概率就越小,换言之,越有 可能不拒绝原假设。
2021/8/7
《统计学》第4章假设检验
4-29
4.1.5 双侧检验和单侧检验
常见的三种显著性假设检验形式: (1)双侧检验 H0 : 0 H1 : 0 (2)右侧检验 H0 : 0 H1 : 0 (3)左侧检验 H0 : 0 H1 : 0
从该批产品中随机抽取了100件,发现其中有4件 次品,即样本次品率为4%,A公司认为样本次品 率4%大于1%,所以不接受B公司的这批产品,B 公司则认为虽然样本次品率为4%,但并不能说明 10万件产品的次品率大于1%,因为样本量很小;
2021/8/7
《统计学》第4章假设检验
4-3
问题
(1)A公司是否应该接受该批产品? (2)如果随机抽取了100件产品有3件次品,
H0:pp01%
2021/8/7
《统计学》第4章假设检验
4-12
记X为100件产品中次品的数目,直观上看, X越大,原假设越值得怀疑,反之, X越小, 对原假设越有利;问题是, X大到多少应 该拒绝原假设?
两种处理方法:
2021/8/7
《统计学》第4章假设检验
4-13
1. 假定H0成立,计算事件X≥4的概率
4-32
4.2 一个正态总体的检验
4.2.1 总体均值μ的检验: Z检验 考虑如下三种检验问题
H0:0 H1:0 H0:0 H1:0 H0:0 H1:0
(4.4) (4.5) (4.6)
2021/8/7
《统计学》第4章假设检验
4-33
假设检验2
![假设检验2](https://img.taocdn.com/s3/m/6e57032accbff121dc368305.png)
检验。
两样本均数比较的t检验
•
假定两样本所代表的总体分别服从正态分
布 N (1,12 ) 、N (2 , 22 ),若两总体方差相等
(12 = 22 ),可估计出两者的合并方差 Sc2
x1 x2 2 2 x2 x1 2 2 n 1 S n 1 S n n 1 2 2 1 2 Sc2 1 n1 n2 2 n1 n2 2
•
选用双侧检验还是单侧检验需要根据分析目的及专业 知识进行确定 在没有充分理由进行单侧检验时,为了稳妥起见,建 议采用双侧检验
•
•
应该在假设检验的第一步建立检验假设时确定,不应
该在算得检验统计量后主观确定,否则可能得到相反 的结论
2. 选定检验方法,计算检验统计量
2 N ( , ), 已知观察变量血红蛋白值服从正态分布
•
两小样本均数比较时,要求两样本均来自正态
分布总体,且两样本总体方差相等
•
对两大样本(n1、n2 均大于50)的均数比较,可用Z 检验
配对设计均数的比较
亦称为配对 t 检验(paired samples t test)
•
配对设计资料主要有以下三种情况
配对的两个受试对象分别接受两种不同处理之 后的数据 同一样品用两种方法(或仪器)检验出的结果 同一受试对象两个部位的测定数据
n n 1 3 n 1 Xi X KURT n 1 n 2 n 3 i 1 S n 2 n 3
n 4 2
S KURT
24n n 1 n 3 n 2 n 3 n 5
假设检验-单样本检验
![假设检验-单样本检验](https://img.taocdn.com/s3/m/9ec3ef2b59fb770bf78a6529647d27284b7337cd.png)
假设检验-单样本检验假设检验时数据分析必须学习的⽅法第⼀部分:误差思维和置信区间什么是误差思维?误差永远存在、不可避免随机⼲扰因素的影响⼀个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响⽽造成的变化偏离标准值或规定值的数量,误差是不可避免的。
只要有估计,就会有误差。
什么是置信区间?置信区间:误差范围什么是置信⽔平?置信⽔平:区间包含总体平均值的概率p(a<样本平均值<b)=Y%这⾥选常⽤置信⽔平%95,即精度为2个标准误差范围内:通过游戏可视化理解置信区间?如何计算⼤样本的置信区间?⼤样本:当⼀个抽样调查的样本数量⼤于30。
这时候可以近似看出样本抽样分布趋近于正态分布,因此它符合中⼼极限定理。
下⾯以计算全国成年男性的平均⾝⾼为例,假设抽取样本100⼈,平均值167.1cm,标准差0.2cm 1.确定要求解的问题计算全国成年男性的平均⾝⾼范围及精度2.求样本的平均值和标准误差3.确定置信⽔平这⾥选常⽤置信⽔平%95,即精度为2个标准误差范围内:4.求出置信区间上下限的值(1)由于选⽤的样本⼤⼩为100⼤于30符合正态分布,先求出如下图中两块红⾊区域⾯积(概率):(2)通过查z表格查出标准分Z=-1.96(3)求出a和b的值的⽅法:(4)根据中⼼极限定理,样本平均值约等于总体平均值,最终求出a和b的值:结论:当我们选⽤置信⽔平为%95时,求得置信区间为[167.0608,167.1392],即在两个标准误差范围内,全国成年男性的平均⾝⾼为167.0608cm到167.1392cm之间。
5.常⽤置信⽔平及其对应Z值(标准分)如何计算⼩样本的置信区间?⼩样本:当⼀个抽样调查的样本数量⼩于30。
这时候抽样分布符合t分布:在概率论和统计学中,t-分布(t-distribution)⽤于根据⼩样本来估计呈正态分布且⽅差未知的总体的均值。
如果总体⽅差已知(例如在样本数量⾜够多时),则应该⽤正态分布来估计总体均值。
统计学各章节试题
![统计学各章节试题](https://img.taocdn.com/s3/m/aa755f5ff46527d3240ce0c1.png)
、中位数可反映总体的趋势,四分位差可反映总体的7、以下数字特征不刻画分散程度的是A、极差B、离散系数C、中位数D、标准差8、已知总体平均数为200,离散系数为0.05,则总体方差为A、 B、10 C、100 D、0.19、两个总体的平均数不相等,标准差相等,则A、平均数大,代表性大B、平均数小,代表性大C、两个总体的平均数代表性相同D、无法判断10、某单位的生产小组工人工资资料如下:90元、100元、110元、120元、128元、148元、200元,计算结果均值为元,标准差为A、σ=33B、σ=34C、σ=34.23D、σ=3511、已知方差为 100 ,算术平均数为 4 ,则标准差系数为A、10B、2.5C、25D、无法计算12、有甲乙两组数列,若A、1<21>2,则乙数列平均数的代表性高B、1<21>2,则乙数列平均数的代表性低C、1=21>2,则甲数列平均数的代表性高D、1=21<2,则甲数列平均数的代表性低13、某城市男性青年27岁结婚的人最多,该城市男性青年结婚年龄为26.2岁,则该城市男性青年结婚的年龄分布为A、右偏B、左偏C、对称D、不能作出结论14、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户,描述该组数据的集中趋势宜采用A、众数B、中位数C、四分位数D、均值15、如果你的业务是提供足球运动鞋的号码,哪一种平均指标对你更有用?A、算术平均数B、几何平均数C、中位数D、众数三、判断1、已知分组数据的各组组限为:10~15,15~20,20~25,取值为15的这个样本被分在第一组。
()2、将收集到得的数据分组,组数越多,丧失的信息越多。
()3、离散变量既可编制单项式变量数列,也可编制组距式变量数列。
)4、从一个总体可以抽取多个样本,所以统计量的数值不是唯一确定的。
()5、在给定资料中众数只有一个。
假设检验
![假设检验](https://img.taocdn.com/s3/m/73fdfc437cd184254a353532.png)
简要回答题:1. 某生产厂家声称,它们的产品合格率在99%以上。
某销售商准备购进一批该厂生产的产品,但需要一份质检证明报告证明其合格率在99%以上。
(1)如果是生产厂家自己出示一份质检报告,会提出怎样的备择假设?试说明理由。
(2)如果是销售商亲自抽检,会提出怎样的备择假设?答案:(1)生产厂家提出的备择假设应该是:。
因为生产厂家自己想证明的自然是产品合格率在99%以上。
(2)销售商提出的假设应该是:。
因为销售商不会轻易相信生产厂家的说法,会采取相对保守的策略。
知识点:假设检验难易度:22. 什么是P值?要证明原假设不正确,如何确定合理的P值?答案:(1)P值是指原假设正确时,所得到的样本结果会象实际观测结果那么极端或更极端的概率,也称为观察到的显著性水平。
它反映的是在某个总体的许多样本中某一类数据出现的经常程度。
(2)如果原假设所代表的假设是人们多年来一直相信的看法,要证明原假设不正确,就需要很强的证据,应该选择应该小的P值。
如果拒绝原假设可能会付出很高的成本,那么就需要选择一个更小的P值。
知识点:假设检验难易度:33. 为什么说用P决策要优于用统计量决策?答案:(1)与统计量决策相比,P值决策提供了更多的信息。
因为用统计量决策时,依据的是事先确定的显著性水平a,因此,只要统计量的值落在拒绝域,无论它在哪个位置,拒绝原假设的结论都是一样的。
但统计量落在拒绝域不同的地方,实际的显著性是不同的。
(2)P值给出了拒绝原假设时,犯第Ⅰ类错误的实际概率的大小,而用统计量决策仅仅是知道犯错误的可能性是a那么大,但究竟是多少却不知道。
知识点:假设检验难易度:24. 为什么说用假设检验不能证明原假设正确?答案:(1)假设检验的目的是收集证据拒绝原假设,而支持你所倾向的备择假设。
当拒绝原假设时,表明样本提供的证据证明它是错误的;当没有拒绝原假设时,也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据。
(2)当不能拒绝原假设时,仅仅意味着目前我们还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设,但我们也无法证明原假设是什么。
《假设检验》PPT课件-(2)
![《假设检验》PPT课件-(2)](https://img.taocdn.com/s3/m/91d16e44640e52ea551810a6f524ccbff121cabd.png)
资料的代表性与可比性 所谓代表性是指该样本从相应总体中经随机抽样获得,能够代表总体的特征; 所谓可比性是指各对比组间除了要比较的主要因素外,其它影响结果的因素应尽可能相同或相近 为了保证资料的可比性,必须要有严密的实验设计,保证样本随机抽取于同质总体,这是假设检验得以正确应用的前提 。
在两个样本均数比较时,若两组样本含量都很大,可用u检验,其计算公式为:
u为标准正态离差,按正态和1993抽查部分12岁男童对其发育情况进行评估,其中身高的有关资料如下,试比较这两个年度12岁男童身高均数有无差别。
1973 年:n1=120 =139.9cm s1=7.5cm; 1993 年:n2=153 =143.7cm s2=6.3cm。 H0 :1=2,即该市两个年度12岁男童平均身高相等; H1 :1≠2,即该市两个年度12岁男童平均身高不等。 双侧 =0.05。
-t
t
0
-2.064
2.064
0
=24
0.025
0.025
t0.05,24=2.064 P =P ( |t| ≥2.064 )=0.05
P=P(|t|≥5.4545)<0.05
结论(根据小概率原理作出推断)
在H0成立的前提下出现现有差别或更大差别的可能性P(| t | ≥5.4545)小于0.05,是小概率事件,即现有样本信息不支持H0。 抉择的标准为: 当P≤ 时,拒绝H0,接受H1 当P> 时,不拒绝H0 本例P<0.05,按 =0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为该病女性患者的Hb含量高于正常女性的Hb含量。
根据抽样误差理论,在H0假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。 t值越小,越利于H0假设 t值越大,越不利于H0假设
假设检验——简单假设,复合假设
![假设检验——简单假设,复合假设](https://img.taocdn.com/s3/m/f334d99bd1d233d4b14e852458fb770bf78a3be2.png)
假设检验——简单假设,复合假设设总体2(,)N ξµσ~,其中参数µ,2σ为未知,试指出下⾯统计假设中哪些是简单假设,哪些是复合假设:(1)0:0,1H µσ==;(2)0:0,1H µσ=>;(3)0:3,1H µσ<=;(4)0:03H µ<<;(5)0:0H µ=.解:(1)是简单假设,其余位复合假设设1225,,,ξξξL 取⾃正态总体(,9)N µ,其中参数µ未知,x 是⼦样均值,如对检验问题0010:,:H H µµµµ=≠取检验的拒绝域:12250{(,,,):||}c x x x x c µ=-≥L ,试决定常数c ,使检验的显著性⽔平为解:因为(,9)N ξµ~,故9(,)25N ξµ~ 在0H 成⽴的条件下,00053(||)(||)53521()0.053cP c P c ξµξµ-≥=-≥?=-Φ=55()0.975,1.9633c cΦ==,所以c =。
设⼦样1225,,,ξξξL 取⾃正态总体2(,)N µσ,20σ已知,对假设检验0010:,:H H µµµµ=>,取临界域12n 0{(,,,):|}c x x x c ξ=>L ,(1)求此检验犯第⼀类错误概率为α时,犯第⼆类错误的概率β,并讨论它们之间的关系;(2)设0µ=,20σ=,α=,n=9,求µ=时不犯第⼆类错误的概率。
解:(1)在0H 成⽴的条件下,200(,)nN σξµ~,此时00000()P c P ξαξ=≥=≥10αµ-=,由此式解出010c αµ-=+在1H 成⽴的条件下,20(,)nN σξµ~,此时101010()(P c P αξβξµ-=<=<=Φ=Φ=Φ由此可知,当α增加时,1αµ-减⼩,从⽽β减⼩;反之当α减少时,则β增加。
第四章 第一次课(2+1) 假设检验的原理
![第四章 第一次课(2+1) 假设检验的原理](https://img.taocdn.com/s3/m/8f644a26b7360b4c2e3f64ce.png)
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者 来自同一总体,接受零假设则表示克矽平没有疗效。
而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗 前的平均数来自不同总体,即克矽平有疗效。
2 、 确定显著水平 能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以 在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平 。 3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选择使用不同的检验方法。 例
确定
水准
计算统计量
确定P值并与给定的
比较
做出推断结论。 假设检验的基本逻辑是“小概率事件在一次抽样 中不太可能出现”。 假设检验有两类错误。 假设检验与相应的置信区间估计既能提供等价的 结果,又有各自不同的功能。 假设检验方法很多,每种方法有相应的适用条件。 综合考虑研究目的、设计类型、变量类型、样本 含量等要素之后才能选择合适的假设检验方法。 三、课后练习 1假设检验的理论依据是什么? 2假设检验的两类错误的区别与联系是什么? 3t检验的应用条件是什么? 4假设检验中P值的意义是什么? 5如何确定检验水准? 6如何恰当地应用单侧与双侧检验?
=11头,标准差S1=1.76头;大白猪10头经产母猪产仔平均数
=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值
-
=1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论 呢?统计学认为,这样得出的结论是不可靠的。这是因为如果我们再分 别随机抽测10头长白猪和10头大白猪经产母猪的产仔数,又可得到两个 样本资料。由于抽样误差的随机性,两样本平均数就不一定是11头和 9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验 误差(或抽样误差)。对两个样本进行比较时,必须判断样本间差异是 抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎
《医学统计学》第5版单选题
![《医学统计学》第5版单选题](https://img.taocdn.com/s3/m/b1fb5c2db90d6c85ed3ac603.png)
《医学统计学》单项选择题摘自:马斌荣主编.医学统计学.第5版.北京:人民卫生出版社,2008第一章医学统计中的基本概念1. 医学统计学研究的对象是A. 医学中的小概率事件B. 各种类型的数据C. 动物和人的本质D. 疾病的预防与治疗E.有变异的医学事件2. 用样本推论总体,具有代表性的样本指的是A.总体中最容易获得的部分个体 B.在总体中随意抽取任意个体C.挑选总体中的有代表性的部分个体 D.用配对方法抽取的部分个体E.依照随机原则抽取总体中的部分个体3. 下列观测结果属于等级资料的是A.收缩压测量值 B.脉搏数C.住院天数 D.病情程度E.四种血型4. 随机误差指的是A. 测量不准引起的误差B. 由操作失误引起的误差C. 选择样本不当引起的误差D. 选择总体不当引起的误差E. 由偶然因素引起的误差5. 收集资料不可避免的误差是A. 随机误差B. 系统误差C. 过失误差D. 记录误差E.仪器故障误差答案: E E D E A第二章集中趋势的统计描述1. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是A. 中位数B. 几何均数P百分位数C. 均数D.95E. 频数分布2. 算术均数与中位数相比,其特点是A.不易受极端值的影响 B.能充分利用数据的信息C.抽样误差较大 D.更适用于偏态分布资料E.更适用于分布不明确资料3. 一组原始数据呈正偏态分布,其数据的特点是A. 数值离散度较小B. 数值离散度较大C. 数值分布偏向较大一侧D. 数值分布偏向较小一侧E. 数值分布不均匀4. 将一组计量资料整理成频数表的主要目的是A.化为计数资料 B. 便于计算C. 形象描述数据的特点D. 为了能够更精确地检验E. 提供数据和描述数据的分布特征5. 6人接种流感疫苗一个月后测定抗体滴度为 1:20、1:40、1:80、1:80、1:160、1:320,求平均滴度应选用的指标是A. 均数B. 几何均数C. 中位数D. 百分位数E. 倒数的均数答案: A B D E B第三章离散程度的统计描述1. 变异系数主要用于A.比较不同计量指标的变异程度 B. 衡量正态分布的变异程度C. 衡量测量的准确度D. 衡量偏态分布的变异程度E. 衡量样本抽样误差的大小2. 对于近似正态分布的资料,描述其变异程度应选用的指标是A. 变异系数B. 离均差平方和C. 极差D. 四分位数间距E. 标准差3. 某项指标95%医学参考值范围表示的是A. 检测指标在此范围,判断“异常”正确的概率大于或等于95%B. 检测指标在此范围,判断“正常”正确的概率大于或等于95%C. 在“异常”总体中有95%的人在此范围之外D. 在“正常”总体中有95%的人在此范围E. 检测指标若超出此范围,则有95%的把握说明诊断对象为“异常”4.应用百分位数法估计参考值范围的条件是A.数据服从正态分布 B.数据服从偏态分布C.有大样本数据 D.数据服从对称分布E.数据变异不能太大5.已知动脉硬化患者载脂蛋白B的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用A.全距 B.标准差C.变异系数 D.方差E.四分位数间距答案:A E D B E第四章抽样误差与假设检验1. 样本均数的标准误越小说明A. 观察个体的变异越小B. 观察个体的变异越大C. 抽样误差越大D. 由样本均数估计总体均数的可靠性越小E. 由样本均数估计总体均数的可靠性越大2. 抽样误差产生的原因是A. 样本不是随机抽取B. 测量不准确C. 资料不是正态分布D. 个体差异E. 统计指标选择不当3. 对于正偏态分布的的总体, 当样本含量足够大时, 样本均数的分布近似为A. 正偏态分布B. 负偏态分布C. 正态分布D. t分布E. 标准正态分布4. 假设检验的目的是A. 检验参数估计的准确度B. 检验样本统计量是否不同C. 检验样本统计量与总体参数是否不同D. 检验总体参数是否不同E. 检验样本的P值是否为小概率5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109/L~9.1×109/L,其含义是A. 估计总体中有95%的观察值在此范围内B. 总体均数在该区间的概率为95%C. 样本中有95%的观察值在此范围内D. 该区间包含样本均数的可能性为95%E. 该区间包含总体均数的可能性为95%答案:E D C D E第五章 t 检验1. 两样本均数比较,检验结果05.0 P 说明A. 两总体均数的差别较小B. 两总体均数的差别较大C. 支持两总体无差别的结论D. 不支持两总体有差别的结论E. 可以确认两总体无差别2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指A. 两样本均数的差别具有实际意义B. 两总体均数的差别具有实际意义C. 两样本和两总体均数的差别都具有实际意义D. 有理由认为两样本均数有差别E. 有理由认为两总体均数有差别3. 两样本均数比较,差别具有统计学意义时,P 值越小说明A. 两样本均数差别越大B. 两总体均数差别越大C. 越有理由认为两样本均数不同D. 越有理由认为两总体均数不同E. 越有理由认为两样本均数相同4. 减少假设检验的Ⅱ类误差,应该使用的方法是A. 减少Ⅰ类错误B. 减少测量的系统误差C. 减少测量的随机误差D. 提高检验界值E. 增加样本含量5.两样本均数比较的t 检验和u 检验的主要差别是A. t 检验只能用于小样本资料B. u 检验要求大样本资料C. t 检验要求数据方差相同D. t 检验的检验效能更高E. u 检验能用于两大样本均数比较答案:D E D E B第六章 方差分析1. 方差分析的基本思想和要点是A .组间均方大于组内均方B .组内均方大于组间均方C .不同来源的方差必须相等D .两方差之比服从F 分布E .总变异及其自由度可按不同来源分解2. 方差分析的应用条件之一是方差齐性,它是指A. 各比较组相应的样本方差相等B. 各比较组相应的总体方差相等C. 组内方差=组间方差D. 总方差=各组方差之和E. 总方差=组内方差 + 组间方差3. 完全随机设计方差分析中的组间均方反映的是A. 随机测量误差大小B. 某因素效应大小C. 处理因素效应与随机误差综合结果D. 全部数据的离散度E. 各组方差的平均水平4. 对于两组资料的比较,方差分析与t检验的关系是A. t检验结果更准确B. 方差分析结果更准确C. t检验对数据的要求更为严格D. 近似等价E. 完全等价P ,则应该进一步做的是5.多组均数比较的方差分析,如果0.05A.两均数的t检验 B.区组方差分析C.方差齐性检验 D.q检验E.确定单独效应答案:E B C E D第七章相对数及其应用1. 如果一种新的治疗方法能够使不能治愈的疾病得到缓解并延长生命,则应发生的情况是A. 该病患病率增加B. 该病患病率减少C. 该病的发病率增加D. 该病的发病率减少E. 该疾病的死因构成比增加2. 计算乙肝疫苗接种后血清学检查的阳转率,分母为A. 乙肝易感人数B. 平均人口数C. 乙肝疫苗接种人数D. 乙肝患者人数E. 乙肝疫苗接种后的阳转人数3. 计算标准化死亡率的目的是A. 减少死亡率估计的偏倚B. 减少死亡率估计的抽样误差C. 便于进行不同地区死亡率的比较D. 消除各地区内部构成不同的影响E. 便于进行不同时间死亡率的比较4. 影响总体率估计的抽样误差大小的因素是A. 总体率估计的容许误差B. 样本率估计的容许误差C. 检验水准和样本含量D. 检验的把握度和样本含量E. 总体率和样本含量5. 研究某种新药的降压效果,对100人进行试验,其显效率的95%可信区间为0.862~0.926,表示A. 样本显效率在0.862~0.926之间的概率是95%B. 有95%的把握说总体显效率在此范围内波动C. 有95%的患者显效率在此范围D. 样本率估计的抽样误差有95%的可能在此范围E. 该区间包括总体显效率的可能性为95%答案:A C D E E第八章 2χ检验1. 利用2χ检验公式不适合解决的实际问题是A. 比较两种药物的有效率B. 检验某种疾病与基因多态性的关系C. 两组有序试验结果的药物疗效D. 药物三种不同剂量显效率有无差别E. 两组病情“轻、中、重”的构成比例2.欲比较两组阳性反应率, 在样本量非常小的情况下(如1210,10n n <<), 应采用A. 四格表2χ检验B. 校正四格表2χ检验C. Fisher 确切概率法D. 配对2χ检验E. 校正配对2χ检验3.进行四组样本率比较的2χ检验,如220.01,3χχ>,可认为A. 四组样本率均不相同B. 四组总体率均不相同C. 四组样本率相差较大D. 至少有两组样本率不相同E. 至少有两组总体率不相同4. 从甲、乙两文中,查到同类研究的两个率比较的2χ检验,甲文220.01,1χχ>,乙文220.05,1χχ>,可认为 A. 两文结果有矛盾 B. 两文结果完全相同C. 甲文结果更为可信D. 乙文结果更为可信E. 甲文说明总体的差异较大5.下列哪一项不是两组有效率比较检验功效的相关因素(原题的选项设置不合适,已进行了修改)A. I 型错误B. 理论频数C. 样本含量D. 总体率差别E. II 型错误答案:C C E C B第九章非参数检验1.对医学计量资料成组比较, 相对参数检验来说,非参数秩和检验的优点是A. 适用范围广B. 检验效能高C.检验结果更准确 D. 充分利用资料信息E. 不易出现假阴性错误2. 对于计量资料的比较,在满足参数法条件下用非参方法分析,可能产生的结果是A. 增加Ⅰ类错误B. 增加Ⅱ类错误C. 减少Ⅰ类错误D. 减少Ⅱ类错误E. 两类错误都增加3. 两样本比较的秩和检验,如果样本含量一定,两组秩和的差别越大说明A. 两总体的差别越大B. 两总体的差别越小C. 两样本的差别可能越大D. 越有理由说明两总体有差别E. 越有理由说明两总体无差别4. 多个计量资料的比较,当分布类型不清时,应选择的统计方法是A. 方差分析B.Wilcoxon T检验C. Kruskal-Wallis H检验D. u检验χ检验E. 25.在一项临床试验研究中,疗效分为“痊愈、显效、有效、无效”四个等级,现欲比较试验组与对照组治疗效果有无差别,宜采用的统计方法是⨯列联表2χ检验A. Wilcoxon秩和检验B. 24χ检验 D. Fisher确切概率法C. 四格表2E. 计算标准化率答案:A B D C A第十章线性相关与回归1. 使用最小二乘法确定直线回归方程的原则是A. 各观察点距回归直线的纵向距离之和最小B.各观察点距回归直线的横向距离之和最小C. 各观察点距回归直线的垂直距离平方和最小D.各观察点距回归直线的纵向距离平方和最小E. 各观察点距回归直线的横向距离平方和最小2. 两数值变量相关关系越强,表示A. 相关系数越大B. 相关系数的绝对值越大B. 回归系数越大C. 回归系数的绝对值越大E. 相关系数检验统计量的t值越大3. 回归分析的决定系数2R 越接近于1,说明A. 相关系数越大B. 回归方程的显著程度越高C. 应变量的变异越大D. 应变量的变异越小E. 自变量对应变量的影响越大4. 两组资料作回归分析,直线回归系数b 较大的一组,表示A .两变量关系密切的可能性较大B .检验显著的可能性较大C .决定系数2R 较大D .决定系数2R 可能大也可能小E .数量依存关系更密切5. 1—7岁儿童可以用年龄(岁)估计体重(市斤),回归方程为ˆ144YX =+,若将体重换成国际单位kg ,则此方程A .常数项改变B .回归系数改变C .常数项和回归系数都改变D .常数项和回归系数都不改变E .决定系数改变答案:D B E D C第十一章 多元线性回归与多元逐步回归1. 在疾病发生危险因素的研究中,采用多变量回归分析的主要目的是A .节省样本B .提高分析效率C .克服共线影响D .减少异常值的影响E .减少混杂的影响2. 多元线性回归分析中,反映回归平方和在应变量Y 的总离均差平方和中所占比重的统计量是A. 简单相关系数 B .复相关系数C. 偏回归系数D. 回归均方E. 决定系数2R3. 对同一资料作多变量线性回归分析,若对两个具有不同个数自变量的回归方程进行比较,应选用的指标是A .决定系数 B. 相关系数C. 偏回归平方和D. 校正决定系数E. 复相关系数4. 多元线性回归分析,对回归方程作方差分析,检验统计量F 值反映的是A .所有自变量与应变量间是否存在线性回归关系B .部分自变量与应变量间是否存在线性回归关系C .自变量与应变量间存在的线性回归关系是否较强D .自变量之间是否存在共线E. 回归方程的拟合优度c ),则5. 在多元回归分析中,若对某个自变量的值都乘以一个常数c(0A. 偏回归系数不变、标准回归系数改变B. 偏回归系数改变、标准回归系数不变C.偏回归系数与标准回归系数均不改变D.偏回归系数与标准回归系数均改变E.偏回归系数和决定系数均改变答案:E E D A B第十二章统计表与统计图1.统计表的主要作用是A. 便于形象描述和表达结果B. 客观表达实验的原始数据C. 减少论文篇幅D. 容易进行统计描述和推断E. 代替冗长的文字叙述和便于分析对比2.描述某疾病患者年龄(岁)的分布,应采用的统计图是A.线图 B.条图C.百分条图 D.直方图E.箱式图3.高血压临床试验分为试验组和对照组,分析考虑治疗0周、2周、4周、6周、8周血压的动态变化和改善情况,为了直观显示出两组血压平均变动情况,宜选用的统计图是A.半对数图 B.线图C.条图 D.直方图E.百分条图4.研究三种不同麻醉剂在麻醉后的镇痛效果,采用计量评分法,分数呈偏态分布,比较终点时分数的平均水平及个体的变异程度,应使用的图形是A. 复式条图B. 复式线图C. 散点图D. 直方图E. 箱式图5. 研究血清低密度脂蛋白LDL与载脂蛋白B-100的数量依存关系,应绘制的图形是A. 直方图B. 箱式图C. 线图D. 散点图E. 条图答案:E D B E D第十三章医学实验设计与诊断试验的评价1. 实验研究随机化分组的目的是A.减少抽样误差 B.减少实验例数C.保证客观 D.提高检验准确度E.保持各组的非处理因素均衡一致2. 关于实验指标的准确度和精密度,正确的说法是A.精密度较准确度更重要 B.准确度较精密度更重要C.精密度主要受随机误差的影响 D.准确度主要受随机误差的影响E.精密度包含准确度3. 在临床新药疗效试验设计选择对照时,最可靠的对照形式是(在原题中增加了“新药疗效”)A. 历史对照B. 空白对照C. 标准对照D. 安慰剂对照E. 自身对照4. 两名医生分别阅读同一组CT片诊断某种疾病,Kappa值越大说明A. 观察个体的变异越大B. 观察个体的变异越小C. 观察一致性越大D. 机遇一致性越大E. 实际一致性越大5. 下列叙述正确的有A. 特异度高说明测量的稳定性好B. 敏感度必须大于特异度才有实际意义C. 要兼顾敏感度和特异度都比较高才有实际意义(原题的这个选项是“增大样本含量可以同时提高敏感度和特异度”,并作为正确的选项。
假设检验中的两类错误
![假设检验中的两类错误](https://img.taocdn.com/s3/m/80ab3b044a35eefdc8d376eeaeaad1f3469311cd.png)
= (1 ≤ ሜ ≤ 2 )Fra bibliotek1-6
!
取伪的概率β1
四、α与β的关系
1. 设定α1小于α2,观
察图1中的取伪概
率β1明显大于图2
中的取伪概率β2。
图1 α1=0.05的取伪概率β1
取伪的概率β2
2. 结论:在其它条件完
全相同的条件下,弃真
的错误和取伪的错误是
一对矛盾,一个小,另
③
抽样的样本容量多少
④
显著性水平
!
(一)取伪错误的特点——以总体均值检验为例
1、在总体均值未知的情况下取伪概率是不能计算的。取伪概率的计算要依赖于
真实总体均值。抽样目的就是用样本数据推断假设总体,若真实总体是未知的,
在这种情况下是否取伪实际上也就是未知的。
2、取伪概率大小与原假设和真实总体的接近程度有关。若原假设和真实情况相
一个必然大;一个大,
另一个必然小。
1-7
图2 α2=0.1的取伪概率β2
!
五、应对两类错误的原则
1. 一般来说,哪一类错误所带来的后果严重,危害大,
在假设检验中就应当把哪一类错误作为首要控制目标
。
2. 奈曼(Neyman)和皮尔逊(Pearson)提出了一个原
则,即在控制第I类错误的概率α的条件下,尽可能使
图(A)中[x1,x2] 的范围内,就要
接受原假设μ=μ0
2、如图(B)所示:
真实的总体均值是μ=μ1
取伪的概率
真实总体的样本均值分布
B
如果在图(B)真实μ=μ1的总体中
抽取的样本均值落入了图(A)假设
μ=μ0 的接受域内,这样就把错
假设检验
![假设检验](https://img.taocdn.com/s3/m/dd805206ccbff121dd36834c.png)
4. H0 的拒绝域:因 HA:μ > 377.2 mg,故为 上尾检验,当 u > u0.05 时拒绝H0 (u0.05=1.645) 5. 结论: u =1.82 > u0.05 =1.645,即P < 0.05,所以拒绝 零假设。 因此栽培条件的改善,显著地提高了豌豆籽 粒重量。
1.2 未知,平均数的显著性检验(t)
2.1 两个方差的检验-F检验
检验程序如下:
1.
2.
从两个正态总体中,独立地抽取含量分别为 n1 和 n2 的两个随机样本,分别计算出 s12和 s22。与总 体平均数 μi 无关。 假设 零假设 H0: σ1=σ2 备择假设 HA:σ1 > σ2, σ1 <σ2 ,σ1 ≠ σ2 显著性水平
6.
得出结论并给予解释
【例2】已知玉米单交种群“单105”的平均 穗重 μ0=300 g。喷洒植物激素后,随机抽 取 9 个果穗,其穗重为:308、305、311、 298、315、300、321、294、320 g。问喷药 后与喷药前的果穗重差异是否显著? 解:
1. 假设:H0:μ= 300 g
1.2 未知,平均数的显著性检验(t)
4.
检验统计量
x 0 t s n
以s代替未知的σ,标 准化的变量称为t,服 从n-1自由度的t分布。
5.
相应于各备择假设之 H0 的拒绝域
HA: ① μ > μ0 ② μ < μ0 ③ μ ≠ μ0 拒绝域: ① t > tα ② t <- t α ③ |t| > tα/2
2.2 σi已知时,两个平均数间差异显著性检验
检验程序如下:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)选择包含μ的分布已知函数:
~ N ( 0 ,1 )
2 .
(4)将样本观测值代入Z,
( z ) 1
2
若|Z|>zα/2,否定原假设; |Z|≤zα/2,接受原假设.
P(|Z|<zα/2)=1-α
φ(x)
Z检验
α/2
- zα/2 zα/2
α/2
X
否定域
接受域
否定域
双侧假设检验
例3.2.1.由经验知某零件重量X~N(μ,σ2),其中
φ(x)
( z ) 1
α
zα 接受域 否定域 X
单侧假设检验
例3.2.2.用传统工艺加工罐头,每瓶Vc含量平均值 为19毫克,现改进加工工艺,抽出16瓶罐头测得Vc含量为 23,20.5,21,22, 20,22.5,19,20,23,20.5,18.8,20,19.5,18,23(毫克), 假定Vc含量服从正态分布,方差σ2=4,问新工艺下Vc平均含 量是否比旧工艺下含量高? 分析:所求结果为μ>19或μ≤19,选择μ≤19为原假设, 解:设H0: μ≤19, H1: μ>19 X X 19 则 取统计量 Z ,U的分布不确定, 令 Z / n / n Z ~ N (0,1), Z Z , 对给定的α,{Z>zα} {Z z } P{Z>zα}≤ P{Z>zα}≤α (小概率事件) P{Z z } =α 查表得zα=1.64, 将样本观测值代入得z=3.6 >1.64 小概率事件发生了,所以否定原假设,即新工艺下Vc 平均含量比旧工艺下含量高.
假设检验 μ=23,σ2=22
例3.1.3.用精确方法测量某化工厂排放的气体中有害气 体的
含量服从正态分布N(23,22),现用一简便方法测量6次得一组数据
23,21,19,24,18,18(单位:十万分之一),若用简便方法测得有害气体含量 的方差不变,问用该方法测得有害气体含量的均值是否有系统偏差?
例3.1.1.某地旅游者的消费额附从正态分布X~N(μ,σ2), 调查 25个旅游者,得出一组样本观测值x1,x2,…,x25,若有专家认为 消费额的期望值为μ0,如何由这组观测值验证这个说法?
假设检验为 μ=μ0
例3.1.2.用精确方法测量某化工厂排放的气体中有害气体 的含量服从正态分布X~N(23,22),现用一简便方法测量6次 得一组数据23,21,19,24,18,18(单位:十万分之一),问用简便 方法测的有害气体含量是否有系统偏差?
第 4章
假设检验
•一、 统计检验概要 •二、 单正态总体的统计检验 •三、 两正态总体的统计检验 •四、 成对数据比较检验法
一、 统计检验概要
1. 问题的提法
众所周知,总体 X 的全部信息可以通过其分布 函数F ( X , )反映出来,但实际上,参数 往往未知,有时 甚至F ( X , )的表达式也未知.因此需要根据实际问题 的需要,对总体参数或分布函数的表达式做出某种 假设(称为统计假设),再利用从总体中获得的样本信 息来对所作假设的真伪做出判断或进行检验. 这种利用样本检验统计假设真伪的过程叫做
所以否定域为|Z|> 1.96, X 14.9 15 || | 1.09 <1.96 (4)将样本观测值代入, | Z || / n 0.05 / 6 |Z|≤zα/2,故接受原假设.即零件的平均重量仍为15.
设总体X~N(μ,σ2), X1,X2,…,Xn 为一组样本,
2) H0:μ≤μ0; H1:μ>μ0,
μ=15, σ2=0.05,技术革新后,抽查6个样品测得重量为(单位: 克)14.7,15.1,14.8, 15.0,15.2,14.6,已知方差不变,问平均重量
是否仍为15?(α=0.05) 分析:σ2已知,μ的假设检验 解(1) H0:μ=μ0=15; H1:μ≠15,
X (2)选择包含μ的分布已知统计量: Z / n (3)α=0.05,查表Φ(zα/2)=Φ(z0.025)=0.975得zα/2=1.96,
二、 单正态总体的假设检验 设总体X~N(μ,σ2), X1,X2,…,Xn 为一组样本, 1.σ2已知,μ的假设检验:(H0:μ=μ0, μ≥μ0, μ≤μ0) 1) H0:μ=μ0; H1:μ≠μ0, (1)提出原假设和备择假设: H0:μ=μ0; H1:μ≠μ0,
X Z / n (3)由给定α,查zα/2,得否定域为|Z|> zα/2,其中,
3. 假设检验的两类错误
在假设检验中,否定原假设的理由是小概率事件在一次试 验中出现了,但小概率事件并不是不会出现,只是出现的可 能性较小,即出现的概率不超过很小的正数 ,
因此,根据小概率原理否定原假设,有可能把本来客观上正 确的假设否定了,造成犯“弃真”的错误,称为第一类错误,
就是犯第一类错误的概率的最大允许值.
X 23 3.06, 将样本观测值代入Z得 Z 2/ n
|Z|>1.96,
小概率事件在一次实验中发生了, 故假设不合情理,即:
否定原假设,简便方法测得均值有系统偏差.
2. 假设检验的基本思想
(1)小概率原理(实际推断原理)认为概率很小的事件在一 次试验中实际上不会出现,并且小概率事件在一次试验中
统计检验(假设检验)
在许多实际研究中,都有需要做出检 验的问题.如:某批产品能否出场?某生产 线工作是否正常?某人是否患有某种疾病? 某种新药的治疗效果是否提高了?发生事 故是否与星期几有关?某次水平考试是否 正常?等等,都需要做出检验. 假 设 检 验
参数假设检验
非参数假设检验:
X~F(x,θ),θ为参数 假设 θ=θ0 例X~F(x),F(x)未知 假设 F(x)=F0(x)
(1)提出原假设和备择假设: H0:μ=μ0; H1:μ≠μ0, (2)选择包含μ的分布已知函数: T ~ X ~ t( n 1 ) S/ n (3)由给定α,查tα(n-1),得否 f(x) 定域为|T|> tα/2(n-1); (4)将样本观测值代入T, 若|T|>tα/2(n-1),否定原假设; |T|≤tα/2(n-1),接受原假设. 否定域
出现了,就被认为是不合理的.
(2)基本思想:先对总体的参数或分布函数的表达式做出某 种假设,然后找出一个在假设成立条件下出现可能性甚小 的(条件)小概率事件.如果试验或抽样的结果使该小概率 事件出现了,这与小概率原理相违背,表明原来的假设有问 题,应予以否定,即拒绝这个假设.若该小概率事件在一次 试验或抽样中并未出现,就没有理由否定这个假设,表明试 验或抽样结果支持这个假设,这时称假设与实验结果是相 容的,或者说可以接受原来的假设.
一般用 表示犯第二类错误的概率.
另一方面,当原假设不成立时,却作出接受原假设的结论, 造成犯“取伪”的错误,称为第二类错误,
第Ⅰ类错误与第Ⅱ类错误(1)表(2)图
决策 假设
接受 H 0 决策正确 第Ⅱ类错误β
拒绝 H 0
H 0为真 H 0为假
第Ⅰ类错误α
决策正确
注意:大样本容量n时,可以使α和β同时减小.
返回
(2)Ⅰ类错误与Ⅱ类错误示意图:
拒绝域
接受域
拒绝域
=100
=110
返回
3. 假设检验的两类错误
弃真
纳伪
当样本容量 n一定时, 小, 就大,反之,小, 就大. 在进行假设检验时,我们采取的原则是: 控制犯第一类错误(即 事先给定且很小)的同时使犯 第二类错误的概率达到最小. 另外,一般
返回
单尾检验图:
0: 0 H • 左尾检验
右尾检验 H 0: 0
H a: 0
接受域
拒绝域 α=.05
t
H a: 0
接受域
拒绝域 α=.05
0
0步骤
第一步 提出待检验的原假设 H 0和对 立假设 H1 ; 第二步 选择检验统计量,并找出在假设 H0 成立条件下 ,该统计量所服从的概率分布; 第三步 根据所要求的显著性水平α 和所 选取的统计量,查概率分布临界值表,确定临界 值与否定域; 第四步 将样本观察值代入所构造的检验 统计量中,计算出该统计量的值,若该值落入否 定域,则拒绝原假设 H 0,否则接受原假设H 0 .
1 ,
即使 和
1 碰巧出现,也决不能把“犯第一类错误”
“犯第二类错误”理解为相互对立的事件.
4. 显著性水平与否定域 小概率原理中,关于“小概率”的值通常根据实 际问题的要求而定,如取α=0.1,0.05,0.01等, α为检验的显著性水平(检验水平). 在假设检验过程中,使得小概率事件出现的统计 量的取值范围称为该假设检验的否定域(拒绝域), 否定域的边界称为该假设检验的临界值.
接受域
α/2
α/2
t / 2 ( n 1 ) X
例3.2.4一家食品加工公司的质量管理部门规定,
某种包装食品每包净重不得少于20千克, 经验表明, 重 量 近似服从标准差为1.5的正态分布, 假定得到50包食品构成 的样本为:
19.5, 19.8, 18.5, 19.5, 20.0, 19.0, 19.6, 19.9, 19.5, 18.8, 20.1, 19.6, 20.6, 20.0, 18.9, 21.0, 18.9, 20.1, 21.0, 20.0, 18.9, 17.8, 21.1, 18.9, 21.0, 20.3, 18.0, 22.0, 19.6, 19.6, 21.5, 20.0, 20.8, 19.8, 19.8 18.8, 20.3, 20.4, 20.0, 19.6, 19.6, 21.0, 20.4, 21.0, 20.0, 19.8, 21.2, 20.3, 20.1, 19.9.