统计学第4章假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分布,以样本标准差代替总体标准差,所用的统计量是:
_
x
3.184
s/ n
x服从正态分布 N(, )
n
3. 选取显著性水平,确定接受域和拒绝域
显著性水平(Significant Level):事先给定的形成拒绝域的小概 率,用a表示
通常取a0.01, a0.05或a0.10;表明,当作出接受原假设的决
设检验中,需要对这两类错误进行控制
a 与 的逆向关系
不能同时降低两类错误! a
假设检验中的P值
P值(P-value)是指在原假设为真时,所得到的样本观 察结果或更极端结果的概率
根据“小概率原理”,如果P值非常小,就有理由拒绝 原假设,且P值越小,拒绝的理由就越充分
实际应用中,多数统计软件直接给出P值,其检验判断 规则如下(双侧检验):
(2)总体标准差已知,大样本抽样,故选用Z统计量;
(3)显著性水平a0.05,由单侧检验,临界值 za z0.05 1.645
(4)计算统计量Z的值:
Z
_
x 0
7910 8000
2.43
/ n 370 / 100
(的5使)用检寿验命判有断明:显由降于低,Z新机,Za器落不在合拒格绝。域;故拒绝原假设H0。即认为产品
若P值<Baidu Nhomakorabea/2,则拒绝原假设; 若P值≥ a/2 ,则不能拒绝原假设
假设检验的内容
假设检验
总体均值的
假设检验
总体比例的
假设检验
总体方差的
假设检验
两个总体均值差 的假设检验
已知
未知
大样本
小样本
已知标准差,总体均值的Z检验
1. 将样本统计量(如 x)转换为标准正态分布Z变量。
z x x x x / n
试根据调查结果判断主管经理的估计是否准确?
1. 提出原假设和备选假设
原假设(Null hypothesis)又称零假设,是需要通过样 本推断其正确与否的命题,用H0表示
本例中可以提出: H0 : 35;这里表示总体会员的平
均年龄,意味着总体会员的平均年龄与主管经理估计 的35岁没有差异 与原假设对立的假设是备选假设,用H1表示 在本例中,备选假设意味着“总体会员的平均年龄与 主管经理估计的会员平均年龄35岁有显著差异”,可 以表示为H1 : ≠35 原假设与备选假设互斥,检验结果二者必取其一
(Parameter estimation)是统计推断的两个组成部 分,它们都是利用样本对总体进行某种推断
参数估计是用样本统计量估计总体参数的方法,总体 参数在估计之前是未知的
假设检验则是先对总体参数的取值提出一个假设,然 后利用样本信息去检验这个假设是否成立
统计方法
统计方法
统计描 述
统计推断
(4)计算统计量Z的值
x
Z
33400 32808 2.19
/ n 3820/ 200
(5)检验判断:由于 Z 2.19 Za /2 ,1.9落6 在拒绝域,故拒绝原 假设H0。
结论:以5%的显著性水平可以认为该市2012年的职工平均工资 比2011年有明显的差异。
2. 确定适当的检验统计量
假设检验需要借助样本统计量进行统计推断,称为检验
统计量。不同的假设检验问题需要选择不同的检验统计 量
检验统计量:利用样本的信息构造的函数
在具体问题中,选择什么统计量,需要考虑的因素有:
总体方差已知还是未知,用于进行检验的样本是大样本 还是小样本,等等
在本例中,由于n=40>30是大样本,所以 近似服从正态
解答
这是一个左单侧检验问题。抽样的目的是为了检测新机器生产的产品使用寿 命是否达到标准,我们比较关心的是使用寿命的下限,如果新产品的使用寿 命与过去相比没有明显降低,则说明所使用的新机器合格;反之,则说明新 机器不合格。检验过程如下:
(1)提出假设: H0:≥8000;H1:8000;
第4章 假设检验
主要内容
假设检验的原理 总体均值的假设检验 总体比例的假设检验 总体方差的假设检验 两总体均值差的假设检验
引例
某健身俱乐部欲根据往年的会员情况,制定2016年的会员发展营销策略。 主管经理估计俱乐部会员的平均年龄是35岁,其中25~35岁的会员占总 人数的70%。研究人员从2015年入会的新会员中随机抽取40人,调查得 知他们的平均年龄是32岁,其中25~35岁的会员占74%。根据这份调查 结果,问主管经理对会员年龄的估计是否准确?(总体均值和总体比例)
大数定律:当试验次数足够大时,小概率事件必然发生 “日久见人心”、“路遥知马力”、“保险”
假设检验的过程和思路 ——概率意义下的反证法
假设总体的 平均年龄是35岁
总体
判断
X 32 35?
样本均值是32岁
样本
假设检验的步骤
第一步:根据问题要求提出原假设(Null hypothesis, H0)和备选假设(Alternative hypothesis,H1);
已知,均值的单侧Z检验
1. 假设
总体服从正态分布; 当(n 30)时,不服从正态分布的总体可以用正态分布来逼近
2. 原假设有 或者 号: H0 :u≤u0, H0:u≥u0 3. 使用Z检验统计量
x Z
x
x
x
/ n
拒绝域
H0: 0 H1: < 0
定时,其正确的概率为99%,95%或90%
拒绝域:原假设 H0 成立条件下,统计量落入的小概率区域
a 0.05, Za /2 1.96
接受域:统计量能够取值的非拒绝域
本例为双侧检验,有 接受域:-1.96≤z≤1.96 拒绝域:z<-1.96或z>1.96 a/2
1-a
a/2
-1.96
/ n
上式不是计算检验统计量的唯一公式
_
在本例中,
x
32 35
3.184
s / n 5.96 / 40
5. 作出统计决策
根据样本信息计算出统计量z的具体值,将它与 临界值 Z相a 比较,就可以作出接受原假设或拒绝 原假设的统计决策
在本例中,由于z=3.184>1.96,落在拒绝域内,
假定总体分布中的参数是未知的,但事先对参数的取值作出假定;如: 均值(平均年龄)=35,25—35岁占比(P)=70%
思考:1.本假定是否正确?需要检验。 2.如何检验?需要抽样。利用样本的信息来验证(检验)原假定
是否正确?
统计学是通过假设检验的方法来解决上述问题的。 假设检验(Hypothesis testing)和参数估计
参数估计
假设检验
假设检验的基本原理
假设检验(Hypothesis Testing)也称为显著性检验,是 事先作出一个关于总体参数取值的假设,然后利用样本 信息来判断该假设是否合理,即判断样本信息与原假设 是否有显著差异,从而决定应接受或否定原假设的统计 推断方法
假设检验的理论依据是概率论中的“小概率事件在一次 试验中不可能发生”原理
举例1
某健身俱乐部主管经理估计会员的平均年龄是35岁, 研究人员从2012年入会的新会员中随机抽取40人,调 查得到他们的年龄数据如下。
33 28 32 26 37 35 27 29 33 30 35 29 39 34 27 37 34 36 31 29 29 26 19 21 36 38 42 39 36 38 27 22 29 34 36 20 39 37 22 39
原假设
陈述需要检验的假设,用 H0 表示
例如: H0: 35
代表“正常”的情形 总是包含等号“=”。 H0: p 70% 检验以“假定原假设为真”开始 反证法
备择假设
为原假设的对立情况,用H1表示 例如: H1: ≠ 35; : H1: p≠ 70%
不包含等号;≠,>, < 需要支持和证实的
拒绝域
H0: 0 H1: > 0
拒绝域
a
1 -a
1-a
a
0
Z
0
Z
较小的值与H0不矛盾.
举例3
已知某电子产品的使用寿命服从正态分布, 根据历史数据,其平均使用寿命为8000小 时,标准差为370小时。现采用新的机器设 备进行生产,随机抽取了100个产品进行检 测,得到样本均值为7910小时。试问在5% 的显著性水平下,新的机器是否合格?
原假设H0:关于总体参数的取值情况的假定 备选假设H1:与原假设H0相互对立,需要支持或证实的 第二步:确定适当的检验统计量及相应的抽样分布; 第三步:选取显著性水平α,确定原假设的接受域和拒
绝域;
第四步:计算检验统计量的值; 第五步:作出统计决策 下面结合例题1对每一个步骤的内容进行分析和说明
1.96
在实际应用中,一般是先给定了显著性水平,这样就可以由有关的概率分布表查到
临界值(critical value) ,从Za而确定H0的接受域和拒绝域。对于不同形式的假设,
H0的接受域和拒绝域也有所不同。
接受域
拒绝域
接受域
0 (2)左单侧检验
拒绝域
拒绝域
接受域
拒绝域
0
(1)双侧检验
0
(3)右单侧检验
解答
本例中,我们关心的是前后两年职工的平均工资有没有 显著的差异,因此,属于双侧检验。检验过程如下:
(1)提出假设: H0:32808;H1:≠32808; (2)总体标准差已知,大样本抽样,故选用Z统计量;
(3)显著性水平a0.05,由双侧检验,临界值:
。
判则断不规能za则拒/ 2为绝H:01若。.9z6>1.96或z<-1.96,_ 则拒绝H0;若-1.96≤z ≤1.96,
原假设只有“=”号;H0=u0。H1≠u0 使用Z检验统计量
z x x x 0 x / n
抽样分布
拒绝域
(1/2) a
拒绝域
置信度 拒绝域
1 -a
非拒绝域
(1/2)a
临界值
H0 临界值 样本统计量
举例2
2011年某地区职工平均工资为32808元,标 准差为3820元。现在随机抽取200人进行调 查,测定2012年样本平均工资为34400元。 按照5%的显著性水平判断该市2012年的职工 平均工资与2011有无显著差异?
犯第二类错误的概率为
假设检验中四种可能结果的概率
H0为真 H0为伪
不能拒绝 H0(接受)
1-a(正确判断)
拒绝 H0
a〈弃真错误〉
〈取伪错误〉 1 (正确判断)
对于一定的样本量n,不能同时做到减小犯这两种错
误的概率。如果减小a错误,就会增大错误的机会; 如果减小错误,则会增大a错误的概率。因此,在假
如图所示,双侧检验的拒绝域位于统计量分布曲线的两侧,
左单侧检验的拒绝域位于统计量分布曲线的左侧,右单侧
检验的拒绝域位于统计量分布曲线的右侧。
4. 计算检验统计量的值
在提出原假设H0和备选假设H1,确定了检 验统计量,给定了显著性水平a以后,接 下来就要根据样本数据计算检验_统计量的 值。其计算的基本公式为: Z x 0
举例4
某乳制品厂生产的一种盒装鲜奶的标准重 量是495克。为了检测产品合格率,随机 抽取100盒鲜奶,测得产品的平均重量为 494克,标准差为6克,试以5%的显著性水 平判断这批产品的质量是否合格?
所以拒绝原假设H0。可以得出结论:在a0.05的
显著性水平下,抽样结果的平均年龄显著低于主 管经理的估计值,有理由认为经理的估计不准确
假设检验中的两类错误
第一类错误
弃真错误。原假设正确,因为抽样等原因,反 而拒绝了原假设 后果往往很严重
犯第一类错误的概率为 a
第二类错误
取伪错误。原假设错误,因为抽样等原因,反 而接受了原假设
2. 给定显著性水平,可得 z,a2 Z的临界值。与Z值比较
如Z检验统计量的值落在临界域内则接受H0
z za,接受原假设,或不能拒绝原假设
否则,2不能接受H0
z za ,拒绝原假设,接受备选假设
2
已知,均值的双侧Z检验
假设
总体服从正态分布; 当(n 30)时,不服从正态分布的总体可以用正态分布来近似
未知的大样本检验
1. 假设 总体服从正态分布; 当(n 30)时,不服从正态分布的总体可以用正态分布来近似
2. 使用Z检验统计量,用样本方差代替总体方差 _
3. 将样本统计量转换为标准正态分布Z变量 Z x
s/ n
4. 与Z的临界值比较 如Z检验统计量的值落在临界域内则接受H0 否则,拒绝H0