统计学假设检验第五章

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

会产生一系列后果
第一类错误的概率为，被称为显著性水平
➢ 第二类错误（取伪错误）
原假设为假时，接受原假设
第二类错误的概率为
2021/4/21
33
原假设抽样分布
α 第一类错误（弃真错误）
x µ0
接受域
拒绝域
（原假设为真）
原假设抽样分布
α
弃真错误：原假设为真，却落在拒绝域内被拒绝。
扩大拒绝域（α变大），第一类
2°将检验统计量的值与水平的临界值进行比较 3°作出决策
双侧检验：|统计量| > 临界值，拒绝H0 左侧检验：统计量 < -临界值，拒绝H0 右侧检验：统计量 > 临界值，拒绝H0
2021/4/21
32
（2）假设检验中的两类错误
➢ 第一类错误（弃真错误）
原假设为真时，拒绝原假设
假设检验的结果不一定正确！
一般来说，发生哪一类错误的后果更为严重，就应该首要控制哪类错误发生的概率。由于犯第一类错误的概率是可以由研究者控制的，因此在假设检验中，人们往往先控制第一类错误的发生概率
原假设
H0 : =0 H0 : 0 H0 : 0
备择假设 H1 : ≠0 H1 : <0 H1 : >0
2021/4/21
21
【例1】一种零件的生产标准直径为10cm，为对生产过程进行控制，质量监测人员定期对一台加工机床检查，来确定这台机床生产的零件是否符合标准要求。若零件的平均直径大于或小于10cm，则表明生产过程不正常，必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。
解：研究者想收集证据予以支持的假设是“该城市中家庭拥
有汽车的比例超过30%”。
建立的原假设和备择假设为：
H0 ： 30% H1 ： 30%
2021/4/21
29
右侧检验：
抽样分布
√
置信水平
1-
Region of Non rejection
拒绝H0
Region of Rejection
a
H0
临界值
第五章假设检验
۩ 假设检验的基本原理 ۩ 假设检验的步骤 ۩ 一个总体参数的检验 ۩ 利用p 值进行假设检验
2021/4/21
1
总体参数
推断估计
抽样分布
参数估计
统计量
随机原则
假设检验
检验
2021/4/21
2
假设检验在统计方法中的地位：统计方法
描述统计法
推断统计法
参数估计假设检验
2021/4/21
备择假设用于表达研究者自己倾向于支持的看法，然
后收集证据拒绝原假设，以支持备择假设
总是有符号，
，
H1 ： H1 ： H1 ：
某一数值某一数值 < 某一数值
2021/4/21
11
<提出假设>
【例1】一种零件的生产标准直径为10cm，为对生产过程进行控制，质量监测人员定期对一台加工机床检查，来确定这台机床生产的零件是否符合标准要求。若零件的平均直径大于或小于10cm，则表明生产过程不正常，必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设。
总是有符号，，
2021/4/21
H0 ： H0 ： H0 ：
= 某一数值某一数值某一数值
10
2°备择假设（alternative hypothesis）
也称“研究假设”，研究者想收集证据予以支持的假设，通常用 H1 表示 <与原假设对立>
统计学涵义是指总体参数发生了变化或变量之间有某种关系
1. 提出原假设和备择假设 2. 确定适当的检验统计量 3. 规定显著性水平 4. 计算检验统计量的值 5. 作出统计决策
2021/4/21
9
1. 提出假设
1°原假设（null hypothesis）研究者收集证据，指的是待检验的假设，用H0表示统计学涵义是指参数没有变化或变量之间没有关系
起初被假设是成立的，后面根据样本数据确定是否有足够的证据拒绝它
因此，我们拒绝假设 =50!
2021/4/21
如果这是总体的真实均值
20
m= 50
H0
样本均值
7
3.假设检验的过程（提出假设→抽取样本→作出决策）
总体
☺☺ ☺
☺☺ ☺☺ ☺☺
提出假设
我认为人口的平均年龄是50岁
抽取随机样本
作出决策
拒绝假设!
☺ 均值 ☺
X = 20
2021/4/21
8
二、假设检验的步骤
观察到的样本统计量
2021/4/21
30
右侧检验：
抽样分布
2021/4/21
×
置信水平
1-
Region of Non rejection
拒绝H0
Region of Rejection
a
H0
临界值
观察到的样本统计量
31
统计量决策规则：
1°给定显著性水平，查表得出相应的临界值Z 或Z /2 ， tα 或 tα/2
解：研究者想收集证据予以证明的假设应该是“生产过程不
正常”。建立的原假设和备择假设为：
H0 ：
10cm H1 ：
10cm
2021/4/21
22
双侧检验：
抽样分布
拒绝H0
Region of Rejection
a/2
√
置信水平
1 -a
Region of Non rejection
拒绝H0
Region of Rejection
解：研究者想收集证据予以支持的假设是“该城市中家庭拥
有汽车的比例超过30%”。
建立的原假设和备择假设为：
H0 ： 30% H1 ： 30%
2021/4/21
14
提出假设（小结）：
1°原假设和备择假设是一个完备事件组，而且相互对立 <互斥互补>
2°先确定备择假设，再确定原假设 3°等号“＝”总是放在原假设上
3
正常人的平均体温是37oC吗？
当问起健康的成年人体温是多少时，多数人的回
答是37oC！这似乎已经成了一种共识……以下是一位研究人员测量的50个健康成年人的体温数据。
37.1
36.9
36.9
37.1
36.4
36.9
36.6
36.2
36.7
36.9
37.6
36.7
37.3
36.9
36.4
36.1
37.1
2°备择假设具有特定的方向性，并含有符号“>”或“<”的假设检验，称为单侧检验或单尾检验（one-tailed test）备择假设的方向为“<”，称为左侧检验备择假设的方向为“>”，称为右侧检验
2021/4/21
20
假设检验的3种形式：
以总体均值的检验为例：
假设
单侧检验双侧检验
左侧检验右侧检验
解：研究者抽检的意图是倾向于证实这种洗涤剂的平均
净含量并不符合说明书中的陈述。
建立的原假设和备择假设为：
H0 ：
500 H1 ： < 500
2021/4/21
26
左侧检验：
√
抽样分布
Region of Rejection
拒绝H0
置信水平
a
1-
Region of Non rejection
临界值
H0
解：研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为：
H0 ：
10cm H1 ：
10cm
2021/4/21
12
<提出假设>
【例2】某品牌洗涤剂在它的产品说明书中声称：平均净含量不少于500克，从消费者的利益出发，有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设。
2021/4/21
15
2. 确定适当的检验统计量
1°用于假设检验问题的统计量 2°选择统计量的方法与参数估计相同，需考虑：
是大样本 or 小样本总体方差已知 or 未知
2021/4/21
16
3. 规定显著性水平（significant level）
1°是一个概率值 2°原假设为真时，拒绝原假设的概率
双侧检验：
抽样分布
拒绝H0
Region of Rejection
a/2
×
置信水平
1 -a
Region of Non rejection
拒绝H0
Region of Rejection
a/2
临界值
H0
观察到的样本统计量
临界值
2021/4/21
25
【例2】某品牌洗涤剂在它的产品说明书中声称：平均净含量不少于500克，从消费者的利益出发，有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设。
间为(36.7，36.9) 研究人员发现这个区间内并没有包括37oC！因此，提出了“不应该再把37oC作为正常人体温的一个有
任何特定意义的概念” 我们应该放弃“正常人的平均体温是37oC”这个共识吗？
5
2008年8月
一、假设检验的基本原理
1. 假设检验（hypothesis test）
1° 先对总体参数（或分布形式）提出某种假设，再利用样
<抽样分布的拒绝域>
3°表示为
常用的值有0.01，0.05，0.10
2021/4/21
17
4. 检验统计量（test statistic）的计算
1°根据样本观测结果，计算出对原假设和备择假设做出决策的某个样本统计量
2°对样本估计量的标准化结果
原假设H0为真点估计量的抽样分布
3°检验统计量的基本形式为（以正态分布为例）：
z x 0 n
2021/4/21
18
5. 作出统计决策
1°根据给定的显著性水平，查表得出相应的临界值Z 或Z /2 ， tα 或 tα/2
2°将检验统计量的值与水平的临界值进行比较 3°得出接受或拒绝原假设的结论
2021/4/21
19
（1）双侧检验与单侧检验
1°备择假设没有特定的方向性，并含有符号“”的假设检验，称为双侧检验或双尾检验（two-tailed test）
36.6
36.5
36.7
37.1
36.2
36.3
37.5
36.9
37.0
36.7
36.9
37.0
37.1
36.6
37.2
36.4
36.6
37.3
36.1
37.1
37.0
36.6
36.9
36.7
37.2
36.3
37.1
36.7
36.8
37.0
37.0
36.1 4 37.0 2008年8月
根据样本数据，计算的平均值为36.8oC，标准差为0.36oC 根据参数估计方法，健康成年人平均体温的95%的置信区
错误可能性变大；反之，为防止
弃真错误，就要缩小α。
x µ0
2021/4/21
拒绝域
34
原假设： 1-α
µ0
α
接受域
拒绝域
备择假设：
1-β
β
µ1
拒绝域
接受域
2021/4/21
35
研究者总是希望能做出正确的决策，但由于决策是建
立在样本信息的基础之上，而样本又是随机的，因而就
有可能犯错误；
原假设和备择假设不能同时成立，决策的结果要么
a/2
临界值
H0
临界值
观察到的样本统计量
2021/4/21
23
双侧检验：
抽样分布
拒绝H0
Region of Rejection
a/2
×
置信水平
1 -a
Region of Non rejection
拒绝H0
Region of Rejection
a/2
2021/4/21
临界值
H0
临界值
观察到的样本统计量 24
本信息判断假设是否成立
2°参数检验——总体的分布形式已知；非参数检验
3°逻辑上运用反证法，统计上依据小概率原理！小概率是在一次试验中，一个几乎不可能发生的事件发生的概率；在一次试验中小概率事件一旦发生，我们就有理由拒绝原假设
2021/Байду номын сангаас/21
6
2. 假设检验的基本思想
抽样分布
这个值不像我们应该得到的样本均值 ...
拒绝H0 ，要么不拒绝H0 。决策时总是希望当原假设正确时，没有拒绝它；当原假设不正确时拒绝它，但实际上
很难保证不犯错误
a
2021/4/21
36
么么么么方面
• Sds绝对是假的
假设检验中的两类错误（决策结果）
是针对原假设
H0 说的！
假设检验就好像
H0 ：无罪一场审判过程
统计检验过程
陪审团审判
解：研究者抽检的意图是倾向于证实这种洗涤剂的平均
净含量并不符合说明书中的陈述。
建立的原假设和备择假设为：
H0 ：
500 H1 ： < 500
2021/4/21
13
<提出假设>
【例3】一家研究机构估计，某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确，该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设。
观察到的样本统计量
2021/4/21
27
左侧检验：
×
抽样分布
Region of Rejection
拒绝H0
置信水平
a
1-
Region of Non rejection
临界值
H0
观察到的样本统计量
2021/4/21
28
【例3】一家研究机构估计，某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确，该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设。
H0 检验
裁决无罪有罪
实际情况
无罪
有罪
正确
错误
错误
正确
决策接受H0 拒绝H0
实际情况
H0为真 H0为假正确决策第二类错
1 – a 误() 第一类错正确决策
误(a) (1-)
冤枉好人
2021/4/21
放过坏人
38
两类错误的控制：
对于一个给定的样本，如果犯第一类错误的代价比犯第二类错误的代价相对较高，则将犯第Ⅰ类错误的概率定得低些较为合理；反之，则将犯第Ⅰ类错误的概率定得高些；