概率论与数理统计d.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 假设检验 第1节假设检验的基本思想
例1. 体重指数BMI是常用的衡量人体胖瘦程度 的准. 健康成年人的BMI 取值应在 18.55- 24.99 之间.
某种减肥药广告宣 称, 连续使用该种 减肥药一个星期便 可达到减肥的效果 .
2
为了检验其说法是否可靠,随机抽取9位试验者 (要求BMI 指数超过25、年龄在20-25岁女生), 先让每位女生记录没有服用减肥药前的体重, 然 后让每位女生服用该减肥药, 连续服用该减肥药 1周后, 再次记录各自的体重.
其中0是已知的常数.
24
双边假设问题
H0 : 0, H1 : 0,
其中0是已知的常数.
2
拒绝域 接受域 2
检验统计量为 Z X 0
z 2
z 2
n
检验拒绝域W | Z |
X 0 n
z /2 .
25
P_值的计算
对给定的样本观察值x1,L , xn,记检验统计量Z的取值
z0
x
0
29
步骤1:提出检验假设
H0 : 1550, H1 : 1550
步骤2:确定检验规则
检验统计量为 Z X 1550 . 取显著水平 0.05, n
由备择假设的形式知,这是左边检验,因此检验 规则为:当Z z z0.05 1.645时,拒绝H0.
30
步骤3:计算检验统计量的值
将样本均值x 1530, 120, n 225,
33
步骤1:提出检验假设
H0 : 128, H1 : 128
步骤2:计算检验统计量的观测值.
z0
x 0 n
126.07 128 15 72
1.09
34
步骤3: 计算P_值
P 2(1 (| z0 |)) 2(1 (1.09)) 0.2758.
步骤4:根据实际情况作出判断
P_=0.2758>0.05,因此,没有充分理由拒绝 原假设。
原假设为真 原假设不真
根据样本拒绝原假设 第I类错误 正确
根据样本接受原假设 正确
第II类错误
第I类错误:拒绝真实的原假设(弃真). 第II类错误:接受错误的原假设(取伪).
14
P{第I类错误}=P{拒绝H0|H0是真实的}, P{第II类错误}=P{接受H0|H0是错误的}.
例如:设总体X
C
0.6 /
9 z0.05 1.645. C 0.329.
17
根据Neyman Pearson原则,为使犯第II类错误的概率 尽可能小,应取C 0.329.因此,拒绝域W {X 0.329}.
第四步:根据样本得出结论.
根据实际样本资料,得x 0.522 0.329. 当原假设H0成立时,样本落在拒绝域的概率不超过 0.05,是小概率事件。
35
假设检验与区间估计
➢ 作区间估计时,对参数是未知,并且没有先验的认 识,但参数是固定不变的,所以区间估计的目的是: 根据样本对参数进行估计;
➢ 作假设检验时,对参数有一个先验的认识(例如 μ=μ0),但由于某种情形的出现(如工艺改良 等),猜测真实参数值可能发生了变化,所以假设 检验的目的是:根据样本确认参数是否真的发生了 改变。
根据实际推断原理,有充分的理由拒绝原假设,认为 厂家的宣传是可靠的. 同理,若 0.01,拒绝域W {X 0.465},拒绝原假设.
18
第三’步:计算最小显著水平——P_值法
P 值:当原假设H 0 成立时,检验统计量 取比观察到的结果更 为极端的数值的概率.
X 0.329
拒绝区
0.05
原则求出拒绝域的临界值; (4)根据实际样本观测值作出判断.
21
P_值法处理假设检验问题的基本步骤
(1)根据实际问题提出原假设和备择假设; (2)提出检验统计量和拒绝域的形式; (3/)计算检验统计量的观测值与P值; (4/)根据给定的显著水平,作出判断.
22
第2节 正态总体的均值假设检验
一、标准差已知的单个正态总体 均值假设检验
的检验法则与检验效果也是一致的.
10
如何检验假设? 根据收集的资料,针对假设,给出检验方法,然后对 假设进行判断。 判断方法有二种:临界值法. P_值法.
以例1为例来说明减肥药有效?
还是无效?
11
设服用减肥药前后体重差值X ~ N(, 2 ), 并假定方差 2 0.36.
检验假设:H0 : 0, H1 : 0,
常取 0.01, 0.05, 0.1等.
16
第三步,根据显著水平和统计量的分布确定临界 值——临界值法
在例1中,取显著水平 0.05,
当H0
:
0成立时,
X 0.6 /
~ N(0,1),统计量的分布
9
犯第I类错误的概率可如下计算:
P{X
C
0}
P
X /
n
C /
n
0
1
C /
n
0.05.
0.05 z0.05
3
测得服减肥药前后的体重差值(服药前体重-服药 后体重) (单位: kg):
1.5, 0.6, -0.3, 1.1, -0.8, 0, 2.2, -1.0, 1.4
问题:根据目前的样本资料能否认为该减肥药 广告中的宣称是可靠的?
4
假设检验的目的是通过收集到 的数据,来验证某个想要得到 的结论。过程类似于法官的审 判过程。
设总体X ~ N (, 2 ), 2已知
X1, X 2 ,..., X n是来自总体N (, 2 ) 样本.
x1,K , xn是X1,K , X n的样本观测值.
考虑假设问题(显著水平为 ) H0 : 0, H1 : 0, H0 : 0, H1 : 0, H0 : 0, H1 : 0,
原假设与备择假设是不对称的! 决定谁是原假设,依赖于立场、惯例、方便性.
6
1. 保护原假设.如果错误地拒绝假设A比错误地拒绝假 设B带来更严重的后果——A选作原假设! 例如:假设A:新药有某种毒副作用,假设B:新药无某种 毒副作用. ——A选作原假设H0! “有毒副作用”错误地当成“无毒副作用” 比“无毒副 作用”错误地当成“有毒副作用”带来的后果更严重。
P(Z 2.5) 0.006
步骤4’:根据显著水平作出判断
P_ 0.006 0.05,
同样做出拒绝原假设H0 : 1550的判断.
32
例2:据健康统计中心报告35至44岁的男子 平均心脏收缩压为128, 标准差为15. 现根 据某公司在35至44岁年龄段的72位员工的体 检记录, 计算得平均心脏收缩压为 126.07(mm/hg). 问该公司员工的心脏收缩 压与一般人群是否存在差异呢?(假设该公 司员工的心脏收缩压与一般中年男子的心脏 收缩压具有相同的标准差)。(α=0.05)
n
,
z 2
P PH0 | Z || z0 | 2(1(| z0 |)). | z0 |
z 2 | z0 |
当P 时,拒绝原假设, 当P 时,接受原假设.
红色区域概率值:P _ 值
蓝色区域概率值: P_值< ,拒绝H0.
26
左边假设问题:H0 : 0, H1 : 0,
其中0是已知的常数.
法官的立场基于“疑罪从无”: 法官宣告被告“有罪”是需要充分的 证据来推翻被告是“无罪”的假设; 而宣判“无罪”, 是由于没有充分的 证据支持被告“有罪”, 并不是有充 分的证据支持被告“无罪”.
我从来不偷东西
你偷 东西了
5
检验假设的过程是一个四步曲. 第一步,建立两个完全对立的假设: 原假设(零假设)H0,备择假设 (对立假设) H1。
注意到:X 是的无偏估计,X的取值大小反映了的取值
大小,当原假设成立时,X 取值应偏小。因此
当X
C时,拒绝原假设H
,
0
当X
C时,接受原假设H
,
0
其中C是待定的常数.
12
如果统计量T T ( X1,L ,X n )的取值大小和原假设H0 是否成立有密切联系,可将其称为对应假设问题的
检验统计量,而对应于拒绝原假设H
代入检验统计量,计算得
Z X 1550 1530 1550 2.5 1.645.
n 120 225
步骤4:根据实际情况作出判断
因此,根据检验规则,做出拒绝原假设H
的判断.
0
即认为A高校学生的生活水平低于B高校.
31
利用P_值进行假设检验
步骤3’:计算P_值
P_ P( X 1550 1530 1550 1550) n 120 225
但置信区间与假设检验的拒绝域之间又有密切的关系。
36
考虑总体X ~ N (, 2 ), 2已知时的统计推断
设X1, X 2 ,..., X n是来自总体N (, 2 ) 样本.
的枢轴量为 X ~ N(0,1), n
的置信水平为1 的置信区间由下式得到,
X n z 2
等价为
X
n
z
2
X
n
z
~
N ( ,1),则X
1 n
n i1
Xi
~
N(,
1 ), n
H0 : 0, H1 : 1( 0 ), 拒绝域:X C.
P1 (X C)
P0 (X C)
0
C
1
犯两类错误的 概率相互制约
15
Neyman-Pearson原则: 首先控制犯第I类错误的概率不超过某个常数
(0,1),再寻找检验,使得犯第II类错误的 概率尽可能小. 称为显著水平.
时,样本值的
0
范围称为拒绝域,记为W ,其补集W称为接受域.
第二步:给出检验统计量,并确定拒 绝域的形式.
本例中的检验统计量为X ,拒绝域为
原假设
W (X1,L , Xn ) : X C
C如何选择?——关键问题.
13
由于样本的随机性,任一检验规则在应用时,都有 可能发生错误的判断——两类错误.
P _ 0.0045
0.329 0.522
P P{X x 0.522 | 0}
概率这么小的事件!
1 ( 0.522 ) 0.0045
0.6 / 9 0.05
竟然发生了!! 拒绝原假设!!!
第四’步:比较P_值与显著水平,得出结论.
19
P值与显著水平的关系: (1)若P ,等价于样本落在拒绝域内,因此,拒
绝原假设,称检验结果在水平下是统计显著的. (2)若P ,等价于样本不落在拒绝域内,因此,
不拒绝(接受)原假设,称检验结果在水平下
是统计不显著.
20
临界值法处理假设检验问题的基本步骤
(1)根据实际问题提出原假设和备择假设;
(2)提出检验统计量和拒绝域的形式;
(3)在给定的显著水平下,根据Neyman-Pearson
P_值
检验统计量为 Z X 0 n
接受域
z0 z P_值<,拒绝H0.
检验拒绝域W
Z
X
0
n
z
.
P PH0 Z z0 (z0 ).
其中z0
x
0
n
.
27
右边假设问题:H0 : 0, H1 : 0,
百度文库其中0是已知的常数.
P_值
检验统计量为 Z X 0 n
接受域
P_值>,接受H0. z0 z
H0: 0,H1: 0(左边检验) H0: 0,H1: (0 右边检验)
H0: 0, H1: (0 双边检验)
9
在假设检验中
H0: 0,H1: (0 左边检验)与 H0: 0,H1: (0 左边检验)
的检验法则与检验效果是一致的.
同样的
H0: 0,H1: (0 右边检验)与 H0: 0,H1: (0 右边检验)
2.
37
假设检验问题 H0 : 0 H1 : 0,
显著性水平为 的检验拒绝域为
W
X
0
/n
z
2
,
接受域为
W
X
0
/ n
z
2
将0改为参数
就是置信区间!
X
n
z 2 0
X
n
z
2
38
第2节 正态总体的均值假设检验
二、标准差未知的单个正态总体 均值假设检验
有些情况下,只有采集到的数据,并 不知道总体的方差。如何根据这些数据得 出所需要的结论呢?
检验拒绝域W
Z
X
0
n
z
.
P PH0 Z z0 1 (z0 ).
其中z0
x
0
n
.
28
例1:为了了解A高校学生的消费水平, 随机抽取 225位学生调查其月消费(近6个月的消费平均值), 得到该225位学生的平均月消费为1530元. 假设 学生月消费服从正态分布, 标准差为σ=120. 已知B高校学生的月平均消费为 1550 元, 是否可以认为A高校学生 的消费水平要低于B高校?
7
2. 原假设为维持现状.为解释某些现象或效果的存在性, 原假设常取为“无效果”、“无改进”、“无差异” 等,拒绝原假设表示有较强的理由支持备择假设. 例1中原假设H0:药物没有减肥效果.
备择假设 H1: 药物有减肥效果.
8
参数假设的形式 设θ是反映总体指标某方面特征的量, 是我们感兴趣 的参数. 一般参数θ的假设有三种情形:
设总体X ~ N (, 2 ), 2未知——t检验法 考虑假设问题(显著水平为 )
例1. 体重指数BMI是常用的衡量人体胖瘦程度 的准. 健康成年人的BMI 取值应在 18.55- 24.99 之间.
某种减肥药广告宣 称, 连续使用该种 减肥药一个星期便 可达到减肥的效果 .
2
为了检验其说法是否可靠,随机抽取9位试验者 (要求BMI 指数超过25、年龄在20-25岁女生), 先让每位女生记录没有服用减肥药前的体重, 然 后让每位女生服用该减肥药, 连续服用该减肥药 1周后, 再次记录各自的体重.
其中0是已知的常数.
24
双边假设问题
H0 : 0, H1 : 0,
其中0是已知的常数.
2
拒绝域 接受域 2
检验统计量为 Z X 0
z 2
z 2
n
检验拒绝域W | Z |
X 0 n
z /2 .
25
P_值的计算
对给定的样本观察值x1,L , xn,记检验统计量Z的取值
z0
x
0
29
步骤1:提出检验假设
H0 : 1550, H1 : 1550
步骤2:确定检验规则
检验统计量为 Z X 1550 . 取显著水平 0.05, n
由备择假设的形式知,这是左边检验,因此检验 规则为:当Z z z0.05 1.645时,拒绝H0.
30
步骤3:计算检验统计量的值
将样本均值x 1530, 120, n 225,
33
步骤1:提出检验假设
H0 : 128, H1 : 128
步骤2:计算检验统计量的观测值.
z0
x 0 n
126.07 128 15 72
1.09
34
步骤3: 计算P_值
P 2(1 (| z0 |)) 2(1 (1.09)) 0.2758.
步骤4:根据实际情况作出判断
P_=0.2758>0.05,因此,没有充分理由拒绝 原假设。
原假设为真 原假设不真
根据样本拒绝原假设 第I类错误 正确
根据样本接受原假设 正确
第II类错误
第I类错误:拒绝真实的原假设(弃真). 第II类错误:接受错误的原假设(取伪).
14
P{第I类错误}=P{拒绝H0|H0是真实的}, P{第II类错误}=P{接受H0|H0是错误的}.
例如:设总体X
C
0.6 /
9 z0.05 1.645. C 0.329.
17
根据Neyman Pearson原则,为使犯第II类错误的概率 尽可能小,应取C 0.329.因此,拒绝域W {X 0.329}.
第四步:根据样本得出结论.
根据实际样本资料,得x 0.522 0.329. 当原假设H0成立时,样本落在拒绝域的概率不超过 0.05,是小概率事件。
35
假设检验与区间估计
➢ 作区间估计时,对参数是未知,并且没有先验的认 识,但参数是固定不变的,所以区间估计的目的是: 根据样本对参数进行估计;
➢ 作假设检验时,对参数有一个先验的认识(例如 μ=μ0),但由于某种情形的出现(如工艺改良 等),猜测真实参数值可能发生了变化,所以假设 检验的目的是:根据样本确认参数是否真的发生了 改变。
根据实际推断原理,有充分的理由拒绝原假设,认为 厂家的宣传是可靠的. 同理,若 0.01,拒绝域W {X 0.465},拒绝原假设.
18
第三’步:计算最小显著水平——P_值法
P 值:当原假设H 0 成立时,检验统计量 取比观察到的结果更 为极端的数值的概率.
X 0.329
拒绝区
0.05
原则求出拒绝域的临界值; (4)根据实际样本观测值作出判断.
21
P_值法处理假设检验问题的基本步骤
(1)根据实际问题提出原假设和备择假设; (2)提出检验统计量和拒绝域的形式; (3/)计算检验统计量的观测值与P值; (4/)根据给定的显著水平,作出判断.
22
第2节 正态总体的均值假设检验
一、标准差已知的单个正态总体 均值假设检验
的检验法则与检验效果也是一致的.
10
如何检验假设? 根据收集的资料,针对假设,给出检验方法,然后对 假设进行判断。 判断方法有二种:临界值法. P_值法.
以例1为例来说明减肥药有效?
还是无效?
11
设服用减肥药前后体重差值X ~ N(, 2 ), 并假定方差 2 0.36.
检验假设:H0 : 0, H1 : 0,
常取 0.01, 0.05, 0.1等.
16
第三步,根据显著水平和统计量的分布确定临界 值——临界值法
在例1中,取显著水平 0.05,
当H0
:
0成立时,
X 0.6 /
~ N(0,1),统计量的分布
9
犯第I类错误的概率可如下计算:
P{X
C
0}
P
X /
n
C /
n
0
1
C /
n
0.05.
0.05 z0.05
3
测得服减肥药前后的体重差值(服药前体重-服药 后体重) (单位: kg):
1.5, 0.6, -0.3, 1.1, -0.8, 0, 2.2, -1.0, 1.4
问题:根据目前的样本资料能否认为该减肥药 广告中的宣称是可靠的?
4
假设检验的目的是通过收集到 的数据,来验证某个想要得到 的结论。过程类似于法官的审 判过程。
设总体X ~ N (, 2 ), 2已知
X1, X 2 ,..., X n是来自总体N (, 2 ) 样本.
x1,K , xn是X1,K , X n的样本观测值.
考虑假设问题(显著水平为 ) H0 : 0, H1 : 0, H0 : 0, H1 : 0, H0 : 0, H1 : 0,
原假设与备择假设是不对称的! 决定谁是原假设,依赖于立场、惯例、方便性.
6
1. 保护原假设.如果错误地拒绝假设A比错误地拒绝假 设B带来更严重的后果——A选作原假设! 例如:假设A:新药有某种毒副作用,假设B:新药无某种 毒副作用. ——A选作原假设H0! “有毒副作用”错误地当成“无毒副作用” 比“无毒副 作用”错误地当成“有毒副作用”带来的后果更严重。
P(Z 2.5) 0.006
步骤4’:根据显著水平作出判断
P_ 0.006 0.05,
同样做出拒绝原假设H0 : 1550的判断.
32
例2:据健康统计中心报告35至44岁的男子 平均心脏收缩压为128, 标准差为15. 现根 据某公司在35至44岁年龄段的72位员工的体 检记录, 计算得平均心脏收缩压为 126.07(mm/hg). 问该公司员工的心脏收缩 压与一般人群是否存在差异呢?(假设该公 司员工的心脏收缩压与一般中年男子的心脏 收缩压具有相同的标准差)。(α=0.05)
n
,
z 2
P PH0 | Z || z0 | 2(1(| z0 |)). | z0 |
z 2 | z0 |
当P 时,拒绝原假设, 当P 时,接受原假设.
红色区域概率值:P _ 值
蓝色区域概率值: P_值< ,拒绝H0.
26
左边假设问题:H0 : 0, H1 : 0,
其中0是已知的常数.
法官的立场基于“疑罪从无”: 法官宣告被告“有罪”是需要充分的 证据来推翻被告是“无罪”的假设; 而宣判“无罪”, 是由于没有充分的 证据支持被告“有罪”, 并不是有充 分的证据支持被告“无罪”.
我从来不偷东西
你偷 东西了
5
检验假设的过程是一个四步曲. 第一步,建立两个完全对立的假设: 原假设(零假设)H0,备择假设 (对立假设) H1。
注意到:X 是的无偏估计,X的取值大小反映了的取值
大小,当原假设成立时,X 取值应偏小。因此
当X
C时,拒绝原假设H
,
0
当X
C时,接受原假设H
,
0
其中C是待定的常数.
12
如果统计量T T ( X1,L ,X n )的取值大小和原假设H0 是否成立有密切联系,可将其称为对应假设问题的
检验统计量,而对应于拒绝原假设H
代入检验统计量,计算得
Z X 1550 1530 1550 2.5 1.645.
n 120 225
步骤4:根据实际情况作出判断
因此,根据检验规则,做出拒绝原假设H
的判断.
0
即认为A高校学生的生活水平低于B高校.
31
利用P_值进行假设检验
步骤3’:计算P_值
P_ P( X 1550 1530 1550 1550) n 120 225
但置信区间与假设检验的拒绝域之间又有密切的关系。
36
考虑总体X ~ N (, 2 ), 2已知时的统计推断
设X1, X 2 ,..., X n是来自总体N (, 2 ) 样本.
的枢轴量为 X ~ N(0,1), n
的置信水平为1 的置信区间由下式得到,
X n z 2
等价为
X
n
z
2
X
n
z
~
N ( ,1),则X
1 n
n i1
Xi
~
N(,
1 ), n
H0 : 0, H1 : 1( 0 ), 拒绝域:X C.
P1 (X C)
P0 (X C)
0
C
1
犯两类错误的 概率相互制约
15
Neyman-Pearson原则: 首先控制犯第I类错误的概率不超过某个常数
(0,1),再寻找检验,使得犯第II类错误的 概率尽可能小. 称为显著水平.
时,样本值的
0
范围称为拒绝域,记为W ,其补集W称为接受域.
第二步:给出检验统计量,并确定拒 绝域的形式.
本例中的检验统计量为X ,拒绝域为
原假设
W (X1,L , Xn ) : X C
C如何选择?——关键问题.
13
由于样本的随机性,任一检验规则在应用时,都有 可能发生错误的判断——两类错误.
P _ 0.0045
0.329 0.522
P P{X x 0.522 | 0}
概率这么小的事件!
1 ( 0.522 ) 0.0045
0.6 / 9 0.05
竟然发生了!! 拒绝原假设!!!
第四’步:比较P_值与显著水平,得出结论.
19
P值与显著水平的关系: (1)若P ,等价于样本落在拒绝域内,因此,拒
绝原假设,称检验结果在水平下是统计显著的. (2)若P ,等价于样本不落在拒绝域内,因此,
不拒绝(接受)原假设,称检验结果在水平下
是统计不显著.
20
临界值法处理假设检验问题的基本步骤
(1)根据实际问题提出原假设和备择假设;
(2)提出检验统计量和拒绝域的形式;
(3)在给定的显著水平下,根据Neyman-Pearson
P_值
检验统计量为 Z X 0 n
接受域
z0 z P_值<,拒绝H0.
检验拒绝域W
Z
X
0
n
z
.
P PH0 Z z0 (z0 ).
其中z0
x
0
n
.
27
右边假设问题:H0 : 0, H1 : 0,
百度文库其中0是已知的常数.
P_值
检验统计量为 Z X 0 n
接受域
P_值>,接受H0. z0 z
H0: 0,H1: 0(左边检验) H0: 0,H1: (0 右边检验)
H0: 0, H1: (0 双边检验)
9
在假设检验中
H0: 0,H1: (0 左边检验)与 H0: 0,H1: (0 左边检验)
的检验法则与检验效果是一致的.
同样的
H0: 0,H1: (0 右边检验)与 H0: 0,H1: (0 右边检验)
2.
37
假设检验问题 H0 : 0 H1 : 0,
显著性水平为 的检验拒绝域为
W
X
0
/n
z
2
,
接受域为
W
X
0
/ n
z
2
将0改为参数
就是置信区间!
X
n
z 2 0
X
n
z
2
38
第2节 正态总体的均值假设检验
二、标准差未知的单个正态总体 均值假设检验
有些情况下,只有采集到的数据,并 不知道总体的方差。如何根据这些数据得 出所需要的结论呢?
检验拒绝域W
Z
X
0
n
z
.
P PH0 Z z0 1 (z0 ).
其中z0
x
0
n
.
28
例1:为了了解A高校学生的消费水平, 随机抽取 225位学生调查其月消费(近6个月的消费平均值), 得到该225位学生的平均月消费为1530元. 假设 学生月消费服从正态分布, 标准差为σ=120. 已知B高校学生的月平均消费为 1550 元, 是否可以认为A高校学生 的消费水平要低于B高校?
7
2. 原假设为维持现状.为解释某些现象或效果的存在性, 原假设常取为“无效果”、“无改进”、“无差异” 等,拒绝原假设表示有较强的理由支持备择假设. 例1中原假设H0:药物没有减肥效果.
备择假设 H1: 药物有减肥效果.
8
参数假设的形式 设θ是反映总体指标某方面特征的量, 是我们感兴趣 的参数. 一般参数θ的假设有三种情形:
设总体X ~ N (, 2 ), 2未知——t检验法 考虑假设问题(显著水平为 )