第五章 统计推断(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2检验是根据s判断抽出该样本的总体 其标准差是否等于
某一给定值。
检验程序:
(a) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
(b)计算检验的统计量:
1. 单个样本平均数检验
在实际研究中,常常要 检验一个样本平均数 x与已知的总体 平均数0是否有显著差异,即检 验该样本是否来自某一 已知 的总体。
已知的总体平均数一般 为一些公认的理论数值 。如畜禽正常 的生理指标、怀孕期、 生产性能指标等,都可 以样本平均数 与之比较,检验差异显 著性。
1.1 在σ已知的情况下,单个平均数的显著性 检验-u检验 检验程序:
• 两类错误之间的关系如何?
二者的区别是I型错误只有在否定H0的情况下发生,而 II型错误只有在接受H0时才会发生。 二者的联系是,在样本容量相同的情况下,I型错误减 小,II型错误就会增大;反之II型错误减小,I型错误就 会增大。比如,将显著性水平α从0.05提高到0.01,就 更容易接受H0,因此犯I型错误的概率就减小,但相应 地增加了犯II型错误的概率。
第一节 假设检验的基本步骤及原理
1. 假设检验的基本步骤
我们通过一个例子来介绍假设检验的基本步骤:
例一,已知某品种玉米 单穗重X ~ N (300,9.52 ),即单穗重 总体平均数0 300g,标准差 9.5 g。在种植过程中喷洒 了某种药剂的植株中随 机抽取9个果穗,测得平均单穗 重 x 308g,试问这种药剂对该品 种玉米的平均单穗重 有无真实影响?
• (一)提出假设
首先对样本所在的总体 作一假设。假设喷洒了 药剂的玉米单穗重 总体平均数与原来的玉米单穗重总 体平均数0之间没有真实差异, 即=0。也就是说表面差异( x 0)是由抽样误差造成的 。
0被称为零假设或无效假 设,记为 H0 : 0 .
所谓“零”就是指处理(药剂) 没有效果
3 双侧检验与单侧检验
在例一里,备择假设是 H A : 0。H A实际上包含了 0 或 0这两种情况,此时 水平的拒绝域为 (, u / 2 ] 和[u / 2 , )。
这种利用两个尾部进行 的检验称作双侧检验。 双侧检验的目的 在于判断与0有无差异,而不考虑 与0谁大谁小。
H 0是待检验的假设,它有 可能被接受,也有可能 被否定。 因此,需要设定一个对 立的假设,称为备择假 设。
所谓备择假设就是在零 假设被否定时,准备接 受的假设, 记为 H A : 0 .
• (二)计算概率
在假定零假设成立的前提下,根据检验统计量的分 布(第四章的内容),来计算现有样本发生的概率。
(a ) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
x 0 (b)计算检验的统计量: u / n
(c)求临界值并确定拒绝域 。相对于H A的不同形式,拒绝域为
(c)求临界值并确定拒绝域 。相对于H A的不同形式,拒绝域为
(1)
t / 2
t / 2
( 2)
t
(3)
t
(d )下结论
2 解:由于总体方差 0 未知,且新品种的千粒 重可能高于
也可能低于汕优 63 的千粒重,故采用双侧 t检验法。
(1)提出假设 H0 : 0 27.5 ; H A : 27.5
(2)计算检验统计量的值 s2 x
2
( x ) 2 / n n 1
2
97635 (987) 2 / 10 24.23 9
2
(n 1) s
2
9 24.23 1.11 196
(3)求出临界值,确定拒绝 域。
2
(n 1) s 2
2
, 它服从自由度为 n 1
的卡方分布
(c)求临界值并确定拒绝域 。相对于H A的不同形式,拒绝域为
(1)
12 / 2
2 /2
( 2)
2
(3)
(d )下结论
12
解:由于这是单样本变 异性检验,故采用 2检验法。
(1) 提出假设 H0 : 0 14 ; H A : 0 14
(1)
u / 2
u / 2
( 2)
u
(3)
u
(d )下结论
2 解:由于总体方差 0 已知,且新品种的鲜果 穗重可能高于
也可能低于原品种,故 采用双侧u检验。
(1)提出假设 H0 : 0 216.5 ; H A : 216.5
(2)计算检验统计量的值 x 255.0 185.0 278.5 x 227.9( g ) n 8
但在有些情况下,双侧 检验不一定符合实际情 况。如采用 某种新的配套技术措施 以提高鸡的产蛋量,已 知此种技术 不会降低产蛋量。此时 ,若进行新技术与常规 技术的比较, 零假设仍为H 0 : 0,而备择假设应为 H A : 0,即新 技术提高产蛋量。
• 双侧检验与单侧检验的选择:应根据专业 知识在试验设计时就确定。
II型错误的概率记为β ,其数值依据真实差异的程 H0不正确
否定H0
接受H0
I型错误(α)
推断正确(1-α)
推断正确(1-β ) II型错误(β )
• 如何降低两类错误的概率?
一般通过增加样本含量n,获得更多的关于总体的信 息,从而降低推断中可能出现的错误的概率。
(2)计算检验统计量的值 x 32.5 28.6 29.7 x 29.255( g ) n 9
s
x
2
( x) 2 / n n 1
(32.52 29.7 2 ) (263.3) 2 / 9 2.587 9 1
x 0 29.255 27.5 t 2.036 s/ n 2.587/ 9
x 0 227.9 216.5 u 0.712 0 / n 45.2 / 8
(3)求出双侧临界值,确定 拒绝域。=0.05
u u0.025 1.96
2
(4)下结论。因统计量 u 0.712没有落在拒绝域内,我 们不否定 H 0,因此新品种与苏玉糯 1号鲜果穗重差异不显著 。
第五章 统计推断
由样本推断总体得过程叫统计推断。统计推断能排 除试验误差得影响,揭示事物的内在规律。
假设检验
对总体的参数预先提出 一个假设, 如=3.6, 2=4.5等,然后通过样本 数据去推断这个假设是 否可以接受。
统
(显著性检验)
计
推
断
参数估计
通过样本统计量去直接 估计参数, 如用样本平均数 x去估计等。 这在下一章里讨论。
1.2 在σ未知的情况下,单个平均数的显著性 检验-t检验 检验程序:
(a ) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
x 0 (b)计算检验的统计量: t s/ n
u / 2
u / 2
• 注意:假设检验选用的显著性水平应根据 实验的要求而定。
• 如果实验中难以控制的因素很多,试验精度不是很高,则 显著性水平α的值可稍大点; • 如果实验的精度很高,真实差异不容易被误差所掩盖,处 理的作用容易被检验出来,这时显著性水平α可适当取小 些。
• 无论如何,显著性水平α的值必须在实验开 始前就已经确定下来。
• 一般若事先不知道所比较的两个处理效果谁好谁 坏,分析的目的在于推断两个处理之间有无显著 差异,则选用双侧检验;
• 若根据理知识或实践经验判断甲处理的效果不会 比乙处理的效果差,分析的目的在于推断甲处理 是否真的比乙处理号,这时应用单侧检验
4 两类错误
假设检验可能发生两类错误:I型错误与II型错误。
从第(二)步概率计算中得到,在H0成立的假设下,观察到现有样本 的概率是0.014。如果我们把小概率标准定为0.05(也称为显著性水 平),那么现有样本的发生是小概率事件,根据小概率事件实际不可 能原理,是不可能得到现有样本的。
但是,在我们的实验中确实得到了现有的样本,这只能说明H0成立 的前提是错误的。因此,我们在显著性水平为0.05的情况下,否定 H0,而接受HA。所以这种药剂对玉米单穗重有显著的影响。
(3) 求出双侧临界值,确定 拒绝域。 df n 1 8时, =0.05的双侧临界值 t / 2 2.306
查表 4 a
2.306
2.306
(4)下结论。因统计量 t 2.036没有落在拒绝域内,我 们不否定 H 0,因此新品种的千粒重 与汕优63没有显著差异。
2 单个样本的方差检验-χ2检验
本例的u的尾区概率: P(| u | 2.526) 2P(u 2.526) 2 0.00570 0.0114 1.14%
• (三)统计推断(下结论)
若随机事件的概率很小,例如小于0.05或0.01,称之为小概率事件
小概率事件不可能原理:小概率事件在一次试验中 实际上是不可能发生的。
I型错误:H0实际上是正确的,但假设检验的结果却 否定H0。通俗地讲,就是没有差异说成了有差异。
以例一为例。假如H0是正确的,由于抽样的随机性, 仍有一部分样本的u值会落在拒绝域内,利用这些样本 作假设检验就会拒绝H0,从而犯下I型错误。 由于拒绝域的面积为α,所以I型错误的概率约为α。
II型错误:H0实际上是错误的,但假设检验的结果却 接受H0。通俗地讲,就是有差异说成了没有差异。
本例是在假定 H 0 : 0 300 的前提下,研究得到这 个样本的 概率。从样本平均数的 抽样分布入手。
2 第四章里讲到: x ~ N ( x , x ), 其中 x , x
n
所以,u
x x
x
x ~ N (0,1) / n
在本题中, x 308, 300, 9.5, n 9, 带入上式得到
这一推断过程等同于将 u 2.562 同 0.05的
u (双侧) u / 2 1.96
双侧临界值 u (双侧)=u / 2 1.96相比较: 因为2.562 1.96, 所以我们否定 H0
因为检验统计量 u落在拒绝域内,我们否 定H 0 而接受H A,这种途径称为临界值 途径,它与 前面的尾区概率途径是 等同的。
308 300 从本题中样本观察到的 u 2.526 9.5 / 9
现有样本发生的可能性可以以u的尾 区概率来衡量:越靠近平均数,则尾区
现有样本 u 2.526
面积越大,越容易发生。
尾区概率也可以理解成观察到比现 有样本更为极端的样本的概率,即
尾区概率
P( |u|>2.526 )
如果尾区概率小,则说明不容易再观察 到比现有样本更为极端的情形,也就是 说明现有样本本身就很极端,即它发生 的可能性就小。
本例利用了U分布来估计| u | 2.562的尾区概率,所以称为 u检验。 x 0 u 称为检验统计量。 / n
2. 显著性水平
用来否定或接受零假设的小概率标准称为显著性水平,记 为α。在生物学研究中,常取α=0.05,称为显著;或α= 0.01,称为极显著。
在例一中, 0.05 ,因为尾区概率 P(| u | 2.562) 0.014 ,所以否定H0。
5 总结:假设检验的基本程序
(a)根据题意,书写零假设H0和备择假设HA (b)确定检验所需的统计量,如u统计量,t统计量等,并计 算其数值 (c)根据备择假设确定拒绝域 (d)如果统计量的值落在拒绝域内,则否定H0接受HA,如果 统计量的值落在拒绝域外,则不否定H0
第二节 单个样本的统计假设检验
某一给定值。
检验程序:
(a) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
(b)计算检验的统计量:
1. 单个样本平均数检验
在实际研究中,常常要 检验一个样本平均数 x与已知的总体 平均数0是否有显著差异,即检 验该样本是否来自某一 已知 的总体。
已知的总体平均数一般 为一些公认的理论数值 。如畜禽正常 的生理指标、怀孕期、 生产性能指标等,都可 以样本平均数 与之比较,检验差异显 著性。
1.1 在σ已知的情况下,单个平均数的显著性 检验-u检验 检验程序:
• 两类错误之间的关系如何?
二者的区别是I型错误只有在否定H0的情况下发生,而 II型错误只有在接受H0时才会发生。 二者的联系是,在样本容量相同的情况下,I型错误减 小,II型错误就会增大;反之II型错误减小,I型错误就 会增大。比如,将显著性水平α从0.05提高到0.01,就 更容易接受H0,因此犯I型错误的概率就减小,但相应 地增加了犯II型错误的概率。
第一节 假设检验的基本步骤及原理
1. 假设检验的基本步骤
我们通过一个例子来介绍假设检验的基本步骤:
例一,已知某品种玉米 单穗重X ~ N (300,9.52 ),即单穗重 总体平均数0 300g,标准差 9.5 g。在种植过程中喷洒 了某种药剂的植株中随 机抽取9个果穗,测得平均单穗 重 x 308g,试问这种药剂对该品 种玉米的平均单穗重 有无真实影响?
• (一)提出假设
首先对样本所在的总体 作一假设。假设喷洒了 药剂的玉米单穗重 总体平均数与原来的玉米单穗重总 体平均数0之间没有真实差异, 即=0。也就是说表面差异( x 0)是由抽样误差造成的 。
0被称为零假设或无效假 设,记为 H0 : 0 .
所谓“零”就是指处理(药剂) 没有效果
3 双侧检验与单侧检验
在例一里,备择假设是 H A : 0。H A实际上包含了 0 或 0这两种情况,此时 水平的拒绝域为 (, u / 2 ] 和[u / 2 , )。
这种利用两个尾部进行 的检验称作双侧检验。 双侧检验的目的 在于判断与0有无差异,而不考虑 与0谁大谁小。
H 0是待检验的假设,它有 可能被接受,也有可能 被否定。 因此,需要设定一个对 立的假设,称为备择假 设。
所谓备择假设就是在零 假设被否定时,准备接 受的假设, 记为 H A : 0 .
• (二)计算概率
在假定零假设成立的前提下,根据检验统计量的分 布(第四章的内容),来计算现有样本发生的概率。
(a ) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
x 0 (b)计算检验的统计量: u / n
(c)求临界值并确定拒绝域 。相对于H A的不同形式,拒绝域为
(c)求临界值并确定拒绝域 。相对于H A的不同形式,拒绝域为
(1)
t / 2
t / 2
( 2)
t
(3)
t
(d )下结论
2 解:由于总体方差 0 未知,且新品种的千粒 重可能高于
也可能低于汕优 63 的千粒重,故采用双侧 t检验法。
(1)提出假设 H0 : 0 27.5 ; H A : 27.5
(2)计算检验统计量的值 s2 x
2
( x ) 2 / n n 1
2
97635 (987) 2 / 10 24.23 9
2
(n 1) s
2
9 24.23 1.11 196
(3)求出临界值,确定拒绝 域。
2
(n 1) s 2
2
, 它服从自由度为 n 1
的卡方分布
(c)求临界值并确定拒绝域 。相对于H A的不同形式,拒绝域为
(1)
12 / 2
2 /2
( 2)
2
(3)
(d )下结论
12
解:由于这是单样本变 异性检验,故采用 2检验法。
(1) 提出假设 H0 : 0 14 ; H A : 0 14
(1)
u / 2
u / 2
( 2)
u
(3)
u
(d )下结论
2 解:由于总体方差 0 已知,且新品种的鲜果 穗重可能高于
也可能低于原品种,故 采用双侧u检验。
(1)提出假设 H0 : 0 216.5 ; H A : 216.5
(2)计算检验统计量的值 x 255.0 185.0 278.5 x 227.9( g ) n 8
但在有些情况下,双侧 检验不一定符合实际情 况。如采用 某种新的配套技术措施 以提高鸡的产蛋量,已 知此种技术 不会降低产蛋量。此时 ,若进行新技术与常规 技术的比较, 零假设仍为H 0 : 0,而备择假设应为 H A : 0,即新 技术提高产蛋量。
• 双侧检验与单侧检验的选择:应根据专业 知识在试验设计时就确定。
II型错误的概率记为β ,其数值依据真实差异的程 H0不正确
否定H0
接受H0
I型错误(α)
推断正确(1-α)
推断正确(1-β ) II型错误(β )
• 如何降低两类错误的概率?
一般通过增加样本含量n,获得更多的关于总体的信 息,从而降低推断中可能出现的错误的概率。
(2)计算检验统计量的值 x 32.5 28.6 29.7 x 29.255( g ) n 9
s
x
2
( x) 2 / n n 1
(32.52 29.7 2 ) (263.3) 2 / 9 2.587 9 1
x 0 29.255 27.5 t 2.036 s/ n 2.587/ 9
x 0 227.9 216.5 u 0.712 0 / n 45.2 / 8
(3)求出双侧临界值,确定 拒绝域。=0.05
u u0.025 1.96
2
(4)下结论。因统计量 u 0.712没有落在拒绝域内,我 们不否定 H 0,因此新品种与苏玉糯 1号鲜果穗重差异不显著 。
第五章 统计推断
由样本推断总体得过程叫统计推断。统计推断能排 除试验误差得影响,揭示事物的内在规律。
假设检验
对总体的参数预先提出 一个假设, 如=3.6, 2=4.5等,然后通过样本 数据去推断这个假设是 否可以接受。
统
(显著性检验)
计
推
断
参数估计
通过样本统计量去直接 估计参数, 如用样本平均数 x去估计等。 这在下一章里讨论。
1.2 在σ未知的情况下,单个平均数的显著性 检验-t检验 检验程序:
(a ) 确定假设H 0和H A: H 0:= 0;H A 有三种可能的形式: ( 1 ) 0 (2) 0 (若已知不可能小于 0 ) (3) 0 (若已知不可能大于 0 )
x 0 (b)计算检验的统计量: t s/ n
u / 2
u / 2
• 注意:假设检验选用的显著性水平应根据 实验的要求而定。
• 如果实验中难以控制的因素很多,试验精度不是很高,则 显著性水平α的值可稍大点; • 如果实验的精度很高,真实差异不容易被误差所掩盖,处 理的作用容易被检验出来,这时显著性水平α可适当取小 些。
• 无论如何,显著性水平α的值必须在实验开 始前就已经确定下来。
• 一般若事先不知道所比较的两个处理效果谁好谁 坏,分析的目的在于推断两个处理之间有无显著 差异,则选用双侧检验;
• 若根据理知识或实践经验判断甲处理的效果不会 比乙处理的效果差,分析的目的在于推断甲处理 是否真的比乙处理号,这时应用单侧检验
4 两类错误
假设检验可能发生两类错误:I型错误与II型错误。
从第(二)步概率计算中得到,在H0成立的假设下,观察到现有样本 的概率是0.014。如果我们把小概率标准定为0.05(也称为显著性水 平),那么现有样本的发生是小概率事件,根据小概率事件实际不可 能原理,是不可能得到现有样本的。
但是,在我们的实验中确实得到了现有的样本,这只能说明H0成立 的前提是错误的。因此,我们在显著性水平为0.05的情况下,否定 H0,而接受HA。所以这种药剂对玉米单穗重有显著的影响。
(3) 求出双侧临界值,确定 拒绝域。 df n 1 8时, =0.05的双侧临界值 t / 2 2.306
查表 4 a
2.306
2.306
(4)下结论。因统计量 t 2.036没有落在拒绝域内,我 们不否定 H 0,因此新品种的千粒重 与汕优63没有显著差异。
2 单个样本的方差检验-χ2检验
本例的u的尾区概率: P(| u | 2.526) 2P(u 2.526) 2 0.00570 0.0114 1.14%
• (三)统计推断(下结论)
若随机事件的概率很小,例如小于0.05或0.01,称之为小概率事件
小概率事件不可能原理:小概率事件在一次试验中 实际上是不可能发生的。
I型错误:H0实际上是正确的,但假设检验的结果却 否定H0。通俗地讲,就是没有差异说成了有差异。
以例一为例。假如H0是正确的,由于抽样的随机性, 仍有一部分样本的u值会落在拒绝域内,利用这些样本 作假设检验就会拒绝H0,从而犯下I型错误。 由于拒绝域的面积为α,所以I型错误的概率约为α。
II型错误:H0实际上是错误的,但假设检验的结果却 接受H0。通俗地讲,就是有差异说成了没有差异。
本例是在假定 H 0 : 0 300 的前提下,研究得到这 个样本的 概率。从样本平均数的 抽样分布入手。
2 第四章里讲到: x ~ N ( x , x ), 其中 x , x
n
所以,u
x x
x
x ~ N (0,1) / n
在本题中, x 308, 300, 9.5, n 9, 带入上式得到
这一推断过程等同于将 u 2.562 同 0.05的
u (双侧) u / 2 1.96
双侧临界值 u (双侧)=u / 2 1.96相比较: 因为2.562 1.96, 所以我们否定 H0
因为检验统计量 u落在拒绝域内,我们否 定H 0 而接受H A,这种途径称为临界值 途径,它与 前面的尾区概率途径是 等同的。
308 300 从本题中样本观察到的 u 2.526 9.5 / 9
现有样本发生的可能性可以以u的尾 区概率来衡量:越靠近平均数,则尾区
现有样本 u 2.526
面积越大,越容易发生。
尾区概率也可以理解成观察到比现 有样本更为极端的样本的概率,即
尾区概率
P( |u|>2.526 )
如果尾区概率小,则说明不容易再观察 到比现有样本更为极端的情形,也就是 说明现有样本本身就很极端,即它发生 的可能性就小。
本例利用了U分布来估计| u | 2.562的尾区概率,所以称为 u检验。 x 0 u 称为检验统计量。 / n
2. 显著性水平
用来否定或接受零假设的小概率标准称为显著性水平,记 为α。在生物学研究中,常取α=0.05,称为显著;或α= 0.01,称为极显著。
在例一中, 0.05 ,因为尾区概率 P(| u | 2.562) 0.014 ,所以否定H0。
5 总结:假设检验的基本程序
(a)根据题意,书写零假设H0和备择假设HA (b)确定检验所需的统计量,如u统计量,t统计量等,并计 算其数值 (c)根据备择假设确定拒绝域 (d)如果统计量的值落在拒绝域内,则否定H0接受HA,如果 统计量的值落在拒绝域外,则不否定H0
第二节 单个样本的统计假设检验