农学第五章统计假设测验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二类错误
c1 270.6
c2 329.4
255
270 285 300 315 330
345 360
μ0 μ
无效假设本来是错误的,但假设测验结果接受了它。
C1 Ⅰ
C2 Ⅱ
2
2
-u
0
u
犯第二类错误的原因:原假设的抽样分布与真实的抽样分布 发生部分重叠
犯第二类错误的概率等于重叠
部分的面积,记为值
例:已知总体的均值
-1.64 接受区
否定区
右尾检验
左尾检验
2
否定区 接受区
双尾 检验
2
否定区
u 0.05=1.96 u 0.01=2.58
>
接受区
否定区
单尾 检验
u 0.05=1.64 u 0.01=2.33
查表时,单尾概率等于双尾概率乘以2
四 、两类错误
假设检验的两类错误
否定H0
H0正确
错误()
H0 错误
推断正确
α值
C1 Ⅰ
C2 Ⅱ
-u
0
u
显著性水平: α越小,β越大, α越大,β越小
总体平均数之差
c1 270.6
c2 329.4
β =83%
255
270 285 300 315 330
345 360
μ0
μ
总体平均数之差
c1
c2
15%
255
270 285 300 315 330
345 360 375 390
2 _ y
2
n
u y
y
服从标准正态分布N(0,1)
在总体方差σ2 已知时,可以直接计算:
2 _ y
2
n
u y
y
σ2 未知,但样本容量相当大时,可用s2直接作为 σ2 估计值时应用。
概念
t 分布
当样本容量不太大(n<30)而 σ2 为未知时,
如以样本均方s2 估计 σ2 ,则其标准化离差 y
3 、计算无效假设正确的概率
在承认无效假设的前提下可知,从已知总体中抽取样本容 量为n=25的样本,该样本平均数的抽样分布具正态分布形状:
平均数 标准误
y 300(kg)
y
n
75
1(5 kg) 25
3 、计算无效假设正确的概率
在假设 H0为正确的条件下,根据正态分布理论算出从 0 30(0 kg)
(
acceptance
region
);y
1.96
和
y
y
1.96
为否定假设
y
的区域,简称否定区( rejection region )。
P(-1.96y <y< +1.96y) =0.95
左尾 0.025
否定区-1.96y
0.95
接受区
0.025 右尾
+1 差异达显著水平
即 H0 : 0 ,H A : 0 , 这时否定区域在左边一尾.
作一尾测验时,需将附表3列出的两尾概率乘以2,再查 出其u值。
单尾检验
假设:
(one-sided test)
H0 : ≤0 HA : > 0
H0 : ≥0 HA : < 0
0.95 0.05 0.05 0.95
接受区 1.64
指该新品种的总体平均产量不是 300kg,这包括大于300kg和小于 300kg两种可能性。
双尾检验与单尾检验
如果统计假设为 H0 : 0 , 则其对应的备择假设必 为 H A : 0 。因而,这个对应的备择假设仅有一种可能性,
而统计假设仅有一个否定区域,即曲线的右边一尾。这类测 验称一尾测验( one-tailed test )。一尾测验还有另一种情况,
=300,其平均数抽样标准误为15,
0
被抽样总体的平均数 315kg、标准误也为15。
u1
270.6 15
315
2.96
u2
329.4 15
315
0.96
查附表2,P(u1<-2.96)=0.0015,P(u2<0.96)=0.8315, 故有
=P(u2<0.96)-P(u1 <-2.96)=0.8315-0.0015=0.83或83%
P{y ( 1.96 y )} 0.025 P{y ( 1.96 y )} 0.025
因此,在
y
的抽样分布中,落在(
1.96
y,
1.96
)
y
区间内的有95%,落在这一区间外的只有5%。
如果以5%概率作为接受或否定H0的界限,则上述区间
( 1.96 y, 1.96 y )为接受假设的区域,简称接受区
• 统计假设测验又叫显著性测验,是统计 学中的一个重要内容。统计假设测验的 方法很多,常用的有u测验、t测验和 2
测验等。
第一节 统计假设测验的基本原理
• 统计假设测验的意义 • 统计假设测验的步骤 • 两类错误 • 两尾测验与一尾测验
一、统计假设测验的意义
• 例如,根据国家标准,大豆籽粒蛋白质 含量高于45%的品种为高蛋白品种。某 种子公司对一大豆新品种随机抽取5个样 品进行测定,得平均蛋白质含量为 46.5%。我们能否据此认为该大豆品种 就是高蛋白品种?
第五章 统计假设测验
抽样分布
上章主要讨论了从总体到样本的关系,本章 将讨论逆命题—从样本到总体的问题,即统 计推断问题。
统
由一个样 本或一糸
计
列样本所
推
得的结果
断
来推断总 体的特征
统计假设测验 hypothesis test
参数估计 parametric estimate
第五章 统计假设测验
第一节 统计假设测验的基本原理 第二节 平均数的假设测验 第三节 二项资料的百分数假设测验 第四节 参数的区间估计
的总体中,抽取到 y 33(0 kg) 的样本的概率:
y 330 300
u
2
y
15
查附表3,当u=2时,P(概率)界于0.04和0.05之间。
计算接受区和否定区
P{ 1.96 y y 1.96 y} 0.95
P{ y 1.96} 0.025 y
P{ y 1.96} 0.025 y
如果统计假设为 H0 : 0 , 则备择假设为 H A : 0 , 在 假设测验时所考虑的概率为曲线左边一尾概率(小于 0 )和右边 一尾概率(大于 0)的总和。这类测验称为双尾测验( two-tailed
test ),它具有两个否定区域。
• 例如若H0:μ= μ0 , • 则备择假设为HA:μ≠μ0 。后者即
C2 Ⅱ
2
2
-u
0
u
影响 II 型错误概率大小的因素
- 显著性水平:α越大,β越小
- 样本含量 n:n越大,β越小
- 假设总体与真实分布总体平均数之差越大,β越小
- 两个分布的总体方差越小,β越小
结论
两类错误既有联系又有区别
错误只在否定H0时发生
错误只在接受H0时发生
错误增加 错误减小 错误减小 错误增加
=0.05/0.01
统计假设检验的基本原理
• 小概率事件不可能发生原理
– 小概率事件在一次试验中几乎不会发生 – 如果某事件在一次试验中发生了,我们可
认为它不是一个小概率事件 – 如果在某个假设下应当是小概率的事件在
一次试验中发生了,可认为该假设不能成立
统计假设测验的基本思想
按研究目的提出一个假设,然后再计算该假设 出现的概率,最后依概率的大小判断假设是否成立, 从而推断处理效应是否存在(反证法)。这就是统 计假设测验的基本思想。
P(-2.58y <y< +2.58y) =0.99
左尾 0.005
否定区-2.58y
0.99
0.005 右尾
接受区
+2.58y 否定区
临界值: + 2.58y 差异达极显著水平
本例中,
0 =300, y 15 ,
1.96 y=29.4(kg)。
因之,它的两个2.5%概率 的否定区域为
无效假设(null hypothesis):假设所研究两个总体参数(平均数)
相等。也就是假设表面效应是由误差造成的,两个总体之
间没有真实差异。
H0 : 0
备择假设( alternative hypothesis ):和无效假设相对应的一
个统计假设 。
H A : 0
如果否定了无效假设,则必接受备择假设;同理,如果接 受了无效假设,当然也就否定了备择假设。
y≤300-29.4和 y≥300+29.4,即
大于329.4(kg)和小于270.6(kg) 的概率只有5%。
4、作出推断结论:是否接受假设
小 概
P>
率
原 理
P<
接受H0 否定HA
否定H0 接受HA
本例中 P<0.05, 故否定H0,接受HA。
即新品种与当地良种间存在显著差异。
统计假设测验的步骤
1 、提出假设
无效假设:
H0 : 0 300
即新品种与老品种之间不存在真实的差异,样本平均数和总体平 均数之间的差数: 330-300=30(kg)属随机误差。
备择假设:
H A : 0
即新品种与老品种之间存在真实的差异
2 、 确定显著水平
=0.05 =0.01
显著水平*
P<
极显著水平**
超级稻试验田亩产达926.6公斤
• 专家组将攻关片所有田块进行编号,随机抽取了 2号、5号、8号共3块示范田。经实打实收后,3 块示范田的亩产分别为901.1公斤、938.2公斤、 940.5公斤,百亩片平均亩产为926.6公斤。
假设测验的意义
• 统计假设测验的目的在于判明,试验的表 面差异主要是试验的真实差异造成的,还 是试验误差造成的,从而得到可靠的结论。
法官判定一个人是否犯罪,首先是假定他“无罪”(H0),
然后通过侦察寻找证据,如果证据充分则拒绝 “无罪”的假
定(H0),判嫌疑人有罪;否则只能暂且认为“无罪”的假 定(H0)成立。
统计假设测验:
根据某种实际需要,对未知的或不完全知道的总 体提出两种彼此对立的假设;然后由样本的实际 结果,经过一定的计算,做出在一定概率意义上 应当接受哪种假设的测验。
统计假设检验的步骤:
提 出 假 设
确 定 显 著 水 平
计统
算
计
统 计
推
量断
第二节 平均数的假设测验
一、t 分布
二、单个样本平均数的假设测验 三、两个样本平均数相比较的假设测验
复习
• 从正态总体抽取的样本,无论样本容量多大,
_
其样本平均数 y的抽样分布必成正态分布,具
有:
_
y
记作N(μ,σ2/n)。
2 _ y
2
n
u y 服从标准正态分布N(0,1)
y
复习
• 若从_ 一个非正态总体中随机抽样,抽出的样本平均
数 y分布不一定属于正态分布,但当样本容量n足够
大时,从这总体抽出样本平均数的抽样分布趋于正
态分布,具有平均数μ和方差σ2/n。这称之为中心
极限定理。
_
y
记作N(μ,σ2/n)。
(1) 对样本所属的总体提出统计假设,包括无效假设和备择假设。
(2) 确定测验的显著水平 值。
(3) 在 H为0 正确的假定下,根据统计数的抽样分布,计算无效假设
正确的概率或否定区域。
(4) 将规定的 值和算得的概率值相比较,或者将试验结果和否定
区域相比较,从而作出接受或否定无效假设的推断。
双尾检验与单尾检验
接受H0
推断正确
错误()
第一类错误(type I error),又称弃真错误或 错误; 第二类错误( type II error ) ,又称纳伪错误或 错误
第一类错误
无效假设本来是正确的,但假设测验结果否定了它。
错误
0.025
0.95 = 0
0.025
犯第一类错误的原因:小概率事件不可能发生原理
犯第一类错误的概率等于显著水平值
如何判断造成这种差异的原因?
y1 1 1
y2 2 2
试验误差
y1 y2 (1 2) (1 2)
表面差异
真实差异
权衡的尺度如何掌握呢?
• 只要设定一概率标准,表面效应属于误 差的概率不大于这一标准,便可推论表 面效应不大可能属误差所致,而是新品 种优越。
小概率原理
概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。
s 的分布不呈正态,而作 t 分布,具有自由度 y
DF=n-1。
t y
s
y
样本平均数的标准误: s s
y
n
其中:S为样本标准差,n为样本容量
在进行无效假设和备择假设后,要确定一个否定H0的概
率标准,这个概率标准称为显著水平,记作。
统计学中,一般认为概率小于0.05或0.01的事件为小
概率事件,所以在小概率原理基础上建立的假设检验也常
取=0.05和=0.01两个显著水平 。
=0.05
P<
=0.01
显著水平* 极显著水平**
某地区的当地小麦品种产量为300kg/ 667m2 ,标 准差为75(kg),而现有一新品种通过25个小区的试 验,算得其样本平均产量为330kg/667m2, 那么新 品种样本所属总体与当地品种这个总体是否有显著 差异呢?
μ0
μ
假设总体与真实分布总体平均数之差越大,β越小
总体方差
c1
c2
15%
255
270 285 300 315 330
345 360 375 390
μ0
μ
c1
c2
255
270 285 300 315 330
345 360 375 390
μ0
μ
两个分布的总体方差越小,β越小
样本含量 n越大,β越小
C1 Ⅰ