第四节 二项资料的百分数假设检验

合集下载

第四节 百分数资料差异显著性检验

第四节 百分数资料差异显著性检验

第四节百分数资料差异显著性检验在第四章介绍二项分布时曾指出:由具有两个属性类别的质量性状利用统计次数法得来的次数资料进而计算出的百分数资料,如成活率、死亡率、孵化率、感染率、阳性率等是服从二项分布的。

这类百分数的假设检验应按二项分布进行。

当样本含量n较大,p不过小,且np和nq均大于5时,二项分布接近于正态分布。

所以,对于服从二项分布的百分数资料,当n足够大时,可以近似地用u检验法,即自由度为无穷大时(df=∞)的t检验法,进行差异显著性检验。

适用于近似地采用u检验所需的二项分布百分数资料的样本含量n见表5-8。

表5-8适用于近似地采用u检验所需要的二项分布百分数资料的样本含量n(样本百分数)(较小百分数的次数)(样本含量)0.5 0.40.30.20.10.051520244060703050802006001,400与平均数差异显著性检验类似,百分数差异显著性检验分为样本百分数与总体百分数差异显著性检验及两样本百分数差异显著性检验两种。

1.样本百分数与总体百分数差异显著性检验在实际工作中,有时需要检验一个服从二项分布的样本百分数与已知的二项总体百分数差异是否显著,其目的在于检验一个样本百分数所在二项总体百分数p是否与已知二项总体百分数p0相同,换句话说,检验该样本百分数是否来自总体百分数为p0的二项总体。

这里所讨论的百分数是服从二项分布的,但n足够大,p不过小,np和nq均大于5,可近似地采用u检验法来进行显著性检验;若np或nq小于或等于30时,应对u进行连续性矫正。

检验的基本步骤是:(一)提出无效假设与备择假设,(二)计算u值或值u值的计算公式为:(5-8)矫正u值u c的计算公式为:(5-9)其中为样本百分数,为总体百分数,为样本百分数标准误,计算公式为:(5-10)(三)将计算所得的u或的绝对值与1.96、2.58比较,作出统计推断若(或)<1.96,p>0.05,不能否定,表明样本百分数与总体百分数差异不显著;若<2.58,0.01<p≤0.05,否定,接受,表明样本百分数与总体百分数差异显著;若,,否定,接受,表明样本百分数与总体百分数差异极显著。

试验设计与统计分析(农学)大纲

试验设计与统计分析(农学)大纲

试验设计与统计分析(农学)⼤纲试验设计与统计分析(农学)Experimental Designs and Statistical Analysis⼀、教学⽬的使学⽣掌握现代试验统计知识,学会运⽤试验设计和统计分析这⼀现代科学试验研究必不可少的⼯具。

能应⽤⽣物统计学的原理设计试验,并对试验所得的结果进⾏正确的统计和分析,做出科学的结论。

学会利⽤计算机统计软件完成较复杂的统计运算及提⾼运算速率。

⼆、教学内容、教学⽬标及学时分配第⼀章绪论(3学时)本章概述农业科学试验、⽣物统计学发展概况、本课程的主要内容及学习的基本要求和⽅法。

通过本章学习,了解农业科学试验的特点、任务和要求;了解统计学的功⽤;认识本课程的重要性;掌握正确的学习⽅法。

1. 农业科学试验的任务和要求:农业科学试验和⽥间试验;农业科学试验的任务和来源;农业科学试验的基本要求。

2. 试验误差及其控制:试验误差的概念;试验误差的来源;试验误差的控制。

3. ⽣物统计学与农业科学试验:部分⽣物统计学基本概念;⽣物统计学的形成与发展。

⽣物统计学在农业科学试验中的作⽤和注意问题。

第⼆章试验设计和实施(4学时)通过本章学习,掌握试验设计的原则及常⽤的试验设计⽅法。

重点是随机排列的试验设计⽅法;了解顺序排列的试验设计⽅法;了解试验的实施⽅法。

1. 试验⽅案:试验⽅案的概念和类别;处理效应。

2. 试验设计原则:试验⽅案的设计要点;重复;随机排列;局部控制。

3. ⼩区技术:⼩区;区组和⼩区的排列。

4. 常⽤的试验设计:对⽐法设计;间⽐法设计;完全随机设计;随机区组设计;拉丁⽅设计;裂区设计。

5. 试验的实施:试验的计划;试验的准备;播种;试验管理;试验调查记载。

第三章描述性统计(3学时)通过本章学习,了解试验资料初步整理的⽅法;了解制作各种不同变数资料的次数分布表和绘制次数分布图的⽅法;了解常⽤的统计图;掌握平均数、变异数的意义、种类及计算⽅法。

1.统计学的若⼲术语:个体、总体与样本;观察值与变量。

第四章显著性检验

第四章显著性检验

(三)统计推断
根据小概率事件实际不可能性原理作出否定或接受无效假设的 推断。
显著水平:用来否定或接受无效假设的概率标准,记作 在生物学研究中常取 =0.05,称为5%显著水平; 或 =0.01,称为1%显著水平或极显著水平。
u 两尾概率为0.05的临界值 0.05=1.96,两尾概率为0.01的临界
比较两个样本所在的总体是否有差异?
例4.2 某地进行了两个水稻品种对比试验,在相同条件下, 两个水稻品种分别种植10个小区,获得两个水稻品种的平均
产量为: x1 510 x2 500 ,判定这两个水稻品种平均产
量是否相同?
比较:1 2
估计:x1 1 1
x2 2 2
表明表面差异是抽样误差的可能性非常小,
表述为两个总体间差异极显著。记作u:**
0.5
f (u)
0.4
0.3
0.2
0.1
0.0
-3
-2
否定域
-1
0
1
接受域
2
3
否定域
图5.1 5%显著水平假设测验图示
区间 , u 和 u , 称为 水平上的否定域,
而区间 (u , u ) 则称为 水平上的接受域。
2. 计算t值
x = x = 32.5 28.6
n
9
29.7 =29.255
S x2 ( x)2 / n n 1
32.52 28.62 29.72 (263.3)2

9
9 1
53.542 9 1
2.587
S 2.587
Sx =
= n
=0.862
0.5
0.4

统计学第4章假设检验

统计学第4章假设检验
犯第二类错误的概率为
假设检验中四种可能结果的概率
H0为真 H0为伪
不能拒绝 H0(接受)
1-a(正确判断)
拒绝 H0
a〈弃真错误〉
〈取伪错误〉 1 (正确判断)
对于一定ቤተ መጻሕፍቲ ባይዱ样本量n,不能同时做到减小犯这两种错
误的概率。如果减小a错误,就会增大错误的机会; 如果减小错误,则会增大a错误的概率。因此,在假
(Parameter estimation)是统计推断的两个组成部 分,它们都是利用样本对总体进行某种推断
参数估计是用样本统计量估计总体参数的方法,总体 参数在估计之前是未知的
假设检验则是先对总体参数的取值提出一个假设,然 后利用样本信息去检验这个假设是否成立
统计方法
统计方法
统计描 述
统计推断
大数定律:当试验次数足够大时,小概率事件必然发生 “日久见人心”、“路遥知马力”、“保险”
假设检验的过程和思路 ——概率意义下的反证法
假设总体的 平均年龄是35岁
总体
判断
X 32 35?
样本均值是32岁
样本
假设检验的步骤
第一步:根据问题要求提出原假设(Null hypothesis, H0)和备选假设(Alternative hypothesis,H1);
1.96
在实际应用中,一般是先给定了显著性水平,这样就可以由有关的概率分布表查到
临界值(critical value) ,从Za而确定H0的接受域和拒绝域。对于不同形式的假设,
H0的接受域和拒绝域也有所不同。
接受域
拒绝域
接受域
0 (2)左单侧检验
拒绝域
拒绝域
接受域
拒绝域

第四章 假设检验

第四章 假设检验
为 ,一般是随着 0 的减小或试验误差的 增大而增大,所以 0 越小或试验误差越
大,就越容易将试验的真实差异错判为试验误差。
显著性检验的两类错误归纳如下:
表4-1 显著性检验的两类错误
客观实际
H0 成立 H0 不成立
检验结果
否定 H0 Ⅰ型错误( )
接受 H0 推断正确(1- )
推断正确(1- ) Ⅱ型错误( )
与0 有差异而因为试验误差大被掩盖了。
为了降低犯两类错误的概率,一般从选取适当的显
著水平 和增加试验重复次数 n 来考虑。因为选取数 值小的显著水平 值可以降低犯Ⅰ类型错误的概率,
但与此同时也增大了犯Ⅱ型错误的概率,所以显著水
平 值的选用要同时考虑到犯两类错误的概率的大小。
对于田间试验,由于试验条件不容易控制
y1 510
y2 500
我们能否根据 y1 y2 10 就判定这两
个水稻品种平均产量不同?结论是,不一定。
因为两个水稻品种平均产量 y1 、y2 都 是从试验种植的10个小区获得,仅是两个品种
有关总体平均数 1, 2 的估计值。由于存在
试验误差 ,样本平均数并不等于总体平均数 , 样本平均数包含总体平均数与试验误差二部分, 即
∣u∣≥2.526的两尾概率,所以称为 u 检验.
三、显著水平与两种类型的错误
(一)显著水平
用来否定或接受无效假设的概率标准叫显著水
平,记作 。 在生物学研究中常取 =0.05,称为 5% 显著水平; 或 =0.01,称为1% 显著水平或极显著水平。
对于上述例子 u的检验来说,若∣u∣<1.96 ,
则说明试验的表面差异属于试验误差的概率p>0.05,
即表面差异属于试验误差的可能性大,不能否

假设检验(完整)

假设检验(完整)
(右侧检验 )
抽样分布
置信水平
1 -
拒绝H0
0 观察到的样本统计量
样本统计量 临界值
显著性水平和拒绝域
(右侧检验 )
抽样分布
置信水平
1 -
拒绝H0
0
样本统计量
临界值
第一节 假设检验概述
1、假设检验的基本思想 2、假设检验的步骤 3、两类错误和假设检验的规则
三、两类错误和假设检验的规则
• 1. 第Ⅰ类错误(弃真错误)
x
~ N (0,1) s/ n
x ~ t(n 1)
s/ n
非正态分布 大样本 x ~ N (0,1) / n
x ~ N (0,1)
s/ n
非正态小样本情形不讨论。
3、拒绝域和接受域的确定
(双侧检验 )
抽样分布
拒绝H0
/2
1 -
置信水平 拒绝H0
/2
拒绝域
临界值
临界值
0 接受域
样本统计量 拒绝域
关统计) 6、《红楼梦》后40回作者的鉴定(文学统计)。 7、民间借贷的利率为多少?(金融统计) 8、兴奋剂检测(体育统计)
1、假设检验的基本思想
为研究某山区的成年男子的脉搏均数是否高于一般 成年男子脉搏均数,某医生在一山区随机抽查了25名 健康成年男子,得其脉搏均数x为74.2次/分,标准差 为6.0次/分。根据大量调查已知一般健康成年男子脉 搏均数为72次/分,能否据此认为该山区成年的脉搏 均数μ高于一般成年男子的脉搏均数μ0?
– 原假设为真时拒绝原假设
– 第Ⅰ类错误的概率记为
• 被称为显著性水平
• 2. 第Ⅱ类错误(取伪错误)
– 原假设为假时未拒绝原假设

4.3 百分数的假设检验解析

4.3 百分数的假设检验解析
2
2
样本频率的加权平均值
p 作为对p1和p2的估计,即:
1
2
n1 p1 n2 p2 x1 x 2 p n1 n2 n1 n2
x1 n1 p1 x2 n2 p2
q 1 p
sp ˆ
当n1= n2=n时
1
ˆ2 p

1 1 pq ( ) n1 n2
2 pq n
sp ˆ
由二项式
(p+q)n
展开式直接检验
P( x) Cnx p x qn x
P(3)
P(4) P(5)
C53p3q2
C54p4q1 C55p5q0
0.0729
0.32805 0.59049
P(0)或P(1)或P(2) < 0.05,差异显著;
P(3)或P(4)或P(5) > 0.05,差异不显著。
频率的假设检验
(1)一个样本频率的假设检验;
由于n > 30,用u检验;
(3)只有孵化率≤ 0.80,才认为是不合格,故采用
单尾检验。
(1)假设
H0:p≤ 0.80,即该批种蛋不合格。
HA:p>0.80 选取显著水平α=0.05
x ˆ 0.78 p n
(2)水平 (3)检验
p pq / n 0.04 ˆ
验计算,但必须进行连续性矫正,即随机变量所落的区间
+0.5,如一个样本由 (np ˆ np 0.5 。 ˆ np) 矫正为 np
一、一个样本频率 的假设检验
ˆ 适用范围:检验一个样本频率(记为) p
和某一理论值或期望值p的差异显著性。
在二项分布中,事件A发生的频率 x/n称 为二项成数,即百分数或频率。则二项成数 的平均数和标准差分别为: p p

百分数的假设检验

百分数的假设检验

p2 )
0.5 n1
0.5 n2
pˆ1 pˆ 2
在H0: p1 = p2下,
uc
pˆ1

pˆ 2
0.5 0.5 n1 n2
s
pˆ1 pˆ 2
2、当 5 < np 或 nq < 30,需进行连续性矫正, 如果n < 30 ,用t检验:
tc

( pˆ1

pˆ 2 ) ( p1 s
一、一个样本频率 的假设检验
适用范围:检验一个样本频率(记为)pˆ
和某一理论值或期望值p的差异显著性。
在二项分布中,事件A发生的频率 x/n称 为二项成数,即百分数或频率。则二项成数 的平均数和标准差分别为:
p p
( pq) / n
p 也称为二项总体成数的标准误,当 p 未知时,常以样本百分数pˆ 来估计。此时上 式改写为:
pˆ1 pˆ 2
u>2.58,P<0.01
(4)推断
在0.01显著水平上,否定H0,接受HA; 认为两块麦田锈病发病率有极显著差异,即地 势对小麦锈病的发生有极显著影响作用,低洼 地小麦锈病的发病率极显著高于高坡地。
例:某鱼场发生了药物中毒,
抽查甲池中的29尾鱼,有20尾死亡
抽查乙池中的28尾鱼,有21尾死亡
550
频率的假设检验
当 np 和 nq > 30
中心极限定 理
近似 正态分布
(u检验)
发芽率
死亡率
结实率
相状比
频率的假设检验
当 5<np 或 nq<30
由于二项总体的百分数(频率)是由某一属性的个体 计算来的整数,所以是离散型的。当样本不太大时,把它 当作连续型的近似正态总体来处理,结果会有些出入,容 易发生第一类错误。补救的办法时仍按正态分布的假设检 验计算,但必须进行连续性矫正,即随机变量所落的区间 +0.5,如一个样本由(npˆ np) 矫正为npˆ np 0.5 。

两样本定量资料假设检验PPT课件

两样本定量资料假设检验PPT课件

2021/5/5
《生物医学研究中的统计方法》 第6章
2021/5/5
Ⅰ 两独立样本的比较
t检验
《生物医学研究中的统计方法》 第6章
t检验的模型假设: 两样本均来自正态总体(当n>50时,
数据的正态性可以忽略)且总体方差齐。
2021/5/5
《生物医学研究中的统计方法》 第6章
【例6.1】 为研究某种新药治疗贫血患者的疗 效,将20名贫血患者随机分成两组,一组用 新药治疗,另一组用常规药物治疗,测得血红 蛋白增加量(g/L)见表6.1。问新药与常规 药治疗贫血患者后的血红蛋白平均增加量有无 差别?
假设检验就是这样一种统计方法,根据样 本提供的信息,依据概率来判断所提出的 假设是否正确,从而作出拒绝还是不拒绝 的结论。
假设检 验实质
反证 法
• 起源于反弹琵琶,原自敦煌壁画 中的一种舞姿造型。
• 现在喻指突破常规的思维和行为, 看问题,与常规事物对着干。
反证法
小概率 原理
反证法:对于上述问题,要直接判断是否样本所来自
10
常规药物组
.176
10 .200* .935
10
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
Sig. .466 .482
2021/5/5
《生物医学研究中的统计方法》 第6章
加量不同,根据样本均数的信息 X 1 X 2 ,认为 1 2 , 即服用新药后血红蛋白含量平均增加量高于常规药。
2021/5/5
《生物医学研究中的统计方法》 第6章
正态性检验 • Analyze→ Descriptive Statistics→ Explore • Dependent list框→ y • Factor list框→group • Plots框→√Normality plots with tests • Continue • OK

百分数的假设检验复习过程

百分数的假设检验复习过程

s
pˆ1 pˆ2
d ( n f 1 1 ) ( n 2 1 ) n 1 n 2 2
例:研究地势对小麦锈病发病的影响 低洼地麦田378株,其中锈病株342株 高坡地麦田396株,其中锈病株313株 比较两块麦田锈病发病率是否有显著性差异。
分 (1)2个样本频率的假设检验; 析
(2) np 和 nq > 30 ,无需连续矫正,用u检验;
条件下,可用两
样本频率的加权平均值 p 作为对p1和p2的估计,即:
pn1p1n2p2 x1x2 x1 n1p1 q1p
n1n2
n1n2 x2 n2p2
s pq(1 1)
pˆ1 pˆ2
n1 n2
当n1= n2=n时
s 2pq
pˆ1 pˆ2
n
1、当 np 和 nq > 30,不需连续性矫正,用u检验:
死亡率
结实率
相状比
频率的假设检验
当 5<np 或 nq<30
由于二项总体的百分数(频率)是由某一属性的个体 计算来的整数,所以是离散型的。当样本不太大时,把它 当作连续型的近似正态总体来处理,结果会有些出入,容 易发生第一类错误。补救的办法时仍按正态分布的假设检 验计算,但必须进行连续性矫正,即随机变量所落的区间 +0.5,如一个样本由 (npˆ np) 矫正为 npˆ np0.5。
分 (1)一个样本频率的假设检验; 析
(2) np 和 nq > 30 ,无需连续矫正,用u检验;
(3)不知使用种衣剂的发芽率是高是低,用双尾检验。
(1)假设 (2)水平
H0:p=0.85 即用种衣剂浸种后的发芽率仍为0.85;
HA:p≠0.85 选取显著水平α=0.05

第四节 二项资料的百分数假设检验

第四节 二项资料的百分数假设检验

1、单个样本百分数的假设测验
• 测试百分数β所属总体百分数与某一理论值或期望值p0的 差异显著性。 p (1 p ) • 样本百分数的标准误为: n
0 0 ˆ
故由
u
ˆ p p0

ˆ p
例:紫花与白花大豆杂交,在F2代共得到289株,其中紫 花208株,白花81株。如果花色受一对等位基因控制,根 据遗传学原理,F2代紫花与白花分离的比例应为3:1,即 紫花理论数为p=0.75,白花为q =1-p =0.25。问该试验是 否符合一对等位基因的的遗传规律?
Test of percent hypothesis
3、二项样本假设测验时的连续矫正
• 以上所分析的事例在性质上属于间断性变易,其分布是间 断性的二项分布。将其按照连续性的正态分布或 t 分布, 一般容易发生第一类错误。补救的办法是假设测验时进行 连续矫正。这种矫正工作当n<30,np<5时必须进行。 • 若符合下表的情况,可不作矫正,用u测验处理。
1 1 0 . 906 0 . 094 0 . 021 396 378
3 . 12
u
0 . 09392 0 . 8737 0 . 021

ˆ ˆ p1 p 2
因为:u.05=1.96,│u│(3.12)>u0.05,所以p<0.05。 推断:否定H0:p1=p2,接受HA:p1≠p2,即该试验中两块麦 田锈病的发生程度有显著差异。
Estimate of confidence interval
1、总体平均数μ的置信限 2、两总体平均数差数的置信限 3、二项总体百分数的置信限 4、两个二项总体百分数差数的置信限 5、区间估计与假设测验

第五统计假设测验-精选

第五统计假设测验-精选
曲线,具有一个单独参数 以确定某一特定分布。v 是自由度。
在理论上,当v 增大时,t 分布趋向于正态分布。
t 分布的密度函数为:
fν(t)π [ν [( ν ( 1 )/2 2 )] /!2 ]!(1 tν 2) (ν 2 1 )
( t ) (5·3)
t 分布的平均数和标准差为:
第五章 统计假设测验
第一节 统计假设测验的基本原理 第二节 平均数的假设测验 第三节 二项资料的百分数假设测验 第四节 参数的区间估计
第一节 统计假设测验的基本原理
一、统计假设的基本概念 二、统计假设测验的基本方法 三、两尾测验与一尾测验。 四、假设测验的两类错误
一、统计假设的基本概念 所谓统计假设(statistical hypothesis) 是指有关某一总体 参数的假设。例如假设某小麦新品种的产量和原地方品种 的产量一样,或者比旧地方品种更好。
于是应接受H0。如果新品种的平均产量为500kg,与总 体假设相差很大,那当然应否定H0 。但如果试验结果与 总体假设并不相差悬殊 , 就要借助于概率原理,具体做
法有以下两种:
1. 计算概率 在假设H 0 为正确的条件下,根据的抽样分布算出
获得 y =330kg的概率,或者说算得出现随机误差 y 0=30(kg)
第二类错误的概率为 值。值的计算方法就是计算
抽样平均数落在已知总体的接受区的概率(这里的已知总体 是假定的)。
例:已知总体的均值 0 =300,其平均数抽样标准误为15,
被抽样总体的平均数 315kg、标准误也为15,由此可以
画出这两个总体的分布曲线如图5.2,图中标出了已知总体的
接受区域在c1和c2之间。由于两个总体的平均数不同,这种可 能性正是第二类错误的概率值,其一般计算方法为:

田间试验与统计分析 第四章 假设检验

田间试验与统计分析 第四章 假设检验

品)。此时的无效假设仍为H0:
的左尾即 (, u ]


0 。这 时 否 定 域 位 于 则为HA:
域为 (, 1.64]
u分布曲线 例如当 =0.05时, u 分布的否定
0 ,但备择假设
这种利用一尾概率进行的检验叫一尾检验 。此
时 u 为一尾检验的临界 值。 一尾检验的 u =两尾检验的 u2 例如, 一尾检验的
表4-1 显著性检验的两类错误
客观实际
检验结果 否定 H 0 Ⅰ型错误( ) 推断正确(1- ) 接受 H 0 推断正确(1- ) Ⅱ型错误( )
H 0 成立 H 0 不成立
因此,如果经 检验获得“差异显著”或“差 与 异极显著”,我们有95%或99%的把握认为, 0 不相同, 判断错误的可能性不超过5%或1% ; 若经 检验获得 “差异不显著”, 我们只能认为在本次试 验条件下, 0 与
另一部分是试验误差 (1 2 ) 。
表明,试验的表面差异 ( y1 y2 ) 是由两部分组成:
( y1 y2 ) 是可以计算的,借助数理统计方法可以对试验 误差作出估计。所以,可将试验的表面差异 ( y1 y2 ) 与 试验误差相比较间接推断真实差异 ( 1 2 ) 是否存在,
体中抽样所获得的样本平均数的分布。
第三章已述及,若 y N (, 2 ) 数 y N ( y , y2 ) 得
u y y
,则样本 ,将其标准化,
y ,


y
y


n
y
yLeabharlann y 0n
本例, n 9, y 308g, 0 300g 9.5 g 得
y1 510

百分率资料的假设检验

百分率资料的假设检验
安康学院
例3:假设与计算
• 假设Ho :两品种的三粒荚率差异属随机误差
• 计算:正态近似法的 uc 值
sp ˆ1 p ˆ2 1 1 1 1 pq n n 0.467 0.533 20 25 0.1497 2 1
0.5 0.5 0.5 0.5 ˆ1 p ˆ2 p 0.70 0.28 n1 n2 20 25 2.505 uc sp 0.1497 ˆ1 p ˆ2
• 公式:
0.5 0.5 ˆ1 p ˆ2 p n1 n2 uc sp ˆ1 p ˆ2
Байду номын сангаас
安康学院
例3:完整的检验过程
• 样本1:A品种:视检20 个豆荚,三粒荚14个
• 样本2:B品种:视检25个豆荚,三粒荚7个
• 问:两个品种的三粒荚率是否存在差异 • 已知: n1= 20, f1= 14, p^1= 0.70 • n2= 25, f2= 7, p^2= 0.28 • p— = 0.467, q— = 1 – 0.467 = 0.533 (合并) • n1 p— = 9.34, n2 p— = 11.675 (均小于30) • 故:采用连续性矫正的 u 检验。
安康学院
置信区间的表示
x t sx x t sx
下限:L1 x t sx
上限:L2 x t sx
0.95置信区间:x t0.05 sx x t0.05 sx
0.99置信区间:x t0.01sx x t0.01sx
安康学院
• 公式:
u
ˆ p0 p
p ˆ
p ˆ
p0 q0 n
p0 1 p0 n

统计假设测验(显著性检验)

统计假设测验(显著性检验)
此错误的概率为β。
β
β
x1 x1 μ0
x2 x2μ
x
否定区间
接受区间
由图可见,β的大小与|μ-μ0|、α有反比关系;而与标准

有 正比关系。
x
n
实际中控制犯两类错误的措施有以下几种:
①适当增大水平间差距,即增大|μ-μ0|。
②增加n。
③根据试验目的,通过调整α的大小来控制犯错 误的概率。即 当试验者主观希望获得差异显著(不显著) 的检验结果时,(此时易接受第一类(二类)错 误),应适当减小(增大) α。
虽然处理效应(1 - 2)未知,但试验的 表面效应是可以计算的,借助数理统计方法 可以对试验误差作出估计。所以,可从试验 的表面效应与试验误差的权衡比较中间接地 推断处理效应是否存在,这就是显著性检验 的基本思想。
二、统计假设测验的意义
先假设真实差异不存在,表面差异全为 试验误差。然后计算这一假设出现的概率, 根据小概率事件实际不可能性原理,判断 假设是否正确。这是对样本所属总体所做 假设是否正确的统计证明,称为统计假设
一 单个平均数u检验
(二)方法步骤
[例1] 已知某工厂排污水中石油浓度分布属正态分 布,经处理后随机采样16次,得样本平均数=48 mg·L-1。已知原总体平均数μ=50m g·L-1,总体 方差σ2=6.25,问污水处理前后石油含量有无显 著差异?
▪ 统计假设 H0:μ=μ0(50 g·L-1) HA:μ≠μ0
备择假设 H A : 1 2 或 1 2 0
0 或 0 0
备择假设是在无效假设被否定时准备接受的假设。
(一)首先对试验样本所在的总体作假设
如何才能判断Ho是否正确?就需要一个界限和标准。
• 统计区间:在统计假设检验中“接受”或“否定”所提出 的“无效假设” Ho的概率范围,称为统计区间。

正态总体及二项分布百分数的假设检验

正态总体及二项分布百分数的假设检验

1正态总体参数的假设检验 1.1单个正态总体参数的假设检验 1.1.1单个正态总体均值的假设检验(1)已知方差20σ或已知样本为大样本时,对均值μ的检验。

样本为正态总体中抽取,方差已知;样本从正态总体中抽取,方差未知,但样本容量大于30。

1) 提出假设H 0,H A ; 2) 统计量u 计算: u =x−μ0σ/√n或u =x−μ0S/√n;H 0成立时,u ~N(0,1)3) 依据所给显著水平α,确定临界值u 0.5α或u α; 4) 比较所得统计量u 与临界值,判断H 0或H A 成立。

Excel 中用NORMSINV()返回u α,双尾检验中该函数中所用概率应为1-0.5α,单尾检验所用概率为1-α。

(2)方差20σ未知且已知样本为小样本时对均值μ的假设检验。

1)提出假设H 0,H A ; 2)统计量t 计算: t =x−μ0S/√nH 0成立时,t ~t(n-1)3)依据所给显著水平α,确定临界值t 0.5α或t α; 4)比较所得统计量t 与临界值,判断H 0或H A 成立。

TINV()返回t α,给出的为双尾概率。

即显著水平为α,单尾检验时应使用双倍所给显著水平概率2α为参数。

metlab 中给出为单尾概率。

1.1.2单正态总体方差的假设检验 1)提出假设H 0,H A ;2)H 0成立前提下统计量计算: χ2=(n−1)S 2σ02~χ2(n −1)3)依据显著水平α及(n-1)的自由度,取得χ2的临界值;4)判断H 0或H A 成立:)1(05.0122-<<-n αχχ或)1(5.022->n αχχ时,拒绝H 0;)1(22->n αχχ时拒绝H 0;)1(122-<-n αχχ时拒绝H 0。

Excel 中用CHIINV()返回单尾概率,故双尾检验时概率应使用0.5α,另需使用自由度f 为第二参数。

χ2 1.2两个正态总体参数的假设检验 1.2.1两个正态总体均值差的假设检验(1)已知两样本方差条件下,假设检验H 0:μ1=μ2),(~2221212121n n N x x σσμμ+-- 1)提出假设; 2)计算统计量:)1,0(~//)()(2221212121N n n x x u σσμμ+---=;3)依据显著水平得临界值; 4)判断。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S
p
17 9 25 24
0 . 53
q 1 0 . 53 0 . 47
p1 p 2
1 1 0 . 53 0 . 47 0 . 1426 25 24
17 0 . 5 tC 25

9 0 .5 24 1 . 85
0 . 1426
8 10 0 . 5 2 . 19
ˆ n q 20 8 12
tC 0 . 68
查附表4:v=20-1=19,t0.05=2.093, 计算得|t|< t0.05,故P>0.05, 推断:实得百分数0.4与理论值0.5没有显著差异。
单个样本百分数假设测验的连续矫正
3.2两个样本百分数相比较假设测验的连续矫正
( x u x ) u ( x u x )
L1 ( x u x), L 2 ( x u x)
uα为正态分布下的置信度p=1-α的 u 临界值。 例题:棉花株行圃中,36个单行的皮棉平均产量x=4.1kg, 已知σ=0.3kg,求99%置信度下该株行圃单行皮棉产量μ的 置信区间。 在置信度p=1-α=99%时,由附表3查得u0.01=2.5758; 计算得 0 .3 0 . 05
Estimate of confidence interval
1、总体平均数μ的置信限 2、两总体平均数差数的置信限 3、二项总体百分数的置信限 4、两个二项总体百分数差数的置信限 5、区间估计与假设测验
Estimate of confidence interval
1、总体平均数μ的置信限
• 1.1 在总体方差为已知时μ的置信区间为:
• σ2=[(0-0.6)2+(1-0.6)2+……+(0-0.6)2]÷5=0.24

2
2 x
x
2
9 n 3 5 0 . 24 n 5

0 . 24 0 . 49
(每次取一个样,即: n =1)
Test of percent hypothesis
二项总体抽样的分布
二项总体的平均数μ=p,方差σ2 =p(1-p)=p q
标准差为

p (1 p )
pq
样本平均数抽样分布 平均数, 方差, 标准误,
x p x
2
pq n pq n p (1 p ) n
x
二项总体的分布参数
• 例:一个总体内有5个个体,分别为0、1、0、1、1。 • 则:μ=( 0+1 + 0 + 1 + 1 )÷5=0.6 • 所以μ= p
ˆ ˆ p1 p 2
的校正值。
ˆ ˆ p1 p 2
单个样本百分数假设测验的连续矫正
• 例题:用新农药处理25头棉铃虫,死亡17头,存活8头; 用乐果处理24头,死亡9头,存活15头。问两种农药处 理结果是否相同? • 假设:H0:p1=p2:HA:p1 ≠ p2。α=0.05,作两尾测验。 计算:
单个样本百分数的假设测验
• 假设:H0:p=0.75;HA:p≠0.75。α=0.05,
作两尾测验u.05=1.96。
计算:
ˆ p
u
208 289
0 . 7197

ˆ p

0 . 75 0 . 25 289
0 . 0255
0 . 7197 0 . 75 0 . 0255
1 . 19
样本百分数 p ˆ 0.50
0.40
较小组次数 n p ˆ
15 20
样本容量 n
30 50
0.30
0.20 0.10 0.05
24
40 60 70
80
200 600 1400
3.1 单个样本百分数假设测验的连续矫正
• 单个样本百分数连续校正的计算公式为:
tc ˆ np np 0.5 S np ˆ
第四节 二项资料的百分数假设检验 Test of percent hypothesis
• 适用于以百分数或成数表示试验的结果分析。
如病株率、有虫株率、杀虫率、发芽率等。 • 理论上讲,这类资料应按照二项分布进行,但当样本 容量n较大,p不过小,np、nq又均不小于5时, (p+q)n的分布趋近于正态分布,因而,可将百分数的 资料作正态分布处理。
如果两总体的百分数相同,即p1=p2=p,q1=q2=q,则:
p p ˆ ˆ
1 2
1 1 pq n n2 1
Test of percent hypothesis
2、两个样本百分数相比较的假设测验
• 在两个总体百分数p1和p2未知时,在两个总体方 差相等的前提下( ),可用两样本百分 数的加权平均值作为p1和p2的估计。即:
两个样本百分数相比较的假设测验
计算:

p
x1 x 2 n1 n 2

355 346 378 396
0 . 906 , q 1 0 . 906 0 . 094
ˆ ˆ p1 p 2

1 1 pq n n 2 1
ˆ ˆ p1 p 2
• 测验两个样本百分数p 1 和 p 2所属总体百分数p1和p2的差异 ˆ ˆ 显著性。 2 2 • 一般假设两个样本总体方差是相等的,即 pˆ pˆ • 两个样本总体的个体百分数不同为p1和p2。两个样本百分 数的差数标准误为:
1 2

ˆ ˆ p1 p 2

p1 q1 n1

p2q2 n2
• 例题:调查一低洼地,小麦378株,其中有锈病355株, 病株率93.92%,一高地调查396株,有346株发病,病株 率为87.37%。问两块田发病情况有无差异? • n1=378,x1=355,n2=396,x2=346
ˆ p 1 93 . 92
ˆ p 2 87 . 37
假设: H0:p1=p2; HA:p1 ≠ p2;α=0.05, 作两尾测验u.05=1.96。
第四节 二项资料的百分数假设检验 Test of percent hypothesis
二项资料在以下情况可以用U 测验进行分析。
适合于用正态离差测验的二项样本的np和n值表
ˆ 样本百分数 p
0.50 0.40 0.30 0.20 0.10
ˆ 较小组次数 n p
15 20 24 40 60
样本容量 n 30 50 80 200 600
Estimate of confidence interval
第五节 参数的区间估计
•若有95%(1-α,α=0.05)的样本落在(μ-1.96σ)至(μ+1.96σ)的范 围内,即:
p ( 1 . 96 x ) x ( 1 . 96 x ) 0 . 95
因为:u.05=1.96,│u│(1.19)<u0.05,所以p>0.05。 推断:接受H0:p=0.75,即该试验中大豆花色符合一对等位 基因的遗传规律。试验中的p=0.7197与p=0.75的差别属于随 机误差。
Test of percent hypothesis
2、两个样本百分数相比较的假设测验
第五节 参数的区间估计 Estimate of confidence interval
• 对统一总体进行多次调查时,会出现不同的平均 数值,为说明不同平均数的代表性,需要估计出 一个范围或一个区间能够覆盖参数μ,这个区间 称作置信区间(confidence interval)。区间的上限和 下限,称作置信限(confidence limit)。 • 保证该区间能够覆盖参数的概率以p=(1-α)表示, 称为置信系数或置信度。 • 点估计:以样本均数( x )估计总体均数(μ)。
查 t 表:V=24+25-2=47≈45,t0.05=2.014 计算得|t|=1.85 < t0.05,故P>0.05, 推断:接受H0,即,两种农药处理结果没有显著差异。
单个样本百分数假设测验的连续矫正
• 上例若不进行连续校正, p1=17/25=0.68, p2=9/24=0.375 t =(0.68-0.375)÷0.1426=0.305÷0.1426=2.14 2.14 >t 0.05(2.014),否定H0,接受了HA。 这就将本来错误的东西接受了,即犯了纳伪错误, 增加了发生第一类错误的可能性。
0.05
70
1400
注意表中 p 、 n p 以及 n 的关系 ˆ ˆ
第四节 二项资料的百分数假设检验 Test of percent hypothesis
1、单个样本百分数的假设测验 2、两个样本百分数相比较的假设测验 3、二项样本假设测验时的连续矫正
Test of percent hypothesis
ˆ • 设两个样本百分数中,较大得值为: p1 有x1和n1; ˆ 较小得值为:p 2 有x2和n2。经校正得 tc公式为:
x1 0.5 tC n1

x2 0.5 n2
S p1 p2 ˆ ˆ
具有V=n1+n2-2。其中 S pˆ 1 pˆ 2
为 u
ˆ ˆ p1 p 2Fra bibliotek中或称在(1-α)概率下: u a x x
u a
x

• 经过转换可得到在置信度p=1-α时,对μ的置信区间为: ( x u x ) u ( x u x )
L1 ( x u x),L2 ( x u x)
以上置信区间的含义为:如果从总体中抽出容量为n的所有 样本,并且每一个样本都算出[L1、L2],则在所有的[L1、L2]区 间中,将有95%能覆盖参数μ。 区间估计的精度要求决定于 u 值。
相关文档
最新文档