第四章 统计推断-
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差异显著时用u检验法进行检验
1、总体方差σ2已知,无论n是否大于30都可采用u检验法
例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,
标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽 取100尾进行测量,其平均体长为7.65cm, 问新育苗方法与常规方法有无显著差异?
分 析
(1)这是一个样本平均数的假设检验,因总体σ2已知 采用u检验; (2)新育苗方法的鱼苗体长≥ 或≤常规方法鱼苗体长, 应进行双尾检验。
检验治疗后的总体平均数是否还是治疗前的126(mg/L)?
H0:μ=μ0 =126(mg/L)
HA:μ ≠μ
0
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样, 二者来自同一总体,接受零假设则表示克矽平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数 和治疗前的平均数来自不同总体,即克矽平有疗效。
双尾 检验 分位数
u 0.05=1.96 u 0.01=2.58
>
否定区
接受区
否定区
接受区
否定区
单尾 检验 分位数
u 0.05=1.64 u 0.01=2.33
查表求正态离差时,单尾概率等于双 尾概率乘以2
四 、两类错误
第一类错误(type I error),H0正确,假设检验却 否定了它,又称弃真错误或 错误; 第二类错误( type II error ) , H0错误,假设检 验却接受了它,又称纳伪错误或 错误
2 、 确定显著水平
能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为 小概率事件,所以在小概率原理基础上建立的假设检验 也常取=0.05和=0.01两个显著水平 。
=0.05 =0.01
P<
显著水平* 极显著水平**
3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选 择使用不同的检验方法。 例:
右尾
临界值: + 2.58x
双尾检验
(two-sided test)
单尾检验 假设:
(one-sided test)
H0 : ≤0 HA : > 0
H0 : ≥0 HA : < 0
0.95
0.05
0.05
0.95
接受区 1.64
否定区
-1.64 接受区 左尾检验
右尾检验
正态离差 2 2
x
2 3 2
N (0,1)
k 2 k i 1
u u u ... u ui2
(
1
k
x
)
( x )2
df = k-1
2
dfs2
2
表中表头的概率α 是χ 2大于表内所列χ 2值的概率。
P(χ
df = 2
2 2 2
≧ 5.99)=0.05 ≧ 9.21)=0.01 ≧ 0.10)=0.95
HA: μ≠ μ0
(2)水平
(3)检验
选取显著水平α=0.05
x 4.421 x
n
sx
s
( x ) 2 x n 0.267 n 1
2
s x1 0.084 tn1 0.94 sx n
查附表3,当df=n-1=9时 t 0.05(9) =2.262 (4)推断 P>0.05
,方差σ
2 /n 。
不论总体为何种分布,只要是大样本,就可运用中心极限 定理,认为样本平均数的分布是正态分布,在计算样本平 均数出现的概率时,样本平均数可按下式进行标准化。
u
x x
x
x
/
n
第一节 假设检验
一 概念 :
假设检验(hypothesis test)又称显著 性检验(significance test),就是根据总体 的理论分布和小概率原理,对未知或不完 全知道的总体提出两种彼此对立的假设, 然后由样本的实际原理,经过一定的计算, 作出在一定概率意义上应该接受的那种假 设的推断。
试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。
分 析
(1)这是一个样本平均数的假设检验,因总体σ2未知, n=10 < 30,可用s2代替σ2进行 t 检验; (2)该次测定的水中含氧量可能>或<多年平均值,用双 尾检验。
(1)假设 H0:μ= μ0=4.5(mg/L),即认为该次测定与多年平均 值没有显著差别。
t落于[- t0.01, + t0.01 ] 内的概率为0.99
置信度为5%和1%的t临界值。
t0.05(4)=2.776 t0. 1(4)=2.132 t0.2(4)=1.533
t分布特性
1
在相同的自由度df时,t值越大,概率P越小。
2
在相同t值时,双尾概率P为单尾概率P的两倍。
3
df增大,t分布接近正态分布,即t值接近u值。
2
1
2
( x x)
2
由样本方差
s
2
( x x)
n 1
2
s2
得
( x x) s
n 1
(n 1) s
可能错误
例:上例中 P=0.1142>0.05
所以接受H0,从而得出结论:使用克
矽平治疗前后血红蛋白含量未发现有
显著差异,其差值10应归于误差所致。
x u
P( x ≤μ +1.96σ )= P(-1.96≤u≤1.96)=0.95 P( x ≤μ +2.58σ ) = P(-2.58≤u≤2.58)=0.99 P( x ≥ μ +1.96σ )= 0.05 P( x ≥ μ +2.58σ )= 0.01
两类错误既有联系又有区别
错误只在否定H0时发生
错误只在接受H0时发生
如何减小
1、 显著水平不要定得太高
2、减小x,即增加样本容量
统计数的分布与检验
一、u分布与u检验
标准正态分布既u分布 例:总体方差σ2已知,或总体方差未知但 样本为大样本(n>30)时,样本平均数的分布 服从正态分布,标准化后服从标准正态分布, 即u分布.要检验样本平均数与指定总体平均数的
x
136-126
√40
2 x
240 40 n 6
2
= 1.581
P( u >1.581)=2×0.0571=0.1142
4、作出推断结论:是否接受假设
小 概 率 原 理
P>
可能正确
接受H0 否定HA 否定H0 接受HA
P<
N ( 126,240 ) 未知
治疗后 n =6 x =136
那么 =0 ? 即克矽平对治疗矽肺是否有效?
1 、提出假设
无效假设 /零假设 /检验假设
H0 误差 效应
0 =
对 立
备择假设 /对应假设
0 HA
处理 效应
例:克矽平治疗矽肺病是否能提高血红蛋白含量?
x-0=136-126=10(mg/L)这一差数 是由于治疗造成的,还是抽样误差所致。 平均数的假设检验
第四章
统计推断
(statistical inference)
上节课内容
正态分布的概率密度函数
f ( x) 1 2
e
( x )
2
2
2
( x )
标准正态分布
f (u )
e 2
1
1 2
u
2
正态分布的概率计算
第四章 统计推断
由一个样 本或一糸 列样本所 得的结果 来推断总 体的特征
30.2mm,标准差为2.5mm,
问该棉花品种的纤维长度是否符合纺织品的生产要求?
分 析
(1)这是一个样本平均数的假设检验,因总体σ2未知, n=400 > 30,可用s2代替σ2进行u检验; (2)棉花纤维只有>30mm才符合纺织品的生产要求,因 此进行单尾检验。
(1)假设 H0:μ≤μ0=30(cm), HA:μ>μ0 (2)水平 (3)检验 选取显著水平α=0.05
已知: P( u >1.96) =0.05 P( u >2.58) =0.01
0.025 0.95 0.025
u >1.96
P( u ) <0.05
差异达显著水平
u >2.58
P( u ) <0.01
差异达极显著水平
三 、双尾检验与单尾检验 P(-1.96x <x< +1.96x) =0.95
sx s 2.5 x 30.2 30.0 1.6 0.125 u sx 0.125 n 400
即该棉花品种纤维长度不能达到纺织品生产的要求。
u <1.645 (4)推断 接受H0,否定HA;
u 0.05=1.64
认为该棉花品种纤维长度不符合纺织品生产的要求。
二、t分布与t 检验
P(χ P(χ
例1 一个样本方差的同质性检验
所谓方差的同质性,就是指各个总体的 方差是相同的。 方差的同质性检验就是要从各样本的方 差来推断其总体方差是否相同
我们知道从标准正态总体中抽 取k个独立u2之和为χ2,即
(
2
x
)
2
1
2
(x )
2
当用样本平均数 x 估计μ时,则有:
左尾
0.025
-1.96x 否定区
0.95 0 接受区
0.025
+1.96x 否定区
右尾
临界值: + ux
+ 1.96x
P(-2.58x <x< +2.58x) =0.99
左尾
0.005 -2.58x 否定区
0.99 0 接受区
0.005 +2.58x 否定区
方差的检验 秩和检验
假 设 检 验
符号检验
非参数检验
游程检验 秩相关检验
二 、假设检验的步骤
例:设矽肺病患者的血红蛋白含量具平均数0=126(mg/L),
2 =240 (mg/L)2的正态分布。现用克矽平对6位矽肺病患者进 行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。
治疗前 0 =126 2 =240
小概率原理
概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。
如果假设一些条件,并在假设的条件下能够准确地算 出事件A出现的概率α 为很小,则在假设条件下的n次独 立重复试验中,事件A将按预定的概率发生,而在一次试 验中则几乎不可能发生。
=0.05/0.01
平均数的检验
参数检验
频率的检验
例:总体方差σ2未知,且n<30时,可用样本方差s2来代替 总体方差σ2 ,采用df=n-1的t检验法
样本(n<30) x
s2
总体
(μ0)
σ2
x t sx
例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10 个点采集水样,测定含氧量为:
4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)
统 计 推 断
假设检验
参数估计
第四章
第一节 第二节
假设检验的原理与方法 统计数的分布与检验 样本频率的假设检验 参数的区间估计与点估计
第三节
第四节
中心极限定理 (central limit theorem)
如果被抽总体不是正态分布总体,但具有平均数μ 和方差σ 2 , 当随样本容量n的不断增大,样本平均数 x 的分布也越来越接近 正态分布,且具有平均数μ
样本为小样本(n<30)且总体方差σ2 未 知时,如果仍用s2来估计,这时的标准 x x u 离差u 就不呈正态分布了,而 / n 是服从df=n-1的t 分布,要检验样本平均
x x
数与指定总体平均数的差异显著时,就必须 用t检验
-2.776
+2.776
t落于[- t0.05, + t0.05 ] 内的概率为0.95
认为新育苗方法一月龄体长与常规方法有显著差异。
2、总体方差σ2未知,但n>30时,可用样本方差s2来代替 总体方差σ2 ,仍用u检验法
样本(n>30) x
s2
总体
(μ0)
σ2
x u sx
例:生产某种纺织品,要求棉花纤维长度平均为30mm以上, 现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为
,
(1)假设
H0:μ=μ0=7.25(cm), HA:μ≠μ0
即新育苗方法与常规方法所育鱼苗一月龄体长相同;
(2)水平 (3)检验
选取显著水平α=0.05
x
1.58 0.158 n 100
u
x
x
7.65 7.25 2.532 0.158
u >1.96 (4)推断 否定H0,接受HA;
在0.05显著水平上,接受H0,否定HA;认为该次抽样 所测结果与多年平均值无显著差别,属于随机误差。
三、x 分布与x 检验
2 2
从方差为σ 2的正态总体中,随机抽取k个独立样本,计算 出样本方差S2,研究其样本方差的分布。
在研究样本方差的分布时,通常将其标准化,得到k个正 态离差u,则
u
2 2 1 2 2
1、总体方差σ2已知,无论n是否大于30都可采用u检验法
例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,
标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽 取100尾进行测量,其平均体长为7.65cm, 问新育苗方法与常规方法有无显著差异?
分 析
(1)这是一个样本平均数的假设检验,因总体σ2已知 采用u检验; (2)新育苗方法的鱼苗体长≥ 或≤常规方法鱼苗体长, 应进行双尾检验。
检验治疗后的总体平均数是否还是治疗前的126(mg/L)?
H0:μ=μ0 =126(mg/L)
HA:μ ≠μ
0
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样, 二者来自同一总体,接受零假设则表示克矽平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数 和治疗前的平均数来自不同总体,即克矽平有疗效。
双尾 检验 分位数
u 0.05=1.96 u 0.01=2.58
>
否定区
接受区
否定区
接受区
否定区
单尾 检验 分位数
u 0.05=1.64 u 0.01=2.33
查表求正态离差时,单尾概率等于双 尾概率乘以2
四 、两类错误
第一类错误(type I error),H0正确,假设检验却 否定了它,又称弃真错误或 错误; 第二类错误( type II error ) , H0错误,假设检 验却接受了它,又称纳伪错误或 错误
2 、 确定显著水平
能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为 小概率事件,所以在小概率原理基础上建立的假设检验 也常取=0.05和=0.01两个显著水平 。
=0.05 =0.01
P<
显著水平* 极显著水平**
3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选 择使用不同的检验方法。 例:
右尾
临界值: + 2.58x
双尾检验
(two-sided test)
单尾检验 假设:
(one-sided test)
H0 : ≤0 HA : > 0
H0 : ≥0 HA : < 0
0.95
0.05
0.05
0.95
接受区 1.64
否定区
-1.64 接受区 左尾检验
右尾检验
正态离差 2 2
x
2 3 2
N (0,1)
k 2 k i 1
u u u ... u ui2
(
1
k
x
)
( x )2
df = k-1
2
dfs2
2
表中表头的概率α 是χ 2大于表内所列χ 2值的概率。
P(χ
df = 2
2 2 2
≧ 5.99)=0.05 ≧ 9.21)=0.01 ≧ 0.10)=0.95
HA: μ≠ μ0
(2)水平
(3)检验
选取显著水平α=0.05
x 4.421 x
n
sx
s
( x ) 2 x n 0.267 n 1
2
s x1 0.084 tn1 0.94 sx n
查附表3,当df=n-1=9时 t 0.05(9) =2.262 (4)推断 P>0.05
,方差σ
2 /n 。
不论总体为何种分布,只要是大样本,就可运用中心极限 定理,认为样本平均数的分布是正态分布,在计算样本平 均数出现的概率时,样本平均数可按下式进行标准化。
u
x x
x
x
/
n
第一节 假设检验
一 概念 :
假设检验(hypothesis test)又称显著 性检验(significance test),就是根据总体 的理论分布和小概率原理,对未知或不完 全知道的总体提出两种彼此对立的假设, 然后由样本的实际原理,经过一定的计算, 作出在一定概率意义上应该接受的那种假 设的推断。
试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。
分 析
(1)这是一个样本平均数的假设检验,因总体σ2未知, n=10 < 30,可用s2代替σ2进行 t 检验; (2)该次测定的水中含氧量可能>或<多年平均值,用双 尾检验。
(1)假设 H0:μ= μ0=4.5(mg/L),即认为该次测定与多年平均 值没有显著差别。
t落于[- t0.01, + t0.01 ] 内的概率为0.99
置信度为5%和1%的t临界值。
t0.05(4)=2.776 t0. 1(4)=2.132 t0.2(4)=1.533
t分布特性
1
在相同的自由度df时,t值越大,概率P越小。
2
在相同t值时,双尾概率P为单尾概率P的两倍。
3
df增大,t分布接近正态分布,即t值接近u值。
2
1
2
( x x)
2
由样本方差
s
2
( x x)
n 1
2
s2
得
( x x) s
n 1
(n 1) s
可能错误
例:上例中 P=0.1142>0.05
所以接受H0,从而得出结论:使用克
矽平治疗前后血红蛋白含量未发现有
显著差异,其差值10应归于误差所致。
x u
P( x ≤μ +1.96σ )= P(-1.96≤u≤1.96)=0.95 P( x ≤μ +2.58σ ) = P(-2.58≤u≤2.58)=0.99 P( x ≥ μ +1.96σ )= 0.05 P( x ≥ μ +2.58σ )= 0.01
两类错误既有联系又有区别
错误只在否定H0时发生
错误只在接受H0时发生
如何减小
1、 显著水平不要定得太高
2、减小x,即增加样本容量
统计数的分布与检验
一、u分布与u检验
标准正态分布既u分布 例:总体方差σ2已知,或总体方差未知但 样本为大样本(n>30)时,样本平均数的分布 服从正态分布,标准化后服从标准正态分布, 即u分布.要检验样本平均数与指定总体平均数的
x
136-126
√40
2 x
240 40 n 6
2
= 1.581
P( u >1.581)=2×0.0571=0.1142
4、作出推断结论:是否接受假设
小 概 率 原 理
P>
可能正确
接受H0 否定HA 否定H0 接受HA
P<
N ( 126,240 ) 未知
治疗后 n =6 x =136
那么 =0 ? 即克矽平对治疗矽肺是否有效?
1 、提出假设
无效假设 /零假设 /检验假设
H0 误差 效应
0 =
对 立
备择假设 /对应假设
0 HA
处理 效应
例:克矽平治疗矽肺病是否能提高血红蛋白含量?
x-0=136-126=10(mg/L)这一差数 是由于治疗造成的,还是抽样误差所致。 平均数的假设检验
第四章
统计推断
(statistical inference)
上节课内容
正态分布的概率密度函数
f ( x) 1 2
e
( x )
2
2
2
( x )
标准正态分布
f (u )
e 2
1
1 2
u
2
正态分布的概率计算
第四章 统计推断
由一个样 本或一糸 列样本所 得的结果 来推断总 体的特征
30.2mm,标准差为2.5mm,
问该棉花品种的纤维长度是否符合纺织品的生产要求?
分 析
(1)这是一个样本平均数的假设检验,因总体σ2未知, n=400 > 30,可用s2代替σ2进行u检验; (2)棉花纤维只有>30mm才符合纺织品的生产要求,因 此进行单尾检验。
(1)假设 H0:μ≤μ0=30(cm), HA:μ>μ0 (2)水平 (3)检验 选取显著水平α=0.05
已知: P( u >1.96) =0.05 P( u >2.58) =0.01
0.025 0.95 0.025
u >1.96
P( u ) <0.05
差异达显著水平
u >2.58
P( u ) <0.01
差异达极显著水平
三 、双尾检验与单尾检验 P(-1.96x <x< +1.96x) =0.95
sx s 2.5 x 30.2 30.0 1.6 0.125 u sx 0.125 n 400
即该棉花品种纤维长度不能达到纺织品生产的要求。
u <1.645 (4)推断 接受H0,否定HA;
u 0.05=1.64
认为该棉花品种纤维长度不符合纺织品生产的要求。
二、t分布与t 检验
P(χ P(χ
例1 一个样本方差的同质性检验
所谓方差的同质性,就是指各个总体的 方差是相同的。 方差的同质性检验就是要从各样本的方 差来推断其总体方差是否相同
我们知道从标准正态总体中抽 取k个独立u2之和为χ2,即
(
2
x
)
2
1
2
(x )
2
当用样本平均数 x 估计μ时,则有:
左尾
0.025
-1.96x 否定区
0.95 0 接受区
0.025
+1.96x 否定区
右尾
临界值: + ux
+ 1.96x
P(-2.58x <x< +2.58x) =0.99
左尾
0.005 -2.58x 否定区
0.99 0 接受区
0.005 +2.58x 否定区
方差的检验 秩和检验
假 设 检 验
符号检验
非参数检验
游程检验 秩相关检验
二 、假设检验的步骤
例:设矽肺病患者的血红蛋白含量具平均数0=126(mg/L),
2 =240 (mg/L)2的正态分布。现用克矽平对6位矽肺病患者进 行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。
治疗前 0 =126 2 =240
小概率原理
概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。
如果假设一些条件,并在假设的条件下能够准确地算 出事件A出现的概率α 为很小,则在假设条件下的n次独 立重复试验中,事件A将按预定的概率发生,而在一次试 验中则几乎不可能发生。
=0.05/0.01
平均数的检验
参数检验
频率的检验
例:总体方差σ2未知,且n<30时,可用样本方差s2来代替 总体方差σ2 ,采用df=n-1的t检验法
样本(n<30) x
s2
总体
(μ0)
σ2
x t sx
例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10 个点采集水样,测定含氧量为:
4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)
统 计 推 断
假设检验
参数估计
第四章
第一节 第二节
假设检验的原理与方法 统计数的分布与检验 样本频率的假设检验 参数的区间估计与点估计
第三节
第四节
中心极限定理 (central limit theorem)
如果被抽总体不是正态分布总体,但具有平均数μ 和方差σ 2 , 当随样本容量n的不断增大,样本平均数 x 的分布也越来越接近 正态分布,且具有平均数μ
样本为小样本(n<30)且总体方差σ2 未 知时,如果仍用s2来估计,这时的标准 x x u 离差u 就不呈正态分布了,而 / n 是服从df=n-1的t 分布,要检验样本平均
x x
数与指定总体平均数的差异显著时,就必须 用t检验
-2.776
+2.776
t落于[- t0.05, + t0.05 ] 内的概率为0.95
认为新育苗方法一月龄体长与常规方法有显著差异。
2、总体方差σ2未知,但n>30时,可用样本方差s2来代替 总体方差σ2 ,仍用u检验法
样本(n>30) x
s2
总体
(μ0)
σ2
x u sx
例:生产某种纺织品,要求棉花纤维长度平均为30mm以上, 现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为
,
(1)假设
H0:μ=μ0=7.25(cm), HA:μ≠μ0
即新育苗方法与常规方法所育鱼苗一月龄体长相同;
(2)水平 (3)检验
选取显著水平α=0.05
x
1.58 0.158 n 100
u
x
x
7.65 7.25 2.532 0.158
u >1.96 (4)推断 否定H0,接受HA;
在0.05显著水平上,接受H0,否定HA;认为该次抽样 所测结果与多年平均值无显著差别,属于随机误差。
三、x 分布与x 检验
2 2
从方差为σ 2的正态总体中,随机抽取k个独立样本,计算 出样本方差S2,研究其样本方差的分布。
在研究样本方差的分布时,通常将其标准化,得到k个正 态离差u,则
u
2 2 1 2 2