假设检验中控制第二类错误的探讨
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计与决策2011年第22期(总第346期
)
假设检验中控制第二类错误的探讨
甘伦知
(四川理工学院经管学院,四川自贡643000)
摘要:总体参数假设检验中犯第二类错误的概率受到检验水平、参数真值和样本容量等因素
的影响。花费过多的成本(样本容量很大)去检验总体参数与待检值是否还存在细小的差距往往是不必的,因而,在给定“辨别差距”的情况下,可以通过选择样本容量在一定程度上实际实现对两类错误的控制。
关键词:假设检验;第二类错误;控制中图分类号:F224.9
文献标识码:A
文章编号:1002-6487(2011)22-0035-03
0引言
假设检验是一种实际应用非常广泛的统计推断方法。
由于抽样的随机性,假设检验中存在犯两类错误的可能。其中,由于犯第二类错误的概率与总体参数的真实水平有关,因而对它的研究和讨论一直停留在理论上,难以在实践中实
现对它的控制。郭宝才(2010)[1]、励晶晶(2010)[2]等都对该问
题展开过有益的讨论,但仍都未能提出实际可行的控制办法。本文尝试提出一种“辨别差距”,在假设检验时给定“辨别差距”的情况下,可以通过选择样本容量实际实现对两类错误的控制。
本文将主要针对单总体参数的假设检验来讨论,涉及样本均为简单随机样本。1
β的影响因素
在假设检验中,依据“小概率事件原理”作出的判断可能
导致两类错误。当原假设为真时,却错误地拒绝了它,于是犯了“弃真”的错误,称为第一类错误。当原假设不真时,却错误地接受了它,于是犯了“取伪”的错误,称为第二类错误。犯第二类错误的概率通常记为β。
我们以对单总体均值的右单尾Z 检验为例来认识β的影响因素。设总体ξ~N (μ,σ2),σ2已知,原假设为H 0:μ μ0, H 1:μ>μ0。检验水平为α,样本容量为n,则样本
均值x ˉ~N (μ,σ2n ),检验统计量为Z
有
β=P (接受H 0|H 0为假)=P (Z
z α|μ>μ0)
=
P z α
>μ0)
=Φ(z
α(1)其中,Φ( ⋅ )为标准正态分布的分布函数,临界值z α满
足Φ(z α)=1-α。
由(1)式可知,β与下列因素有关。
(1)与α有关。由于分布函数Φ( ⋅ )是单调递增的,由
(1)式知,其它不变时,α越小,对应的z α值越大,从而β值将越大;反之,α越大,β将越小。即α与β之间存在“此消
彼涨”的关系。
(2)与真实值μ有关。将真实值μ与检验值μ0的差距用σ来度量,得到相对距离(μ-μ0)σ,其它不变时,这种相对距离越大,则z α
-(μ-μ0越小,β将越小。这就是说,μ与μ0的差异越明显,犯第二类错误的概率越小。
(3)与样本容量n 有关。显然,其它不变时,n 越大,z
α-β也将越小。并且,其它量一定时,随着n 的增大,为使β减小一个相同的绝对量,需要增加的n 将越来
越大。2
检验中针对
β未知的常用措施
由前文知道,β的大小与α、μ和n 有关。其中,
由于总体参数的真实值是未知的(否则,就不必进行假设检验了),控制α与增大样本容量能够使β减小到什么程度,我们也永远无法得知。正是这个原因,人们无法在实践中实现对β的直接控制,而通常采取如下一些间接控制措施:
(1)建立原假设时
人们一致认为,拒绝原假设而得出的结论将比直接接受原假设更为可靠(如果β也能得到控制,这样的说法将不复存在)。不少研究者[3][4]也都对单尾检验如何设立原假设做过专门的探讨,Neyman 和E.S.Pearson 就提出,为了通过样本
35
统计与决策2011年第22期(总第346期
)
观测值对某一陈述取得强有力的支持,通常把希望得到的结论的反面作为原假设,通常以“保守”、“谨慎”的态度将经验和保守的数据作为原假设,将原方法作为原假设。
(2)确定检验水平时
人们当然希望在假设检验中犯两类错误的概率都越小越好,但由于一定样本容量下α与β是此消彼长的,因此,人们常结合实际问题根据犯两类错误后果的严重程度来确定一个合理的检验水平(适当控制α而不是一味地追求α更小,无疑能使β不致太大):如果犯第一类错误的后果比较严重,则将α取得小一些;反之,则将α取得适当大一些。
(3)作结论时
当不能拒绝原假设时,直接承认原假设成立,将冒“受伪”的风险,而这个风险的概率又是未知的。因而,此时人们一般以“现有样本否定原假设的证据还不充分”作为不得已的结论。
这种结论的得来,应是基于下述考虑,即由辛钦大数定
律知道,当n →∞时,x ˉ依概率收敛于μ。所以,只要μ≠μ0,
当n →∞时,检验统计量||Z
x ˉ-μ无穷大。因而,只要μ≠μ0,当样本容量足够大时,假设检验总倾向于拒绝原假设。3
对
β
可控性的探讨
仍以对单总体的均值检验为例。在(1)式中,
(μ-μ0)/σ表示以σ度量的总体真实值μ与检验值μ0的相对差距(由于总体为一个随机变量,因而将“差距”用σ来度量是更合理的),它是一个无量纲的量,其相反数就是μ0在待检总体中的标准分。由于抽样过程中随机误差的存在,使得“太小”的相对差距在检验中变得越来越难以识别,而太小的差异又常不易被人们感知,以致在实际的统计应用中常常不必花更多的成本(增大样本容量)去“辨别”它究竟是真实差距,还是随机因素的干扰了。
对于β的控制,一种可能的方式就是,在假设检验时给
出需要辨别的最小相对差距,我们不妨称之为“辨别差距”。一旦“辨别差距”给定,就可以确定出满足给定α和β要求的最小样本容量n 。这就是说,只要真实差距需要“辨别”、大于“辨别差距”,检验的β都是在控制范围内的。
这样,当检验结果是不能拒绝原假设时,人们将清楚的知道存在下述三种可能:
(1)原假设是正确的;
(2)原假设是错的,真实差距不小于“辨别差距”,此时接受原假设而犯错的概率不超过β;
(3)原假设是错的,真实差距小于“辨别差距”,此时接受原假设而犯错的概率超过β。注意虽说犯错的可能大小超过β,但这种错误却是“不予追究”的、是在无需辨别的情况
下犯下的。
如何具体确定出满足两类错误控制需要的样本容量n,下面分别对单总体均值、成数和方差的假设检验作详细分析。
3.1总体均值的检验
记“辨别差距”为d ,与之对应的总体参数值为μ,σ,即d=(μ-μ0)/σ。
(1)均值的右单尾检验
由(1)式知,β=Φ(z α-d ⋅n ),
从而求出n 的表达式为n =æèçöø
÷
z α-z 1-βd 2
(2)均值的左单尾检验
与右单尾检验相似,可求出左单尾检验时n 的表达式为n =æèçö
ø
÷
z 1-α-z βd 2
(3)均值的双尾检验
β=Φ(z α2
-d n )+Φ(z α2
+d n )-1
(2)
由(2)式求出n 的解析表达式是困难的。表1给出了在Matlab 软件中编程搜索求解所得的一些结果。
表1给定“辨别差距”d 后控制β所需要的样本容量(取α=0.05)0.010.050.1
0.5745243
0.3
2051451170.2
4603252630.1
1838130010510.08
2871203116420.05
734951984203β
d 其实,当d>0时,(2)式中Φ(z α2
+d n )-1的绝对值通常
极小,对β的影响可以忽略不计。这样,由β≈Φ(z α2
-d n )可得n 的表达式为
n =æèçö
ø
÷
z α2-z 1-βd 2
(3)
如果d<0,则由β≈Φ(z α2
+d n )同样可得(3)式。
仅从最终结果看,由(3)式确定出的样本容量与表1所列结果完全一致。当然,如果d 更小而β更大,如d=0.01、β=0.5时,
由(2)式得到的结果是38415,比(3)式给出的结果多4,存在细微差异。
对于一个具体的检验问题,“辨别差距”的给出需要研究者对问题本身有一定的认识,这可以是研究者的主观需要,也可以通过借鉴历史资料、类似资料,或者抽出一个预选样本等方法获得。另外,在确定样本容量时也就不再单独考虑对μ的t 检验情形(视为σ已知,或者视为t 分布已近似为正态分布)。
例如,某金属丝制造企业生产的产品的抗拉强度近似服从正态分布。管理层想通过假设检验来判断,按新工艺生产的产品的抗拉强度是否比原来的50kg 更高。一方面,管理层为开拓市场希望推广有效的工艺改进,于是提出犯“存伪”错误的概率不超过10%;另一方面,管理层又不希望耗费大
36