反证法假设检验P值与统计思维

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

反证法、假设检验、P值与统计思维

一、反证法的实质

目的:证明A为真;

办法:证明A逆否为假。

二、假设检验的实质

目的:证明A(原假设)为真;

办法:正面A逆否(备择假设)为小概率事件。

三、关于P值的讨论

(一)不拒绝零假设意味着什么(By 郑冰)

由一道试题引发的一点思考:2008年统计学考研真题第四题“食品厂家说:净含量是每袋不低于250g。但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验”

(1)如果厂家自己检验,你认为提出什么样的原假设和备则假设?并说明理由。

(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备则假设?并说明理由。

……

作为统计专业的学生来说,熟悉得不能再熟悉了。但是,通过做上面的题目,我发现自己在理解假设检验的问题上犯了一个十分严重的错误。这个问题主要是由于我们学的教材上面写着:“假设检验要么P-value小于a拒绝原假设,P-value大于a接受原假设……”。后来再看看其他教材,发现绝大多数都是这样写的。其实“P-value大于a接受原假设”这种说法是错误的。

P-value大于a的时候,结论到底是什么呢?

最早提出这个问题的是E·皮尔逊。E·皮尔逊问耶日·奈曼,在检验一组数据是否为正态分布时,如果没能得到一个显著性的 P值,那么能否认为这组数据服从正态分布呢?

费歇尔其实已经间接地回答了这个问题。费歇尔把比较大的 P 值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。依据费歇尔的解释,我们绝对不会得出这样的推理,即没有找到显著性的证据,就意味着待检验的假设为真。这里引用费歇尔的原话:“相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些原假设;但是,该显著性检验永远不能确认这些原假设一定是真的,……”

所以,假设检验的目的在于试图找到证据拒绝原假设,而不在于证明原假设是正确的。当没有足够证据拒绝原假设时,不采用“接受原假设”的表述,而采用“不拒绝原假设”的表述。“不拒绝”的表述实际上意味着并未给出明确的结论,我们没有说原假设正确,也没有说它不正确。

举个例子来说:比如原假设为H0:u=10,从该总体中抽出一个随机样本,得到X=9.8,在α=0.05的水平上,样本提供的证据没有推翻这一假设,我们说“接受”原假设,这意味着样本提供的证据已经证明u=10是正确的。如果我们将原假设改为H0:u=10.5,同样,在α=0.05的水平上,样本提供的证据也没有推翻这一假设,我们又说“接受”原假设。但这两个原假设究竟哪一个是“真实的”呢?我们不知道。

总之,假设检验的主要目的是为了拒绝而不是接受。

(二)不得不提的P值(By郑冰)

P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。了解p值的由来、计算和意义很有必要。

1、P值的由来

R·A·Fisher作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。(当时这一观点遭到了

Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。)Fisher的具体做法是:

(1)假定某一参数的取值;

(2)选择一个检验统计量(例如t统计量、F统计量等),该统计量的分布在假定的参数取值为真时应该是完全已知的;

(3)从研究总体中抽取一个随机样本;

(4)计算检验统计量的值;

(5)计算概率P值或者说观测的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率;

•如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值;

•如果0.01

•如果P值>0.05,说明结果更倾向于接受假定的参数取值。

可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。但是,如果选中相同的α,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。

因此,随着计算机的发展,P值的计算不再是个难题,使得P值变成最常用的统计指标之一。

2、P值的计算

为理解P值的计算过程,用表示检验的统计量,表示根据样本数据计算得到的检验统计量值。

左侧检验:vs

P值是当时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 =

右侧检验: vs

P值是当时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 =

双侧检验

P值是当时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即p值 =

3、P值的意义

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。

总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

(三)决策与风险(By 胡江堂)

1、假设与决策:场景

原假设:硬币是均匀的。备择假设:硬币是有偏的。

/*当我们难以拒绝原假设时,只能得到结论:原假设也许是真的,现在不能拒绝它。而当我们能够拒绝它时,结论是:它肯定不真。以下的口语表述不如这里明确(和拗口)的,以这里的表述为准。*/

试验:在平坦的地方,独立地投掷硬币100次,每次投掷的结果都做记录。最后,正反面出现的次数分别是:正面:55;反面:45。

提问:根据你所看到的结果,判断一下,你接受还是拒绝“硬币是均匀的”这一假设?

-R博士回答:“拒绝这个假设,因为所得到的正面数超过了反面数的允许界限,这表明硬币是有偏的。”

相关文档
最新文档