假设检验与统计效力剖析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

统计功效的实例

线性相关显著是否意味着高相关？
Biblioteka Baidu
r=0.219,P<0.001**

拒绝H0成立是否必然地使接受H1是合理的？
统计功效（statistical power, SP）

The power (1 -β) of a statistical test is the complement of β, which denotes the Type II or beta error probability of falsely retaining an incorrect H0 （FRANZ FAUL et al.,2007). 统计功效是假设检验能够正确侦测到真实的处理效应的能力。学术界认为，一个研究的统计功效达到0.8以上，其研究结论才比较可靠。只有当统计功效达到0.80时，才能比较有把握地保证总体中存在的现象可以通过样本检验得到识别（Brock，2003） SP=0.8也意味着，研究者推论犯II类错误的概率为 20%(β=0.2）
假设检验与统计功效
郭丰波韦义平
2011-11-7
目录

统计功效的介绍 G*power的运用

假设检验的基本原理

假设检验是依据小概率原理由样本对总体进行推论的过程 H 0与 H 1 假设检验的错误风险
现实(总体)
H0：(不存在差异) H0：(不存在差异)
H1：(存在差异)
统计检验(样本)
过低的统计功效会使人们放弃一些重要的理论，从而阻碍知识的发展。（Maxwell， 2004）
过高的统计功效会降低研究效率。
G*power 3
G*Power (EG*Power(Erdfelder, Faul, & Buchner, 1996) was designed as a general stand-alone power analysis program for statistical tests commonly used in social and behavioral research. G*Power 3 is a major extension of, and improvement over, the previous versions. It runs on widely used computer platforms (i.e., Windows XP, Windows Vista, and Mac OS X 10.4) and covers many different statistical tests of the t, F, and x2 test families. In addition, it includes power analyses for z tests and some exact tests. G*Power 3 provides improved effect size calculators and graphic options, supports both distribution-based and design-based input modes, and offers all types of power analyses in which users might be interested. Like its predecessors, G*Power 3 is free.

α错误：如果O-Ring没有变化而做出有变化的结论，
将导至飞机状态正常但不能发射。
β错误：如果O-Ring有变化但做出没有变化的推断，
则有可能导致飞机起飞后爆炸。 ① 美国航空航天局认为O型圈不存在差别 ② 航天飞机发射后爆炸 ③ 事后调查发现，爆炸的原因是当时使用的O型圈与以前所使用的O型圈存在差别 ④ β错误导致了“挑战者号”航天飞机失事

影响统计功效的要素

Statistical power depends on three classes of parameters:
-
1）the significance level (i.e., the Type I error probability) α of the test。 2）the size(s) of the sample(s) used for the test。 3）an effect size parameter defining H1 and thus indexing the degree of deviation from H0 in the underlying population.

拒绝原假设即接受研究者所提出的暗含原假设不为真的理论
P值越小，其结论越有可能被重复 P值越小，其实验处理越有效 ɑ是拒绝原假设的概率

β错误的实例

美国“挑战者号”航天飞机失事（）的故事 - （Mazen et al. 1987) - 决策：如果O型圈没有变化，则发射如果O型圈有变化，则不能发射 - 错误风险
-
α水平、样本规模、效应规模
提高统计功效的方法

增加效应规模（effect size）增加样本量（sample size）增加显著性水平（ α ）改双侧检验为单侧检验

效应规模（effective size）

效应规模指的是总体中原假设与备择假设之间的差距
-
（Cohen，1992）。一般来说，效应规模应该通过现有理论、以往研究、预检验（pre-test）或根据逻辑来进行估计。
在心理学的研究中，正确的做法是限制犯Ⅰ类错误的概率，同时使犯Ⅱ类错误的概率尽可能的小。但是，心理学的研究中往往只注重对Ⅰ类错误的控制，而忽视对Ⅱ类错误的控制。
当前国内外研究中推断统计误用（焦璨，2008）

统计显著性(statistical significance)和实质显著性(practical significance)的混淆 P值是原假设为真的概率，1- P为研究假设为真的概率
-
如果显著水平和样本规模固定，那么，ES越小，统计功效越也越低。而ES越小，意昧着H0与H1的 deviation也越小，那么拒绝H0与接受H1之间的合理性也越高。
效应规模参考表(Cohen,1992）
（林丹明、李炜文,、梁强，2007）
统计效应的计算
（金勇进，1999）
统计功效对实证研究的结果的影响
H1：(存在差异)
1-α (置信水平)
β(І І类错误)
1- β(功效水平)
α(І类错误)
І类错误：弃真错误，即在现实中不存在差别的两种现象在研究中被认为是有差别的。相伴概率P值为在给定的显著水平水平上犯错误的概率。 II类错误：取伪错误，即在现实中存在差别的两种现象在研究中被推定为是无差别的。
统计显著性结果表示的意义是：当差异确实存在时，按照规定的显著性水平能够发现这种差别的能力。