假设检验与统计效力剖析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与以前所使用的O型圈存在差别 ④ β错误导致了“挑战者号”航天飞机失事
统计功效的实例
线性相关显著是否意味着高相关?
r=0.219,P<0.001**
拒绝H0成立是否必然地使接受H1是合理的?
统计功效(statistical power, SP)
The power (1 -β) of a statistical test is the complement of β, which denotes the Type II or beta error probability of falsely retaining an incorrect H0 (FRANZ FAUL et al.,2007).
效应规模(effective size)
效应规模指的是总体中原假设与备择假设之间的差距
- (Coh百度文库n,1992)。
- 一般来说,效应规模应该通过现有理论、以往研究、
预检验(pre-test)或根据逻辑来进行估计。
- 如果显著水平和样本规模固定,那么,ES越小,统
计功效越也越低。而ES越小,意昧着H0与H1的 deviation也越小,那么拒绝H0与接受H1之间的合理 性也越高。
影响统计功效的要素
Statistical power depends on three classes of parameters:
- 1)the significance level (i.e., the Type I error
probability) α of the test。
- 2)the size(s) of the sample(s) used for the test。 - 3)an effect size parameter defining H1 and thus
如果O型圈有变化,则不能发射
- 错误风险
α错误:如果O-Ring没有变化而做出有变化的结论,
将导至飞机状态正常但不能发射。
β错误:如果O-Ring有变化但做出没有变化的推断,
则有可能导致飞机起飞后爆炸。 ① 美国航空航天局认为O型圈不存在差别 ② 航天飞机发射后爆炸 ③ 事后调查发现,爆炸的原因是当时使用的O型圈
indexing the degree of deviation from H0 in the underlying population.
- α水平 、样本规模、效应规模
提高统计功效的方法
增加效应规模(effect size) 增加样本量(sample size) 增加显著性水平( α ) 改双侧检验为单侧检验
效应规模参考表(Cohen,1992)
(林丹明、李炜文,、梁强,2007)
统计效应的计算
(金勇进,1999)
统计功效对实证研究的结果的影响
过低的统计功效会使人们放弃一些重要的 理论,从而阻碍知识的发展。(Maxwell, 2004)
过高的统计功效会降低研究效率。
G*power 3
G*Power (EG*Power(Erdfelder, Faul, & Buchner, 1996) was designed as a general stand-alone power analysis program for statistical tests commonly used in social and behavioral research. G*Power 3 is a major extension of, and improvement over, the previous versions. It runs on widely used computer platforms (i.e., Windows XP, Windows Vista, and Mac OS X 10.4) and covers many different statistical tests of the t, F, and x2 test families. In addition, it includes power analyses for z tests and some exact tests. G*Power 3 provides improved effect size calculators and graphic options, supports both distribution-based and design-based input modes, and offers all types of power analyses in which users might be interested. Like its predecessors, G*Power 3 is free.
统计功效是假设检验能够正确侦测到真实的处理效应的能 力。
学术界认为,一个研究的统计功效达到0.8以上,其研究结 论才比较可靠。只有当统计功效达到0.80时,才能比较有 把握地保证总体中存在的现象可以通过样本检验得到识别 (Brock,2003)
SP=0.8也意味着,研究者推论犯II类错误的概率为 20%(β=0.2)
P值是原假设为真的概率,1- P为研究假设为真的 概率
拒绝原假设即接受研究者所提出的暗含原假设不 为真的理论
P值越小,其结论越有可能被重复 P值越小,其实验处理越有效 ɑ是拒绝原假设的概率
β错误的实例
美国“挑战者号”航天飞机失事()的故事
- (Mazen et al. 1987) - 决策:如果O型圈没有变化,则发射
H1:(存在差异)
β(І І类错误) 1- β(功效水平)
І类错误:弃真错误,即在现实中不存在差别的两种现象在研究中被认为是有差别的。 相伴概率P值为在给定的显著水平水平上犯错误的概率。
II类错误:取伪错误,即在现实中存在差别的两种现象在研究中被推定为是无差别的。
统计显著性结果表示的意义是:当差异确实存在时, 按照规定的显著性水平能够发现这种差别的能力。
在心理学的研究中,正确的做法是限制犯Ⅰ类错误的 概率,同时使犯Ⅱ类错误的概率尽可能的小。但是,心理 学的研究中往往只注重对Ⅰ类错误的控制,而忽视对Ⅱ类 错误的控制。
当前国内外研究中推断统计误用(焦璨,2008)
统计显著性(statistical significance)和实质显著 性(practical significance)的混淆
假设检验与统计功效
郭丰波 韦义平 2011-11-7
目录
统计功效的介绍
G*power的运用
假设检验的基本原理
假设检验是依据小概率原理由样本对总体进行推论的过程
H0与H1 假设检验的错误风险
现实(总体)
统计检验(样本)
H0:(不存在差异) H1:(存在差异)
H0:(不存在差异)
1-α (置信水平) α(І类错误)
统计功效的实例
线性相关显著是否意味着高相关?
r=0.219,P<0.001**
拒绝H0成立是否必然地使接受H1是合理的?
统计功效(statistical power, SP)
The power (1 -β) of a statistical test is the complement of β, which denotes the Type II or beta error probability of falsely retaining an incorrect H0 (FRANZ FAUL et al.,2007).
效应规模(effective size)
效应规模指的是总体中原假设与备择假设之间的差距
- (Coh百度文库n,1992)。
- 一般来说,效应规模应该通过现有理论、以往研究、
预检验(pre-test)或根据逻辑来进行估计。
- 如果显著水平和样本规模固定,那么,ES越小,统
计功效越也越低。而ES越小,意昧着H0与H1的 deviation也越小,那么拒绝H0与接受H1之间的合理 性也越高。
影响统计功效的要素
Statistical power depends on three classes of parameters:
- 1)the significance level (i.e., the Type I error
probability) α of the test。
- 2)the size(s) of the sample(s) used for the test。 - 3)an effect size parameter defining H1 and thus
如果O型圈有变化,则不能发射
- 错误风险
α错误:如果O-Ring没有变化而做出有变化的结论,
将导至飞机状态正常但不能发射。
β错误:如果O-Ring有变化但做出没有变化的推断,
则有可能导致飞机起飞后爆炸。 ① 美国航空航天局认为O型圈不存在差别 ② 航天飞机发射后爆炸 ③ 事后调查发现,爆炸的原因是当时使用的O型圈
indexing the degree of deviation from H0 in the underlying population.
- α水平 、样本规模、效应规模
提高统计功效的方法
增加效应规模(effect size) 增加样本量(sample size) 增加显著性水平( α ) 改双侧检验为单侧检验
效应规模参考表(Cohen,1992)
(林丹明、李炜文,、梁强,2007)
统计效应的计算
(金勇进,1999)
统计功效对实证研究的结果的影响
过低的统计功效会使人们放弃一些重要的 理论,从而阻碍知识的发展。(Maxwell, 2004)
过高的统计功效会降低研究效率。
G*power 3
G*Power (EG*Power(Erdfelder, Faul, & Buchner, 1996) was designed as a general stand-alone power analysis program for statistical tests commonly used in social and behavioral research. G*Power 3 is a major extension of, and improvement over, the previous versions. It runs on widely used computer platforms (i.e., Windows XP, Windows Vista, and Mac OS X 10.4) and covers many different statistical tests of the t, F, and x2 test families. In addition, it includes power analyses for z tests and some exact tests. G*Power 3 provides improved effect size calculators and graphic options, supports both distribution-based and design-based input modes, and offers all types of power analyses in which users might be interested. Like its predecessors, G*Power 3 is free.
统计功效是假设检验能够正确侦测到真实的处理效应的能 力。
学术界认为,一个研究的统计功效达到0.8以上,其研究结 论才比较可靠。只有当统计功效达到0.80时,才能比较有 把握地保证总体中存在的现象可以通过样本检验得到识别 (Brock,2003)
SP=0.8也意味着,研究者推论犯II类错误的概率为 20%(β=0.2)
P值是原假设为真的概率,1- P为研究假设为真的 概率
拒绝原假设即接受研究者所提出的暗含原假设不 为真的理论
P值越小,其结论越有可能被重复 P值越小,其实验处理越有效 ɑ是拒绝原假设的概率
β错误的实例
美国“挑战者号”航天飞机失事()的故事
- (Mazen et al. 1987) - 决策:如果O型圈没有变化,则发射
H1:(存在差异)
β(І І类错误) 1- β(功效水平)
І类错误:弃真错误,即在现实中不存在差别的两种现象在研究中被认为是有差别的。 相伴概率P值为在给定的显著水平水平上犯错误的概率。
II类错误:取伪错误,即在现实中存在差别的两种现象在研究中被推定为是无差别的。
统计显著性结果表示的意义是:当差异确实存在时, 按照规定的显著性水平能够发现这种差别的能力。
在心理学的研究中,正确的做法是限制犯Ⅰ类错误的 概率,同时使犯Ⅱ类错误的概率尽可能的小。但是,心理 学的研究中往往只注重对Ⅰ类错误的控制,而忽视对Ⅱ类 错误的控制。
当前国内外研究中推断统计误用(焦璨,2008)
统计显著性(statistical significance)和实质显著 性(practical significance)的混淆
假设检验与统计功效
郭丰波 韦义平 2011-11-7
目录
统计功效的介绍
G*power的运用
假设检验的基本原理
假设检验是依据小概率原理由样本对总体进行推论的过程
H0与H1 假设检验的错误风险
现实(总体)
统计检验(样本)
H0:(不存在差异) H1:(存在差异)
H0:(不存在差异)
1-α (置信水平) α(І类错误)