方差分析的统计检验力和效果大小的常用方法比较_胡竹菁
统计检验力与效果大小
一 统计检验力的含义与估计原理
❖ 1-1 两种假设,两类错误及其关系 ❖ 1-2 虚无假设分布—备择假设分布 ❖ 1-3 估计统计检验力的理论基础 ❖ 1-4 统计检验力的计算公式
两种假设,两类错误及其关系
❖ 虚无假设: ❖ 研究假设:
H 0 : 1 0
H1 : 0
H 0 为真 H 0 为假
3 根据Φ值、分组数k,样本容量n查附表14,求得统计检验 力
计算实例
变异来源 平方和
组间
448
组内
430
总变异 878
自由度 2 15
17
均方 224 28.67
F
7.814**
f k 1 F 3 1 7.814 0.67 1.30 0.93 k n 3 6
f n 1 6 2.45
第一节 平均数差异显著性检验的统 计检验力和效果大小的估计
❖ 一 统计检验力的含义与估计原理 ❖ 二 独立样本平均数差异显著性检验统计检验力的估计方
法 ❖ 三 独立样本平均数差异显著性检验效果大小估计方法 ❖ 四 平均数差异显著性检验统计检验力的影响因素
显著性水平、样本容量、(效果大小)
❖ 五 其他平均数差异显著性检验统计检验力和效果大小的 估计方法
计算公式和步骤
f n
f k 1 F k n
小写粗体的f值就是效果大小的指标,
k
nh 1
ni
根号内大写的F值就是实际得到的方差分析之后的F值,
k是分组数,
n是实验中各组的人数。
❖ 方差分析后的统计检验力的计算过程有如下述:
1 根据实际得到的方差分析统计量F值计算小写粗体的f值
2 计算Φ值
接受 H 0
正确决策,1 II 型错误
“效果大小”的含义、计算方法及在应用中的常见问题
Howell-2011
Gravetter-2011
1 Introduction …… 12.6 Effect Size …… 15 Power 381
…… 8.6 Statistical Power 9.3 Measure Effect size for the t test 13.5 Effect size for ANOVA …… 16.4 Measure Effect size for the ChiSquare ……
为了让读者鉴赏研究发现的大小或重要性,在论文的“结果”部
分几乎总是要提供所报告的每一种效应的某种量度…很多时候,
报告效应大小时既用原始单位,也用某种标准化的单位或单位 “1”(例如: Cohen d值),或者,一种标准化的回归权重 …”
例一:JEP-G,2011.2,P173-174
Experiment 1……Results We conducted planned comparisons between judgments in the strong and weak alternatives conditions. Diagnostic judgments in the weak alternatives condition (M = 81.7) were higher than in the strong alternatives condition (M = 58.5), t(19) = 5.0, p < .001, Cohen’s d = 1.1 . Predictive judgments did not differ significantly (Mstrong = 75.3; Mweak = 69.6) t(19) = 1.3, ns. Corroborating this analysis, we also found that there was no significant difference between judgments of P and Wc, t(39) = 0.60, ns.
方差分析后的两两比较方法选择,真的无迹可寻吗?
⽅差分析后的两两⽐较⽅法选择,真的⽆迹可寻吗?两两⽐较⽅法的选择,⼤概是统计学界争议最多的⼀个话题了,直⾄今天,也没有⼀个完全统⼀的说法。
所以,本⽂虽然说是两两⽐较⽅法的选择,但更多的是在基于以往⽂献的基础上,再结合作者本⼈的经验和理解,给读者⼀些提⽰。
两两⽐较的⽅法太多了,正因为太多了,所以往往⼤家都不知道给怎么选择。
⽐如SAS提供了12种两两⽐较⽅法让⼈选择,SPSS更是毫不吝啬地给出了18种⽅法让你选择。
我想任何⼀个⾮统计专业的⼈都有同⼀个感觉:你在耍我们吗?毫⽆提⽰地给出10多种⽅法,让我⼀个毫⽆统计背景的⼈⾃⼰选择。
就像是医⽣给你10多种药,⼀脸怜悯地对你说:回家⾃⼰看着吃啊,你觉得哪个好就吃哪个。
关键是,明知道我们没有这个判别⼒,为什么要给我们这么多的两两⽐较⽅法,还得让我们⾃⼰选择?正是统计学家太多了,每个⼈都能根据⾃⼰的理念提出⼀种⽅法,⽽这些⽅法看起来似乎都没错,那怎么办?只好都放在软件中,你⾃⼰跟着感觉⾛吧。
下⾯就来说⼏种⽐较常见的两两⽐较⽅法的选择,希望给⼤家稍微理清⼀点思路。
先声明⼀下,以下结论是参考了不少国外课本和⽂献,加上⾃⼰的⼀点经验,⽽且只给出结论性的内容,不给出公式和证明,喜欢追根究底的朋友可以⾃⼰看专业书籍。
为什么要⽤两两⽐较⽅法呢?⼤多数两两⽐较⽅法的⽬的都是为了控制假阳性,因为两两⽐较次数多了,容易产⽣假阳性的结果。
⾸先说医学统计课本中最喜欢介绍的3种⽅法:LSD、SNK和Bonferroni法。
我⼤概翻了⼀下国内的医学统计学教程,⼏乎都是这3种⽅法,但似乎都没有说什么情况下⽤。
LSD法其实就相当于t检验,只不过它需要在⽅差分析⼀定要有统计学差异的情况下才⽤。
所以LSD法并没有控制假阳性错误。
⼀般情况下,如果你在设计初期就有很明确的⽬的,可以考虑这种⽅法,因为每⼀对⽐较都是有特定意义的,不⽤⾮得控制假阳性错误。
SNK法是先按多组均值⼤⼩排序,然后按⼀个有点类似于t检验的公式分别⽐较(不过误差计算不同)。
平均数差异显著性检验统计检验力和效果大小的估计原理与方法
平均数差异显著性检验统计检验力和效果大小的估计原理与方
法
胡竹菁
【期刊名称】《心理学探新》
【年(卷),期】2010(030)001
【摘要】该文以平均数差异显著性检验为例,对实验数据进行假设检验后,继续对其统计检验力和效果大小进行估计的基本原理和方法作一介绍.
【总页数】6页(P68-73)
【作者】胡竹菁
【作者单位】江西师范大学,心理学院,南昌,330022
【正文语种】中文
【中图分类】B841.2
【相关文献】
1.方差分析的统计检验力和效果大小的常用方法比较 [J], 胡竹菁;戴海琦
2.地震预报统计检验评分的基本原理与方法 [J], 洪时中
3.陕西飞机人工增雨效果统计检验方法研究 [J], 贾玲;郭强;李燕
4.幼儿教育科研方法——九、平均数差异显著性检验 [J], 贾咏春
5.图表中平均数差异显著性检验结果的规范表达 [J], 郝拉娣;何平
因版权原因,仅展示原文概要,查看原文内容请购买。
统计检验之统计检验力和效果量
2
本例中:
115 111 d 0.27 15
Cohen认为:d=0.2为低效果; d=0.5为中效果; D=0.8为高效果 本例为较低效果。
八戒松了一口气: 我请河南大学研究生对猪宝宝进行智力 开发,虽然效果不显著,但还算是有些 效果的,看样子还要坚持下去啊!
假设检验的两类错误
虚无假设:
H 0 为真
H 0 为假
H 0 : 1 2
备择假设:
拒绝 H 0 I 型错误
H 1 : 1 2
接受 H 0 正确决策, 1 II 型错误
1 统计检验力 正确决策,
在其他条件不变的前提下 α 和 不可以同时增大或减小
八戒可真聪明:我明白了, 虚无假设H0认为“猪宝宝与猴小兵”的智力 没有显著差异, 备择假设H1认为“猪宝宝与猴小兵”的智力 存在显著差异。 唐僧:不论我接受或拒绝哪个假设,都有可 能犯错误,这涉及到统计检验力的问题。
4、计算Z值和临界值的差: 1.89-1.96=-0.07
5、查正态分布表 从中心点为零到右边0.07个标 准差所占的面积为0.0279,约等于 0.03,加上中心点左侧的0.5的面积, 共有曲线下0.53的面积,这就是犯 II型错误的概率β。于是统计检验力 (1- β)=0.47。
再点击“选项”,选中“功效 估计”和“检验效能”;点击“继 续”、“确定”,于是得到“观察 到的效力=0.91”,这就是统计检验 力。
八戒晃着脑袋说:我最怕做计算了,现 在有了SPSS可好了,点击一下就帮我算 出来了! 唐僧:由于计算效果量和统计检验力的 方法较多,不同方法得到的结果是不能 进行比较的,因此,还是要把基础知识 搞清楚啊!
心理学常用效应量
2 2⎤ ⎡ (n − 1) s1 + (n2 − 1) s2 =⎢ 1 ⎥ n1 + n2 ⎢ ⎥ ⎣ ⎦
1
2
(3)
就是 Cohen (1969)的 d 值。 Cohen 的 d 有两种解释。一是实验组均值位 于控制组的相对位置 ( 百分等级 ), 二是两组分布 不重叠的程度。 Cohen (1969)提出 , d=0.2、 d=0.5 和 d=0.8 分别对应于小、中、大的效应量 , 这三 个效应量对应的 “ 实验组均值在控制组的百分等 级 ”分别为 58%、69%和 79%, “两组分布不重叠的 比例 ”分别为 14.7%、 33.0%和 47.4%。 但是 , Cohen 也指出不可盲目使用这一标准 , 如果把它严格当 成像显著性的 0.05 临界值那样, 我们又愚蠢的使用 了另一套测量标准(参见 Thompson, 2001), 因为在 某些专业领域 ( 如医学 ), 有时即使是非常小的效应 量也是很重要的, 所以建议对效应量大小的解释最 好还是参照以往的研究成果或实际情况进行。 (2) Hedges 的 g 值 上面第二种方法对应的两组差异的效应量为
由上面第三种方法可以得到两组差异的一个 效应量为
Δ = ( y1 − y2 ) s2
称为 Glass 的 Δ 值。
(8)
对于常见的实验组控制组两组比较 , 通常用 控制组的标准差作为 Δ 值的分母。一般在有明显 的控制组存在且控制组的样本容量比较大 , 以及 实验组与控制组的条件差异比较大时才会使用 Δ 值 (Rosenthal, 1991)。因为实验组的均值和标准差 会受到实验处理的影响 , 但控制组的标准差却不 会 , 因此它更能代表总体标准差 (Vacha-Haase & Thompson, 2004) 。不过 , 当方差不同质时 , 把控 制组的标准差作为分母并非唯一的选择 , 研究者 可以根据实际需要去选择一种认为最重要的组的 标 准 差 作 为 线 性 对 比 的 分 母 (Glass, McGaw, & Smith, 1981)。 上述三种效应量在大样本研究时一般相差很 小 (Rosnow & Rosenthal, 2003)。对于小样本 , d 会 严重高估 δ, Hedges 和 Olkin (1985)提出用 c(m)=
方差分析两两比较
方差分析中均值比较的方法最近看文献时,多数实验结果用到方差分析,但选的方法不同,主要有LSD,SNK-q,TukeyHSD法等,从百度广库里找了一篇文章,大概介绍这几种方法,具体公式不列了,软件都可以计算。
这几种方法主要用于方差分析后,对均数间进行两两比较。
均数间的两两比较根据研究设计的不同分为两种类型:一种常见于探索性研究,在研究设计阶段并不明确哪些组别之间的对比是更为关注的,也不明确哪些组别问的关系已有定论、无需再探究,经方差分析结果提示“ 概括而言各组均数不相同”后,对每一对样本均数都进行比较,从中寻找有统计学意义的差异:另一种是在设计阶段根据研究目的或专业知识所决定的某些均数问的比较.常见于证实性研究中多个处理组与对照组、施加处理后的不同时间点与处理前比较。
最初的设计方案不同.对应选择的检验方法也不同.下面分述两种不同设计均数两两比较的方法选择。
1. 事先计划好的某对或某几对均数间的比较:适用于证实性研究。
在设计时就设定了要比较的组别,其他组别间不必作比较。
常用的方法有:Dunnett-t 检验、LSD-t 检验(Fisher ’s least significant dif ference t test) 。
这两种方法不管方差分析的结果如何——即便对于P稍大于检验水平α进行所关心组别间的比较。
LSD-t检验即最小显著法,是Fisher于1935年提出的,多用于检验某一对或某几对在专业上有特殊探索价值的均数间的两两比较,并且在多组均数的方差分析没有推翻无效假设H0时也可以应用。
该方法实质上就是t检验,检验水准无需作任何修正,只是在标准误的计算上充分利用了样本信息,为所有的均数统一估计出一个更为稳健的标准误,因此它一般用于事先就已经明确所要实施对比的具体组别的多重比较。
由于该方法本质思想与t 检验相同,所以只适用于两个相互独立的样本均数的比较。
LSD法单次比较的检验水准仍为α ,因此可以认为该方法是最为灵敏的两两比较方法.另一方面,由于LSD法侧重于减少第Ⅱ类错误,势必导致此法在突出组间差异的同时,有增大I类错误的倾向。
心理统计之效果量
请自行计算第一问 请用以下两个公式计算并比较第二问
三、关于效果量的测定[1]
2、 r2pd的意义及测定 r2pd是点二列相关系数的平方。可以测定两独立样本 实验的效果量,也可以测定两相关样本实验的效 果量。 独立样本的自由度为df=n1+n2-2,n1、n2分别是两个样 本的容量。 相关样本的自由度为df=n-1,n是成对分数的数目。
三、关于效果量的测定
3、 η2的意义及测定 c、 η2在两因素方差分析中的应用 表 专家与新手对不同棋局棋子位置的记忆成绩方差分析表[3]。
注:[3]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,3
三、关于效果量的测定
3、 η2的意义及测定 c、 η2在两因素方差分析中的应用 结果分析[3]。
注:[1]权朝鲁.效果量的意义及测定方法[J].心理学探新,2003,2.
三、关于效果量的测定
3、 η2的意义及测定 例:有人研究了个人表现的反馈类型对其自尊的影 响。让15名被试参加一项知识测验,每组各5名被 试。不管被试在测验中的实际表现如何,对积极反 馈组,都告诉他们水平很高;对消极反馈组,都告 诉他们表现很差;对控制组,不提供任何反馈信息。 最后,让所有的被试都参加一个自尊测验,测验总 分为100分,得到的分数越高,表明自尊越强。实 验结果如表所示,问不同反馈类型的各组被试的自 尊水平是否存在显著差异[3]?
注:[3]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,3
三、关于效果量的测定
3、 η2的意义及测定 c、 η2在两因素方差分析中的应用 表 专家与新手对不同棋局棋子位置的记忆成绩[3]。
注:[3]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,3
方差分析两两比较知识分享
方差分析两两比较方差分析中均值比较的方法最近看文献时,多数实验结果用到方差分析,但选的方法不同,主要有LSD,SNK-q,TukeyHSD法等,从百度广库里找了一篇文章,大概介绍这几种方法,具体公式不列了,软件都可以计算。
这几种方法主要用于方差分析后,对均数间进行两两比较。
均数间的两两比较根据研究设计的不同分为两种类型:一种常见于探索性研究,在研究设计阶段并不明确哪些组别之间的对比是更为关注的,也不明确哪些组别问的关系已有定论、无需再探究,经方差分析结果提示“ 概括而言各组均数不相同”后,对每一对样本均数都进行比较,从中寻找有统计学意义的差异:另一种是在设计阶段根据研究目的或专业知识所决定的某些均数问的比较.常见于证实性研究中多个处理组与对照组、施加处理后的不同时间点与处理前比较。
最初的设计方案不同.对应选择的检验方法也不同.下面分述两种不同设计均数两两比较的方法选择。
1. 事先计划好的某对或某几对均数间的比较:适用于证实性研究。
在设计时就设定了要比较的组别,其他组别间不必作比较。
常用的方法有: Dunnett-t 检验、LSD-t 检验(Fisher ’s least s ignificant difference ttest) 。
这两种方法不管方差分析的结果如何——即便对于 P稍大于检验水平α进行所关心组别间的比较。
1.1 LSD-t检验即最小显著法,是Fisher于1935年提出的,多用于检验某一对或某几对在专业上有特殊探索价值的均数间的两两比较,并且在多组均数的方差分析没有推翻无效假设H0时也可以应用。
该方法实质上就是 t检验,检验水准无需作任何修正,只是在标准误的计算上充分利用了样本信息,为所有的均数统一估计出一个更为稳健的标准误,因此它一般用于事先就已经明确所要实施对比的具体组别的多重比较。
由于该方法本质思想与 t 检验相同,所以只适用于两个相互独立的样本均数的比较。
LSD法单次比较的检验水准仍为α ,因此可以认为该方法是最为灵敏的两两比较方法.另一方面,由于LSD法侧重于减少第Ⅱ类错误,势必导致此法在突出组间差异的同时,有增大I类错误的倾向。
论文自我检查报告
论文自我检查报告请您填写以下内容,填写完整后将其粘贴在稿件的首页(请不要另附页上传)。
1 与同类研究相比,本研究的创新之处是什么?(尽量言之有据,切忌泛泛而谈)答:2 作者已经投稿或发表的文章中是否采用了与本研究相同的数据或变量?如果是,请把文章寄来审查(注:我们同其他学术杂志一样,不赞成作者用同一数据发表多篇变量相同的文章或将一系列的相关研究拆成多个研究来发表的做法)。
答:3 国、内外期刊是否有学者已发表过同类研究?如果是,请列出(包括作者、文题、刊名、卷和页码),并说明您的研究有何推进之处。
答:4 除作者外,是否请过同事或同学对论文进行类似审稿般的挑剔性阅读?答:5 “问题提出”或前言部分中的文献回顾是否完备?在引用别人观点或工作时是否注明出处?答:6. 是否进行过共同方法偏差检验,以说明本研究的数据不存在严重的共同方法偏差?此外,对于参数检验,结果显著时,必须报告效应量,并指出是何种效应量;当结果不显著时,不必报告效应量(除回答此问题外,正文中亦要体现出来)。
答:共同方法偏差和效应量的相关文献可参见:周浩;龙立荣. (2004). 共同方法偏差的统计检验与控制方法. 心理科学进展, 12, 942-950.胡竹菁.(2010).平均数差异显著性检验统计检验力和效果大小的估计原理与方法. 心理学探新,30, 68-73.胡竹菁;戴海琦.(2011). 方差分析的统计检验力和效果大小的常用方法比较.心理学探新,31, 254-259.郑昊敏;温忠麟;吴艳. (2011).心理学常用效应量的选用与分析. 心理科学进展,19,1868-1878.7 是否对照过网站上的“投稿指南”逐项检查论文的各个部分?(请仔细核对后再做回答)答:8 文后参考文献与正文中引用的文献是否一一对应?(建议使用文献管理软件,例如EndNote、NoteExpress来管理参考文献)答:9 文后参考文献的书写格式是否符合本刊要求(先中文,后英文,中文文献不需要翻译为英文文献)?(《心理科学》参考文献的新要求是APA格式,有关参考文献的具体要求可到“下载中心”下载,亦可查阅《美国心理协会写作手册》第5版)答:10 参考文献是否以近5年的文献为主?如果不是,请说明理由。
教育统计学09讲 方差分析
④计算F值:
F
MS B 123.33 5.54 MSW 22.25
13
⑶判断结果:
查F 值表 : df B K 1 4 1 3; dfW nK K 5 4 4 16时, F3,16 0.01 5.29. 5.54 5.29, P 0.01, 差异极显著. 故这四种教学方法的效果之间有非常显著的差异.
2
2
2
则有 : SST SSW SS B , 或SST SS A SS E
6
证明过程(可选)
x X x x X 2 X
2 ij .. 2 ij .j
ij
X . j X . j X ..
2
12
例1 的计算
②求自由度:
dfT nk 1 5 4 1 19 df B K 1 4 1 3; dfW nK K 5 4 4 16
③求均方: MS
B
SS B 370 123.33 df B 3
SSW 356 MSW 22.25 dfW 16
71
67
73
5
78
76
Xt
二、方差分析的基本原理
一般情况下,存在关系
X
k
ij
X t X ij X j X j X t
n
2
一般情况下,对于 一个数据集合中的 任意一个数据Xij,其与数据集合的总 平均数的离差,等与这个数据与其所 在组的平均数的离差加上所在组平均 数与与总平均数的离差。
方差分析两两比较
方差分析中均值比较的方法最近看文献时,多数实验结果用到方差分析,但选的方法不同,主要有LSD,SNK-q,TukeyHSD法等,从百度广库里找了一篇文章,大概介绍这几种方法,具体公式不列了,软件都可以计算。
这几种方法主要用于方差分析后,对均数间进行两两比较。
均数间的两两比较根据研究设计的不同分为两种类型:一种常见于探索性研究,在研究设计阶段并不明确哪些组别之间的对比是更为关注的,也不明确哪些组别问的关系已有定论、无需再探究,经方差分析结果提示“ 概括而言各组均数不相同”后,对每一对样本均数都进行比较,从中寻找有统计学意义的差异:另一种是在设计阶段根据研究目的或专业知识所决定的某些均数问的比较.常见于证实性研究中多个处理组与对照组、施加处理后的不同时间点与处理前比较。
最初的设计方案不同.对应选择的检验方法也不同.下面分述两种不同设计均数两两比较的方法选择。
1. 事先计划好的某对或某几对均数间的比较:适用于证实性研究。
在设计时就设定了要比较的组别,其他组别间不必作比较。
常用的方法有: Dunnett-t 检验、LSD-t 检验(Fisher ’s least significant dif ference t test) 。
这两种方法不管方差分析的结果如何——即便对于 P稍大于检验水平α进行所关心组别间的比较。
LSD-t检验即最小显着法,是Fisher于1935年提出的,多用于检验某一对或某几对在专业上有特殊探索价值的均数间的两两比较,并且在多组均数的方差分析没有推翻无效假设H0时也可以应用。
该方法实质上就是 t检验,检验水准无需作任何修正,只是在标准误的计算上充分利用了样本信息,为所有的均数统一估计出一个更为稳健的标准误,因此它一般用于事先就已经明确所要实施对比的具体组别的多重比较。
由于该方法本质思想与 t 检验相同,所以只适用于两个相互独立的样本均数的比较。
LSD法单次比较的检验水准仍为α ,因此可以认为该方法是最为灵敏的两两比较方法.另一方面,由于LSD法侧重于减少第Ⅱ类错误,势必导致此法在突出组间差异的同时,有增大I类错误的倾向。
平均数差异显著性检验统计检验力和效果大小的估计原理与方法
的概率 。
例如 ,有研究者在甲乙两校中分别抽取 100 名
16岁的男生进行智商测查 , 测得甲乙两校该年龄组
男生总智商的平均分分别为 115分和 110分 。根据
常模 , 该年龄组男生总智商的标准差是 15 分 。那
么 ,求取甲乙两校 16岁男生平均智商差异显著性检
H0 为真时 , X
-
μ 0
或
X1
-
X2
的分布 。由于可以通过预先设定 α水平的方式来
控制当虚无假设为真时拒绝它可能会犯错误的概
率 。因此 ,在此基础上得到的虚无假设差异显著性
检验的 Z 统计量分布 (或 t统计量分布 ) 在置信度
范围内也是以零为中心的分布 ( a central Z ( or t)
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
70
心理学探新
2010年
的概率值有如图 2中以 1196为分界线所示的右边 部分的面积 ,它等于 ( 1 - β) 。由于做出决策的临界 值定为 1. 96,它离备择假设分布的期望 Z 值 δ= 3. 0
在 α = 0. 05水平上进行双侧检验时 , 作出接受 或拒绝虚无假设的临界值是 Zα = 1. 96。以此为
2
分界点 ,通常的统计决策是 :当实际得到的 Z 值小 于 1. 96时 ,就认为没有充分理由拒绝虚无假设 , 这 时在虚无假设为假 , 备择假设为真时有可能犯“拒 真的 β型错误 ”, 其可能犯 β型错误的概率值有如 图 2中阴影部分所示 ;而当实际得到的 Z 值大于 1. 96,就会拒绝虚无假设 ,这时在虚无假设为假时就作 出了正确的决策 , 由于在正态分布条件下与 α = 0. 05相应的 Z 值是 1. 96, 因此 , 其正确拒绝虚无假设
方差分析的统计检验力和效果大小的常用方法比较
方差分析的统计检验力和效果大小的常用方法比较本文对用方差分析统计检验力和效果大小进行估计的几种不同方法作了简要的介绍和比较。
标签:方差分析的效果大小;方差分析的统计检验力1 方差分析的统计检验力和效果大小的含义关于统计检验力(The power of a statistical test)的含义,美国著名心理统计学家J.Cohen曾指出:“当虚无假设为假时…,关于虚无假设的统计检验力是指导致拒绝虚无假设的概率。
”[1]关于效果大小(effect size,ES)的含义,J.Cohen在同一本专著中指出:“当虚无假设为假时…,它总是在一定程度上的虚假。
效果大小(effect size,ES)是指某个特定总体中的某种特殊的非零的数值。
这个数值越大,就表明由研究者所处理的研究现象所造成的效果越大…效果大小本身可以被视为是一种参数:当虚无假设为真时,效果大小的值为零;当虚无假设为假时,效果大小为某种非零的值。
因此,可以把效果大小视为某种与虚无假设分离程度的指标。
”[1]最近几年,我国心理学界也有越来越多的学者注意到这一领域研究成果的重要性并加以介绍和评述:如权朝鲁对“效果量的意义及测定方法”作了简要述评[2];胡竹菁曾以平均数差异显著性检验为例,对实验数据进行假设检验后继续对其统计检验力和效果大小进行估计的基本原理和方法作了简要介绍[3]。
甘怡群[4]、舒华[5]等也在各自主编的教科书中有专门论述统计检验力的章节。
本文拟以单因素和两因素完全随机实验设计的方差分析为例,对方差分析后的统计检验力进行估计的几种不同方法作一简要介绍和比较。
在心理统计学中,方差分析(即F检验)中的虚无假设一般是H0:μ1=μ0=…=μk,其备择假设则是指H a:μ1,μ2,…μk不完全相等,方差分析的统计检验力(power of test,即1-β)的含义与平均数差异显著性检验的统计检验力1-β的含义在实质上都是一样的,都是指在虚无假设H0为假(备择假设H a为真)时,正确拒绝H0的概率。
红楼梦前80章与后40章的作者分析
红楼梦前80章与后40章的作者分析《红楼梦》的作者问题成功地吸引了国内外读者的注意。
基于此,本文以数理统计为基础,应用支持向量机的理论和方法,建立相应模型,证实了《红楼梦》前80章回和后40章回在某些字、词、句上确实存在显著性差异。
首先采用引用大胆假设,小心验证的思路,使用机器学习-支持向量机进行分类,通过高斯径向基函数,寻找到最优分类超平面,由于数据样本不足,导致分类结果正确率仅为85%;然后,使用matlab软件绘制类别分界图。
最终效果:0-80章回在1的水平上,81-120章回在-1的水平上,并且分界点明显在80-81章回之间,佐证了《红楼梦》前80章回和后40章回作者不同。
标签:红楼梦;格拉布斯检验;方差分析;支持向量机0.引言《红楼梦》,中国古典四大名著之一,清代作家曹雪芹创作的章回体长篇小说。
《红楼梦》开篇以神话形式介绍作品的由来,说女娲炼三万六千五百零一块石补天,只用了三万六千五百块,剩余一块未用[5],弃在青埂峰下。
剩一石自怨自愧,日夜悲哀。
一僧一道见它形体可爱,便给它镌上数字,携带下凡。
不知过了几世几劫,空空道人路过,见石上刻录了一段故事,便受石之托,抄寫下来传世。
辗转传到曹雪芹手中,经他批阅十载、增删五次而成书。
以贾、史、王、薛四大家族的兴衰为背景,以贾府的家庭琐事、闺阁闲情为脉络,以贾宝玉、林黛玉、薛宝钗的爱情婚姻故事为主线,刻画了以贾宝玉和金陵十二钗为中心的正邪两赋有情人的人性美和悲剧美。
通过家族悲剧、女儿悲剧及主人公的人生悲剧,揭示出封建末世危机。
同时也是一部具有世界影响力的人情小说作品[1],是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者。
小说以“大旨谈情,实录其事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。
“真事隐去,假语村言”的特殊笔法更是令后世读者脑洞大开,揣测之说久而遂多[3]。
围绕《红楼梦》的品读研究形成了一门显学——红学。
心理统计之效果量
二、评价效果量大小的标准[1]
Cohen(1988)指出,当对两个独立组平均数之差进行显著性 检验时,可以使用d和点二列相关系数的平方r2pd作为效 果量。
d=0.2(效果小) ;d=0.5(效果中);d=0.8(效果大)
r2pd =0.2(效果小) ; r2pd =0.5(效果中); r2pd =0.8(效果大)
三、关于效果量的测定
3、 η2的意义及测定 c、 η2在两因素方差分析中的应用 表 专家与新手对不同棋局棋子位置的记忆成绩方差分析表[3]。
注:[3]胡竹菁,戴海琦.方差分析的统计检验力和效果大小的常用方法比较[J].心理学探新,2011,3
三、关于效果量的测定
3、 η2的意义及测定 c、 η2在两因素方差分析中的应用 结果分析[3]。
请自行计算第一问 请用以下两个公式计算并比较第二问
三、关于效果量的测定[1]
2、 r2pd的意义及测定 r2pd是点二列相关系数的平方。可以测定两独立样本 实验的效果量,也可以测定两相关样本实验的效 果量。 独立样本的自由度为df=n1+n2-2,n1、n2分别是两个样 本的容量。 相关样本的自由度为df=n-1,n是成对分数测定方法[J].心理学探新,2003,2.
三、关于效果量的测定[1]
3、 η2的意义及测定 c、 η2在两因素方差分析中的应用 假如,我们进行了一项单词的频率(A)与回忆时有无线 索(B)对回忆成绩的实验研究,单词的频率有3个水平, 回忆分有线索和无线索两个水平。实验结果见表。
三、关于效果量的测定
1、d的意义及测定 例子:在参加了全国统一考试后,已知考生某科成绩服从正 态分布。在甲省抽取了657名考生的成绩,得到平均分为 57.41分,且该省的总标准差为5.77分;在乙省抽取686 名考生的成绩,得到平均分为55.95分,该省的总标准差 为5.17分。问两省在该次考试中,平均分是否有显著的差 异?其效果量如何?
统计实验设计中的方差分析与多重比较方法
统计实验设计中的方差分析与多重比较方法方差分析(ANOVA)和多重比较方法是统计学中常用于研究实验设计的重要工具。
方差分析用于比较多个组别之间的均值是否有显著差异,而多重比较方法则用于确定哪些组别之间存在差异。
本文将介绍方差分析和多重比较方法的原理、应用以及相关注意事项。
一、方差分析(ANOVA)的原理方差分析是用于比较两个或多个组别之间差异的一种统计方法。
它基于总体均值之间的方差来判断各组别之间是否存在显著差异。
方差分析的核心思想是将总体方差分为组内方差与组间方差,并通过比较两者的大小来判断组别之间的差异是否显著。
在进行方差分析时,需要满足以下假设:各组别之间的样本来自于正态分布的总体,各组别的方差相等,样本之间独立。
对于一个因变量和一个自变量,可以使用单因素方差分析;对于一个因变量和多个自变量,可以使用多因素方差分析。
方差分析的结果通常通过F统计量来体现。
F统计量是组间方差与组内方差的比值,如果F值足够大,就可以认为组别之间存在显著差异。
如果显著性水平小于设定的阈值(通常是0.05),则可以拒绝无差异的假设,认为组别之间存在显著差异。
二、多重比较方法当我们得出方差分析结果显示组别之间存在显著差异时,接下来需要进行多重比较以确定具体差异在哪些组别之间。
多重比较方法可以帮助我们进行两两组别之间的比较,以确定哪些组别之间存在差异。
常见的多重比较方法包括Tukey方法、Bonferroni方法和Duncan方法等。
这些方法的原理和步骤有所不同,但基本思想是进行多次假设检验,并通过控制错误率来确定具体差异是否显著。
Tukey方法是一种常用的多重比较方法,它通过计算各组别之间的平均差异和置信区间来判断是否存在显著差异。
Bonferroni方法则是将显著性水平除以比较的次数,以控制整体错误率。
Duncan方法是利用多重范围检验校正标准来确定差异的存在。
三、方差分析与多重比较方法的应用方差分析和多重比较方法在统计实验设计中有广泛的应用。
方差分析两两比较
方差分析中均值比较的方法最近看文献时,多数实验结果用到方差分析,但选的方法不同,主要有LSD,SNK-q,TukeyHSD法等,从百度广库里找了一篇文章,大概介绍这几种方法,具体公式不列了,软件都可以计算。
这几种方法主要用于方差分析后,对均数间进行两两比较。
均数间的两两比较根据研究设计的不同分为两种类型:一种常见于探索性研究,在研究设计阶段并不明确哪些组别之间的对比是更为关注的,也不明确哪些组别问的关系已有定论、无需再探究,经方差分析结果提示“ 概括而言各组均数不相同”后,对每一对样本均数都进行比较,从中寻找有统计学意义的差异:另一种是在设计阶段根据研究目的或专业知识所决定的某些均数问的比较.常见于证实性研究中多个处理组与对照组、施加处理后的不同时间点与处理前比较。
最初的设计方案不同.对应选择的检验方法也不同.下面分述两种不同设计均数两两比较的方法选择。
1. 事先计划好的某对或某几对均数间的比较:适用于证实性研究。
在设计时就设定了要比较的组别,其他组别间不必作比较。
常用的方法有:Dunnett-t 检验、LSD-t 检验(Fisher ’s least significant dif ference t test) 。
这两种方法不管方差分析的结果如何——即便对于P稍大于检验水平α进行所关心组别间的比较。
1.1 LSD-t检验即最小显著法,是Fisher于1935年提出的,多用于检验某一对或某几对在专业上有特殊探索价值的均数间的两两比较,并且在多组均数的方差分析没有推翻无效假设H0时也可以应用。
该方法实质上就是t检验,检验水准无需作任何修正,只是在标准误的计算上充分利用了样本信息,为所有的均数统一估计出一个更为稳健的标准误,因此它一般用于事先就已经明确所要实施对比的具体组别的多重比较。
由于该方法本质思想与t 检验相同,所以只适用于两个相互独立的样本均数的比较。
LSD法单次比较的检验水准仍为α ,因此可以认为该方法是最为灵敏的两两比较方法.另一方面,由于LSD法侧重于减少第Ⅱ类错误,势必导致此法在突出组间差异的同时,有增大I类错误的倾向。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上都是一样的, 都是指在虚无假设 H0 为假 ( 备择假 正确拒绝 H0 的概率。 设 H a 为真) 时, 方差分析效果大小 ( effect size ) 的含义也基本 上与 Z 检验或 t 检验的效果大小的含义相同, 只不 过它反映的是多组实验处理下不同组之间实验效果 差异大小的指标。 由于 J. Cohen 提出的方差分析统计检验力的估 计方法需要先计算其效果大小, 因此, 本文将先介绍 方差分析效果大小的估计方法, 而后再介绍方差分 析统计检验力的估计方法。 2 单因素方差分析效果大小的估计 目前, 学术界对于如何评估方差分析效果大小
[2 ] 要述评 ; 胡 竹 菁 曾 以 平 均 数 差 异 显 著 性 检 验 为 对实验数据进行假设检验后继续对其统计检验 例,
至少存在两类不同的指标体系: 一类以 η 作为指 另一类以粗体小写字母 f 值作指标。 标,
2 J. Cohen 认为, 可以用 η 来作为方差分析效果
大小的指标, 其计算公式为
[9 ]
表1
不同反馈类型条件下被试自尊水平测试得分表 控制组 71. 0 75. 0 73. 0 74. 0 69. 0 82. 0 消极反馈组 59. 0 64. 0 62. 0 69. 0 75. 0 67. 0
积极反馈组 84. 0 74. 0 81. 0 75. 0 84. 0 70. 0
槡
[1 ]
以表 2 的数据为基础可以计算出上述不同估计 方法得到的效果大小的值分别为 : ( 1 ) η2 = ( 2) η = ( 3) SS 组间 448 = = 0 . 51 SS 总体 878 SS 组间 = 槡 0 . 51 = 0 . 714 SS 总体 = 槡 1 . 30 = 1 . 14
分析效果大小的指标
= 槡 0 . 67 ˑ 1 . 30 = 0 . 93 ( 5) f = 1. 02 由上面的计算结果可知, 不同的估计方法得出 的方差分析效果大小的结果是不一样的 , 需要注意 的是, 两类方法之间由于计算方法所依赖的理论基 础不一样, 因此所用指标的量纲是不一样的。 问题 在众多的效果大小指标中, 我们应该选择哪一个 是, 作为对表 1 所述实验数据进行方差分析后的效果大 小更为合适呢? 我们认为, 就理解效果大小这一概 2 , 念的含义上说 上述以 η 作为实验处理后效果大小 的指标较易为人所理解, 因为 η 的含义是 “实验处 理之后 各 组 间 平 方 和 在 总 体 平 方 和 中 所 占 的 比 [1 ] 2 2 重” , η 的指标值大, 反映实验效果大, η 的指标 值小, 则反映实验效果小, 因此这一指标所反映的效 果大小的内涵最容易让人们所理解 。就表 1 的实验 数据而言, 方差分析后用 η 的结果作为效果大小的 指标说明, 在该实验中, 总体变异中约有 51% 是来
*
η =
槡
SS组间 ( 注: 原书的表达形式为: eta = SS总体
第二类以小写字母 f 值作指标体系评估方差分
槡
SS组间 ) SS总体
析效果大小的方法包含以下两种 : 1 ) 有些学者( 如甘怡群等 ) 认为, 可以用下列公 式来计算方差分析的效果大小 f 值 f =
[4 ]
:
槡
F n
基金项目:江西省高等学校教学改革研究省级立项课题 ( JXJG - 10 - 2 - 27 ) 。
这一公式用粗体小写字母 f 来表示方差分析效 果大小, 以示与 f 区别。式中, 根号内大写字母 F 和 k 指分组数。 小写字母 n 的含义与上一公式相同, 在上述两类估计方法中, 第一类估计方法是以 “实验处理之后各组间平方和在总体平方和中所占 的比重” 的计算方法为基础, 第二类方法则是以 F 检验中备择假设分布的期望 F 值作为理论基础来 评估效果大小的 f 值或期望 f 值。 J. Cohen 指出, 这 两类估计方法的相互关系是 f =
关键词:方差分析的效果大小; 方差分析的统计检验力 中图分类号:B841. 2 文献标识码:A 文章编号:1003 - 5184 ( 2011 ) 03 - 0254 - 06
1
方差分析的统计检验力和效果大小的含义 关于统计检验力( The power of a statistical test )
256
2
心理学探新
2011 年
自反馈类型的实验处理。 由于用 η 的结果作效果 大小指标的便于理解性, 著名的统计软件 SPSS 就采
2 “一般线性模型 ” 用 η 作为该软件 模块中有关效果 大小的指标。 将表 1 中的数据输入 SPSS 运行后,
Aron 等的《心理统 算表求统计检验力 1 - β 的值, [6 ] 计》 一书使用的就是这种方法 。 以表 1 的数据为 例, 分组数 k = 3 的相应换算表有如表 3 所示。
大的效果。当用 f 值( 或期望 f 值) 作指标时, 在f = 0. 10 时属于小的效果, 在 f = 0 . 25 时属于中等效 果, 在 f = 0 . 40 时属于大的效果。 下面, 以一个实例来对上述计算方差分析效果 大小的不同方法作一比较。 例 1 有人研究了个人表现的反馈类型对其自尊 的影响。让 15 名被试参加一项知识测验, 每组各 5 名被试。不管被试在测验中的实际表现如何, 对积 极反馈组, 都告诉他们水平很高; 对消极反馈组, 都 告诉他们表现很差; 对控制组, 不提供任何反馈信 让所有的被试都参加一个自尊测验 , 测验 息。最后, 总分为 100 分, 得到的分数越高, 表明自尊越强。 实 验结果如表 1 所示, 问不同反馈类型的各组被试的 自尊水平是否存在显著差异?
Vol. 31 , No. 3 , 254 - 259 心理学探新 2011 , PSYCHOLOGICAL EXPLORATION
方差分析的统计检验力和效果大小的常用方法比较
胡竹菁 戴海琦
( 江西师范大学 心理学院, 南昌 330022 )
*
摘 和比较。
要:本文对用方差分析统计检验力和效果大小进行估计的几种不同方法作了简要的介绍
表3 n 10 20 30 40 50 100 分组数为 k = 3 的统计检验力换算表 效果大小 η = 0 . 01 0. 07 0. 10 0. 13 0. 16 0. 19 0. 36
2 2 η = 0 . 06 0. 21 2 η = 0 . 14 0. 51
SPSS 给出的效果大小值是“ η = 0. 51 ” ( 注: 英文 “Partial Eta Squared” ; 中文 版 SPSS 给出的结果标为 ), 与上述 版 SPSS 18. 0 给出的结果标为“偏 eta 方 ” 2 用 η 作为效果大小的指标计算出的结果完全一样 。 J. Cohen 认为, 如前所述, 当用 η 作方差分析效 2 在 η = 0 . 14 时就属于大的效果。 果大小的指标时, 因此, 虽然用 η 作为方差分析效果大小的估计值在 但 0. 51 的效 上述各种计算方法的结果中其值最小 , 果大小还是远远大于 0. 14 , 因此有的统计学家认为 用 η 作为实验处理在总变异中所占比重的估计方 提出另外一个含义 法一般会高估实验处理的效果, 与 η 大致相同的指标 ω 来反映实验处理效果大 小, 其计算公式为: SS 组间 - ( k - 1 ) MS e 2 ω = SS 总体 + MS e 还是以表 1 和表 2 的数据为例, 将已知数据代 入公式后可得: SS 组间 - ( k - 1 ) MS e 2 = ω = SS 总体 + MS e 448 - ( 3 - 1 ) ˑ 28 . 67 = 0 . 43 878 + 28 . 67 虽然 ω = 0 . 43 比 η = 0 . 51 的值更小, 但被认 为能更准确地反映反馈类型对被试自尊水平实验中 的效果。 3 单因素方差分析统计检验力的估计方法 方差分析备择假设的期望分布值通常用希腊字 母 Φ 表示。J. Cohen 指出, 方差分析统计检验力的 计算公式是: n Φ = f槡 其中, 小写英文字母 f 值就是效果大小的指标值。 求方差分析统计检验力的过程一般是, 先求方 差分析效果大小, 而后或者根据效果大小直接查相 应的转换表求统计检验力, 或者根据效果大小值求 Φ 值后再查相应的转换表求统计检验力 。 如前所述, 由于估计效果大小的方法不同, 得出 的效果大小的值也就不一样。由此转换的统计检验 力也会不一样。目前, 根据方差分析效果大小求其 统计检验力的方法主要有以下三种 : 1 ) 当用 η2 来作为方差分析效果大小的指标时 , 2 可以根据 η 值, 各组人数和分组数直接查相应的换
2
的含义, 美国著名心理统计学家 J. Cohen 曾指出: “当虚无假设为假时 …, 关于虚无假设的统计检验 [1 ] ” 力是指导致拒绝虚无假设的概率 。 ES ) 的含义, J. Cohen 关于效果大小( effect size, : “当虚无假设为假时 …, 在同一本专著中指出 它总 ES ) 是在一定程度上的虚假。效果大小 ( effect size, 是指某个特定总体中的某种特殊的非零的数值 。这 个数值越大, 就表明由研究者所处理的研究现象所 造成的效果越大 … 效果大小本身可以被视为是一 效果大小的值为零; 当 种参数: 当虚无假设为真时, 虚无假设为假时, 效果大小为某种非零的值。因此, 可以把效果大小视为某种与虚无假设分离程度的指 [1 ] ” 标。 最近几年, 我国心理学界也有越来越多的学者 注意到这一领域研究成果的重要性并加以介绍和评 “效果量的意义及测定方法 ” 述: 如权朝鲁对 作了简
此采用下列公式来计算方差分析效果大小 f=
:
( 槡
k -1 F n k
)
对表 1 的数据进行方差分析后可以得到如表 2 所示的方差分析表。
表2 不同反馈类型对被试自尊水平影响的方差分析表 平方和 448 430 878 自由度 2 15 17 均方 224 28. 67 F 7. 814 ** 变异来源 组间 组内 总变异