心理学常用效应量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
2.1
效应量的计算
差异类效应量 这类效应量一般用于实验研究 , 进行两组均
其中一组 , 一般是控制组 (Glass, 1976), 此时该组 的权重是 1。 特别地 , 假设要比较的是第 1 组和第 2 组的 差异。各组的样本容量分别为 n1 , n2 , L , nJ , 样本 均 值 分 别 为 y1 , y2 ,L , y J , 样 本 标 准 差 分 别 为
(6)
应和简单主效应 (Bird, 2004)。 例如 , 一个实验探讨小学生 “ 对文章内容的 不同预期对阅读理解的影响 ”, 有两个因素:因素 A—— 不同类型标题提示 , 有 2 个水平:正确提
不难看出 ,
⎡n + n − 2⎤ g=⎢ 1 2 ⎥ ⎣ n1 + n2 ⎦
(3) Glass 的 Δ 值
s1 , s2 , L , s J 。下面分别介绍上面三种方法对应的
效应量公式。 (1) Cohen 的 d 值 上面第一种方法对应的两组差异的效应量为 (2) d = ( y1 − y2 ) σ pooled
σ pooled
单因素实验设计时 , 均值的差异可以是两组比 较 , 也可以是多组比较 , 其一般形式为线性对比 (contrast, Keppel & Wickens, 2004; Kline, 2004; Bonett, 2008; 温忠麟, 2006): ψ = c1μ1 + L + cJ μ J , 其中 J 是组数 , μi 表示第 i 组的均值 , i = 1, L, J , ci 是常数满足 c1 + L + cJ = 0 。均值差异是线性对比
值比较或多组均值比较。在两组均值比较的情况 下 , 最直观的是用两组的均值差值作为效应量。 但在心理学研究中 , 使用原始数据的均值差值作 为效应量会存在单位不统一、研究间效应量无法 比较的问题 , Cohen (1969)和 Glass (1976) 提出用 均值之差的标准化值替代原始均值差值 , 是差异 类效应量的基础。 2.1.1 单因素实验设计
2
组样本方差的 “ 加权 ” 平均来估计 , “ 加权 ” 的方法 主要有下面三种 , 每一种都相应地产生一种效应 量计算公式: (1) 只 用 要 比 较 的 组 来 “ 加 权 ” 计 算 (Cohen, 1969)。 (2) 当方差同质假设成立时 , 实验设计条件下 所有的组都用来加权计算 (Hedges, 1981)。 (3) 当方差同质假设不成立时 , 只用所有组的
针对零假设检验存在的不足 , 一些国际期刊 要求在报告检验结果的同时还要报告效应量 (effect size)。 效应量在心理学研究中受到重视 , 国 际上已经有许多关注效应量的研究(例如, Wilkinson & Task Force on Statistical Inference, 1999; APA, 2001; Rosnow & Rosenthal, 2003, 2009) 。 国内关于 效应量的研究还不多 , 但已有学者认识到了统计 检验力和效应量大小的计算方法问题的重要性。 胡竹菁 (2010) 以平均数差异显著性检验为例 , 具 体介绍了在对实验数据进行假设检验后 , 如何对 统计检验力和效应量大小进行估计。吴艳和温忠 麟 (2011) 给出了一个与零假设检验有关的统计分 析流程 , 其中涉及何时需要估计效应量。但如何 选用合适的效应量并作出估计 , 还是一个问题。 本文对效应量进行分类 , 针对不同的研究目的和 研究设计 , 介绍效应量的计算方法。
的特殊情形, 如实验组 a、b 和控制组 c 的均值差 异为
1 ( μa + μb ) − μc , 不同实验处理组的均值差 2 异 μ a − μb 。
线 性 对 比 的 效 应 量 定 义 为 ( 见 Olejnik & Algina, 2000)
δ =ψ σ
(1)
分母 σ 是混合标准差 (pooled standard deviation)。 用各组的样本均值代替各组的总体均值 , 就可以 估计 Ψ, 问题是如何估计 σ。混合方差 σ 通常用各
效应量在量化方面弥补了零假设检验的不足。除了报告检验结果外 , 许多期刊还要求在研究报告中
包括效应量。效应量可以分为三大类别:差异类、相关类和组重叠类 , 它们在不同的研究设计 (如单因素和多 因素被试间、被试内和混合实验设计 )或在不同的数据条件下 (如小样本、方差异质等 )可能有不同的计算方法 和用法 , 但许多效应量可以相互转换。我们梳理出一个表格有助应用工作者根据研究目的和研究类型选用合 适的效应量。 关键词 分类号 效应量 ; 差异 ; 相关 ; 组重叠 B841.2
g = ( y1 − y2 ) s pooled
(4)
就是 Hedges (1981)的 g 值 , 其中 spooled 是所有组的 混合标准差, 即单因素方差分析中的误差均方 (MSE):
2 2⎤ ⎡ (n − 1) s1 + L + (nJ − 1) s J =⎢ 1 ⎥ ⎢ (n1 − 1) + L + (nJ − 1) ⎦ ⎥ ⎣ 1 2
1 1 ( ya1b1 + ya1b 2 ) − ( ya 2b1 + ya 2b 2 ) 2 2
(9)
其中 ya1b1 表示处理 a1b1 上的得分均值 , 其余符 号类推。如果研究目的是比较不同阅读速度的差 异 (即对因素 B 的主效应感兴趣 ), 用线性对比表 示为:
1 1 ( ya1b1 + ya 2b1 ) − ( ya1b 2 + ya 2b 2 ) 2 2
第 12 期
郑昊敏等 : 心理学常用效应量的选用与分析
1869
表1
类 别效应量分类子类差异类 相关类 组重叠
Cohen 的 d 值 , Glass 的 Δ值和 Hedge 的 g 值 r、 rpb、 rb 、 requivalent, ϕ及 Cramer 的 V 系数等基于 χ 2 统计量的相关系数等 ; 方差比 f2 , R2, η2 , ω2 , ε2 ; 以及 ralerting, reffectsize, rcontrast 等 Improvement-Over-Chance index, 简称 I 效应量
心理科学进展
2011, Vol. 19, No. 12, 1868–1878 DOI: 10.3724/SP.J.1042.2011.01868
Advances in Psychological Science
心理学常用效应量的选用与分析*
郑昊敏 1 温忠麟 1 吴 艳2
(1 华南师范大学心理应用研究中心 , 广州 510631) 摘 要 (2 广东外语外贸大学应用心理学系 , 广州 510420)
1
2
d
(7)
示 (a1)和误导提示 (a2); 因素 B—— 阅读速度 , 有 2 个水平:快速阅读 (b1), 常速阅读 (b2)。因变量 是阅读理解成绩 y。 有 4 个水平组合 , 即有 4 个实 验处理: a1b1, a1b 2, a 2b1, a 2b 2 。如果研究目的是 比较不同的提示类型的差异 ( 即对因素 A 的主效 应感兴趣 ), 用线性对比表示为:
1868
度的指标 (Snyder & Lawson, 1993), 它不受样本 容量大小的影响 (或者影响很小 )。 计算和报告效应
收稿日期 : 2010-11-10 * 国家自然科学基金项目 (30870784)和教育部人文社科 重点研究基地项目 (11JJD190005)资助。 通讯作者 : 温忠麟 , E-mail: wenzl@
由上面第三种方法可以得到两组差异的一个 效应量为
Δ = ( y1 − y2 ) s2
称为 Glass 的 Δ 值。
(8)
对于常见的实验组控制组两组比较 , 通常用 控制组的标准差作为 Δ 值的分母。一般在有明显 的控制组存在且控制组的样本容量比较大 , 以及 实验组与控制组的条件差异比较大时才会使用 Δ 值 (Rosenthal, 1991)。因为实验组的均值和标准差 会受到实验处理的影响 , 但控制组的标准差却不 会 , 因此它更能代表总体标准差 (Vacha-Haase & Thompson, 2004) 。不过 , 当方差不同质时 , 把控 制组的标准差作为分母并非唯一的选择 , 研究者 可以根据实际需要去选择一种认为最重要的组的 标 准 差 作 为 线 性 对 比 的 分 母 (Glass, McGaw, & Smith, 1981)。 上述三种效应量在大样本研究时一般相差很 小 (Rosnow & Rosenthal, 2003)。对于小样本 , d 会 严重高估 δ, Hedges 和 Olkin (1985)提出用 c(m)=
s pooled
(5)
1870
心 理 科 学 进 展
第 19 卷
应用中最常见的是实验组控制组两组比较 (即 J= 2), 此时
2 2⎤ ⎡ (n − 1) s1 + (n2 − 1) s2 s pooled = ⎢ 1 ⎥ n1 + n2 − 2 ⎢ ⎥ ⎣ ⎦ 1 2
各取一个水平得到的水平组合 , 有多少种组合就 有多少种实验处理。我们感兴趣的各种差异 , 都 可以用线性对比呈现出来 , 包括主效应 , 交互效
1
效应量的类型
效应量是衡量实验效应强度或者变量关联强
η2 、 ω2 、 ε2) 与相关大小有关 , 可以归为相关类。
以往的研究中较少提及组重叠类效应量 , 考虑到 一些数据条件的限制 ( 如总体非正态、方差不同质 等), 同时它具有差异类和相关类效应量所有和所没 有的优点, 所以把组重叠类效应量单独作为一类。 下面分类介绍不同研究对应的效应量及其 具体计算方法 , 同时考虑其中的自变量个数 ( 单 因素和多因素 ) 、实验设计类型 ( 被试内、被试间 和混合实验设计 ) 以及数据条件 ( 如是否同质及样 本大小等 ) 。
量有以下几个好处 (Ruscio, 2008):区分统计显著 性和实际显著性 (Kirk, 1996); 通过元分析方法累 计或比较以往研究结果 (Hunter & Schmidt, 2004); 估计统计检验力 (Cohen, 1988) 。效应量与研究设 计和研究目的有关 , 它可以是任何我们感兴趣的 量的大小 , 可以涉及单变量、双变量和多变量。 如我们熟悉的均值、均值的差异、中位数、相关 系数、 频率、 回归的斜率以及方差的比例等 (Lipsey & Wilson, 2000)。 文献上出现过的效应量种类繁多 , 本文按效 应量的统计意义将其分成如下三类: (1) 差异类 (difference-type), (2)相关类 (correlation-type ), (3) 组重叠 (group-overlap), 详见表 1。 文献上关于效应量的分类不尽一致 , 大多数 研究把差异类、相关类和方差比效应量归为三大 类。但仔细分析可以发现 , 方差比效应量 (如 R2、
2 2⎤ ⎡ (n − 1) s1 + (n2 − 1) s2 =⎢ 1 ⎥ n1 + n2 ⎢ ⎥ ⎣ ⎦
1
2
(3)
就是 Cohen (1969)的 d 值。 Cohen 的 d 有两种解释。一是实验组均值位 于控制组的相对位置 ( 百分等级 ), 二是两组分布 不重叠的程度。 Cohen (1969)提出 , d=0.2、 d=0.5 和 d=0.8 分别对应于小、中、大的效应量 , 这三 个效应量对应的 “ 实验组均值在控制组的百分等 级 ”分别为 58%、69%和 79%, “两组分布不重叠的 比例 ”分别为 14.7%、 33.0%和 47.4%。 但是 , Cohen 也指出不可盲目使用这一标准 , 如果把它严格当 成像显著性的 0.05 临界值那样, 我们又愚蠢的使用 了另一套测量标准(参见 Thompson, 2001), 因为在 某些专业领域 ( 如医学 ), 有时即使是非常小的效应 量也是很重要的, 所以建议对效应量大小的解释最 好还是参照以往的研究成果或实际情况进行。 (2) Hedges 的 g 值 上面第二种方法对应的两组差异的效应量为