效果量的意义及测定方法_权朝鲁

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

效果量的意义及测定方法
权朝鲁
(山东师范大学 教育科学学院,济南250014)
摘 要:文介绍了效果量在心理学研究中的意义以及评价效果量大小的标准,特别是说明了d,r2pb,η2和ω2几个效果量的测定方法,并提出了提高效果量的措施及对效果量作研究的评论。

关键词:效果量;d;r2p b;η2;ω2
中图分类号:B841.7 文献标识码:A 文章编号:1003-5184(2003)02-0039-06
1 测定效果量的重要意义及评价标准
1.1 效果量的意义
在进行推论统计检验的时候,我们对确定自变量是否有效果感兴趣。

但是,推论统计检验的一个限制是检验的结果受实验中样本大小的影响。

这就是说,如果自变量有一定效果,那么用来检验自变量效果的F比率将随着样本容量的增加而增加。

甚至当自变量没有效果的时候,F比率也能增加。

这就意味着,我们需要一个不是统计检验但能测量自变量效果的一个量数。

这个量数就是“效果量”(the size of an effect,SE)。

“效果量”是不依赖于样本大小、反映自变量和因变量关联强度的指标[1]。

关于研究效果量的重要意义,美国的Cohen等做了精辟的论述。

Cohen指出,在心理学文献中,很多都是仅讲结果是否显著,似乎只要在0.05水平上显著就是对心理学理论的发展做出了贡献。

实际上,统计的显著性与效果量不是一回事。

在0.05水平上显著,自变量不一定有“大”的作用;同样,在0. 01水平上显著,自变量的作用也不一定“很大”。

他为许多研究在统计上是显著但效果量却很小而惋惜,告戒研究者不仅应该注意统计上有无显著性,而且应该注意效果量的大小[2]。

实际效果的“显著”和推论统计上的“显著”既有联系也有区别。

统计推论检验“显著”并不一定意味着实际效果的显著。

例如,研究某种心理治疗方法对治疗忧郁症患者是否有效,实际结果是实验组比控制组平均高4分,实验组与控制组的取样人数都是15,两组的标准差都是8,那么检验的结果,差异不显著。

但是当两组的样本人数增加到135、两组的平均数之差和标准差都不变时,差异极其显著。

因此,虽然统计结果“显著”,而下结论说该种心理治疗方法对于治疗忧郁症有显著效果是不能令人信服的。

这样,通过扩大样本使得统计检验显著花的代价就太大了(见表1)。

表1 t值随着样本容量的增大而变大
两个样本大小平均数差异样本标准差t d f p 1548.01.37280.19 3548.02.09680.05 13548.04.11268 0.0001
Chow(1988)对测定效果量的重要意义概括为:第一,通过效果量可以了解自变量作用的大小。

统计显著性检验不能指出自变量效果的大小,而效果量能够指出自变量作用的大小,所以,效果量的测量正好是对统计显著性检验的补充。

在同一个实验中,如果有几个自变量,可以根据效果量把自变量的重要性排序。

第二,效果量可以被用来概括包含同样的自变量或因变量的一系列实验的结果。

这样使得一系列实验结果的定量比较成为可能。

例如,可以利用效果量弄清楚某个自变量在所有的实验中是否始终有同样的影响。

第三,把许多效果量加以平均以提供某自变量在一系列实验中综合的效果量。

这种比较在应用研究方面,例如在研究教育改革或心理治疗方法的效果方面是特别重要的。

第23总第86期
心理学探新
PSYCHO LOGICA L EX PLO RA T IO N
2003年
第2期
上面提到的三个问题只能用效果量进行回答,推论统计检验的F比率却不能回答。

然而却不能说推论统计检验没有用处。

在检验理论以确定自变量是否有效果的实验中,推论统计检验是有用的[3]。

效果量的计算还为改进研究设计、提高检验能力提供了根据。

例如,通过t检验,发现t值不足以拒绝虚无假设。

这时可以计算效果量,如计算出的效果量的值达到中等以上,就可以通过增加实验中的样本容量的办法再进行实验,这时候就能够拒绝虚无假设。

从上面的论述中我们可以看到,计算效果量对于心理学的研究具有重大的意义。

正因为效果量的测定如此重要,所以美国心理学会1994年发出通知,要求公开发表的研究报告包含效果量的测定结果。

当具有统计上的显著性后,一定要计算效果量,看你进行的研究是否有价值[4]。

1.2 评价效果量大小的标准
关于评价效果量大小的标准,Cohen(1988)指出,当对两个独立组平均数之差进行显著性检验时,可以使用d(详见表1)和点二列相关系数(point-biserial correlation coefficient)的平方r2pb作为效果量:
d=0.2(效果小);d=0.5(效果中);d=0.8 (效果大)
r2pb=0.010(效果小);r2pb=0.059(效果中); r2pb=0.138(效果大)
当进行方差分析时,可以使用η2和ω2做效果量;η2是在样本范围内使用的,ω2是在总体范围内使用的。

关于效果量ω2的高低判断方面,Cohen (1982,1988)提出的标准是:解释变异量6%以下者,显示变量间关系微弱;解释变异量在6%以上到16%以下者,显示变量间属中等关系;解释变异量在16%以上者,显示变量间关系强[5]。

表2 d与百分等级和不重叠的百分数之间的关系
Cohen的标准效果量(Effect Size)百分等级(Percentile Standing)不重叠的百分数(Percent of Nono verlap)
2.097.781.1%
1.997.179.4%
1.694.573.1%
1.491.968.1%
1.2886
2.2%
1.08455.4%
大0.87947.4%
0.77643.0%
0.67338.2%
中0.56933.0%
0.46627.4%
0.36221.3%
小0.25814.7%
0.1547.7%
0.0500%
从表2可以看出,0.8的效果量意味着处理组的平均数位于未处理组平均数的第79个百分等级位置上;也意味着两个分布不重叠的部分为47.4% (An ES of0.8indicates that the mean of the treated g roup is at the79th percentile of the untreated group. An ES of0.8indicates a nonoverlap of47.4%in the tw o distributions.)。

尽管效果量很重要,但是我国的心理统计的教科书至今没有介绍效果量的计算方法。

本文试图做些介绍,以弥补不足。

因为效果量的指标有许多,本文只讨论比较常用的几个效果量:r2pb、η2和ω2的测定方法。

2 关于效果量的测定
2.1 d的意义及其测定
d是实验研究中经常使用的效果量数。

它是一种比率。

在对两独立组平均数之差的显著性进行t 检验时,d是实验组的平均数和对照组的平均数的差与对照组标准差的比率(见公式1)。

d=
x实验组-x对照组
s对照组
(1)
Rosenthal(1994)对345个关于实验者效应的实验结果进行元分析,使用这种效果量,总的平均效果量是0.70。

根据Cohen提出的判断效果量大小的标准,0.70>0.5,效果量为中等。

所以研究者得出
40心理学探新2003年
结论:人的期望确实影响人的行为[6]。

2.2 r 2pb 的意义及其测定
r 2pb 是点二列相关系数的平方。

计算公式是:
r 2pb
=(t )2
(t )2+df
(2) 公式2可以测定两独立样本实验的效果量,也
可以测定两相关样本实验的效果量。

不过,前者的自由度为d f =n 1+n 2-2,n 1、n 2分别是两个样本的容量;后者的自由度为d f =n -1,n 是成对分数
的数目。

如果在一个两独立样本的实验中,样本容量分别为n 1=17,n 2=15,自变量是焦虑水平,因变量是回忆成绩。

实验结果见表3。

表3 焦虑水平下两样本回忆成绩的比较
样本1样本2 x 2320n
1715s
9
7.5
根据表3求得,(t )=
22.94,p <0.05。

将值代
入公式(2),得
r 2pb =(t )2
(t )2
+df =2.94
2
2.942+30=0.22其中,df =17+15-2=30,
我们可以说焦虑水平这个自变量能够解释因变量的22%的变异量。

又如,对5名有相同心理障碍的人进行心理治疗。

治疗前后,对他们的心理障碍的程度用同一个量表进行测定;使用相关的t 检验,假设检验的结果是,t =2.88,p <0.05。

将值代入公式2,得
r 2pb
=(t )2
(t )2+df =2.8822.882+4=0.67其中,df =5-1=4,
根据0.67的效果量,我们可以说:心理治疗这
个自变量能够解释因变量的67%的变异量,自变量的效果是大的。

2.3 η2
的意义及其测定
要了解η2
(eta -squared )的意义,首先应该了解η的意义。

希腊小写字母η(读eta )是一种相关系数,它既可以表示两个变量之间直线相关的程度,又可以表示两个变量之间曲线相关的程度。

η系数的范围在0.00到1.00之间,不存在负的曲线相关。

因为直线相关可以被看成曲线相关的特殊形式,所以η2
也可以在直线相关下使用。

因此,可以用η取代皮尔逊相关系数r [7]。

它与决定系数(coefficient of determination )不同。

决定系数只是表示两个变量之间的直线关系。

假如,一组学生被试,有言语智商测验的分数和阅读成绩的分数。

两者之间的决定
系数是0.64,η2
是0.90。

在这种情况下,学生的阅读成绩分数的90%的变异量可以被学生的言语智商测验分数进行直线的或非直线的预测;学生的阅读成绩分数的64%的变异可以由学生的言语智商测验分数进行直线的预测。

因此,学生的阅读成绩分数的变异的26%(0.90~0.64)可以由非直线的预测[8]。

η2是效果量的一种。

它属于样本统计量,用来
解释样本中自变量的效果。

η2
越大,说明自变量的效果就越大,自变量对因变量越重要。

如果η2很
小,即使有统计上的显著性,也没有实际效果。

η2

广泛的用途。

这里介绍在六种研究条件下η2
的应用。

2.3.1 η2
在两独立样本t 检验中的应用
例如,在两种识记方法对回忆效果的影响的实验中,一种是机械识记,一种是意义识记。

实验结果见表4。

表4 两种识记方法对回忆效果的影响的实验结果
Source SS df Mean Square F p Eta Squared 识记方法22.5001
22.5009.000
0.017
0.529
误差20.00082.500
总和
42.500
9
根据表4使用公式3,计算η2
的值:
η2
=
SS b
SS t
(3)
η2
=SS b SS t =22.542.5
=0.529
说明识记方法能解释回忆成绩变异量的近53%。

读者还可以证明,对两独立样本实验的结果使
用η2
和使用r 2pb 获得的效果量是一样的。

2.3.2 η2在单因素方差分析(one -way ANOVA )
中的应用
假如,我们进行了一项教学法实验,自变量有三个水平;因变量是学生的学习成绩。

实验结果见表
41
第2期权朝鲁 效果量的意义及测定方法
5。

表5 单因素方差分析的结果
Source SS df Mean Square F p η2
方法529.4022
264.7015.783
0.015
0.452
误差640.8331445.774
总和
1170.235
16
根据表5,也使用公式3,计算η2
的值。

η2
=SS b SS t =529.4021170.235=0.452
根据获得的值为0.452,我们可以说,在样本范围内,教学法这个自变量可以解释学生的学习成绩约45%的变异量。

2.3.3 η2
在两因素方差分析(tw o -w ay ANOVA )中的应用
在两因素方差分析中,我们要计算三个平方和:
一是因素A 的;一是因素B 的;一是交互作用的。

所用的公式是:各自的平方和分别除以总平方和:
η2
=SS
SS t
(4)
假如,我们进行了一项识记单词的频率(A )与回忆时有无线索(B )对回忆成绩的影响的实验研究,单词的频率有三个水平,回忆分有线索和无线索两
个水平。

实验结果见表6。

表6 识记单词的频率(A )与回忆时有无线索(B )对回忆成绩的影响的实验结果
Source SS df Mean Square F p η2
线索
93.3891
93.38911.358
0.006
0.23单词频率117.444258.7227.1420.0090.28
线索×单词频率102.778251.3896.250
0.014
0.25
误差98.667128.222
总和
412.278
17
根据公式4,我们可以分别求出η2
A =SS A SS t
=117.45412.28=0.28,η2B =SS B SS t =93.39412.28=0.23,η2
A ×
B =
SS A ×B SS t =102.77412.28
=0.25意味着在回忆成绩的总变异中,有28%可以由单词频率解释;有23%可以由线索解释;有25%可以由单词频率和和回忆的线索的交互作用解释。

现在,我们可以说,在本实验中,单词频率的作用排在第一位,线索的作用排在第二位。

本例进一步说明,使用效果量可以对自变量的作用进行排序。

2.3.4 η2
在秩和检验(rank sums test )中的应用
表7 实验组对绿色信号和对照组对兰色信号的反应时间
实验组
反应时 等级对照组
 反应时 等级
53927597480189086005110510590359546056941
9∑R
17
38
假如,有两个独立组,每组5名被试,分别测量实验组对绿色信号的反应时间和对照组对兰色信号的反应时间。

实验结果见表7。

为了测定这类实验的效果量,需要先挑选一个组,算出该组的等级和。

在这里,我们选定实验组并计算该组的等级和∑R =17;然后根据公式5算出实验组期望的等级和∑R exp =27.5。

把实验组的等级和17及期望等级和27.5代入公式7,求得Z
=
-2.19。

再把Z 的值-2.19代入公式6,得η2=
0.53,是两个组样本容量的和。

因此可以说:信号的颜色可以解释反应时变异的53%。

∑R ex p =
n 1(N +1)
2
(5)Z =
∑R -∑R ex p
√(n1)(n2)(N +1)(6)
η2
=Z 2
N -1
(7)
2.3.5 η2
在单因素多独立组克-瓦H 检验(Kruskai -Wallis H test )中的应用
例如,用三种识记方法记英文单词,看识记方法是否有不同的效应,结果见表8。

42心理学探新2003年
表8 三种方法识记英文单词的效应比较
第一种
分数等级
第二种
分数等级
第三种
分数等级
99 15 86 14 75 13
120 18 22 1 42 3.5
118 17 47 6 35 2
42 3.5 51 7 56 8
63 9.5 63 9.5 70 11
72 12 46 5
110 16
∑ 91 37.5 42.5 测定这类实验的效果量使用公式8。

为了使用
公式8,先求检验统计量H[9]。

H为4.94,代入公
式8:
η2=H
N-1
(8)
η2=H
N-1=4.94
18-1
=0.29
其中,N=18为总的样本容量。

这说明识记的变异的29%可由识记方法来解释。

2.3.6 η2在单因素多相关组弗氏χ2检验(Fried-manχ2test)中的应用
例如,7名教师给甲、乙、丙三个学校的校风排等级,结果见表9。

表9 7名教师评价三所学校校风的等级排列
教师甲乙丙
1123
2123
321
4123
5123
6123
7123
∑81519
把表9的结果代入求χ2的公式[10],然后把χ2 =8.86的值代入公式9:
η2=
χ2
(N)(K)-1
(9)
η2=χ2
(N)(K)-1=8.86
7×3-1
=0.443
我们可以说,学校类型这个变量能解释等级变异的44.3%。

2.4 ω2的意义和测定
我们在前面研究讲过,η2是解释样本的自变量和因变量关联程度的指标,它属于描述统计量;而ω2(omega squared)是解释总体的自变量和因变量关联程度的指标,属于参量。

事实上,每一个η2都有一个对应的ω2。

在一般情况下,只要计算η2就足够了。

如果对单因素多独立组实验总体的自变量的效果量进行估计,可以使用公式10:
ω2=
SS b-df b×MS W
SS t+M S W
(10)
我们可以根据表5的数据计算,ω2= SS b-df b×MS W
SS t+MS W
=529.402-2×45.774
1170.235+45.774
=0.37
根据获得的ω2值为0.37,我们可以说,在总体上,教学方法这个自变量可以解释学习成绩的37%的变异量。

根据Cohen的标准,我们的ω2=0.37= 37%>16%,说明教师的教学法与学生的学习成绩之间有强的关系。

3 增加效果量的措施及对效果量研究的评价
3.1 增加效果量的措施
须知,在研究设计中,要想办法尽量提高统计检验能力(pow er of statistics test)。

但是影响统计检验能力的因素除了有统计检验方法、设定的显著性水平和样本大小以外,效果量是一个不可忽视的因素。

效果量是与实验设计有关的。

研究表明,在实验中出现的误差越大,效果量越小。

要增加效果量,就要进一步搞好研究设计,减少抽样误差、测量误差、操纵本身出现的误差等等。

3.2 对效果量研究的评价
从现有的资料来看,效果量的使用已经有30多年的历史。

尽管它的使用没有统计显著性检验那样普遍,但是,它的重要性日益被心理学界所接受。

由于使用了效果量,对心理学研究的价值的评价又有了一个比较客观的标准,进一步改变了有些人“只要具有统计的显著性就是研究成功”、“没有统计上的显著性研究就没有意义”等偏见。

不过,我们还应该看到,效果量的应用特别是在我国还很少,对效果量大小的评价还不规范。

例如,在对两个独立组的平均数之差进行t检验后,有的提出用r pb做效果量,有的提出用r2pb做效果量,还有的提出用■和d做
43
第2期权朝鲁 效果量的意义及测定方法
效果量。

这就容易使得人们无所适从。

因此,我们应该加强对效果量标准化的研究,使之更好地为心理学的科学研究服务。

参考文献
[1] Shaug hnessy J J,Zechmeister E B.Research M ethods in
Psy chology[M].T he M cG raw-Hill Companies,Inc.
1997.228-229.
[2] Cohen J A.Power Primer[M].Psychology Bulletin,
1992.112,155-159.Leong F T L,A ustin J T.T he
Psychology Research Handbook[M].Sage Publications,
Inc.1996.210-219.
[3] Chow S L.Significance test or effect size[M].Psy cholo-
gy Bulle tin,1988.103,105-110.
[4] Heiman G ary W.Basic Statistics for the Behavioral Sci-
ences[M].T hird Editio n,Houghton M ifflin Co mpany,
2000.331-332.
[5] Cohen J.Statistical power and analysis for the behavioral
sciences[M].Second ditio n,Hillsdalee,N J:Erlbaum,
1988.
[6] Rosenthal R.Interpersonal expectancy effects:A30-
year perspective[J].Current Directions in Psy chological
Science,1994b,(5):127-134.
[7] V ockell E cational Research[M].M acmillan Pub-
lishing Co.Inc.1983.210-213.
[8] Jaeger Richard M.Statistics[M].Second Edition,Sage
Publications,Inc.1993.71.
[9] Snodg rass J G,Levy-Berger G,Hay don M.Human
Ex perimental P sycholog y[M].O xford U niversity P ress,
1985.395.
[10] 张厚粲.心理与教育统计学[M].北京:北京师范大学
出版社,1993.423.
Significance of Stu dy of the Size of Effect and its Testing Methods
Quan Chaolu
(School of Education Science,Shandong T eachers'University,Jinan250014)
A bstract:In the paper the autho r ex plains the meanings of the size of an effect in psy chological research and the standard to evaluate it,especially the methods to test such the size of an effect as d,r2pb,η2andω2.Finally the author puts forwards some measures to raise the size of effect and make some comments on the study of the size of an effect.
Key words:the size of an effect;d;r2pb;η2;ω2
(上接25页)
A Stu dy on the Effects of the Definition of
the Text Structure on Text Revision
Huang Jiehua1,M o Lei2
(1.Shantou U niversity,Shantou515063;2.South China Normal University,Guangzhou510631)
A bstract:T his study w as designed to investigate the effects of the definition of the text structure on tex t revision.Students in grade two from senior middle school,identified as hig h-ability and low-ability writer s,respectively revised tex ts w ith or without o rganiza-tio nal sig nals.T he results indicated there was sig nificantly level difference on the quality of tex t revision.T ex t with org anizational sig-nals co ntributed to reviser's constructing the g lobal model of the tex t during recising process,therefore facilitating meaning erro rs re-vising.T he effects of the definition of the tex t structure on tex t revision are due to their effects on the division of w orking memory re-source.
Key words:tex t revision;tex t organizational signals;working memo ry resource;surface error;meaning error 44心理学探新2003年。

相关文档
最新文档