评分者内部一致性的研究和应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

评分者内部一致性的研究和应用

徐晓锋Ξ1 刘 勇2

(1中央司法警官学院,保定,071000)(2华南师范大学心理应用研究中心,广州,510631)

摘 要 在行为科学的研究和实践中,研究者常常需要将个体层次的评价,整合到群体层次的评价,对于这种自下而上整合模式的一致性问题,国内一些学者常常错误地使用评分者内部信度作为评分者内部一致性的指标。评分者内部一致性和评分者内部信度不仅在理论基础上存在差异,而且在实践中也存在前者很高(或很低),而后者却很低(或很高)的不一致情况。文章阐述了学术界对评分一致性这一问题的提出、争论和取得一致观点的发展脉络,以期学者们对这一问题能够有深入的思索,避免在今后的研究中出现类似的错误。

关键词:评分者内部一致性 评分者内部一致性信度 区别

1 问题的提出

在行为科学的理论和实践中,许多情况下都需要一组成

员对某个特定对象进行评定,如面试、无领导小组讨论中考官依据BARS (Behaviorally Anchored Rating Scale )对候选人胜任情况的评定;某个学术期刊编辑委员会对一个所投稿件录用可能性的评定等等。当K 个评判者都对某一对象进行评定,而这一对象可能是一个单一的变量,或所测量的同一结构的一系列的J 个条目,这种情况下采用一种科学的、能够衡量评判者一致性的指标对测量结果的评价是非常重要的。

在国内心理学的研究和实践中,一些学者使用评分者内部信度来代替评分者内部一致性,甚至还存在将二者完全等同的情况,例如存在“对评分者一致性即评价中心的信度作

出研究”[1]、或“评分者信度(评分者一致性)”[2]

的错误说法,这种不加区别的使用,常常使结果的解释存在许多值得商榷的地方,同时也混淆了对评分一致性的认识。

在心理学的历史上,关于评分一致性和评分者信度的认识问题有很长时间的讨论,本文通过介绍学术界对评分一致性这一问题的认识、争论和发展的情况,试图澄清对评分者内部一致性和评分者信度概念认识的误区,以期在今后的研究中减少误用的情况。

2 评分一致性研究的历史发展

在行为科学的研究中,研究一组评定者评分的汇聚性问

题,在心理测量中有很长的研究历史。一些研究者使用百分比或比例的一致性作为指标,但把评定选项视为顺序变量还是等距变量,离散变量还是连续变量,会导致不同评定者分数能否进行数学加减运算的区别;另外,它也不能解释偶然存在的一致性(chance agreement )情况。还有一些研究者使用肯德尔和谐系数作为对一致性研究的指标,这种方法只有在将评定选项视为顺序变量时才能应用,而且计算方法较为粗略。

为了克服以往计算指标的缺陷,寻找更加科学的计算方法,James 等(1984)在《Journal of Applied Psychology 》上发表的文章中提出了r wg 的概念[3],认为组内一致性(within —

group agreement )评定的是来自个体共同变异(interchangement )程度,并对其理论基础进行了阐述,深化了

对上述问题的认识。

但对的认识问题学术界也经历了长达十余年的讨论过程。James 等(1984)认为是一个组内评分者信度(within -group interrater reliability )的指数,从而将评分者信度(interrater reliability )和评分者内部一致性(interrater agreement )问题相混淆。K ozlowski 和Hattrup (1992)澄清了对上述问题的一些错误认识[4],他们认为James 等(1984)提出的概念一直是按照一致性指数加以推导和定义的,实际上计算的是评分者内部一致性问题,而却用评分者信度的名称来代表r wg ,这导致了在研究文献中对信度和评分一致性认识的混淆。James 、Demaree 和Wolf (1993)在重新讨论问题的时候,认为K ozlowski 和Hattrup (1992)提出的观点,即关于是评分一致性的测量指标,而非评分者信度指标的观点是正确的,同时也改正了自己过去认为是测量评分者信度(interrater reliability )计算方法的错误认识[5]。此后,学者们逐渐接纳将看作是计算评分者一致性(interrater agreement )指标的观点[6-8]。目前在组织行为文献中,最常使用的组内评分者一致性的指标是r wg 或r wg (j ),分别用于评价一个单一条目(single items )和多条目变量(multiple —item scales )的一致性。

3 评分一致性研究的理论基础

Finn (1970)[9]以及James (1982)[10]认为总体变异划分为真变异和随机测量误差变异,这种观点的理论基础是经典的心理测量模型。后来,James 等(1984,1993)修正了他们在

1982年的看法,提出了与经典心理测量模型不同的观点,从

而对一致性研究产生了较大的影响。他们认为,从数学角度而言,评定者内部一致性是一系列判断的系统变异与总体变异的比例。总体变异由两部分组成,第一部分是由随机测量误差产生的变异,如心境的波动和动机的偶然变化、暂时性的注意分散、不可控的条件(如噪音)、疾病、疲劳、情绪紧张或偶然变化等非系统性因素构成;第二部分是系统变异,由真变异和反映一组评定者的共同反应偏差的系统误差变异

Ξ通讯作者:徐晓锋:男。E 2mail :xuxiaofeng5087@

心理科学 Psychological Science 2007,30(5):1175-11781175

组成。共同反应偏差导致了评定者一致性中系统变异的增大,如评定者都存在社会称许性反应倾向,那么评分者间的高一致性很可能反映了偏见,而非评定者真正意义上准确判断的一致性。这表明对评分者内部一致性的估计,不仅应当包括在一系列判断中系统变异在总体变异中所占比例的评价,而且应当包括对系统变异中的反应偏见部分的影响进行控制。

3.1 评分者一致性和评分者信度的区别

信度(reliability)和一致性(agreement)不仅基于完全不同的理论基础,而且在概念和数学计算上也存在区别。第一,理论基础不同,在经典测量理论中,“总变异=真变异(内含反应偏差变异)+随机测量误差变异”,信度以经典测量理论为基础,是一组测量分数的真变异数(内含系统变异,如反应偏见)与总变异数的比率;而James等(1984)等提出的方法并不遵循传统的经典测量理论,他们认为“总变异=系统变异(真变异+评定者共同反应偏见的系统偏差变异)+随机测量误差变异”,一致性等于一组测量分数的系统变异数(由真变异数和评分者的共同反应偏见构成)与总变异数的比率。第二,信度和一致性定义中同用真变异数这一名称,但含义不同。按照经典测量理论,真变异数由有效变异和与测量目标无关而稳定的系统误差变异组成,而在James等提出的理论中,真变异数和评定者共同反应偏见的系统偏差变异都被视为是系统变异的组成部分。第三,评定指标不同,在存在不同组的情况下,信度依赖于不同组间的变异,是不同组间评定者之间变异的指标,ICC(intraclass correlation coefficients)是计算评分者信度的最常见的指数[11];而一致性不考虑不同组间的变异,仅考虑每一独立组内部评定者之间的共同变异部分(interchangeability),它表明组内评定者对同一对象作出评定的实际一致性程度,是计算评分者一致性的指数。第四,评分者信度和评分者内部一致性的变动方向并不总是保持一致。例如,Tinsley和Weiss(1975)[12]研究发现,当评定者之间没有任何一致性时,也可能产生较高的评分者信度;而在评定者之间一致性很高时,也能出现评分者信度很低的情况。例如,评定者A在五点量表上选择的是1、2、3,评定者B在量表上选择的是3、4、5,那么评定者A选择的3相当于评定者B选择的5。这种情况下,由于反应成比例的增加,虽然一致性很低,但是信度却很高。

因此,选择使用评分者信度还是评分者内部一致性,要根据研究目的来确定,对信度和一致性认识的混淆,使许多研究结果的解释会陷入困惑。

3.2 James等(1984)对评分一致性的研究

James等(1984)假设认为,对于一个离散选项的反应量表存在观察变异和期望变异(其中E代表期望的含义,U代表假设评判结果为均匀的矩形分布,如评判者在五点量表的五个点上选择率分别为20%),因此对于IRA(interrater agreement)的估计可以由下面的公式推导出来:

对于一个条目x j的观察分数,定义为x jk(K等于判断1, 2…,K),可以得到公式:x jk=μj+( x j-μj)+e jk其中μj,是条目的总体均数(真分数), x j是样本平均数,并且e jk是测量的随机误差。

由于x jk某种程度上是μj的实际反映,因此非误差或真变异,等于t2EV-S2xj。对于一个IRA的估计,可以由在方程中加入变异估计来完成:真变异/(真变异+误差变异),或(t2EV-S2xj)/[(t2EV-S2xj)+S2xj]=(t2EV-S2xj)/t2EV

3.3 James等(1993)对评分一致性的进一步研究

假设S2x是对评定对象x的观察变异,例如x代表多位编辑对一篇文章发表可能性的判断。在判断者意见完全一致时,S2x=0。然而,由于可能产生测量的误差,这使得评判者之间可能存在缺乏一致性的情况,并使得S2x>0,由于仅仅来源于误差的变异,它被称之为误差变异(error variance)。

为了发展出对于评判者之间一致性的估计的统计方法,首先需要找出比较S2X的标准(benchmark),因为S2X>0,反应了与完全一致的偏离,即没有达到完全的一致。James等选用了一个标准,来反映的期望值,在评判者由于完全的随机测量误差的条件下,这个期望的变异被称之为t2E,他们按照1984年曾经采用的一个离散的、均匀分布的状况来决定t2E (以前采用的是t2EV)的方程。然而,r wg统计并不只是建立在矩形分布,即使用t2EV条件基础上。因此,James等用一般的t2EV的术语来表示评判结果的随机反应,而不考虑分布的形式如何。t2EV的重要意义在于它是将反应完全归因到随机测量误差的理论标准。

James等研究的评定一致性问题类似于随机反应理论中和标准的比较。这种一致性的评价与总变异中的“误差变异的降低”(reduction in error variance)有关,而误差变异的降低指的是观察误差变异(S2X)在t2EV中变异的减少程度,可以通过t2E和S2X的差异来估计,即t2E—S2X。

现在转变计算的方法,以减少误差变异,使其差异的变化范围介于0到t2E之间。James(1993)将实际的误差变异的减少来除以总变异得到公式:r wg=(t2E-S2X)/=1-(S2X/t2E)其中被称为评定者内部一致性指数(interrater agreement index),是误差变异的降低比例。这个方程与1984年James 等提出的r wg的计算方法是一致的。

4 评分者内部一致性的计算

4.1 对单一对象的计算

假设10位评判者采用五点、七点和九点方式计分,可以计算出他们之间的一致性(见表1):对于A=5组的10个判断,分布是均匀的,因此我们期望r WG(1)将接近0,事实上也是这样,r WG(1)=1-(1.73/2)=0.13。对于A=7组,判断集中于量表的上端,显示出更高的评定者内部信度,在这种情况下,r WG(1)=0.94。对于A=9组,判断结果集中在9点量表的理论中点,这同样显示出一个高的内部评定者信度,r WG(1) =0.92。

4.2 对多条目的r wg计算

对于判断的平均分数的IRA估计是基于如下的假设:即J个条目(J等于1……J)是实质上完全平行的同一结构的指标。这意味着在条目构成的范围内,变异和协变异是几乎完全相同的。考虑到这些假设,在判断均数的IRA的估计中,将斯皮尔曼—布朗公式应用到r WG(1)=1-(S2xj/t2EU)(Finn, 1970;James等1981)中,James等推导出最直接的计算公式如

下:r WG(1)=

J[1-(S2xj/σ2EU)]

J[1-(S2xj/σ2EU)]+S2xj/σ2EU)

1176

 心 理 科 学

相关文档
最新文档