心理测量学第三章信度
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章信度
心理测验就是对某些心理特质的个别差异进行测量的工具,对心理特质的测量与对物理属性,如物体长度和重量等的测量是一样的。
不同的是心理测量所测量的是抽象的心理特质,工具是心理测验,而物理测量的对象则是物体的重量和长度等特性,工具是尺子和天平。
心理测量与物理测量的另一个共同点是二者都难以避免误差的影响。
在对物体的长度进行测量时,物体的热胀冷缩,测量者读取刻度的准确性等因素都会使测量出的长度与物体的实际长度不符,在不同时间、地点的测量值会有出入。
就是说,在不同情景下测量结果是不稳定的,与测量情景和测量条件有关的误差称随机误差(random error)。
由于这一误差是由测量过程造成的,因此也称测量误差(measurement error)。
另一方面,使用一把尺子对物体的长度进行测量时,这把尺子本身的质量也可能造成误差。
如果一把尺子本身就是有问题的,测量出的物体的长度自然就不准确。
这类误差与测量情景引进的误差不同,只要在测量时使用这把尺子,误差就会恒定地存在,无法消除。
这类由测量工具本身造成的误差称为系统误差(system error)。
对心理的测量与对物理的测量一样,也同样存在这两类误差。
与这两类误差相对应,心理测验中引入了信度和效度的概念。
信度研究涉及了测验分数的可靠性和稳定性,也即如何控制和减少随机误差。
效度研究则涉及了测量的系统误差,也即如何提高测量工具本身的准确性。
第一节经典测验理论的信度观
教育与心理测验的目的是将个体的心理特质数量化,从而更精确地研究心理的个别差异。
在廿世纪初心理测量实践的推动下,测验理论产生了。
经过几十年的发展,到廿世纪五十年代初,教育与心理测验理论对测验的构建、误差的控制、测验结果的统计分析及解释等问题已形成一个完整的理论体系。
为与以后产生的项目反应理论和概化理论相区别,人们习惯上将这一理论体系被称为经典测验理论(Classical Test Theory,简称CTT)。
信度(reliability )也称可靠性,测验分数的信度是指测验结果的一致性和稳定性程度。
即测验分数不随时间、地点等因素的变化而变化。
信度与效度一样,是衡量测验整体质量的重要指标。
要搞清信度的概念,必须了解经典测验理论中有关真分数、测验误差等的一系列假设。
一、真分数与测量误差
测验的结果是以分数表示的,但是一个人在同一测验上的分数并不是稳定的,测验环境的熟悉与陌生、安静与嘈杂、主试的和蔼与严厉、以及被试是过度焦虑还是缺乏动机,以及机体和情绪状态等因素都会影响测验分数,此外,被试的粗心、抄袭等因素也会使测验出现虚假的高分和低分。
以上所说的影响测验分数的因素被称为测验误差,误差的存在使得一个被试的测验实得分数偏离他应得的真实分数。
心理测量学家的任务之一就是降低测验误差,使测验分数接近被试的真实分数。
对一个测验而言,如果被试的实得分数反映了他们的真实分数,我们就说这个测验结果可靠、客观,这次测验的信度就高。
因此,测验信度也可理解为被试的真实分数与其实得分数的差距。
前面说的真实分数,心理和教育测量学上称真分数(true score),真分数指无数次测量的平均值。
即一个被试在许多(理论上指无限多的)平行测验上得分的平均值或具备某一个能力或其他心理特质水平的许多被试在同一测验上得分的平均值。
知道被试的真分数后,我们就可以用所有被试真分数与测验分数的比值的平均数来表示测验的信度。
然而事实上,真分数是无法求得的,它只是一个理想概念,我们不能对同一被试反复多次测量,因为多次测量后被试会由于练习或疲劳效应而出现额外的误差;同样,找到能力水平完全相同的被试也只是理论上的可能。
我们无法知道一个被试的真分数,也就无法知道实得分数与真分数的偏离程度,因此就不能计算测验的信度。
为解决这一问题,心理测验理论对实得分数、真分数、测验误差做出了理论上的假定,推导出了信度的估计方法,由此构建起了经典测验理论的大厦。
二、经典测绘理论的基本理论假设
(一)实得分数、真分数及测验误差的关系
经典测验理论又称真分数理论,它对实得分数、真分数及测验误差的关系进行了一系列的理论假设。
CTT 将真分数定义为被试在无数个平行形式的测验上得分的平均值(或期望值)。
平行形式的测验可以是测验的多个等值复本,也可以是一个测验在不同条件下多次施测。
经典测验理论对实得分数、真分数和测验误差有如下假定:
1.实得分数与真分数存在线性关系。
这种线性关系可以用一个简单的公式表达出来,即
X=T+E (3-1)
式中X表示实得分数或观测分数,即某被试在一个测验形式上的得分;T表示真分数;E表示测验误差,即在测验某一具体形式上产生的随机误差。
公式中的T 、E 是无法得到的,因此上式仅仅是一个表示真分数与实得分数间关系的数学模型。
2.测验误差的期望为零(或误差的平均数为0)。
即
E (E )=0 (3-2)
上式可以是对一个被试而言的,也可以是对一组被试而言的,对一组被试,其测验误差的和为0,平均数也为0。
这一性质是非常实用的。
由(3-1)和(3-2)可以推论出
X T = (3-3)
即一组被试真分数的与实得分数的平均数相等。
3.误差与真分数独立。
E是测验中产生的随机误差,只与偶然因素有关,而与真分数T 的大小无关,也就是说,测验误差并不随被试能力或心理特质水平的变化而出现有规律的变化,即真分数与误差分数的相关系数为0。
用r TE 表示被试真分数与误差分数的相关系数,则有:
r TE =0 (3-4)
上式也可表示为真分数与误差的协方差为0,即Cov (T ,E )=0。
4.实得分数方差等于真分数方差与随机误差方差之和。
若以S2X 表示实得分数方差,以 S2T 表示真分数的方差,以S2E 表示误差方差,则有
E S T S X S 222+= (3-5)
式(3-5)是由(3-1)、(3-2)、(3-3)、(3-4)式推导出的。
由(3-4)式知r TE =0,故协方差Cov (T ,E )=0。
⎽ ⎽
若记 t=T - T ,e=E- E
则有∑(t )(e )=0(参见有关的统计学课本)
⎽
又 ∵E =0
∴E =e
∴∑tE=0
所以
N T E T N X E T N X X X S 2222)()()(∑∑∑-+=-+=-=
E S T S N e t N E tE t N
E t 222
2222)2)(+=∑+∑=∑+∑+∑=+=
∑ (3-6)
(二)平行测验的假定与测验信度
由于实得分数的方差可分解为真分数的方差和随机误差方差之和,因此从可操作的角度上,信度可定义为一组被试的真分数方差与其实得分数方差的比。
也即真分数的变异在实得分数的变异中所占的比重。
或实得分数的变异在多大程度上是由真分数的变异引起的。
这一定义是不难理解的,因为当真分数的变异在实得分数中的变异大时,就说明真分数对实得分数的影响大,相应误差的影响就低,也就是说,真分数方差对实得分数方差的贡献大,当实得分数变异可以全部由真分数的变异解释时,测验误差就是0,这时测验的信度为1。
若用XX r 表示测验的信度,则有
X S T S r XX
22= (3-7) 或
X
S E S r XX 221-= (3-8)
但是,在实践中我们是无法知道被试真分数的方差,上式只是给出了信度的定义,不能用来计算测验信度。
因此经典测验理论又做出了平行测验的假定。
经典测验理论假定严格意义上的平行测验是存在的。
平行测验指两个测验内容相似,测验长度、平均分、难度、标准差均相同的测量同一特质的两个测验形式。
对参加两个平行测验的每一被试者,其真分数相同(T 1=T 2),误差分的条件方差相同。
且
Cov (E 1,E 2)=0 (3-9)
Cov (E 1,T 2)=0 (3-10)
Cov (E 2,T 1)=0 (3-11)
有了这些假设,我们就可以讨论两个平行测验间实得分数(X1和X2)的相关系数与测验信度的关系。
用X 1i 、X 2i ,T 1i 、T 2i ,E 1i 、E 2i 分别表示被试i在平行测验1和2 上的实得分数、真分数和误差分数,根据平行测验的定义有:
i i i i t T T T T t 222111=-=-=
且
0211221===∑∑∑i i i i i i E E E t E t
所以
21221121))((X X i i x x S NS X X X X r ∑--=
21222111)
)((X X i i i i S NS X E T X E T ∑-+-+=
21222111))((X X i i i i S NS T E T T E T ∑-+-+=
2
12211))((X X i i i i S NS E t E t ∑++=
2
121122121X X i i i i i i i
i S NS E E E t E t t t ∑+∑+∑+∑= X NS t 22∑=X
S T S 22∑= (3—12) (3-13)式证明了一个至关重要的结论,即一个测验两个平行形式之间的相关系数就是该测验的信度,实践中我们可以通过构建平行测验来计算测验的信度。
至此,心理测验学完成了其对测验信度的理论假设和推导,构建了一个较完整的理论体系,
第二节 信度系数的计算方法
经典测验理论证明了一个至关重要的结论,即一个测验的两种平行形式之间的相关系数就是该测验的信度。
这一结论为测验信度的实际计算提供了理论依据。
从这一结论出发人们找到了平行测验的各种替代形式,相应地也推导出了各种计算信度系数的替代性方法。
这些替代性方法中常用的有重测法、复本法、分半法和计算内部一致性系数法等。
一、 稳定性系数(coefficient of stability )
稳定性系数的计算方法是,用同一量表在不同时间内对同一组被试先后施测两次,计算两次测验得分的积差相关系数,即为稳定性系数,表示的是测验结果的稳定性。
这种方法又称重测法,所得的信度系数又称为重测信度(test-retest reliability )。
重测法的模式是:
适当时间
施测————再施测
重测时间间隔可以是几分钟,也要可以是几年,但一般不超过6 个月。
计算重测信度的原理是对平行测验的假定,即认为在不同时间施测的同一测验是平行的,其真分数相同,实得分数和误差的方差也相同。
但这一假定从严格意义上讲是难以成立的。
因为重测时被试的心理特质会发生变化,导致真分数变异,练习和疲劳效应会使重测时的测验结果出现变异。
在测验手册上报告的重测信度,一般要注明被试样本的性质、大小,及间隔多长时间所测得的信度系数,以便使用者了解样本及时间因素对测验稳定性的影响。
计算重测信度时应注意两方面的问题:
1.所欲测量的心理特质是否稳定。
所测的如果是人格、智力、兴趣等心理特质,则可以使用重测法,而知识、情绪等不稳定的心理特质使用重测法时必须慎重。
2.重测结果要尽量减少练习或遗忘因素的影响。
智力测验的时间间隔不能太短,成就测验则不能间隔太长,既不能让被试记住上一次的测验内容,又不能使其特质发生变化,或对所学知识产生遗忘。
因此要有适当的时间间隔。
如使用年龄小的被试样本时,测验间隔就要小些,年龄大的被试则可以长些。
二、 等值性系数
复本即编制测验时形成的两个平行测验。
两个复本施测于同一被试样本所得测验分数的积差相关系数,即为等值性系数(coefficient of equivalence ),或称复本信度(alternate form reliability )。
复本法的模式是:
最短时间
复本A ————复本B
一般的标准化测验都有复本,原则上讲,所有的心理测验都可以使用复本法计算信度,适用范围较广泛,一般而言,成就测验、特殊能力测验较容易制作复本,这是因为从所有测题中选择出等值的测题样本并不太困难,但对一些不易测量的特质,如人格、动机等,则不易找到等值的测题,因而不容易制作复本。
但等值性系数也有缺点:如被试易出现疲劳、失去积极性等反应,还会出现迁移。
这称为顺序效应,为抵消顺序效应,可随机分配一半被试先做复本A 后做复本B ,另一半先做B 再做A ,以平衡顺序效应。
三、等值稳定性系数(coefficient of stability and equivalence )
等值性系数易出现练习和疲劳效应,稳定性系数的局限是受所测心理特性的稳定程度的影响,为克服这个缺点,我们可以使用一个测验等值的两个复本,间隔适当时间施测于同一组被试。
这一方法所得相关系数称为等值稳定系数。
其模式是:
适当时间
复本A ————复本B
同复本法和重测法相比,等值稳定系数有以下特点:1、因两次测试有适当的时间间隔,减少了复本法中的练习、疲劳效应。
2、如果时间间隔适当,可用于计算稳定性不高的心理特质的测验的信度,克服了稳定性系数的局限。
比如对知识的测量,如果被试对复本A 的记忆对复本B 的影响小,时间间隔就可小些,避免了被试对知识的过多遗忘。
等值稳定性信度系数的应用也较广。
但应注意,等值稳定性信度系数的取值一般比重测信度和复本信度低,因为计算两复本间的相关时,时间因素引起的所欲测量的特质的变化及试题取样的不同都会影响两次测验分数的一致性。
因此,等值稳定性系数是对测验信度最严格的考察,得到的是信度系数的下限。
四、分半信度(split-half reliability )
前面讲述的三种计算信度的方法的共同点是需要两次测量,因而不可避免地出现一些问题,如时间因素对两次测验分数一致性的影响,被试容易出现练习和疲劳效应,及失去兴趣等,且在组织被试时也会有很多不便。
为此可通过计算分半信度来克服以上问题。
分半信度就是将测验题目分成等值的两半,分别求出两半题目的总分,再计算两部分总分的相关系数。
分半法实际上是一种特殊的复本法。
分半的方法很多,一般是将奇数题和偶数题各分为一半,而非前后分半,目的是避免顺序效应。
分半后再计算一组被试两半题目各自得分和的相关系数,使用分半信度要注意两点问题:一是测验题目所测的是同一种心理特质。
二是两半题目是等值的,即平行的。
分半以后,我们实际上计算的是测验的一半题目的信度,而非整个测验的信度,也就是说,我们把一个完整的测验分成了两个等值的复本,所计算的只是其中一个复本的信度。
这就造成了对整个测验的信度的低估,因为信度会随着测验长度的增加而提高。
要得到整个测验信度的估计,必须对分半相关系数进行校正,其校正公式为斯皮尔曼—布朗公式:
2
121)1(1x x x x XX nr n nr r -+=
(3-13)
其中r xx 为分半信度,r x1x2表示两半题目各自得分和之相关,n 为原测验相当于变化后测验长度的倍数,计算分半信度时n=2。
斯—布公式是一个经验公式,它要求前后两半题目有相同的变异(方差),方差不同时,则会高
估信度系数。
为克服这一限制,心理学家又发明了其他计算分半信度的公式。
常用的有卢龙(Rulon ,1939)公式和弗朗那根(Flanagan ,1941)公式。
卢龙公式可表示为:
r xx =1- x
S d S 22 (3-14)
S 2d 是两半题目总分差的方差,相当于信度公式中误差的方差。
测验奇偶两半题目的总分之差的方差越小,说明测验分数受偶然因素的影响越小,信度就高。
弗朗那根公式可表示为:
r xx = 2(1- x
S S S x x 22212-) (3-15)
式中S 2x1和S 2x2为两半题目得分和的方差。
应该注意的是,卢龙公式和弗朗那概公式的计算结果
是一致的。
五、同质性信度
同质性指测验的所有测题测量的是同一种心理特质,表现为各题得分之间有较高的相关,相关越高则同质性越强。
人的心理特质,如人格、智力等大都是多维度的,因此整个测验就不可能是同质的,如果按维度的不同将测验分成几个分测验构成的分测验,则每个分测验就都是同质的。
分半信度是一种同质性信度,计算的奇偶两半题目得分的一致性,是以测验题目同质为前提的。
但是,奇偶分半法并非唯一的一种分半法,而应该有n n C 2
种,不同的分半法计算出的分半信度也不一致,难以保证哪一个是测验的真正信度。
而如果我们想计算各种分半法所得信度的平均值时,又显得过于繁琐。
如一个含有20个题目的测验,就要计算2010C =92378个信度系数。
因此人们提出了其他更有效的方法。
1.库德-理查森公式法
库德-理查森公式是常用的计算两级计分测验同质性信度的公式。
其中最有代表性的是库德-理查森的20号公式(KR 20)和21号公式(KR 21)。
它们被认为计算的是所有可能的分半信度的平均数。
KR20的计算公式为: )1(121
20X n
i i i KR S q p n n r ∑=--= (3-16) 式中n 为题数,S 2x 为被试总分的方差,p i 为通过i 题(得1分)的被试占总人数的比例,q i =1-p i ,即未通过的比例。
∑=n i i i
q p 1表示测验题目的通过比例和未通过比例的积的和。
KR 20公式中的P i 表示答对该题的比例,可视为该题的难度,当所有题目的难度相近时,可使用更为简便的21号公式:
X X KR S n X n X nS r 22
21)1()(---= (3-17) 2. 克龙巴赫的α系数
库德-理查森公式适用于两级记分的测验,而对多级记分的测验,则使用克龙巴赫的α系数,其公式为:
)1(121
2X n i i
S S n n ∑=--=α (3-18) 其中n 表示题目数。
S 2i 为每一题目的方差,S 2x 为总分方差。
α系数也适用于两级记分的情况,测验分数是两级记分时,用α系数和库德--理查森公式所得结果一样,可见库德--理查森公式是α系数的一个特例。
克龙巴赫的α系数因适用性强而被测验编制者广为应用,但α系数在应用上不是没有问题的。
不少研究者发现,α系数并不能作为测验同质性的指标,高α系数不一定表明测验是单维度的,多维度的测验计算出的α系数值有可能高于单维度测验(候杰泰,1995,吴瑞屯,1996)。
吴瑞屯(1996)的模拟研究表明,增加测验的项目数会使测验的α系数明显地提高。
例如,当项目数为20而项目间的相关仅为0.1时,α系数也能达到0.70以上。
如此低的项目间相关很难说明测验是同质的。
因此α系数高并不表示测验的信度高。
另外α系数的应用条件也是较严格的,在项目方差不同的情况下,α系数只是信度估计的下限。
六、评分者信度(scorer reliability )
客观性测验中,不存在评分者之者评分不一致的情况,因此无需计算评分者信度,而在涉及主观性题目的测验中,评分者的不同会造成测验评分的差异而导致评分误差,是测验误差的来源之一。
因此要计算评分者信度。
教育测验中的作文考试就是典型的主观性测题,高考作文的评分在不同评分者中会有很大差异,即存在评分者信度的问题。
而在一些投射性测验(如TAT 和罗夏测验)中,评分者信度是测验信度的重要评价指标。
当评分者为两人(或一个人两次评分)时,可采用相关系数的方法,计算在某个题目上两次评分的相关系数作为评分者信度系数。
如果是多个评分者或一个人两次以上的评分,可采用肯德尔和谐系数。
评分者信度高仅仅是测验信度高的必要条件,而非充分条件。
七、各种信度系数的比较
各种信度系数及其误差的来源见表3.1。
从表3.1中可看出影响信度系数的各方面误差。
由于误差来源的不同,即使同一个测验用不同方法所计算的信度系数也会有很大不同,各系数间也不具有可比性。
这种不一致似乎表明没有一种指标能代表测验的真正信度,这也正体现了经典测验理论的局限性。
因此在涉及测验信度的研究中,要分别报告不同方法计算出的信度值。
表3.1 与信度系数有关的误差方差来源
信度系数类型
误差方差来源 重测信度
时间抽样 复本信度
内容抽样 等值稳定系数
时间和内容抽样 分半信度
内容抽样 库德-理查森系数和α系数
内容抽样和内容异质性 评分者信度 评分者之间的差异
第三节 信度的作用与影响因素
一、信度的意义与作用
测验结果信度的信息有两方面的作用,一是用于评价测验质量,一是用于解释测验分数。
1.评价测验
信度表示真分数变异在实得分数变异中所占的比重,信度越高,说明测验所得分数越接近被试的真实分数,分数就可靠。
因此要求信度越高越好,理想状态下为1.00,但实际上达不到这一标准。
测
验的信度会随着测验种类、测验情境的不同而不同。
一般能力和成就测验的信度系数通常在0.90以上,人格和兴趣测验在0.80-0.85之间。
测验的目的不同,对信度的要求也不同。
一般认为信度系数高于0.85时,可对个人进行诊断、鉴别、解释,也可以进行团体比较;当信度位于0.70和0.85之间时,只能进行团体比较,信度<0.70时,不能评价个人,也不能进行团体比较。
但这些不能作为绝对的取舍标准,有些信度不高的测验却可能是非常有用的。
必须重申,我们讨论的信度一般指的是某次测验结果的信度,利用不同的被试,在不同时间和地点测验可能会有不同的信度,因此不能根据一两次测验的结果否定一个测验的价值。
2.解释分数
(1)解释个人分数
实际测量中我们往往希望通过一次测验结果来了解被试的真分数。
因为有测量误差存在,所以我们不能把实得分数当成真分数,而只能根据已有信息对其进行估计。
推论统计告诉我们,对总体参数进行点估计是不准确的,错误的概率非常大。
而如果通过区间估计的方法估计出总体参数的置信区间,则能将预测误差控制在较低的水平。
真分数是无数次测量的平均值,所以可看作总体参数,而一次测量的结果就可看作样本统计量,这样估计真分数的问题就变成了估计总体参数的问题。
利用实得分数估计被试真分数时,就应采取区间估计的方法。
如果S E为无数次测量误差(E=X-T)的标准差,即测验的标准误的话,则真分数95%的置信区间为(X±1.96 S E)。
但S E如何求出呢?我们知道,在经典测验理论中S E是随机误差,其大小和方差只与偶然因素有关而与被试的能力(特质)水平无关,故我们可以把一组被试在同一测验上的误差的标准差S E看作使用平行测验对同一被试无数次测量的标准误S E。
测验标准误可用下式计算:
⎽⎽⎽⎽⎽⎽⎽⎽⎽
S E= SX√1-r XX(3-19)
S E为测验标准误,或测量标准误,r XX为测验的信度,SX为测验分数的方差。
可以看出测验标准误与S X,即实得分数标准差成正比,而与测验信度r XX成反比。
知道了一组被试实得分数和测验的信度后,我们就可以对每一被试真分数的分布范围进行区间估计。
若某智力测验信度为0.95,标准差为15,某儿童得分为120分,我们就可以估计其真分数的范围。
⎽⎽⎽⎽⎽⎽⎽⎽⎽
SE=15×√1-0.95 =3.35
则他的真实智力测验分数的95%的置信区间为(113.4≤T≤126.6)。
即他的智力测验分数有95%的可能是在113.4和126.6之间。
如果要提高估计的把握度,则可求出99%的置信区间。
由此可见,知道测验的信度后,我们就能对被试的真分数进行估计,信度越高,实得分数越得代表他的真分数,信度为1时,实得分数就是真分数。
测验标准误在个人分数的解释中有重大意义。
(2)比较测验分数的差异
有时我们希望比较一个人或两个人在不同测验上的分数是否有显著差异,以判断其真分数是否有差异,这就要用分数差异的显著性检验。
在知道两测验的信度的情况下,我们可以根据公式对这一问题方便地予以解答。
当然这里比较的分数不是两测验的原始分数,而是转换到同一量尺上的导出分数,如T分数,Z分数,离差智商等,分数在同一量尺上才能相互比较。
在统计学上,两分数差异的标准误可表示为:
⎽⎽⎽⎽⎽⎽⎽⎽⎽
SE d= √ SE X + SE Y(3-20)
由于两测验的分数是在同一量尺上表示的,所以有相同的标准差,即S X=S Y=S。
将
和代入上式,得:。