心理测量 第4章 心理和教育测量的信度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
团体的异质程度与分数的分布有关,一个 团体越是异质,其分数的分布的范围也就越大, 新度系数也就越高。
由于信度系数与样本团体的异质性有关, 因此我们在使用测验时,不能认为当该测验在 一个团体中有较高的信度时,在另一个团体中 也具有较高的信度。因此,往往需要重新确定 测量的信度。

测验的长度
一般来说,测验越长,信度值越高。这是
使用奇偶分半法一定要注意两个问题:

如遇到有牵连的项目或一组解决同一问题的项
目时,这些项目应放在同一半,否则将会高估
信度的值;

当试卷中存在任选题或试卷为速度测验时,不
宜采用分半法
同质性信度

同质性也称内部一致性,指的是测验内部所有 题目间的一致性。分半法实际上就是对测验内
部一致性的一个粗略估计。
分半信度
分半法是按正常的程序实施测验,然后将
全部项目分成相等的两半,根据各人在这两半
测验的分数计算其相关系数。 在计算分半信
度的时候,通常采用奇偶分半法,求出所有被
试奇偶数项目总分的相关系数。
由于这样求得的只是半个测验的信
度,因此要用斯皮尔曼-布朗公式校正,
校正公式为:
rxx
2rhh 1 rhh
SEd SE SE
2 1
2 2
SEd为差异的标准误,SE1、SE2为两个测
验的分数的标准误,将 SE1 S 1 rxx 、 SE2 S
代入上式中可得
1 ryy
SEd S 2 rxx ryy
S为相同尺度的标准分数的标准差,rxx、ryy分
别为两个测验的信度系数。然后再将标准分数的差
因为:

测验加长,可能改进项目取样的代表性,从而能更 好地反映受测者的真实水平; 测验的项目越多,在每个项目上的随机误差就可以 互相抵消。

增加测验长度的效果可以用斯皮尔曼 -布朗公式来计算:
Krxx rkk 1 ( K 1)rxx
K为改变后长度与原长度之比,rxx为 原测验的信度,rkk为测验长度是原来的K 倍时的信度估计。

测量同质性信度的基本公式
rkk
Krij 1 ( K 1)rij
K为构成测验项目数, rij 为项目间相关的平均 数,rkk为同质性信度值


库德-理查逊公式
K-R20公式
K pi qi rkk 1 2 K 1 S x


K-R21公式
K Kpi qi rkk 1 2 Sx K 1

克伦巴赫系数 库德-理查逊公式只适用于答对一题得一分,答错无 分的测验,不适用于项目多重记分的测验,针对这一需 要,克伦巴赫提出了系数的方法。其公式为:
2 Si 1 2 Sx

用再测法估计信度的优点是能提供 测验结果是否随时间而变化的资料, 可作为预测被试将来行为的依据。其
缺点是易受练习和记忆的影响。
复本信度
根据一组被试在两个平行(等值)测验
上的得分计算的相关系数即为复本信度。
因为它反映的是两个测验之间的等值程度,
因此又叫等值性系数。其计算方法与再测
法相同。
在使用复本法估计信度时,两个等值测验 可以连续施测,也可以相距一段时间分两次施 测。在采用此法时,一定要注意:
SEd 15 2 0.87 0.88 7.5 7.5 1.96 14.7
估计信度的方法

再测信度 复本信度


分半信度
同质性信度


评分者信度
标准参照测验的信度估计

重测信度
用同一个测验,对同一组被试前后两次 施测,两次测验分数所得的相关系数为再 测信度。因为它能反映两次测验结果有无 变动,也就是测验分数的稳定性程度,故 又称稳定性系数。其计算公式为:
在实际工作中,我们往往用一组被试两次施 测的结果来估计误差的变异数。这时个人在两次
测试中分数的差异就是测量误差,据此可以得到
一个误差分数的分布,这个分布的标准差就是测 量的标准误,它是测量误差大小的指标,其计算 的公式为:
SE S x 1 rxx
SE为标准误,Sx为所得分数的标准差,rxx为
信度是测量过程中随机误差大小的反应 信度可以用来解释个体测验分数的意义 信度可以Biblioteka Baidu助不同测验分数之间进行比较

一个测验有多个信度估计值,因而误差估计值也有 多个,我们在实际工作中要注意选择最适合某一特 殊情况的信度估计来解决问题。
测验分数不能看成是一个点,而应该是一个范围。


评价测验
信度系数是衡量测验好坏的一个重要指标, 最理想的r=1.00,但这是办不到的。不过我 们可以用已有的同类测验作为比较的基准。一 般能力测验和成就测验的信度系数都在0.9以 上,有的可达到0.95;而性格、兴趣、态度等 人格测验的信度一般在0.80-0.85之间或更高 些。
分半法尽管不需要施测两次或者编制两份等 值的测验,但它实际上是假定两半测验等值,亦 即两半分测验分数具有相同的平均数和标准差。 当假定不能满足时,可以采用下面两个公式来估 计信度:
弗朗那根公式:
2 2 Sa Sb r 2 1 2 Sx
卢伦公式:
2 Sd r 1 2 Sx
1979年林德曼与梅伦达提出了一个计算一致性的公式:
C为一致性,n为在两次施测中均未达标的人数,b为在两次施测 中均已达标的人数,f为只在第一次施测中达标的人数,s为只在第二 次施测中达标的人数,v为f或s中较小的值。
nb sf C nb v n b v

测验的难度

测验的难度与信度没有直接对应关系,但是当
测验太难或者太易时,则分数的范围就会缩小,
从而降低信度。显然只有当测验难度水平可以
使测验分数的分布范围最大时,测验的信度才 会最高,通常这个难度水平为0.5。

当题目过难时,被试可能凭猜测作答,从而也 会降低信度。
提高信度的方法


2 i
R
i
2
1 2 3 K N N 12
N
第三节 影响信度的因素
影响信度的因素很多,被试、主试、测验 内容、施测环境等各方面均能引起随机误差, 导致分数不一致,从而降低测验的信度。下面 介绍几个影响测验信度系数的重要因素:

被试样本 测验的长度 测验的难度

被试样本
115,那么他的智商的真分数的变动范围就是
115±1.96×3.35,也就是说,有95%的把握
认为,这个儿童真正的智商水平在108.4至
121.6之间。

某被试在韦氏成人智力测验中言语智商为 102,操作智商为110,已知两个分数都是 以100为平均数、15为标准差的分数,假 设言语测验和操作测验的分半信度分别为 0.87和0.88,问其操作智商是否显著高于 言语智商?
信度系数,S为分数标准差, X 为分数的均值,C 为达标分数或分数线。

用决策的一致性作为信度指标
标准参照测验常用来把被试分为掌握(达标)和未掌 握(未达标)两组,这实际上是用测验来作决策,因此可 用作决策的一致性而不是分数的一致性来确定信度,也就 是看再测时被同样归类的受测者的比例,两次施测被同样 归类的受测者比例越高,说明信度越高。
一般原则是:当rxx<0.70时,测验不能
对于个人作出评价或预测,而且不能做团体比
较;当0.70≤rxx<0.85时,可用于团体比较;
当rxx≥0.85时,才能用来鉴别或预测个人成
绩或行为。 另一原则是,新编的测验信度应高于原有的 同类测验或相似测验。
表3-1 几种心理测验的信度系数
测验类型
低 成套成就测验 学术能力测验 成套倾向性测验 客观人格测验 兴趣测验 态度测验 0.66 0.56 0.46 0.46 0.42 0.47
信 度
中 0.92 0.90 0.88 0.85 0.84 0.79 高 0.98 0.97 0.96 0.97 0.93 0.98

解释分数

个人测验分数的误差
信度系数仅表明一组测量的实际值与真值的
符合程度,并没有给出个人测验分数的变异情况。 由于误差存在,一个人所得的分数一般很难等于 真分数。理论上我们可以对一个人施测无数次, 然后求出所得分数的平均数和标准差,在这里平 均数就是这个人的真分数,标准差则为测量误差 大小的指标,但实际上是行不通的。
第四章
心理与教育测量的信度
第一节 测量的信度
作为一个好的测验,它的结果必须可靠。 所谓可靠,是指多次测量的结果保持一致。人 们通常把测量结果的可靠性称为信度,即测量 结果的一致性或可信性程度。一个好的测量工 具,对同一事物反复多次测量,其结果应该始 终保持不变。
在测量学中,信度被定义为:一组测 量分数的真变异数与总变异数(实得变 异数)的比率,即:

两个测验必须在项目的内容、形式、数量、难易、 时限、指导语等方面相同或相似; 两次测验的时间间隔要适当;

尽管复本信度的估计方法避免了再测法的 缺点,应用范围较广,但它本身也有一定的局 限性:

复本法只能减少而不能完全排除练习和记忆的影响; 对于许多测验来说,建立复本是相当困难的; 由于第二个测验只改变了题目的内容,已经掌握解 题原则,可以很容易迁移到同类问题中去。
rxx
S S
2 T 2 X
式中的 rxx 称作信度系数
S S S rxx 1 2 SX S
2 X 2 E
2 E 2 X
注意:

信度是指测量工具所获得的结果的可靠性。
每个信度的估计值仅指某一特定类型的一
致性,而非泛指一般的一致性。

信度的估计是完全采用统计方法的。
信度的作用

适当增加测验项目的数量
因素分析和鉴别力分析
控制测验项目的难度
选择恰当的被试团体
弱势校正
第四节 信度的特殊问题
标准参照测验的信度估计

对相关法信度系数进行校正
rNR S X C
2 2
利文斯顿相对法信度系数的校正公式:
rCR S X C
2 2
rCR 为标准参照测验的信度,rNR 为任何一种相关法
2 K为测验题目数,Si2 为某一题目分数的变异数,Sx 为测验 总分的变异数
采用SPSS计算信度
数 据 库
同 质 性 信 度 计 算 方 式
结果
输入40题
结果
评分者信度
标准化测验一般都有较为严格的评分程序。
对于客观性试题来讲,评分所引起的误差是可 以忽略不计的,但是对于一些主观题来讲,评 分者之间的变异是产生误差的重要原因之一。
异与1.96SE(0.05水平)进行比较,即可得出两个 测验的差异是否显著。

例:韦克斯勒对104名14岁半至15岁半 的儿童,间隔一个月时间前后测了两次, 求得全量表的稳定性系数为0.95,实测 分数的标准差为15,则测量的标准误为:
SE 15 1 0.95 3.35
如果某15岁儿童韦氏智力量表获得的IQ为
测验的信度。
根据统计学里讲的区间估计的方法,
我们可以得知:个人在每次测量中所得分
数X有95%的可能性在真分数加减1.96个
标准误的范围内,即
X 1.96SE T X 1.96SE

两种测验分数的比较 来自不同测验的原始分数是无法直接 比较的,只有参照统一团体的平均分数, 将它们转换成相同尺度的标准分数(如T分 数或Z分数),才能进行比较。为了说明个 人在两种测验上的差异,我们可以用差异 标准误来检验其差异的显著性,其公式:
考察评分者信度的方法是随机抽取部分试卷,
由两个或多个评分者独立按评分标准打分,然后求
其间的相关。在计算相关时,如果是两个评分者, 则采用积差相关或等级相关的方法,一般认为经过 训练的成对评分者之间的一致性达0.90以上,评分 才是客观的。如果是多个评分者则采用和谐系数来
估计信度。其公式为:
W
R
X 1X 2 N X 1X 2 rxx S 1S 2

计算再测信度应满足以下几个假设;
所测量的特质必须是稳定的;
遗忘与练习的效果相同;
两次施测期间被试的学习效果没有差别

采取此法时应注意以下几个问题:


两次测验的时间间隔要适当
再测法适用于速度测验和人格测验,而不适用于难 度测验 应注意提高被试的积极性
相关文档
最新文档