第三讲 测验的信度
心理测量学 测验的信度
![心理测量学 测验的信度](https://img.taocdn.com/s3/m/f329eda3a5e9856a5612609e.png)
(四)时间间隔
智力的时间变化
间隔期
信度系数
同日或次日 1年
2~2.5年 5年 9年
0.90~0.95 0.85 0.80
0.75~0.80 0.78
年龄的时间变化
年龄越低,信度越低
间隔六年,rXX的变化
第一次 4 9
11
第二次 10 15 17
rXX 0.73 0.87 0.92
思考
▪ 如何提高测量的信度?
成熟 标志
三大 支柱
20世纪50年代 Gulliksen
《心理测验理论》
基本假设 信度 效度
▪ Classical Test Theory(CTT)
基本假设与真分数
1、真分数
测验所得 未加工
理论定义 真正特质水平
操作定义 无数次测量结果的均值
▪ 经典测验理论(CTT)假定:
观察分数(X)与真分数(T)之 间是一种线性关系,并只相差一个随机误 差(E)。
▪ 适当增加测验的长度; ▪ 使测验项目的难度分布接近正态; ▪ 努力提高试题的区分度; ▪ 选取适当的被试团体; ▪ 主试严格执行测验规程; ▪ ……
几点说明
▪ 1.有多少种误差,就有多少种估计信度的方法. ▪ 2.上面介绍的各种计算方法仅适用于常模参照测验. ▪ 3.标准参照测验的信度问题必须以概化理论为依据. ▪ 4.不同类型的测验,信度的要求是不一样的. ▪ 5.用不同方法估计的信度也会有所差异.
类型 产生原因
特点
效能
指 标
随机 不易控制的 误差 偶然因素
方向和大小上 完全随机
影
影响 一致
信
响性度
准
系统 恒定、有规 稳定地存在于每 确 不影 效
第三节测验的信度
![第三节测验的信度](https://img.taocdn.com/s3/m/7dbb5b35f524ccbff0218433.png)
第三节测验的信度第一单元信度的概念一、信度的定义信度指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。
信度越高,性能越稳定。
信度可视为结果受机遇影响的程度。
信度只受随机误差的影响。
随机误差越大,信度越低。
系统误差产生恒定效应,不影响信度。
二、信度的指标(一)、信度系数与信度指数信度是以信度系数为指标,即同一受测者样本所得的两组资料的相关。
信度也可用信度指数作为指标,信度指数的平方就是信度系数。
(二)、测量标准误计算公式:SE为测量的标准误,S x是所得分数的标准差,r xx为测验的信度系数。
从公式中可以看出,标准误和信度之间是互为消长的关系,信度越高,标准误越小,反之越大。
第二单元信度评估的方法一、重测信度(稳定性系数)定义:即稳定性系数,反映测验跨越时间的稳定性和一致性。
所考察的误差来源是时间的变化所带来的随机影响。
评估方法:使用同一测验,在同样条件下对同一组被试者前后施测两次,求两次得分间的相关系数。
(重测法)时间要求:重测间隔在两周到6个月之间比较合适。
适用范围:人格测验,感觉运动测验。
优点:能提供有关测验是否随时间而变异的资料,可作为被试将来行为表现的依据。
局限性:易受练习和记忆的影响。
注:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。
⑵不同的行为受随机误差影响不同。
二、复本信度(等值性系数)定义:即等值性系数,反映的是测验在内容上得分的等值性评估方法:是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。
时间要求:如果几乎是同一时间测验的,相关系数反映的才是不同等值测验之间的关系。
如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。
适用范围:复本信度不仅适用于难度测验,也是估计速度测验信度的最好方法。
优点:能够避免重测信度的一些问题,如记忆效果,学习效应等。
第三节 测验的信度
![第三节 测验的信度](https://img.taocdn.com/s3/m/2730b1c3a1c7aa00b52acb59.png)
了解实得分数再测时可能的变化情形
第三单元
信度与测验分数的解释
比较不同测验分数的差异
SE和rXX也可评价两个不同测验的分数是否有明显 差异。公式:
SEd2= SX2(2- rXX - rYY )
SEd:差异的标准误 S:两个测验相同的标准差
个体在韦氏测验两半得分的差异高于约15分,才都 达到显著水平,否则不能认为一个比另一个高。
优点:可作为预测行为表现的依据。
缺点:易受练习和记忆的影响(练习效应)。时距要适当, 一般是两周到四周较宜。
第二单元 信度评估的方法
复本信度(等值性系数)
对同一群体实施两套在各个方面都非常相似的同质测验 (平行测验),求得两个测验上得分的相关系数。
抵消顺序效应:半数被试先A本再B本,另一半先B本在 A本。 前提假设:两个版本的测验不等值(最大风险)
例题(P355)
第三单元
信度与测验分数的解释
测验难度
只存在智力、成就、能力倾向测验等,因有对错之分; 简答题:难度为0.5,信度最高。 选择题:因有猜测因素,理性的平均难度为:五择一(0.70);四 择一(0.74);三择一(0.77);是非题(0.85) 标准化的测验,应根据不同能力水平报告测验的难度。
与信、效度无关
第一单元 信度的概念
信度(Reliability)的定义
对于测验结果是否一致性的判断,信度越高表示一致性 水平就越好,检验测验是否可靠即稳定性。只受随机误 差的影响,随机误差越大,信度越低。 测验结果受机遇影响的程度,系统误差产生恒定效应。 不影响信度。常用一组被试两次测验的相关系数rXX来 表示。
心理测量学:第三节测验的信度
![心理测量学:第三节测验的信度](https://img.taocdn.com/s3/m/4ed908edba4cf7ec4afe04a1b0717fd5370cb245.png)
心理测量学:第三节测验的信度第三节测验的信度第一单元信度的概念教材P348-349 一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。
二、信度的指标1.信度系数与信度指数大部分情况下,信度是以信度系数为指标,它是一种相关系数。
2.测量标准误第二单元信度评估的方法一、重测信度1.又称稳定性系数。
它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数。
2.一般是两周到四周较宜,间隔时间最好不超过六个月。
二、复本信度1.又称等值性系数。
它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。
2.复本信度也要考虑两个复本实施的时间间隔。
如果两个复本几乎是在同一时间内施测的,相关系数反映的才是不同复本的关系,而不掺有时间的影响。
如果两个复本的施测相隔一段时间,则称稳定与等值系数。
三、内部一致性信度1.分半信度:分半信度指采用分半法估计所得的信度系数。
修正公式是斯皮尔曼-布朗公式:2.同质性信度:同质性主要代表测验内部所有题目间的一致性。
几个计算同质性信度的公式如下: 1.库德-理查逊公式2.克伦巴赫α系数四、评分者信度:用于测量不同评分者之间所产生的误差。
第三单元信度与测验分数的解释教材P352-353 一、解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。
二、确定信度可以接受的水平当rxx﹤.70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;当.70≤rxx<.85时,可用于团体比较;当rxx≥.85时,才能用来鉴别或预测个人成就或作为。
三、解释个人分数的意义作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。
例:在一个智力测验中,某个被试的iQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?X―1.96SE<XT≤X+1.96SE 已知该智力测验的标准差为15,信度系数为.84,则其iq的测量标准误和可能范围为:SE= IQ=100±1.966=100±11.76≈88~112 四、比较不同测验分数的差异例;某被试在韦氏成人智力测验中言语智商为102,操作智商为110。
心理咨询师培训之心理测量第三节 测验的信度
![心理咨询师培训之心理测量第三节 测验的信度](https://img.taocdn.com/s3/m/6b25e0d39e3143323968937f.png)
(四)评分者信度
评分者信度:用于测量不同评分者之间所产生的 误差。随机抽取部分试卷,由两位评分者按评分 标准分别打分,然后求其间的相关,所得的相关 系数即为评分者信度。
一般要求在成对的受过训练的评分者之间平均一 致性达0.90以上,才认为评分是客观的。
当多个评分者评定多个对象,并以等级法记分时, 可采用特定公式估计评分者信度。
14
总结: 再测信度:估计测验跨时间的一致性 复本信度:估计测验跨形式的一致性 等值稳定性系数:估计测验跨时间和形式的一致 性 内部一致性系数:估计测验跨项目或两个分半测 验之间的一致性 评分者信度:估计测验跨评分者的一致性 有多少误差的来源,就有多少估计信度的方法。 在考察测验的信度时,应根据情况采用不同的信 度指标,原则上一种测验哪种误差大,便采用哪
测验复本A
最短时距
测验复本B
方法:为排除施测顺序的影响,在实施时,可 将受测者先分为两组,一组人先作 A 本再作 B 本; 另一组人则反之。
8
复本信度也要考虑两个等值测验实施的时间间隔。 如果两个复本的施测间隔一段时间,则称重测复 本信度或稳定与等值系数。
一段时距
稳定与等值系数既考虑测验在时间上的稳定性, 又考虑了不同题目样本反应的一致性,是更严格 的信度考察方法,应用较为广泛。
多项选择题:
SE S r x 1 xx 7 ,从公式中可以看出,标准误 和信度之间的关系是( )
A 信度越低,标准误越小 B 信度越低,标准误越大 C 信度越高,标准误越大 D 信度越高,标准误越小
第三讲 信度
![第三讲 信度](https://img.taocdn.com/s3/m/bdfe1383a0116c175f0e4837.png)
第一节 信度的概念
根据统计方差分析理论
第 三 讲 测 验 的 信 度
S S S
2 X 2 T
2 E
SX2:测验实得分数的方差(即总方差) ST2:测验真分数的方差 SE2:测验误差的方差。
在测量理论中,信度被定义为:一组测量 分数的真分数方差与总方差的比率 。
2 ST xx 2 SX
rxx:信度
rXX<0.70
-
-
+
-
第三节 信度在测验中的作用
第 三 讲 测 验 的 信 度
几种类型的心理测验的信度系数
测验类型
成套成就测 学术能力测验 成套倾向性测验 客观人格测验 兴趣测验 态度量表 信
低 0.66 0.56 0.26 0.46 0.42 0.47
度 中 0.92 0.90 0.88 0.85 0.84 0.79
第三节 信度在测验中的作用
第 三 讲 测 验 的 信 度
二、确定信度可以接受的水平
一般的能力测验和成就测验的rXX都在0.90 以上,有的可达0.95;而人格测验、兴趣、态 度、价值观等测验的rXX一般在0.80~0.85。
信度系数对测验的评价
rXX≥0.85 个人评价、预测 + 团体比较 +
0.70≤ rXX <0.85
第二节 信度评估的方法
第 三 讲 测 验 的 信 度
l.计算同质性信度的基本公式
K rij rxx= 1+ (K-1)rij
rxx:同质性信度值 K:为构成测验的项目数 rij:项目间相关系数的平均数
第二节 信度评估的方法
第 三 讲 测 验 的 信 度
2.库德-理查逊公式
K ∑ piqi rxx= K-1[1- S 2 ] x
测验的信度
![测验的信度](https://img.taocdn.com/s3/m/5acc90fc941ea76e58fa043c.png)
注意: 注意:
信度估计方法不只上面几种, 信度估计方法不只上面几种,实际上有多少 误差来源,便有多少估计信度的方法。 误差来源,便有多少估计信度的方法。原则 上一个测验哪种误差大, 上一个测验哪种误差大,便采用哪种估计方 有时甚至需要有几种信度系数。 法,有时甚至需要有几种信度系数。
重测信度
定义:又称稳定性系数,即使用同一测验, 定义:又称稳定性系数,即使用同一测验,在 同样条件下对同一组被试者前后施测两次, 同样条件下对同一组被试者前后施测两次,求 两次得分间的相关系数。 两次得分间的相关系数。 2-4周 周 计算方法:重测法。 A2,求r12。 计算方法:重测法。A1 , 优点: 优点:能提供有关测验是否随时间而变异的资 料,可作为被试将来行为表现的依据。 可作为被试将来行为表现的依据。 缺点:易受练习和记忆的影响。 缺点:易受练习和记忆的影响。 两次测量之间最适宜的时距:随测验的目的、 两次测量之间最适宜的时距:随测验的目的、 性质和被试特点而异,一般是两周到四周为宜, 性质和被试特点而异,一般是两周到四周为宜, 间隔时间最好不超过六个月。 间隔时间最好不超过六个月。
测量标准误与信度的关系:互为消长, 测量标准误与信度的关系:互为消长, 信度高,标准误低;信度低, 信度高,标准误低;信度低,标准误高
例题: 例题:
1、公式rxx =r2xT=S2T/ S2x和公式 xT=ST/ Sx表明 、公式 和公式r 信度指数的( 就是信度系数。 信度指数的( )就是信度系数。 (A)一半 ) (B)平方 ) (C)倍数 ) (D)本身 ) 2、( )是指同一被试在不同时间内用同一测 、( 或用另一套相等的测验)重复测量, 验(或用另一套相等的测验)重复测量,所得 结果的一致程度。 结果的一致程度。 (A)信度 ) (B)效度 ) (C)难度 ) (D)区分度 ) 3、信度只受 )的影响。 的影响。 、信度只受( 的影响 (A)系统误差 系统误差 (B)随机误差 随机误差 (C)恒定效应 恒定效应 (D)概化作用 概化作用
测验的信度
![测验的信度](https://img.taocdn.com/s3/m/8a02010bbb68a98270fefa05.png)
5.评分者信度
标准化测验一般都有较为严格的评分程序。 对于客观性试题来说,评分所引起的误差使 可 以忽略不计的,但对于一些主观题目来说,评 分者之间的变异是产生误差的重要原因之一。 考察评分者信度的方法是,随机抽取部分答 卷,由两个或多个评分者独立按照评分标准打 分,然后求其间的相关。在计算相关时,如果 是两个评分者,则采用积差相关或等级相关的 方法,一般认为经过训练的成对评分者之间的 一致性达到0.90以上,评分才是客观的。
同质性也称内部一致性,是指测验内部所有 题目间的一致性。这里讲的是分数的一致,而 不是题目内容或形式的一致。因此,若测验的 各个题目得分有较高的正相关时,不论题目内 容和形式如何,测验为同质的。相反,即使所 有题目看来都好象测同一特质,但相关为零或 负值时,这测验还是异质的。也有些心理测量 学家认为,同质性的定义还应加上测单一因素 的限定。
2.解释分数
信度系数仅表明一组测量的实际值与真 值的符合程度,并没有给个人测验分数 的变异情况。由于误差的存在,一个人 所得的分数一般很难等于真分数。
(四)影响信度系数的因素
影响信度的因素很多,被试、主试、 测验内容、施测环境等各方面均能引起 随机误差,导致分数不一致,从而降低 测验的信度。
四、测量的信度(重点)
(一)什么是信度 作为一个好的测验,它的结果必须可靠。所 谓可靠,是指多次测量的结果保持一致。 人们通常把测量结果的可靠性称之为信度, 即测量结果的一致性或可信性程度。一个好的 测量工具,对同一事物反复多次测量,其结果 应该始终保持不变。 信度是测验结果的一致性或可靠性程度。
(二)估计信度的方法
(三)信度系数的用
信度系数有两个主要用途,一是用来评 价测验,二是用来对分数做解释。
2测验的信度
![2测验的信度](https://img.taocdn.com/s3/m/60fcc41787c24028915fc3a3.png)
第一单元 信度的概念
信度只受随机误差的影响。
实得分数 X = T + E 真分数
误差
第一单元 信度的概念
S S S 2
2
2
X
T
E
集中趋势的度量:平均数 X
77 8 8 8 9 9 4 5 7 8 9 11 12 1 4 7 8 9 12 15 离中趋势的度量:方差、标准差
r rr 斯皮尔曼-布朗公式
2
r
hh
xx 1 hh 中 hh 为
()的相关系数, rxx 为测验在原长度时的
相关系数。
(A)全测验 (B)原测验 (C)一半分数 (D)全部分数
同质性信度代表测验内部( )间的一致性。
(A)两半测验 (B)所有题目 (C)题目与分测验 (D)分测验
一般要求在成对的受过训练的评分者之间一 致性达到( )以上,才认为评分是客观的。
第五单元 信度的特殊问题
速度测验的信度
对答题速度的一致性作出估计;
分测验的信度
分测验的分数几乎肯定不如合成分数可靠。
在测量理论中,信度被定义为:一组测量分 数的真分数方差与总方差的比率,即()。
(A) X = T + E
S S S (B)
2
X
2
T
2 E
2
2
r S S (C) T 1 E
(B)所有题目看起来好像测量同一特质,但相关很 低或成为负相关时,则测验为异质的
(C)人的多数心理特征如智力、性格、兴趣等,具 有相对稳定性,间隔一段时间,不会有太大变化
(D)不同的信度反映了误差的不同来源
心理测量学第三节 测量的信度
![心理测量学第三节 测量的信度](https://img.taocdn.com/s3/m/d337fe5faf45b307e87197db.png)
2010年5月(二级)
❖ 10、某受测者在韦氏成人智力测验中言语智 商为102,操作智商为110。已知两个分数都 是以100为平均数、15为标准差的标准分数。 假设百语测验和操作测验的分半信度分别为 0.87和0.88,则该受测者的操作智商( )于言 语智商。
2009年5月(三级)
❖ 35、以再测法或复本法求信度,两次测验相 隔时间越短,其信度系数越( )
❖ (A)大 -
(B)低
小
(D)不确定
(C)
数分布范围最大,求得的信度也最高。 ❖ 对于选择题目由于存在着猜测因素,难度值应提高。 ❖ 洛德(lord)提出学绩测验中,各类选择题的理想
平均难度为:五择一测题0.70,四择一测题0.74, 三择一测题0.77,是非题0.85。
时间间隔与信度
❖ 只对重测信度和间隔施测的复本信度有影 响
❖ 两次测验相隔时间越短,其信度系数越大; 间隔时间越久,其他变因介入的可能性越 大,受外界影响也越大,信度系数便越低
❖ 即:X=T+E
一.信度的定义
❖ 信度是指测量结果的可靠性和一致性. ❖ 理论定义:一组测量分数的真实方差与实得方差的
比,即真空方差占总方差的百分比.
SX 2 ST 2 SE2
❖ 操作性定义:信度有是一个测验X与它的任意一个 平行测验X’的相关系数.
信度的定义
rxx
ST2
S
2 X
rxx
❖ 另一原则是:新编的测验信度应高于原有的同类测 验或相似测验。
第三讲 信度
![第三讲 信度](https://img.taocdn.com/s3/m/bdfe1383a0116c175f0e4837.png)
例题
10名被试在一个有10个条目的测验中得分如下,求 该测验的分半信度?
测验题目得分 被试 1 2 3 4 5 6 7 8 9 10 单号 双号 得分 得分 单双 之差
1பைடு நூலகம்
2 3
2
2 2
2
1 2
2
1 2
1
2 2
2
1 1
2
0 2
1
0 1
0
1 1
0
0 1
1
0 1
7
4 7
6
4 8
1
0 -1
4
5 6 7 8 9 10
SE S x 1 xx
SE:测量的标准误 rxx:测验的信度系数 SX :所得分数的标准差
可见,测量的标准误与信度呈负相关。
第二节 信度评估的方法
一、重测信度
再测信度 稳定性系数
第 三 讲 测 验 的 信 度
使用同一测验,在同样条件下对同一组被试 前后施测两次测验,求两次得分间的相关系数。
第二节 信度评估的方法
第 三 讲 测 验 的 信 度
例题
A、B两位教师给6篇作文评分,结果如下, 试求两位教师评分一致性的程度。 作 文 1 2 3 4 5 6
教师A
教师B
25
22
30
26
27
23
20
20
28
25
32
35
第二节 信度评估的方法
第 三 讲 测 验 的 信 度
几种信度相应误差(变异)的来源
信度类型 误差(变异)来源 重测信度 时间误差 复本信度(连续施测) 内容误差 复本信度(间隔施测) 时间、内容误差 分半信度 内容(项目)误差 同质信度 项目异质误差 评分者信度 评分者间误差
测验的信度
![测验的信度](https://img.taocdn.com/s3/m/0ff23150be23482fb4da4c30.png)
心理测量学——测验的信度学习笔记第三节测验的信度第一单元信度的概念第二单元信度评估的方法第三单元信度与测验分数的解释第四单元影响信度的因素第一单元信度的概念一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。
在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差(实得分数的方差)的比率。
二、信度的指标(一)信度系数与信度指数信度指数是真分数标准差与实得分数标准差的比值。
信度指数的平方就是信度系数。
(二)测量标准误测量误差分布的标准差,即为测量的标准误。
第二单元信度评估的方法一、重测信度二、复本信度三、内部一致性信度四、评分者信度信度的类型与估计方法重测信度(test-retestreliability)–又称稳定性系数。
它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数。
–最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最长不超过六个月。
内部一致性信度(internalconsistencyreliability)–分半信度(split-halfreliability)采集者退散是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。
分半法经常会低估信度,必须修正,借以估计整个测验的信度。
–同质性信度(homogeneityreliability)同质性主要代表测验内部所有题目间的一致性。
当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。
相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异质的。
–评分者信度(scorerreliability)–随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。
测验的信度
![测验的信度](https://img.taocdn.com/s3/m/4ee4b03ceefdc8d376ee32ce.png)
( ) 根 据 学生 的 实际认 知 水 平编制 试题 二 要
评 价
因素
还 有 评 价 务 的
参考文献 :
d n C mb i g i e s y P e s 9 4 1 5 . o : a r e Un v ri r s ,1 8 .  ̄ 6 d t
在教育与心理测量 中,每次测量结果实际上
包含 了被 测 量特 质对 象 的实 际 水平 和测 量 误差 两
为重测法 : 同一测验 , 用 在不 同时间对同一群体施 测两次 , 两次测量分数的相关即为重测信度。 () 2 复本信度 , 又称等值系数 , 以两个测验 是 复本来测量同一群体 ,然后求得应试者在这两个 测验上得分 的相关 。复本信度 的高低反映了这两 个测 验 复本 在 内容上 的等 值程 度 。 () 3 内部一致性信度 , 主要反映测验内部题 目
( ) 综 合 多种 因素评 价 学生 的认 知结 构 三 要
[ ] oa D, o i . erigHo er. o — 1 N vkJ G wnD B L ann w t L a L n o n
[ ] f rclR i P mo R cadJS aeo . rb 2 Ma aA aei uz r , ihr h vsn Po— i —i
之 间的关 系 ,考 察 测验 的各个 题 目是 否测 量 了相 同的 内容 或特 质 。
部分 。 施测环境 、 完成时限、 主被试关系、 被试的动 机和情绪等都可能影响到测量的结果 。如果某测 验本身抗干扰能力强 ,测验实施过程各方面误差 因素都控制得好 , 么多次施测所得 分数 ( 那 测值 )
心理咨询师三级第3节测验的信度PPT幻灯片
![心理咨询师三级第3节测验的信度PPT幻灯片](https://img.taocdn.com/s3/m/15b2d8c9fad6195f302ba61f.png)
2、测验标准误(二级)
缘由:rXX
只反映X与T的符合程度 未反映个体测验分数的变异
测验中个体真分数的指标
理论上:一个个体多次测验结果分布的变异 实际上:一组个体两次测验结果分布的变异
测量标准误
测量误差分数分布的标准差
用途
衡量测量值(X)与测量对象真值(T)的 偏离程度的一种指标
S2T
S2E
S2X
S2T
S2E
S2X
(一)信度的定义
1、理论定义
真分数方差与观测分数方差的比值
rT2X
S
2 T
S
2 X
或
rT2X
1
S
2 E
S
2 X
T X E
ST2SX 2 SE 2
rT2X
SX2 SE2 SX2
2、操作定义
两组测验分数之间的相关系数 测量工具或结果的一致性(稳定性)程度
S
2 T
奇偶题 分半
难易:低高 两半相似:
M、S 项目组间相关
分布形态
内容
两半相关:rhh 校 正:rnn
2、校正方法(二级)
斯皮尔曼 -布朗公式
弗拉南根公式 卢尤公式
方差相等时
rnn
2rhh 1 rhh
方差不等时
(二)同质信度
同质性 题目间的内部一致性
克龙巴赫 系数
各类 题型
类型 库-理信度
(二级)
含义
两等值测验 最短时间内 对同组对象 施测结果r
等值 性
程序
A卷
最 短 时 距
B卷
误差
内容 取样
评价
优点
代表性增强,信度更准 避免练习、记忆效应
测验信度名词解释
![测验信度名词解释](https://img.taocdn.com/s3/m/643c2963e55c3b3567ec102de2bd960590c6d92c.png)
测验信度:评估测验结果的可靠性一、测验信度的定义测验信度是指测验的准确性和可靠性。
它可以用来衡量测验题目是否能够准确地反映测试受试者的知识水平和能力。
它是测试设计者判断测试有效性的一个重要指标,是衡量测试成绩的重要指标。
测验信度可以通过计算测试的内部一致性来衡量,例如,Cronbach's alpha信度系数可以用来衡量测试的内部一致性。
通过计算每一道题的相关系数,可以判断测试的可靠性。
此外,测试的外部一致性也可以用来衡量测试的信度,例如,可以通过计算两个测试的相关系数来衡量测试的外部一致性。
测验信度的重要性不言而喻,它不仅可以用来衡量测试的准确性,而且可以帮助我们判断测试的可靠性,从而帮助我们决定测试的有效性。
因此,测验信度是测试设计者判断测试有效性的一个重要指标,是衡量测试成绩的重要指标。
二、测验信度的重要性测验信度是衡量测验结果可靠性和效力的重要指标。
它可以帮助我们评估测验的准确性,以确保测验结果的有效性。
测验信度可以帮助我们识别测验中存在的偏差,并有效地避免测验结果的偏离。
例如,一项测验可能会受到某些环境因素的影响,而测验信度可以帮助我们确定这些因素的影响程度,以便采取相应的措施来消除这些影响。
测验信度还可以帮助我们识别测验中存在的歧义和错误,以降低测验结果的不准确性。
例如,在一项测验中,如果某些语句模糊不清,测验信度可以帮助我们检查这些语句是否会影响测验结果。
此外,测验信度还可以帮助我们识别测验中的缺陷,从而提高测验的准确性。
例如,一项测验可能会因为缺乏足够的参考标准而出现结果偏差,而测验信度可以帮助我们识别这些缺陷,从而确保测验结果的准确性。
总之,测验信度是衡量测验结果可靠性和效力的重要指标,可以帮助我们确保测验结果的有效性,从而改善测验的准确性。
三、测验信度的应用测验信度是衡量测验的可靠性和准确性的重要指标。
它可以用来衡量测验的可靠性和准确性,以及测验的有效性。
测验信度的应用可以帮助我们评估测验的有效性,确定测验的有效性,以及测验的准确性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(三) 测验难度 难度与信度不存在简单的对应关系。如果 因为难度过大或过小,造成分数范围缩小, 可使信度降低。
(四) 时间间隔 再测法求信度,间隔时间越短信度系数越 大;间隔时间越久,信度系数越低。
的变异是真实分数造成的,误差造成的只占 10%。 rxx =1时,表示没有测量误差。 值得注意的是,信度系数的分布是 0.00~1.00的正数范围,表示信度缺乏~ 完全可信。
(二) 确定信度可以接受的水平(参考p352) 1.当rxx<0.70时,测验不能用于对个人作 出评价或预测,而且不能作团体比较; 当0.70≤rxx<0.85时,可用于团体比较; 当rxx≥0.85时,才能用来鉴别或预测个 人成绩或作为。 2.新编的测验信度应过于原有的同类测验 或相似测验.
第一,实得分数(X)是真实分数(T)和误差(E)之和。
X=T+E 第二, X=T+E转换为方差表示: S2X= S2T+ S2E
第三,信度被定义为:一组测量分数的真分数方差与 总方差(实得分数的方差)的比率。
rxx= S2T/S2X
第四,真实分数的转换: S2T= S2X- S2E 第五,
rxx= 1-S2E/S2X
(四)同质性信度(homogeneity reliability)
重测信度和复本信度主要是考察测验跨时间 的一致性(稳定性)和跨形式的一致性 (等值性)。内部一致性信度系数主要反 应的是题目之间的关系,表示测验能够测 量相同内容或特质的程度。 如,EPQ人格测验的各项目之间的同质程 度。
同质性信度(homogeneity reliability) 1.同质性信度的概念:同质性信度又称内部一致性信 度。指测验的所有题目间性质的一致性,即测得是 同一种心理特质或行为。 2.采集数据的方法:施测一次测验,算出所有测题的 得分,求出各题目间的相关。 当各个测题的得分有较高的正相关时,不论题目 的内容和形式如何,则测验为同质的。相反,即使 所有题目看起来好象测量同一特质,但相关很低或 为负相关时,则测验为异质的。 3.最常看到的同质信度是克伦巴赫(Cronbach)a 系数。
SEd =S
Байду номын сангаас
2-rXX -ryy
注:S 代表两个测验使用的标准差 rxx与ryy代表两个测验的分半信度
※统计学上,一般要求两个分数的差异程度达到0.05的显著水平,才能
承认不是误差的影响。
即,两个测验的得分差异高于SEd×1.96,才能达到0.05 显著水平(参考p353) 。
四
(一) 样本特征 (二) 测验长度 (三) 测验难度 (四) 时间间隔
当多个评分者评定多个对象,并以等级法记分时,可 采用肯德尔和谐系数作为评分者信度的估计。
三、信度的意义(信度与测验分数的解释) (一)解释真实分数与实得分数的相关 (二)确定信度可以接受的水平 (三)解释个人分数的意义 (四)比较不同测验分数的差异
(一)解释真实分数与实得分数的相关 信度系数可以解释为总的方差中有多少比例是 由真实分数的方差决定的,也就是测验的总变异 (总方差)中真分数造成的变异占百分之几。 例如, rxx =0.90时,即实得分数中有90%
(一)重测信度(test-retest reliability)
1.重测信度概念,也称稳定性系数,主要针对时 间变量。 2.采集数据的方法:对同一组被试间隔一定的时 间重复测试一次,求两次得分间的相关系数。
3.时间间隔的确定:一般为2~4周,最好不要超 过6个月。
(二)复本信度
1.复本信度概念,也称等值性系数,误差来源是题目 取样偏差。(A本与B本) 2.数据收集的方法:被试施测两个内容等值但题目不 同的测验,求两次得分间的相关系数。在计算复本 信度时,应该有半数的被试先作A本再作B本,另一 半被试先作B本再作A本,由此可以抵消施测顺序的 效应。
第三讲 测验的信度
主要内容 一 二 三 四 信度的概念 信度评估的方法 信度的意义 影响信度的因素
一
信度的概念
(一) 信度的定义 信度是指同一被试在不同时间内用同一测 验(或用另一套相等的测验)重复测量, 所得结果的一致程度,即一个测验的稳定 性、一致性。 在测量理论中,信度被定义为:一组测量 分数的真分数方差与总方差(实得分数的 方差)的比率。
3.重测复本信度:在不同的时间里施测两个等值的测 验(复本),得到的相关就是重测复本信度,也称 稳定等值系数。
(三)分半信度(split-half reliability)
1.分半信度及计算:在测验实施后将测验按 奇、偶数分为等值的两半,并分别计算每 位被试在两半测验上的得分,求出这两半 分数的相关系数。 2.分半法经常会低估信度,必须修正,借以 估计整个测验的信度。 分半信度的校正公式:rxx=2rhh/(1+rhh) 注: rxx 为测验在原长度时的相关系数 rhh为一半分数的相关系数
(五)评分者信度(scorer reliability)
1.评分者信度的概念:用于测量不同评分者之间的误差。
2.采集数据的方法:主要他评量表。随机抽取若干份测验卷, 由两位评分者按评分标准分别给分,然后再根据每份测验 卷的两个分数计算相关,即得评分者信度。 一般要求在成对的受过训练的评分者之间平均一致性 达0.90以上,才认为评分是客观的。
影响信度的因素
(一) 样本特征 1.样本团体异质性的影响 团体异质程度(水平差异程度)与分数的分布有关,一个团体越异质, 其分数分布的范围也就越大,信度系数也就越高. 2.样本团体平均能力水平的影响
(二) 测验长度
测验的长度,即测验的数量,也是影响信度的一个因素.
1.测验越长测题取样或内容取样越有代表性。 如:题目范围广泛. 2.测验越长被试的猜测因素影响就越小。即题目上 的随机误差会相互抵消. 注意点:测验的长度也要适度(引起被试的疲劳和反 感也会降低信度). 通过增加题目提高信度的方法(参考p355): 计算公式:k=rkk(1-rxx) ∕rxx(1-rkk) 注:k为改变后的量表长度与原来长度之比 rxx为原测验的信度;rkk为欲提高测验信度。
(二)信度的指标 信度的指标通常3种表示方法 1.信度系数 信度是以信度系数为指标,是一种相关系数.常 常是同一被试样本所得的两组资料的相关,即真 实分数方差与实得分数的方差的比值. rXX=r2XT=S2T/S2X
2.信度指数 信度指数(rXT)是真分数标准差与实得分数标准差 的比值。 rXT=ST/SX
(三)解释个人分数的意义 其一是估计真实分数的范围; 其二是了解实得分数再测时可能的变化情形。 这就是测量标准误的应用。
结合p353公式和事例讲解
(四) 比较不同测验分数的差异
信度在评价两个不同测验的分数是否有明显差异时起着非常 重要的作用。
两个不同测验的分数: ①两个人不同分数的差别 ②同一被试在两个测验上的差别。 这就是差异分数的标准误问题 计算公式:
信度指数(rXT)的平方就是信度系数r2XT。
3.测量标准误 测量误差分布的标准差,即为测量的标准误。 公式为:
SE=S X 1 -rXX
注:SE为测量的标准误, SX是所得分数的标准差, rxx为测验的信度系数
测量的标准误越小,信度越高,反之亦然.
二
信度评估的方法
(一) 重测信度 (二) 复本信度 (三) 分半信度 (四)内部一致性信度 (五) 评分者信度