第四章 心理测验的信度与效度
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信度系数可以解释为测验的总变异中,真分数造成的变 异占百分之几。如,当rxx=0.90时,我们可以说实得分 数中有90%的变异是真分数造成的,仅10%来自测验的误 差。rxx=1.00,则表示完全没有测量误差,所有的变异 均来自真实分数;同样,信度系数也告诉测量的误差比 例是多少。
27
2、确定信度可以接受的水平
SE Sx 1 rxx
(公式5-4)
式中SE表示测量的标准误,即误差分布的标准差; Sx表示一次测量分数的标准差;rxx表示信度系数。
32
我们可以用测量的标准误来估计个人测验的真分数 的大小。
如果选用95%的可靠性水平(置信水平),即显著 性水平(a值)为.05,Z ,2 真分数有95%的可能落入 X ±1.96SE ,即X ±1.96 SE的范围之内,也可以 写成X-1.96SE T X+1.96 SE,SE则用公式5 -4代入。或有5%的可能落入这范围之外。这实际 上也表明了再测时分数改变的可能范围。
被试有条件接受两个测验。
17
(三)内部一致性信度
1、定义:
反映的是题目之间的关系,表示测验能够测量相同内容 或特质的程度。
2、方法:
(1)分半信度: 通常是先把一份测验按题目的奇偶顺序或其它方法分 成两个尽可能平行的半份测验,然后计算两半之间的 相关,即得到分半信度系数。
18
ABCDE FGH I J X1 16 15 13 13 11 10 10 9 8 7 X2 15 16 14 12 10 9 11 8 6 7
2、注意事项: 所测量的心理特性必须是稳定的。 遗忘和练习的效果基本上是相互抵消的。 在两次施测的间隔时期内,被试在所要测验的心理特 质方面没有获得的更多的学习和训练。 易受练习和记忆的影响,两次测试的时间间隔要适当, 一般是2~4周较宜,间隔时间最好不超过6个月。
36
4、比较不同测验分数的差异
测量标准误和测验信度在评价两个不同测验的分数是 否有明显差异时也非常重要。这种比较包括两个人不同 分数的差别和同一被试在两个测验上的差别。
37
我们可以用“差异的标准误”来检验差异的显著性。 差异的标准误的公式为:
SEd SE12 SE22 S 2 rxx ryy (公式5-5)
W= 12 811 632 / 6 32 63 6
=0.95
• 如在评定中有相同的等级时,用下式校正。其中n为 相同等级的个数
Ri2 Ri 2 / N
W 12 K 2 N 2 N Kn3 n/12
26
四、信度对测验分数的意义 1、解释真实分数与实得分数的相关
信度为一组测量分数的真分数方差和总方差(实得分数 的方差)的比率。
信度乃是一个被试群体的真分数与实得分数的相关系数 的平方。
信度乃是一个测验X与它的任意一个平行测验Y的相关系 数。
信度只受随机误差影响,系统误差不影响信度
5
二、信度的指标
信度以信度系数为指标,常用相关系数表示,表示实得 分数的变异数中有多少比例是由真分数的变异决定的,
30
X
31
在实际工作中,我们用一组被试(人数足够多)两 次施测的结果来代替对同一个人反复施测,以估计 测量误差的变异数。此时,个人在两次测验中的分 数差异就是测量误差。据此可制成误差分数的分布。 这个分布的标准差(误差分布的标准差)我们称之 为测量的标准误,是表示测量误差的大小的指标, 其计算公式为:
rxx
k
k 1
1
piqi sx2
非0、1计分项目(α系数或克伦巴赫(Cronbach)公式 )
rxx
k
k 1
1
si2 sx2
21
注意事项 在一个测量多种特质的问卷中,不同的因子的同质 性信度应该分开计算。 克伦巴赫α系数相当于计算了所有项目间的一致性 程度,避免了分半信度由于分半方式不同所造成的 分半系数不一致的问题。
23
2、计算 当评分者为2人时,可以积差相关或等级相关 当评分者多于2人时,可以使用肯德尔和谐系数
W 12
Ri2 Ri 2 / N K2 N3 N
24
如有A、B、C三位专家给6位应聘者的面试评分,结 果如下,试求评分者信度。
A BC 1 75 66 45 2 90 72 60 3 81 63 54 4 60 60 42 5 84 75 63 6 96 90 66
定理 2:如果满足平行测验条件 时,真分数方差与观察 分数方差之比(信度系数)等于两个平行测验的观察分数之 间的相关系数 。
补充:信度系数、信信度的评估方式 (一)重测信度 (二)复本信度 (三)内在一致性信度 (四)评分者信度
信度系数以相关系数为指标,rxx=rxT2=ST2/SX2 信度的平方根就是信度指数,rxT=ST/SX
6
信度指数(rxT)与信度系数(rXX)
rOT2信度指数 (实得分数与真实分数的相关)
实得分数 σx2
真实分数 σT2
rxx
=
r2 xT
rxx 信度系数(百分比)
7
信度定理:
定理 1:如果满足独立性条件(即误差分数与真分数无关) 时,真分数方差与观察分数方差之 比(信度系数)等于真 分数与观察分数之间的相关系数的平方。
解答一:
SEd St
2 rxx ryy
SEd 15 2 0.87 0.88 7.5
标准分数差异的范围(95%): -1.96×7.5~1.96×7.5 -14.7~14.7 所以被试的操作智商与言语智商无显著性差异 39
解答二
由题意可知: SX SY St 15 , rxx 0.87 , ryy 0.88 当 TX TY 时: SEd St 2 rxx ryy =15×0.5=7.5
SEd为差异的标准误,S为相同尺度的标准分数的标准差,
r r Z分数为1,T分数为10。 、 分别为两个测验的信度系 xx yy
数。
先将原始分数化成标准分数,然后将两个标准分数的差异
与1.96SEd(0.05显著性水平)进行比较,如果其绝对值
大于此值,则差异显著,否则差异不显著。
38
例题
某被试在韦氏成人智力测验中言语智商为102,操 作智商为110。假设言语测验和操作测验的信度分 别为0.87和0.88,则该被试的操作智商与言语智商 有显著性差异吗?
(1) H0 : TX TY , H1 : TX TY
(2) Z X Y 102 110 1.07
SEd
7.5
(3)α=0.05 时, Z0.05 1.96
(4) Z Z0.05 ,接受虚无假设
所以,被试的操作智商与言语智商无显著性差异。
40
例,某校五年级进行了两次数学测验,小张第一 次考了85分,此次数学测验年级平均分是77分, 标准差是8分,此次测验的信度系数是0.84;第 二次考了95分,此次数学测验年级平均分是81分, 标准差是10分,此次测验的信度系数是0.91;问 小张这两次数学测验的成绩是否有显著差异?
A B C Ri 1 5 4 5 14 2 2 23 7 3 4 5 4 13 4 6 6 6 18 5 3 32 8 6 1 11 3
25
Ri =14+7+13+18+8+3=63
Ri2 =142+72+132+182+82+32=811
由题意知 K=3, N=6, 将上述值代入公式有:
28
3、解释个人分数的意义(区间估计)
从信度可以解释个人分数的意义,这就是测量标准误的 应用。它有两个作用 其一是估计真实分数的范围; 其二是了解实得分数再测时可能的变化情形。
29
由于误差的存在,一个人通过测量得到的分数很难 等于真分数。理论上,我们可以对一个人施测无数 次,然后求得所得分数的平均数和标准差。在这个 假设的分布里,平均数就是这个人的真分数,标准 差则为误差大小的指标。
33
例1,已知WISC-R的标准差为15,信度系数为 0.95,对一名12岁的儿童实施该测验后,IQ为 110,那么他的真分数在95%的可靠度要求下, 变动范围应是多大?
34
SE Sx 1 rxx = 15 1 0.95 3.35
X t 110
110 1.96 3.35 X 110 1.96 3.35
13
(二)复本信度
1、定义:又称等值性系数,是以两个等值但题目不同的 测验(复本)来测量同一群体,然后求得被试者在两个 测验上得分的相关系数。
2、方法:为排除施测顺序的影响,在实施时,可将被试 先分为两组,一组人先作A型测验,再作B型测验;另一 组人则反之。
14
施测A型
最短时距 相关系数
一个测验究竟信度多高才合适,才让人满意呢?当然,最理想的情 况是rxx=1.00,但实际上是办不到的。根据多年的研究结果,一般 的能力测验和成就测验的信度系数都在0.90以上,有的可以达0.95; 而人格测验、兴趣、态度、价值观等测验的信度一般在0.80~0.85或 更高些。一般原则是:当rxx<0.70时,测验不能用于对个人做出评 价或预测,而且不能作团体比较;当0.70≤rxx<0.85时,可用于团 体比较;当rxx≥0.85时,才能用来鉴别或预测个人成绩或作为。
第四章 心理测验的 信度与效度
任滨海
提纲
信度
信度概述
信度的类型
影响信度的因素
效度
效度概述
效度的类型
影响效度的因素
2
SX2
SV2
SI2
SE2
ST2
3
第一节 信 度
一、信度定义 1、通俗的定义
信度,即测量的可靠性,多次测量结果保持一致性的程 度。
4
2、测量学定义:
施测B型
图2 复本信度图式
15
复本信度的计算举例
10名学生创造力的复本测验结果
ABCDE FGH I J X1 20 19 18 18 17 16 14 12 12 10 X2 20 20 19 16 16 17 12 11 13 9
3、注意事项
要构造真正的平行测验 复本测验必须在题目的内容、数量、形式、难度、 区分度、指导语、时限以及所用的例题、公式、测验 其它方面都相同或相似。
103.4< X <116.6
35
注意几点: (1)SE对真分数做的是区间估计,不可能由
此得到一个确切的点。这就是说,测验分数不 是一个定点,而是具有一定的分布范围。因此, 两次测验分数之间存在差异是很正常的。 (2)置信水平确定后,估计的精度主要取决 于SE,SE越小,范围越小,估计就越精确,反 之也然。 (3)真分数不能等同于真正能力或心理特质, 真分数中包括了系统误差。
9
(一)重测信度
1、定义:用同一个测验对同一组被试在不同时间施测两次所得结 果的一致性程度,其大小等于同一组被试在两次测验上所得分数的 皮尔逊积差相关系数。又称稳定性信度、再测信度、施测—再施测 信度、跨时间一致性。
10
施测
时间间隔 相关系数
再施测
图1 重测信度图式
11
重测信度的计算举例
10名学生幸福感调查的两次施测分数
22
(四)评分者信度
1、定义:用于测量不同评分者之间所产生的误差。 是由多个评分者给一组测验结果评分,所得各个分 数之间的一致性。
对于客观性试题,评分所引起的误差或忽略不计 对于主观性题目来说,不同评分人员对相同被试的评分存在差异。
如心理测量中的投射测验,学业测验中的高考作文,职业选拔中的 面试等。 一般要求在成对的受过训练的评分者之间平均一致性达0.90以上, 才认为评分是客观的。
两半变异数相等: 积差相关 斯皮尔曼-布朗公式校正
rxx= 2rhh 1 rhh
19
变异数不相等:
弗朗那根(Flanagan)公式:
rxx=2
1
sa2
sx2
sb2
卢伦(Rulon)公式:
rxx=1
sd2 sx2
20
(2)同质性信度: 测验内部所有题目间的一致性。用每个题目和其它题目平均数 的相关。当各测题得分有较高的正相关时,即为同质;相反, 测题间相关很低或为负相关则为异质。 0、1计分项目(库德(Kuder) -理查逊(Richardson)方法)
27
2、确定信度可以接受的水平
SE Sx 1 rxx
(公式5-4)
式中SE表示测量的标准误,即误差分布的标准差; Sx表示一次测量分数的标准差;rxx表示信度系数。
32
我们可以用测量的标准误来估计个人测验的真分数 的大小。
如果选用95%的可靠性水平(置信水平),即显著 性水平(a值)为.05,Z ,2 真分数有95%的可能落入 X ±1.96SE ,即X ±1.96 SE的范围之内,也可以 写成X-1.96SE T X+1.96 SE,SE则用公式5 -4代入。或有5%的可能落入这范围之外。这实际 上也表明了再测时分数改变的可能范围。
被试有条件接受两个测验。
17
(三)内部一致性信度
1、定义:
反映的是题目之间的关系,表示测验能够测量相同内容 或特质的程度。
2、方法:
(1)分半信度: 通常是先把一份测验按题目的奇偶顺序或其它方法分 成两个尽可能平行的半份测验,然后计算两半之间的 相关,即得到分半信度系数。
18
ABCDE FGH I J X1 16 15 13 13 11 10 10 9 8 7 X2 15 16 14 12 10 9 11 8 6 7
2、注意事项: 所测量的心理特性必须是稳定的。 遗忘和练习的效果基本上是相互抵消的。 在两次施测的间隔时期内,被试在所要测验的心理特 质方面没有获得的更多的学习和训练。 易受练习和记忆的影响,两次测试的时间间隔要适当, 一般是2~4周较宜,间隔时间最好不超过6个月。
36
4、比较不同测验分数的差异
测量标准误和测验信度在评价两个不同测验的分数是 否有明显差异时也非常重要。这种比较包括两个人不同 分数的差别和同一被试在两个测验上的差别。
37
我们可以用“差异的标准误”来检验差异的显著性。 差异的标准误的公式为:
SEd SE12 SE22 S 2 rxx ryy (公式5-5)
W= 12 811 632 / 6 32 63 6
=0.95
• 如在评定中有相同的等级时,用下式校正。其中n为 相同等级的个数
Ri2 Ri 2 / N
W 12 K 2 N 2 N Kn3 n/12
26
四、信度对测验分数的意义 1、解释真实分数与实得分数的相关
信度为一组测量分数的真分数方差和总方差(实得分数 的方差)的比率。
信度乃是一个被试群体的真分数与实得分数的相关系数 的平方。
信度乃是一个测验X与它的任意一个平行测验Y的相关系 数。
信度只受随机误差影响,系统误差不影响信度
5
二、信度的指标
信度以信度系数为指标,常用相关系数表示,表示实得 分数的变异数中有多少比例是由真分数的变异决定的,
30
X
31
在实际工作中,我们用一组被试(人数足够多)两 次施测的结果来代替对同一个人反复施测,以估计 测量误差的变异数。此时,个人在两次测验中的分 数差异就是测量误差。据此可制成误差分数的分布。 这个分布的标准差(误差分布的标准差)我们称之 为测量的标准误,是表示测量误差的大小的指标, 其计算公式为:
rxx
k
k 1
1
piqi sx2
非0、1计分项目(α系数或克伦巴赫(Cronbach)公式 )
rxx
k
k 1
1
si2 sx2
21
注意事项 在一个测量多种特质的问卷中,不同的因子的同质 性信度应该分开计算。 克伦巴赫α系数相当于计算了所有项目间的一致性 程度,避免了分半信度由于分半方式不同所造成的 分半系数不一致的问题。
23
2、计算 当评分者为2人时,可以积差相关或等级相关 当评分者多于2人时,可以使用肯德尔和谐系数
W 12
Ri2 Ri 2 / N K2 N3 N
24
如有A、B、C三位专家给6位应聘者的面试评分,结 果如下,试求评分者信度。
A BC 1 75 66 45 2 90 72 60 3 81 63 54 4 60 60 42 5 84 75 63 6 96 90 66
定理 2:如果满足平行测验条件 时,真分数方差与观察 分数方差之比(信度系数)等于两个平行测验的观察分数之 间的相关系数 。
补充:信度系数、信信度的评估方式 (一)重测信度 (二)复本信度 (三)内在一致性信度 (四)评分者信度
信度系数以相关系数为指标,rxx=rxT2=ST2/SX2 信度的平方根就是信度指数,rxT=ST/SX
6
信度指数(rxT)与信度系数(rXX)
rOT2信度指数 (实得分数与真实分数的相关)
实得分数 σx2
真实分数 σT2
rxx
=
r2 xT
rxx 信度系数(百分比)
7
信度定理:
定理 1:如果满足独立性条件(即误差分数与真分数无关) 时,真分数方差与观察分数方差之 比(信度系数)等于真 分数与观察分数之间的相关系数的平方。
解答一:
SEd St
2 rxx ryy
SEd 15 2 0.87 0.88 7.5
标准分数差异的范围(95%): -1.96×7.5~1.96×7.5 -14.7~14.7 所以被试的操作智商与言语智商无显著性差异 39
解答二
由题意可知: SX SY St 15 , rxx 0.87 , ryy 0.88 当 TX TY 时: SEd St 2 rxx ryy =15×0.5=7.5
SEd为差异的标准误,S为相同尺度的标准分数的标准差,
r r Z分数为1,T分数为10。 、 分别为两个测验的信度系 xx yy
数。
先将原始分数化成标准分数,然后将两个标准分数的差异
与1.96SEd(0.05显著性水平)进行比较,如果其绝对值
大于此值,则差异显著,否则差异不显著。
38
例题
某被试在韦氏成人智力测验中言语智商为102,操 作智商为110。假设言语测验和操作测验的信度分 别为0.87和0.88,则该被试的操作智商与言语智商 有显著性差异吗?
(1) H0 : TX TY , H1 : TX TY
(2) Z X Y 102 110 1.07
SEd
7.5
(3)α=0.05 时, Z0.05 1.96
(4) Z Z0.05 ,接受虚无假设
所以,被试的操作智商与言语智商无显著性差异。
40
例,某校五年级进行了两次数学测验,小张第一 次考了85分,此次数学测验年级平均分是77分, 标准差是8分,此次测验的信度系数是0.84;第 二次考了95分,此次数学测验年级平均分是81分, 标准差是10分,此次测验的信度系数是0.91;问 小张这两次数学测验的成绩是否有显著差异?
A B C Ri 1 5 4 5 14 2 2 23 7 3 4 5 4 13 4 6 6 6 18 5 3 32 8 6 1 11 3
25
Ri =14+7+13+18+8+3=63
Ri2 =142+72+132+182+82+32=811
由题意知 K=3, N=6, 将上述值代入公式有:
28
3、解释个人分数的意义(区间估计)
从信度可以解释个人分数的意义,这就是测量标准误的 应用。它有两个作用 其一是估计真实分数的范围; 其二是了解实得分数再测时可能的变化情形。
29
由于误差的存在,一个人通过测量得到的分数很难 等于真分数。理论上,我们可以对一个人施测无数 次,然后求得所得分数的平均数和标准差。在这个 假设的分布里,平均数就是这个人的真分数,标准 差则为误差大小的指标。
33
例1,已知WISC-R的标准差为15,信度系数为 0.95,对一名12岁的儿童实施该测验后,IQ为 110,那么他的真分数在95%的可靠度要求下, 变动范围应是多大?
34
SE Sx 1 rxx = 15 1 0.95 3.35
X t 110
110 1.96 3.35 X 110 1.96 3.35
13
(二)复本信度
1、定义:又称等值性系数,是以两个等值但题目不同的 测验(复本)来测量同一群体,然后求得被试者在两个 测验上得分的相关系数。
2、方法:为排除施测顺序的影响,在实施时,可将被试 先分为两组,一组人先作A型测验,再作B型测验;另一 组人则反之。
14
施测A型
最短时距 相关系数
一个测验究竟信度多高才合适,才让人满意呢?当然,最理想的情 况是rxx=1.00,但实际上是办不到的。根据多年的研究结果,一般 的能力测验和成就测验的信度系数都在0.90以上,有的可以达0.95; 而人格测验、兴趣、态度、价值观等测验的信度一般在0.80~0.85或 更高些。一般原则是:当rxx<0.70时,测验不能用于对个人做出评 价或预测,而且不能作团体比较;当0.70≤rxx<0.85时,可用于团 体比较;当rxx≥0.85时,才能用来鉴别或预测个人成绩或作为。
第四章 心理测验的 信度与效度
任滨海
提纲
信度
信度概述
信度的类型
影响信度的因素
效度
效度概述
效度的类型
影响效度的因素
2
SX2
SV2
SI2
SE2
ST2
3
第一节 信 度
一、信度定义 1、通俗的定义
信度,即测量的可靠性,多次测量结果保持一致性的程 度。
4
2、测量学定义:
施测B型
图2 复本信度图式
15
复本信度的计算举例
10名学生创造力的复本测验结果
ABCDE FGH I J X1 20 19 18 18 17 16 14 12 12 10 X2 20 20 19 16 16 17 12 11 13 9
3、注意事项
要构造真正的平行测验 复本测验必须在题目的内容、数量、形式、难度、 区分度、指导语、时限以及所用的例题、公式、测验 其它方面都相同或相似。
103.4< X <116.6
35
注意几点: (1)SE对真分数做的是区间估计,不可能由
此得到一个确切的点。这就是说,测验分数不 是一个定点,而是具有一定的分布范围。因此, 两次测验分数之间存在差异是很正常的。 (2)置信水平确定后,估计的精度主要取决 于SE,SE越小,范围越小,估计就越精确,反 之也然。 (3)真分数不能等同于真正能力或心理特质, 真分数中包括了系统误差。
9
(一)重测信度
1、定义:用同一个测验对同一组被试在不同时间施测两次所得结 果的一致性程度,其大小等于同一组被试在两次测验上所得分数的 皮尔逊积差相关系数。又称稳定性信度、再测信度、施测—再施测 信度、跨时间一致性。
10
施测
时间间隔 相关系数
再施测
图1 重测信度图式
11
重测信度的计算举例
10名学生幸福感调查的两次施测分数
22
(四)评分者信度
1、定义:用于测量不同评分者之间所产生的误差。 是由多个评分者给一组测验结果评分,所得各个分 数之间的一致性。
对于客观性试题,评分所引起的误差或忽略不计 对于主观性题目来说,不同评分人员对相同被试的评分存在差异。
如心理测量中的投射测验,学业测验中的高考作文,职业选拔中的 面试等。 一般要求在成对的受过训练的评分者之间平均一致性达0.90以上, 才认为评分是客观的。
两半变异数相等: 积差相关 斯皮尔曼-布朗公式校正
rxx= 2rhh 1 rhh
19
变异数不相等:
弗朗那根(Flanagan)公式:
rxx=2
1
sa2
sx2
sb2
卢伦(Rulon)公式:
rxx=1
sd2 sx2
20
(2)同质性信度: 测验内部所有题目间的一致性。用每个题目和其它题目平均数 的相关。当各测题得分有较高的正相关时,即为同质;相反, 测题间相关很低或为负相关则为异质。 0、1计分项目(库德(Kuder) -理查逊(Richardson)方法)