第二章教育测验信度和效度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学号
教学前(x1) 教学后(x2) D
D2
1
34
52
-18
324
2
40
64
-24
576
3
32
50
-18
324
4
30
54
-24
576
5
31
58
-27
729
6
35
63
-28
784
7
44
72
-28
784
8
38
67
-29
841
9
42
62
-20
400
10
36
50
-14
196
2021/2/22
26
3.相关法
反映同一内容范围的两个不同测验,对同一 组被试施测结果的相关系数。若相关高,表明测 验的内容效度高;若相关低,则两个测验中至少 有一个缺乏内容效度。
44 24025 1936
50 29929 2500
53 35344 2809
50 31684 2500
49 33489 2401
52 32400 2704
45 27225 2025
485 298525 23609
XY 8500 7785 7520 6820 8650 9964 8900 8967 9360 7425 83891
未通过
c
d 19
三、提高信度的方法
◆信度系数以多大为宜 学科测验:0.9以上;智力测验:0.8以上;
品德测验:0.6以上 ◆提高测验信度的方法
1.适当增加测题的数量 2.测验的难度要适中 3.测验的内容应尽量同质 4.测验的程序应统一 5.测验时间要充分 6.评分要尽量做到客观化、减少评分误差
2021/2/22
即系统误差,σS2 。 (3)误差引起的方差,即随机误差,σe2 。 ◆则效度的统计公式:
Val = σv2 / σt2
2021/2/22
22
(三)信度和效度的关系
σx2 = σt2 + σe2 σx2 = σv2 + σS2 + σe2
σt 2 = σv2 + σs2
从上述公式可以推出,较高的信度为较高的 效度提供了可能性,但是具有较高的信度并不能 保证必定会具有较高的效度,因此,信度是效度 的必要条件,但不是充分条件。
2.测验时间间隔的确定,应综合考虑练习效应、 迁移效应来确定,应尽可能短;如果有适当时间间隔,也 可称作等值稳定性系数。
3.适用于速度测验,也适用于难度测验,是考察 信度最可靠、使用最广泛的方法。
4.有高估信度系数的倾向。
2021/2/22
12
内部一致性信度
一、二分记分法的测验(0,1,对错,有无等)
(3)测验记分过程的误差
如评分不客观(评分者的偏好、心境、疲劳 等);计算、登分中的错误
2021/2/22
5
(4)主试方面的误差
主试者效应,也叫罗森塔尔效应
(5)被试方面的误差
1.被试的应试技巧及稳定的反应倾向;
2.被试的应试动机和情绪的紧张焦虑状 态
3.被试对特定测验任务的理解,在所测 特定知识技能上的练习水平,在记忆或注意力上 的波动等
11
复本信度(alternate-form reliability)
(1)定义:复本信度是指同一组被试在复本测验上所得结 果的相关系数。
复本测验,又称等值测验,是指在性质、内容、题 型、题数、难度等方面都一致的两份或多份测验。
(2)计算方法:积差相关系数
(3)说明:
1.两个测验必须是等值的,这点比较困难。
9
180 52
10 165 45
∑ 2021/2/22
10
身高X 1 170 2 173 3 160 4 155 5 173 6 188 7 178 8 183 9 180 10 165 ∑ 1725
2021/2/22
体重 Y X2
Y2
50 28900 2500
45 29929 2025
47 25600 2209
1题 2题 3题 4题 5题 6题
1
1
0
0
0
0
0
2
0
0
0
1
0
0
3
1
0
1
0
0
0
4
1
1
0
0
1
0
5
1
1
1
0
1
1
6
1
1
1
1
0
1
7
1
1
0
1
1
0
8
0
1
1
0
0
1
9
1
1
1
1
1
1
10 2021/2/22
1
0
0
1
0
0 15
二、非0,1记分测验的内部一致性信度
1.主要采用克伦巴赫(Cronbach)信度系 数,即α系数。
2.计算方法:
rtt=
k
k
1
·(1-
2 i
)
2 t
2 i
:表示每个测题分数的方差
2 t
=
xt2 n
xt
2
n
2 i
x2
n
x2
n2
3.说明:内部一致性信度常用于无法重测,又
没有复本的测验;适用于同质性测验,不适于异质
性2测021/验2/22 ;适用于难度测验,不适用于速度测验。16
例3:用6个论文题的测验对5个学生施测,结果 如下,试估计其内部一致性信度。
根据上述假设编制一套包含以上四个因素的测
测题组根据所考察的目标进行划分;然后,对 每个测题组采取常模参照性测验的信度估计方法。
(2)阶段比较法
第一次测验
第二次测验
经过学习训练后,第一次测验中通过的学生在第 二次测验中通过率较高,则说明信度高。
(3)复本信度估计法 rtt=(a+d)/n
2021/2/22
甲测验 通过 未通过
乙
通过
a
b
测 验
容所关注的。
2021/2/22
4
二、引起测验误差的因素
(1)测验本身的误差:
如测验题目选择是否有代表性;被试对测验 题目的熟悉程度和知识范围;测验是否限定时间; 指导与是否清晰;测验材料是否标准;所用仪器是 否精确;题目用词是否准确等等
(2)测验施测过程的误差
1.物理环境:施测现场的温度、光线、噪音、 通风等;2.外界环境的干扰:卷子印刷质量差或 发错、有人作弊、天气陡变等
(2)记分方法:
• 对于定距量表:
1.两个评分者:积差相关系数
2.多个评分者:α系数
• 对于顺序量表:
1.两个评分者:二列等级相关
2.多个评分者:肯德尔(Kandall)和谐 系数(又叫多列等级相关)
2021/2/22
18
目标参照性测验的信度系数
前面提到的几个信度系数都用于常模参照性测验
(1)估计测题组的信度
(2)计算方法:积差相关系数
(3)说明:
1.重测时间间隔的确定,应综合考虑练习效 应、记忆效应、个体成长等因素;对于任何个体, 重测的时间间隔一般不应超过6个月。
2.适用于速度wk.baidu.com验,而不适用于难度测验
3.应注意提高被试对重测的积极性和兴趣。
2021/2/22
8
积差相关系数的求法
◆对数据的要求: 1.成对数据 2.两列数据要呈正态分布 3.定距量表获得的数据 4.两列变量之间的关系的是线性的
20
第三节 效度
一、定义
(一)效度的语词定义
效度(validity),指测验的有效性,即量表
实际测量出其所要测量的特性或功能的程度。
(1)效度的相对性
效度和测验目的相关,“这个测验测量什么东
西,以及它在什么程度上测量到所要测量的东西”。 测验结果总有一定的效度,只是高低不同。
(2)效度是测验系统误差和随机误差的综合反应。
2021/2/22
13
(2)库德-理查德(Kuder-Richardson)信度:根 据各个问题的正确反应数为基础,或根据各人总 分的均值和标准差来计算信度系数。
计算方法:K-R20和K-R21
K-R20
公式:rtt=
k
k 1
·(1-
2 pq
2 t
)
K-R21
公式:rtt=
k
k 1
·(1-
k pq
指测验对于人的假设属性或理论概念测量到的程
度,又叫作“构想效度”。
假设属性或理论概念是抽象的,在现实世界
中没有与这种属性直接相对应的东西存在,而是 被假设存在的属性,如智力、成就动机等。
在实际的教育测验中,人们先提出概念,然
后将概念具体化为具体结构,并以此编制测验,
如果测验结果测量到了结构,则说明测验具有较
4.被试的健康状态、疲劳因素等
(6)机遇引起的测验误差
猜测或意外干扰
2021/2/22
6
第二节 信度
一、定义
信度(Reliability),是指测验的可靠性, 即在不同时间,使用同一测验,或者使用两个不同 项目的等值测验,抑或在其他不同的测试条件下, 对同一组被试实施两次测验所得分数的一致性。
信度和误差的关系:误差越小,信度越高; 误差越大,信度越小。
测验复本1 前测成绩
学习训练
测验复本2 后测成绩
如果前测成绩和后测成绩之间是否具有显 著性差异,且后测成绩优于前测成绩,则说明 该测验对学习训练的内容而言具有较高的内容 效度。
2021/2/22
25
例:在《社会发展简史》第一单元教学前,对学生进行有 关这一单元内容的测验,教学之后再以复本测验施测,结 果如下,试估计测验的内容效度。
一、定义:测验误差是指由与测量目标无关的变因 所引起的不准确和不一致的效应。
测验误差包括:
1.随机误差:由偶然因素引起的无规律的误 差
2.系统误差:由某些常定因素引起的有规律 的变化,是对测量结果的一种偏差。
系统误差的出现是不应该的,是测验编制中出现
的错误;而随机误差则是不可避免的,受一些偶
然的、不可预见因素的影响产生,是我们本节内
2021/2/22
23
二、效度的估计方法
内容效度 (一)定义:
内容效度是指测验内容对所要测量内容的代表 性程度。 (二)估计方法:
1.逻辑判断法(专家评定法)
工作思路:按照一定的步骤请有关专家对测 验题目与原定内容范围的吻合程度作出判断。
缺点:带有一定的主观性。
2021/2/22
24
2.比较平均数差异的显著性(t检验)
第二章教育测验信度和效度
1
2021/2/22
2021/2/22
2
本章内容概览
第一节 测验的误差
第二节 信度
1.再测信度(稳定性信度)
2.复本信度
3.内部一致性信度
4.评分者信度
5.目标参照性测验的信度系数
第三节 效度
1.内容效度
2.结构效度
3.效标关联效度
2021/2/22
3
第一节 测验的误差
(1)折半信度(split-half reliability),将每 一个被试的测验分数按测题分成两部分记分,然 后用每个被试在两半测验上的得分求整个测验的 信度。
一般分成奇数项-偶数项;前一半-后一半。
计算方法:
1.折半
2.求出两半的积差相关系数rhh 3.用斯皮尔曼-布朗(Spearman-Brown)公 式进行校正:rtt=2rhh/(1+rhh)
1题 2题 3题 4题 5题 6题 X X2
1 343214
2 634546
3 131245
4 622153
5 531242
∑xi
∑xi2
2021/2/22
17
评分者信度(Scorer reliability):是指
评分者所评分数之间的相关系数。
(1)常用于无法以客观方法记分的测验,如人格 投射测验、创造力测验以及主观题等。
信度一般以两次测验的相关系数来表示。相 关系数代表了两组分数之间的对应程度或关系。
2021/2/22
7
二、信度的估计方法
再测信度(test-retest reliability)
(1)定义:又称为稳定性系数,是指以同一个测验 对同一组被试先后施测两次,所得结果的相关系 数,这是计算相关系数最方便的方法。
(3)效度总是针对测量结果而言。
(4)判断一个测量是否有效要从多方面收集证据。
2021/2/22
21
(二)效度的统计定义
效度是指一组测验分数中,由所欲测量的属 性引起的方差与测量分数总方差的比例。
◆一组测验分数中的总方差包括三部分:
σx2 = σv2 + σs2 + σe2
(1)由所欲测量属性引起的方差,σv2。 (2)与所欲测量属性无关的属性所引起的误差,
◆计算公式——用原始观测值计算 皮尔逊相关系数(Pearson)
2021/2/22
9
例1:下表是10名中学生身高和体重的测量结果,问 身高与体重的关系如何?
身高X 体重 Y X2
Y2
XY
1
170 50
2
173 45
3
160 47
4
155 44
5
173 50
6
188 53
7
178 50
8
183 49
2 t
)
k:测题数目 p:表示每个测题做对人数的比率 q=1-p
p :表示答对人数比率的平均数
q :表示各题答错人数比率的平均数
2021/2/22
rtt=
k
k
1
·(1-
xt
(k xt
k
2 t
)
)
14
例2:对初中一年级学生进行地理成绩测验,每答 对一题得1分,答错1题得0分,试估计该测验的折 半信度。
好的结构效度。结构效度适用于智力测验、人格
测验,也可用于教育领域。
2021/2/22
28
例:计划编制一套少年道德品质倾向形成原因测 验,则根据青少年道德品质形成的原因论,提 出以下几点假设:
1.与家庭因素密切相关 2.与居住地区和环境有关系 3.与学校教育有关系 4.与他们在校内外结交的朋友有关系
(三)表面效度
表面效度是指测验在表面上被被试直觉感到
的有效性程度。表面效度不是真正的效度,但编 制测验时应当加以考虑,若被试认为测验无效的 话,则会对测验缺乏信任。
表面效度与内容效度常常混淆,而事实上,
两者是不同的。
2021/2/22
27
结构效度
(一)定义:
克伦巴赫和米海尔(Meehl)在1954年首创,