教育测量与评价的质量特性

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
点所决定; ▪ 3、重测法适用于速度测验而不适用于难度测验; ▪ 4、应注意提高被试者的积极性。
重测信度与时间间隔
▪ 两次测量之间的间隔时间不同,重测信度也不同。 间隔时间太短,存在记忆效应;间隔时间太长,影响测量的干扰因素增加。一般而言,
时间间隔越长,信度系数越低。 ▪ 适宜的间隔时间因测验性质、被试特点而异。
教育测量与评价的质量特性
第一节 教育测量与评价的信度
一、什么是信度 ——指测量结果的稳定性或可靠性程度。
▪ 一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵 守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。
对信度的理解
①信度指实测值(X)和真值(T)相差的程度; ②考察信度系数时,常常采用相关系数作为信度指标,测验结果之间的相关程度越高,信度就越高。
r
NX YXY
r
N X Y X Y
N X X NY Y 2 N X2 2X2 N Y2 Y 2 2
2
X:第一次测验的实得分数; Y:第二次测验的实得分数; N:被试人数。
例一
▪ 用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个 月后再测一次,得分记为Y,问测验结果是否可靠?
▪ 学生序号 1 2 3 4 5 6 7 8 9 10 11 12
▪X
20 20 21 22 23 23 23 24 25 26 26 27
▪Y
20 21 21 20 23 23 25 25 26 26 27 29
在使用重测法计算信度值时,应注意以下问题:
▪ 1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致; ▪ 2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特
(五)标准参照测验的信度分析
▪ 1、百分比一致性指标(PA , p54 )

2、к一致性系数(p55P)A
ad N
▪ 3、 指数(p55) PA PC
1PC
PC
(abac)(cd
NN
N
bd) N
2
2 Sx(KR20)(X)2 Sx2 (X)2
总结和比较1:五种信度的误差来源
信度种类
误差来源
重测信度 复本信度(同时测试) 复本信度(延时测试) 分半信度 Kuder-Richardson 和Alpha系数 评分者信度
采用不同的方式计算相关系数,就得到不同类型的信度系数。 ③心理测验的信度值在0-1.00之间,当信度系数等于1.00时,表示测验完全可靠;当信度系数等于0
时,则表示测验根本不可靠。
问题
▪ 一个能力测验用于人才招聘,经检验它的信度为0.70,如何理解这个信度系数的含义。 ▪ 理解:0.70的信度系数表明,在不同的招聘候选人之间进行比较,候选人测验分数的70%差
例三
▪ 对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果 如下表,试估计该测验的分半信度?
▪ 学生序号 ▪ ▪1 ▪2 ▪3 ▪4 ▪5 ▪6 ▪7 ▪8 ▪9 ▪ 10
题序 1234 56 1000 00 0001 00 1010 00 1100 10 1001 00 1110 11 1111 01 1101 10 0110 01 1111 11
▪ 判断原则: 多年的研究结果,一般的能力测验和成就测验的信度系数都在0.90以上,有的可以达0.95;
而人格测验、兴趣、态度、价值观等测验的信度一般在0.80—0.85或更高些。 R<0.70:测验不能用于对个人作出评价或预测,
而且不能作团体比较; 0.70≤R<0.85:可用于团体比较; R≥0.85:才能用来鉴别或预测个人成绩或作为。 新编的测验信度应>原有的同类测验或相似测验。
习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不 同的影响,以及为了应付测验所作训练的影响等。
复本信度缺点:
▪ 1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式, 而过分不相似,又使等值的条件不存在;
▪ 2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度; ▪ 3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性; ▪ 4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类
(四)评分者信度
▪ 评分者信度 ——指多个评分者给同一批被试作答情况评分的一致性程度。
▪ 它主要用于主观性作品的评价过程中,如论述题评分,作文题评分、歌唱比赛的评分,设计 作品的评分等。
评分者信度的计算方法
▪ 1、当评分者人数=2时,评分者信度等于两者评分的相关系数。 ▪ 2、当评分者人数大>2时,评分者信度采用肯德尔和谐系数计算。
信度的作用 ▪ 1、信度是确定测验工具好坏的指标之一。
测验类型
学业成就测验 学术能力测验 特殊能力倾向测验
人格测验 兴趣测验 态度测验
信度系数



0.66
0.92
0.98
0.56
0.90
0.97
0.26
0.88
0.96
0.46
0.85
0.97
0.42
0.84
0.93
0.47
0.79
0.98
注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.
估计方法
▪ 分半信度(p49) ▪ 库德-理查逊信度(p50) ▪ 克龙巴赫系数(α系数,p52) ▪ 荷伊特信度(p52)
分半信度
▪ ——将测验分半,再求被试在每一半测验上所得分数的相关系数。 ▪ 首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的
原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组, 偶数测题为一组,分成两半; ▪ 然后计算每个被试在两个分半测验分数的相关系数,再用斯皮尔曼—布朗公式加以校正: p49
(一)重测信度
——指同一个量表对同一组被试施测两次所得结果的一致性程度。 ▪ 其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的
公式来计算。
施测
时间间隔 相关系数
再施测
重测信度的计算
统计学上,我们通常把对同一组被试实施的两次等值测验的成绩的相关系数作为这一测验的 信度。
别是由于个体之间真实的能力差异所导致的,而30%差别是由于随机误差所导致。
二、信度的种类及估计方法
▪ 采用不同的方法来计算相关系数,就会得到不同类型的信度指标:重测信度、复本信度、分 半信度、同质性信度、评分者信度。
▪ 五种信度的含义和计算方法各异,我们在使用时要特别注意每一种信度的特定内涵和适用范 围。
(二)提高测量信度的常用方法
▪ 1、适当增加测验的长度 ▪ 2、测验的难度要适中 ▪ 3、测验的内容应尽量同质 ▪ 4、测验的程序应统一 ▪ 5、测验的时间要充分 ▪ 6、测验的评分要尽量做到客观化,减少评分误差
第二节 教育测量与评价的效度
一、什么是效度 ——指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。
时间间隔 题目内容 时间间隔与题目内容 题目内容 题目内容与心理行为特质的同质性 评分者间差异
总结和比较2: 测试次数、测试卷份数与信度系数
测试次数 1次 2次
测试卷份数
1份
2份
分半信度 Kuder-Richardson信度
Alpha系数
复本信度(同时测试)
重测信度
复本信度(延时测试)
作业
1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10 个学生重测一次,得分记为Y,问测验结果是否可靠?
2、当两个半测验分数的方差不相等时,
采用弗朗那根公式和卢仑公式。
弗朗那根公式:rxx=2[1-(s2a+s2b)/s2x] 卢仑公式:rxx=1-s2d/s2x
其中: rxx:测验的分半信度, s2a、s2b:两半测验上得分的方差, s2x:整个测验上得分的方差, s2d:两半测验上得分之差的方差。
▪ 学生序号 1 2 3 4 5 6 7 8 9 10
▪X
19 19 18 17 16 15 15 14 13 12
▪Y
20 17 18 18 17 15 13 15 12 12
复本信度的优缺点表现:
优点: ▪ 1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,
又可以反映对于不同测题的一致性; ▪ 2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练
▪ 2、信度是测量过程中随机误差大小的反映。 ▪ 3、信度可以直接解释真分数与实得分数之间的关系,明确告知测验误差的大小(测量标准误可
作为测量误差大小的客观指标)
▪ 4、下结论说某测验比较可靠,必须依据情境,并经多次证实。 ▪ 5、信度可以解释、预测个人分数的意义。
三、提高信度的方法
(一)影响测量信度的主要因素 1、被试方面 2、主试方面 3、施测情境方面 4、测量工具方面 5、两次施测的间隔时间方面
▪X
9 10 12 4
▪ 3、有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,学生即 毕业离校,现怎样评价测验结果的信度?
▪ 学生序号 1 2 3 4 5 6 7 8 9 10 ▪ 奇X 38 37 38 41 40 36 38 39 40 35 ▪ 偶Y 37 37 36 39 39 34 38 39 39 36
▪ 分半信度只需要一种测验形式,实施一次测验,它比重测信度和复本信度的操作更简便。 ▪ 注意:当一个测验无法分成对等的两半时,不宜使用分半信度。
分半信度的计算方法
1、当两个半测验分数的方差相等时,计算两个“半测验”之间的皮尔逊积差相关系数,然后用 斯皮尔曼-布朗公式校正。 ▪ rxx=2rhh/(1+rhh) 其中rxx是整个测验的分半信度,rhh是两个半测验之间的相关系数。
1、效度是一个相对的概念。 (1)测量的效度是相对一定的测量目的而言的 (2)测量的效度是相对测量的结果而言的 2、一种测量的效度只是高或低的问题 ▪ 测量结果总是有一定效度的,只是效度高低不同罢了。
二、效度的估计
▪ 根据测量目标的不同,对测量工具进行效度验证的方法主要有三种: ➢ 内容效度(基于所测内容的效度验证方法) ➢ 结构效度(基于所测心理结构的效度验证方法) ➢ 准则关联效度(基于效标关联性的效度验证方法)
多份测验。
施测A 型
连续施测或间隔施测
相关系数
施测B型
例二
▪ 以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成 的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做 B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果 记为Y,其测验的复本信度如何?
▪ 学生序号 1 2 3 4 5 6 7 8 9 10
▪X
8 10 9 6 10 7 5 7 9 4
▪Y
9 10 10 6 10 8 4 8 9 4
▪ 2、对10名应试者先进行某种测验X,隔适当时间后(半年),再进行内容、范围、难 度类似的第二次测验Y,试求测验的复本信度?
▪ 应试者 1 2 3 4 5 6 7 8 9 10
旁通,有可能失去复本的意义。
(三)同质性信度
同质性信度 ——也称内部一致性信度,指测验内部所有题目之间的一致性程度。
▪ 两层意思: ①测验所有题目测的是否为同一种心理特质; ②测验所有题目得分之间是否具有较高的正相关。
▪ 基本假设:当一个测验具有较高的同质性信度时,说明测验主要测的是某一个单一心理特质,由 于众多题目测试了同一心理特质,那么实测结果就是该特质水平的反映。
如:对儿童测量时间间隔相对短一些成人测量时间间隔可以长一些。一般以2周到4周较宜, 最好不超过6个月。 ▪ 报告重测信度时要明确说明两次测验之间的时间间隔,并且,一个经过良好评估的测验应当 具有多个时间间隔的重测信度。
(二)复本信度
▪ ——指两个平等的测验测量同一批被试所得结果的一致性程度。 ▪ 其大小等于同一批被试在两个复本测验上所得分数的相关系数。 ▪ 所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或
相关文档
最新文档