教育测量与评价课件(3)(第三章 教育测量与评价的质量特性)..
教育测量与评价的质量特性 难度与区分度课件
PPT学习交流
19
解
需进行显著性检验,才能确定其是否具有显著性意义
(1)对点双列相关公式中的 和 进行差异显著性检验,若差异显著, 表明 显著; (2)采用积差相关系数显著性检验的方法进行检验; (3)如果样本量较大(n>50),也可用下面近似方法:
, 认为 在0.05水平上显著;
,认为 在0.01水平上显著。
答对该题目的人数 被试人数
PPT学习交流
3
• 多值记分题的难度值计算
某题的平均得分 该题的满分
PPT学习交流
4
练习
• 题1:在100个学生中,答对第一题的30人,答 对第二题的60人,求第一、二道题的难度?比 较这两道题谁比谁难?
• 题2:某道论述题满分12分,所有考生在这道题 上的平均得分为3.6分,求该题的难度?
6
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
如果该题满分为10分,高分组得分总数为2100分交流
7
二、难度指标的等距变换
• 运用标准分数(Z分数)作为题目难度的指标
PPT学习交流
8
例:某校学生在一次测验中,第一题的答对率为 15%,第二题的答对率为25%,第三题的答对率为 35%,假定这三题所测量的能力近似正态分布,问
信度
0.00 0.42 0.63 0.84 0.915 0.949
要达到理想的测验信度,提高区分度是一个好办法
PPT学习交流
16
难度
1.00 .90 .70 .50 .30 .10 .00
区分度的最大值
.00 .20 .60 1.00 .60 .20 00
难度适中,可使区分度达到最大值
教育测量与评价的质量特性培训讲义PPT优质课件(31页)
第三节 难度与区分度
一、难度与难度系数的计算
• 概念
– 难度:被试完成题目或项目任务时遇到的困难 程度
– 难度系数:定量刻画被试作答一个题目所遇到 的困难程度的量数,叫做题目的难度系数,也 常称为难度值,用符号P表示
• 计算方法
– 二值记分题的难度值计算
答对该题目的人数 被试人数
– 多值记分题的难度值计算
某题的平均得分 该题的满分
练习
• 题1:在100个学生中,答对第一题的30人,答 对第二题的60人,求第一、二道题的难度?比 较这两道题谁比谁难?
• 题2:某道论述题满分12分,所有考生在这道 题上的平均得分为3.6分,求该题的难度?
• 题3:语文测验第五题最高得分为12分,这道 题考生的平均得分是8.5分,求该题难度?
三、测验题目的恰当难度和恰当难 度的分布
• 测验题目难度水平的确定
– 测验题目难度水平的适当与否,取决于测验的目的、 性质和题目的形成。
– 当P值接近于0或接近于1时,即被试在该题上全部答对 或全部答错,则该题无法提供个体的信息。而只当P值 接近于0.50时,题目才能把被试做最大的程度的区分。
– 但在实际工作中,若每一题的难度值均为0.50,那么 此测验很可能只能区分出好与差两种极端被试的差异, 却不能对各种被试作更精确的区分。因此,一般各题 的难度可在0.50+20之间。
区分度的最大值 .00 .20 .60 1.00 .60 .20 00
难度适中,可使区分度达到最大值
二、区分度的计算
• 相关法
– 点双列相关系数
通过该项目的被 试的平均总分
全体被试总 分的标准差
未通过该项目的 被试的平均总分
《教学测量与评价》PPT课件
h
8
二、教育评价
1.评价(evaluation):衡量、判断人物或事 物的价值。
2.教育评价:是指通过系统地采集和分析信息, 对教育活动满足预期需要的程度作出判断,以达 到教育价值增值的过程。(美国教育学家泰勒R.W.Tyler ,
1930年)
h
9
(1)对教育评价含义的理解:
a.教育评价的本质在于“价值判断”,必然要涉及教育 价值问题。所谓教育价值是指作为客体的教育现象的 属性与主体需要的关系。教育价值包括个体价值与社 会价值。
b.教育评价的对象是教育领域中的任意元素,既可以是 教育的参与者,也可以是教育现象和活动。
c.教育评价的手段是运用科学 的评价技术和方法,既有 定量的,又有定性的。
d.教育评价的目的是为了促进教育改革,提高教育质量。
h
10
(2)教育评价的范围:
学业成就评价,智力能力评价,性格、道德品质评价, 身体评价,环境评价,教师评价(主要包括教师资格和 教师教学质量的评价),课程、教材评价,学校评价, 等等。
所以,我们要做对华抗战的准备。其他学生的判断, 也都是中国跟日本的摩擦,会从东海开始,从台湾海 峡开始,时间判断是2015年至2020年之间。
h
4
第一章 教育测量与评价概述
第一节 第二节 第三节 第四节 第五节
教育测量与评价的基本概念 教育测量与评价的发展历史 学习教育测量与评价的意义 教育测量与评价的类型 教学测量与评价的基本步骤
三、教育测量与评价是教师的专业素养和能力。
h
16
第四节 教育测量与评价的类型
一、按测量与评价的内容分类
1.智力测量与评价(如:斯坦福-比纳智力量表、韦氏智力量表)பைடு நூலகம்
第三章教育测量与评价的质量特性
第三章教育测量与评价的质量特性教育测量与评价的质量特性是指衡量教育测量与评价方式好坏的标准和特征。
这些特性对于确保评价结果的可靠性和有效性非常重要。
本文将介绍教育测量与评价的质量特性中的11个方面,包括信度、效度、客观性、标准化、综合性、灵敏性、稳定性、可操作性、公正性、可信性和效能。
首先,信度是指测量结果的稳定性和一致性。
一个具有良好信度的测量工具,即使在不同时间和场合下使用,也能够得出相似的结果。
为了确保信度,可以采用多种方法,如测试重测法、分割半法和并行测试法。
其次,效度是指测量工具是否能够真实地反映出被测量的内容。
有效的测量工具应该能够准确地衡量被评价对象的特征和能力。
为了确保效度,可以进行内容效度分析、构造效度分析和标准效度分析等。
第三,客观性是指评价过程是否客观公正,不受个人主观意识和偏见的影响。
客观的评价应该遵循科学的评价标准和程序,避免主观判断和个人情感的干扰。
为了确保客观性,可以采用客观评分标准、标准化评分和多人评价等方法。
第四,标准化是指采用统一的评价标准和方法进行测量评价。
标准化可以提高评价结果的可比性和可靠性,并减少评价结果的误差。
为了进行标准化,可以制定统一的评价标准和评分规则,并进行培训和监督。
第五,综合性是指评价结果应该综合考虑多个评价指标和多个评价方法。
综合性评价可以更全面地了解被评价对象的特征和能力,并避免单一指标和单一方法带来的评价偏差。
为了实现综合性评价,可以采用多种评价方法和多个评价指标。
第六,灵敏性是指评价工具能够敏锐地区分不同水平的被评价对象。
灵敏性评价可以更精确地衡量被评价对象的特征和能力,并提供更有针对性的改进建议。
为了确保灵敏性,可以采用灵敏性指标和合理的评价区分度。
第七,稳定性是指评价结果在不同时间和场合下的稳定性和一致性。
稳定性评价可以确保评价结果的可靠性和可比性,并避免评价过程和评价工具的误差。
为了确保稳定性,可以进行关于测量工具的试验和验证。
《教学测量与评价》PPT课件
2021/3/26
2.2 定性分析(综合分析)
综合分析是指在定量分析数据结果的基础上, 结合考试的具体情况,进行归纳、分析、综合 、概括,从而得出具有普遍意义的结论的分析 方法。
如结合定量分析数据结果对不同专业考生具 体差异,考生在学习中普遍存在的问题,教学 中的薄弱环节等进行分析。
另外,对试卷命题质量中比如题目表述是否科 学、文字表述是否正确以及阅卷情况等直接进 行定性分析。
教学测量与评价
2021/3/26
1
第一讲 教学测量与评价的含 义与作用
一、什么是教学测量 二、什么是教学评价 三、教学测量与评价与关系 四、教学测量与评价的作用
2021/3/26
2
一、教学测量
1.含义 教学测量(instructional measurement)
是考核教学成效的一种方法。这是借助于一 定的手段与方式,对学生的学习成绩(简称 学绩)进行探察,并以一定的数量来表示的 考核办法。
语文表达等比较复杂的成就;
(2)拟评测学生对某些科学知识的意见或态度;
(3)拟评测学生分析、应用或评价整体科学概念
的能力;
(4)受试人数不多无足够时间命题:
(5)教师个人在评阅答案时,能明确制订统一的
评分标准。
2021/3/26
21
2.在下列情况下,以使用客观型试题来评 价为宜
课程考试目的:对学生学习状况和相关知识掌 握程度,教师教学计划的完成程度及效果进行 检查 ;对学生的学业水平、能力做出判断、 区分和解释。
教育测量与评价的质量特性 效度 PPT
24
Bye Bye
教育测量与评价的质量特性 效度
25
7
教育测量与评价的质量特性 效度
8
结构效度(construct validity)
教育测量与评价的质量特性 效度
9
• 验证步骤
– 第一,提出有关理论结构的说明,并据此设计 测量用的试题;
– 第二,提出可以验证该理论结构存在的假设说 明;
– 第三,采用各种方法收集实际的资料,以验证 第二步提出的假设的正确性;
ቤተ መጻሕፍቲ ባይዱ
教育测量与评价的质量特性 效度
6
内容效度(content validity)
• 含义:又称合理效度或逻辑效度,是测验 题目样本对于应测内容与行为领域的代表 性程度。
• 应用范围:教育测量(尤其是学业成就测 验);某些用于选拔和分类的职业测验
• 注意:不适用于能力倾向和人格测验
教育测量与评价的质量特性 效度
教育测量与评价的质量特性 效度
11
教育测量与评价的质量特性 效度
12
教育测量与评价的质量特性 效度
13
用积差相关系数的方法估计效度
• 积差相关,是计算两个变量线性相关的一种方法,由英 国统计学家皮尔逊提出,因此也称为皮尔逊(Pearson) 相关。要使用积差相关必须同时具备如下几个条件:
①两个变量都是由测量获得的连续性数据,即等距或等比 数据。
②两个变量的总体都呈正态分布,或接近正态分布,至少 是单峰对称分布,当然样本并不一定要正态。
③必须是成对的数据,而且每对数据之间是相互独立的, 即各自互不影响,本条件是难以检验的。
④两个变量之间呈线性关系。一般用描绘散点图的方式来 观察,最好是先各自转化为Z分数,单位会统一些。
教育测量与评价课件(3)(第三章-教育测量与评价的质量特性)
思考题 如何理解“效度”的意义?
2016/5/24
包头师范学院
刘俊英
12
答:
效度是指一个测验或量表实际能测出其所
要测量的特性的程度。对这一概念,我们可以从以下 几个方面来理解:
(1)效度始终是针对一定测量目的而言的;
(2)效度只有程度上的差异;
(3)效度是针对测量结果而言的;
2016/5/24 包头师范学院 刘俊英 5
同质性信度的概念
(1)同质性信度(内部一致性信度)是指测验内部所有题目间的一
致性程度。这里题目间的一致性含有两层意思:其一是指所有题目测的
是同一种心理特质;其二是所有题目得分之间都具有较高的正相关。 (2)同质性信度的基本假设:当一个测验具有较高的同特性信度时,
测量标准误的含义
测量标准误是指测验中所得测值偏离真分数的程度,记为SE。 测量标准误与测验信度的关系
SE S X 1 rXX
测量标准误的意义 测量标准误是反映测量结果精确性和可靠性的又一指标,同时也 是人们正确解释测验分数的科学依据。
2016/5/24
包头师范学院
刘俊英
10
效度的概念
效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度。 对这 一概念,我们可以从以下几个方面来理解:
① 效度始终是针对一定测量目的而言的;
② 效度只有程度上的差异; ③ 效度是针对测量结果而言的;
④ 评价一个测量是否有效要多角度、多方面地收集证据。
效度的统计定义 效度可定义为目标真分数方差与观察分数方差之比:rXY=σ2V / σ2X 效度与信度的关系 (1)信度高是效度高的必要而非充分条件 (2)效度系数不会大于信度系数的平方根
教育测量与评价的质量特性 PPT课件
预测效度:测验分数取得一段时间后才获得效标资料,计算这两种 资料间的相关系数
目的:预测某个个体将来的行为
效标效度的估计方法
相关法
直接计算测验分数与效标分数的相关系数
积差相关、等级相关、二列相关等
显著差异法
根据效标测量将被试分为两个极端组,检验这两个组测验分数是 否具有统计学上的差异显著性
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
1.区分度与难度的关系
难度(P) 1.00 0.90 0.70 0.50 0.30 0.10 0.00
区分度(D的最大值) 0.00 0.20 0.60 1.00 0.60 0.20 0.00
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
效标:检验测验效度的外在的、客观的标准,即效度的标准 效标效度,也称为效标关联效度,也称为实证效度 验证方法是指一个测验对处于特定情境中的个体行为进行预测时
的有效性 例:
高考成绩预测大学学习成绩 能力倾向测验预测工作成效
分类:
同时效度:测验分数与效标资料的取得约在同一时间内连续完成, 这两种资料的相关系数即为同时效度
框架及其假设 比如:中学生数学能力的研究
数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、 空间想象能力构成;数学能力与早期教育有关;数学能力与智 力正相关。
编制测验,施测并收集测验结果 分析测验结果,考查测试的结构效度,考查测验结果是否支持
理论构想
三、各类效度的验证方法
3.效标效度的验证方法
一、难度的含义
难度是指测验项目的难易程度,记为 P 在教育测量中
教育测量与评价全套讲义课件
就是走向专业化。
第二章 教育测量的质量指标
• 衡量教育测量的质量,可采用四个指标: • 信度
主要对整个测量而言。 • 效度 • 难度
主要对测量的项目而言。 • 区分度
一、信度概述
• (一)什么是信度 • 信度是指测量结果的稳定性或可靠性程度。
1通过心理调控可以使教育评价的准备更加合理充分2通过心理调控可以保证教育评价活动的实施得以顺利进行更好地完成各环节的任务3通过心理调控可以使评价的功能得以全面发挥圆满实现评价的目的二评价者心理与调控1准备过程的心理现象角色心理心理定势新奇感时尚效应和期望效应2施评过程的心理现象自尊心理首因效应近因效应晕轮效应参照效应理想效应时序效应成见效应宽大效应和附和权威心理3结果处理过程的心理现象类群效应从众心理逆反心理本位心理和模式效应2评价者心理的调控3通过心理换位使评价者自觉进行调控4通过完善规章制度加以调控三被评价者心理与调控1被评价者自我评价心理现象自我认可疑惧心理和被审心理2受评过程心理现象应付心理迎合心理和自卫心理3结果反馈心理现象敏感心理护短心理嫉妒心理和对评价进行评价心自我评价不但是评价过程的必要环节而且自我评价对评价结果有着相当大的影响需要了解被评价者自我评价形成
(二)四种测量量表
• 量表一般称为测量工具。 • 1、名称量表—(类别量表)最低水平的一种量表 • 它只是用数字表明事物的类别或性质不同而已,没有任何数量大
小的意义,不能作数量化分析,也不能将之进行加减乘除运算。 • 2、等级量表—(顺序量表) • 用来描述各个类别的数字,不仅具有区分性,而且还具有等级性
(或顺序性),因此,量表上的数字之间能表示事物大小的位次 关系,但不具有等距性和可加性,也不能进行加减乘除运算。 • 3、等距量表— • 量表上的数值不仅具有区分性、等级性,还有等距性,这类量表 上的数值只能作加减运算,不能作乘除运算。 • 4、比率量表—最高水平的量表 • 有相等单位和绝对零点,量表数值可以进行加减乘除的四则运算。
(精品文档)教育测量与评价的质量特性演示课件
复本信度缺点:
1、编制两个完全相等的测验是很困难的,如 果两个复本过分相似,则变成再测形式,而过 分不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了 不同的性质,这就会低估测验的信度; 3、被试同时接受性质相似的两个测验,可能 减少完成测验的积极性; 4、虽然两个复本测验的题目材料不同,但被 试一旦掌握了解题的某一模式,就能触类旁通, 有可能失去复本的意义。
复本信度的优缺点表现:
优点:
1、测验的两个复本,如果在不同的时间使用, 其信度既可以反映在不同时间的稳定性,又可 以反映对于不同测题的一致性; 2、两个复本在同时使用时,可以避免再测信 息的一些缺点,如首测时再测在记忆、练习、 效果的影响,间隔期间获得新知识的影响,两 次施测的环境不同和被试主观状态不同的影响, 以及为了应付测验所作训练的影响等。
序
4 0 1 0 0 1 0 1 1 0 1 5 0 0 0 1 0 1 0 1 0 1 6 0 0 0 0 0 1 1 0 1 1
(四)评分者信度
评分者信度 ——指多个评分者给同一批被试作答情 况评分的一致性程度。 它主要用于主观性作品的评价过程中,如 论述题评分,作文题评分、歌唱比赛的评 分,设计作品的评分等。
重测信度与时间间隔
两次测量之间的间隔时间不同,重测信度也不同。 间隔时间太短,存在记忆效应;间隔时间太长,影响 测量的干扰因素增加。一般而言,时间间隔越长,信度系 数越低。 适宜的间隔时间因测验性质、被试特点而异。 如:对儿童测量时间间隔相对短一些成人测量时间间 隔可以长一些。一般以2周到4周较宜,最好不超过6个月。 报告重测信度时要明确说明两次测验之间的时间间隔,并 且,一个经过良好评估的测验应当具有多个时间间隔的重 测信度。
教育测量与评价的基本原理PPT课件
适用的统计方法:均数、标准差、相关系 数,t、F检验等
2021
24
比率量表
含义:有相等单位和绝对零点的量表。 功能:区分性、顺序性、等距性、相等单
位、绝对零点。 数量化结果的含义:可以进行加减乘除四
则运算。 适用的统计方法:几何平均数、变异系数
功能:区分性、顺序性
数量化结果的含义:比较大小,不能进行 运算。
适用的统计方法:中位数、百分位数、等 级相关系数、肯德尔和谐系数以及秩次的 方差分析。
2021
23
等距量表(区间量表 )
含义:在给事物及属性指派数字和符号时, 要求各数字或等级之间的差距是相同的, 即具有相等的单位 。
功能:区分性、顺序性、等距性、相等单 位。
常模参照性测验题目要求难易适中,强调 题目的鉴别力,测验信度的估计适合用 统计方法;
标准参照性测验不强调题目的鉴别力,测 验信度的估计不适合用统计方法。
2021
16
常模参照测验与标准参照测验的比较
5、从解释考试结果的依据及分数的意义 来看,两种考试各有其依据;
常模参照性测验的常模是解释分数的标准, 用地位量数表示考生在团体中的相对位 置;
2021
21
名称量表
意义:依照某种法则给事物及属性指派 名称或类别的量表。
功能:区分性。 数量化结果的含义:不具有数的意义,
不能比较大小。 适用的统计方法:次数的统计,如次数、
众数、百分比、离散相关、卡方检验等。
2021
22
顺序量表
含义:依照某种法则给事物或人的心理现 象指派名称或类别,还可以将分类结果按 数量大小进行排序。
2021
第三章 教育测量与评价的质量特性
(一)重测信度(test retest reliability)重测信度指的是用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。
(二)复本信度(alternate forms reliability)复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。
(三)同质性信度(homogeneity reliability)同质性信度也叫内部一致性信度(internal consistency reliability),它是指测验内部所有题目间的一致性程度。
1. 分半信度(split half reliability)2. 库德—理查逊信度(Kuder & Richardson reliability)3. 克龙巴赫(cronbach)α系数当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫α系数。
四、标准参照测验的信度分析1. 百分比一致性指标百分比一致性(percent agreement,简称PA)指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。
2. κ一致性系数κ一致性系数(kappa coefficient of agreement),是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。
五、测量标准误与测验信度的关系测量标准误是指测验中所得测值偏离真分数的程度,记为SE。
显然,它与测验信度系数之间存在着必然联系,这种关系可定量地表示如下:SE=Sx1-rxx(3-15)式中,SE为测量的标准误,Sx为观察分数的标准差,rxx是测量的信度系数。
测量标准误是反映测量结果精确性和可靠性的又一指标,同时也是人们正确解释测验分数的科学依据。
六、评分者信度1. 评分者信度的含义评分者信度(scorer reliability)指的是多个评分者给同一批人的答卷进行评分的一致性程度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内容效度的分析方法
① 逻辑分析的方法 内容效度的逻辑分析法,即依靠有关专家对测验题目与应测内容范围的吻合程度 作出判断。 ② 内容效度的量化分析方法 该方法要求专家在仔细审阅测验目标的基础上,独立地对测验的每个题目作出 判断:“该题目实际测到的内容与其欲测量的目标内容之间相关程度如何,并用四 点量表(用完全无关、有点相关、相关较密切、完全相关来表示)来表示这种相关 的程度大小”;当两位专家完成此项工作后,统计弱相关(完全无关、有点相关)、 强相关(相关较密切、完全相关)的题目数,则此测验的内容效度系数为:内容效 度系数 =D/(A+B+C+D)( D 表示两位专家都判定为强相关的题目数 )
SE S X 1 rXX
测量标准误的意义 测量标准误是反映测量结果精确性和可靠性的又一指标,同时也 是人们正确解释测验分数的科学依据。
效度的概念
效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度。 对这 一概念,我们可以从以下几个方面来理解:
① 效度始终是针对一定测量目的而言的;
W
1 K2 12
N
s
3
N
标准参照测验的信度分析
(1)百分比一致性指标(PA) 百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试 的分类结果一致的比例。其计算公式为: PA a d N (2)K一致性系数 K一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致 的最大可能次数百分比的比率。其计算公式:
思考题 如何理解“效度”的意义?
答:
效度是指一个测验或量表实际能测出其所
要测量的特性的程度。对这一概念,我们可以从以下 几个方面来理解:
(1)效度始终是针对一定测量目的而言的;
(2)效度只有程度上的差异;
(3)效度是针对测量结果而言的;
(4)评价一个测量是否有效要多角度、多方面 地收集证据。
内容效度
理特质,那么实测结果就是该特质水平的反映。 (3)同质性信度不适用于异质测验和速度测验。
同质性信度的估计方法
(1) 分半信度 分半信度指是的将一个测验分成对等的两半后,所有被试在这两半上所得分数 的一致性程度。 分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个 “半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼—布朗公 式加以校正rxx 2rhh 1 rhh 。 (2) 库德-理查逊信度 该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。常用 的库德-理查逊公式有: K X K X K pi qi KR21 1 和 KR20 1 2 2 K 1 K 1 Ks x sx (3)克龙巴赫系数 当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。
效标关联效度
效标关联效度的含义、种类及适用范围 效标关联效度是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。 根据效标资料获得的时间不同及测验使用的目的不同,效标关联效度可以分为: ① 同时效度:测验分数与效标资料的取得约在同一时间内连续完成,计算这两种资 料的相关系数即代表测验的同时效度。这种效度的目的主要用于诊断现状,在于用更简 单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。 ② 预测效度:在测验分数取得一段时间后才获得效标资料,计算这两种资料间的相 关系数即代表测验的预测效度。预测效度的作用在于预测某个个体将来的行为。 效标关联效度的估计方法 ① 相关法:该方法就是计算测验分数与效标测量的相关系数,具体方法有:积差 相关、等级相关、点双列相关、二列相关、四分相关、Φ相关、列联相关法等等。在使 用过程中,该选择何种计算方法,应根据测验分数与效标测量数据资料的形式而定。 ② 显著差异法:该方法是根据效标测量将被试分为两个极端组,然后检验这两组测 验分数是否具有统计学上的差异显著性。若这两组被试的测验分数差异,则说明该测验 有较高的效度。 ③ 命中率:当测验用取舍决策时,常使用命中率这一指标。因为这类测验效度高不 高,就是看其取舍是否与实际一致。命中率包括总命中率、正命中率和负命中率三种。
第三章
教育测量与评价的质量特性
教育测量与评价的信度 教育测量与评价的效度
教育测量与评价中项目的难度
教育测量与评价中项目的区分度
信度的意义
信度是指测量结果的稳定性程度,记为rXX 。换一句话说, 信度是指用同一测量工具反复测量同一种物质对象所得多次测 量结果间的一致性程度。
测验信度是对测验工具及其操作的整体质量的一种量度,
思考题
效度的异同?
试比较内容效度、结构效度、效标关联
相同点:三者都是作为检验测验有效程度的指标,都可以作为 评价一个测验优劣的标准。 不同点:① 考察的角度不同。内容效度是指测验题目样本对于应测内 容与行为领域的代表性程度。结构效度是指一个测验或量表实际测到所要 测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的 程度。效标关联效度是指一个测验对于处于特定情境中的个体行为进行预 测时的有效性。 ② 应用的范围不同。内容效度主要适用于教育测量(尤其是学业成就 测验)的情境中,也适合于某些用于选拔和分类的职业测验,但对于某些 特质的心理测验(如智力测验、人格测验),内容效度并不适合。结构效 度主要用于智力测验、人格测验等一些心理测验方面。效标关联效度适用 于能够找到有效效标的测验,常用的效标主要有:学业成就、等级评定、 临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其 它现成的有效测验。 ③ 确定的方法不同。内容效度确定的主要方法是逻辑分析法、量化分 析法。结构效度确定的主要方法是测验内部寻找证据法、测验之间寻找证 据法和考察测验的实证效度法;效标关联效度确定的主要方法有相关法、 显著差异法、命中率。
(2)重测信度基本假设:某测验所要测量的潜在特质,短 期内不会随着时间推移而改变。
(3)重测信Байду номын сангаас适用于异质性测验(一个测验包括几个不同
的部分,这几个部分分别测量几个不同的心理特质,它们之间 可能并不存在相关或相关较低),也适用于速度测验和运动技
能测验。
复本信度(等值性系数或等值稳定性系数)
(1)复本信度是指两个平行测验(在试题格式、题数、难度、指导语 说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但
结构效度
结构效度的含义 结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学 或社会学上的一种理论构想或特质)的程度。 结构效度的验证一般步骤 ① 提出有关理论结构的说明,并据此设计测量用的试题; ② 提出可以验证该理论结构是存在的假设说明; ③ 采用各种方法收集实际的资料,以验证第二步提出的假设的正确性; ④ 收集其他类型的辅助证据,淘汰与理论结构相反的试题,或是修正理论,并 重复第二和第三步,直到下述的假设得到验证,即测验的结构效度获得支持为止。 结构效度的验证方法 ① 测验内部寻找证据法 这种方法是通过研究测验内部结构来验证测验的结构效度。它主要包括内容效 度、作答过程分析、测验的同质性和因素分析等四个方面。 ② 测验之间寻找证据法 这一方法的特点是同时考察两个或多个测验间的相互关系,从而来验证测验的 结构效度。它包括相容效度、聚合效度、区分效度和“多种特质-多种方法矩阵法” 等具体方法。 ③ 考察测验的实证效度法 如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该 测验的结构效度指标,至少可以从效标的性质与种类来推论测量的结构效度。主要 方法有差异被试比较法和先后测试分析法。
答:
难度的概念
题目或项目的难度,就是指被试完成题目或项目任务时 所遇到的困难程度。定量刻画被试作答一个题目的困难程度 的量数,就叫做题目的难度系数,也常称为难度值,用符号P 表示。
难度系数的计算方法(一)
其计算公式为:
(4) 荷伊特信度 1941年荷伊特提出用方差分量比来估计测验内部一致性的方法,其估计值为:
rxx 1 MS人题 MS人
2 K s i 1 2 K 1 sx
评分者信度
评分者信度的含义 评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。 评分者信度的计算 (1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被 试的答卷所评分数的相关系数。依据数据形式,可采用不同的相关系数计 算方法。 (2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行 估计。
K PA P C 1 P C
( 其中
ab ac cd bd P C N N N N (3)K2 指数
)
标准参照测验关注决断的可靠性,而这种决断显然与被试团体的平均水 平密切相关。在考虑到这个因素的基础上,心理统计学家莱芬斯顿提出了K2 指数作为考察标准参照测验信度的指标。其计算公式为:
定义3: 信度是一个被试团体在测验X(A卷)上的观察分
数与在测验X的任意一个“平行测验” X´(B卷)上观察分数 的相关系数。即: rXX= ρXX´
重测信度(稳定性系数)
(1)重测信度是指用一个量表(测验或评价表)对同一组 被施测两次所得结果的一致性程度,其大小等于同一组被试在
两次测验上所得分数的相关系数。
是测验性能的重要质量指标。如果测验本身抗干扰能力强,测 验实施过程各方面误差因素都控制得好,多次施测所得分数 (测值)的一致性就高,那么测量信度高,人们在使用所得测 值时就会感觉可靠。
信度的统计定义
定义1:信度是一个被测团体真分数方差与观察分数方差之 比。即:rXX=σ2T / σ2X 定义2:信度是一个被试团体的真分数与观察分数的相关系 数的平方。即:rXX=ρ2TX
② 效度只有程度上的差异; ③ 效度是针对测量结果而言的;
④ 评价一个测量是否有效要多角度、多方面地收集证据。