第九章:标准参照测验
教育测量9
•共同被试组(Common-person design )
特点: 两组被试中有一部分人同时做了两个测验
Person link: the same people take two or more tests of the
same skills
• 有4个人一同等电梯,稍后电梯门打开了,却有一个人没有进 去,你认为这可能是什么原因导致的?请你选择。
1.0
Questionnaire
administered to large representative sample
2.5 2.0
Probability of Response
0.8
0.6
0.4
0.2
0.0 -3 -2 -1 0 1 2 3
Item Response Theory (IRT)
Theta
测验设计
IRT model uses item and test information
– 标准参照测验(CRT)
Proficient
Test Information Function
Theta
Population Cut off point Population
Info
Items from Instrument
够水平的通过,不够水平的通不过 不够水平的通过了,够水平的没过
例1:日语能力水平测验
级别 1级 2级 3级 评价标准 掌握2000个汉字(约10000个词汇),需经过 900小时日语学习,可进入大学学习; 掌握1000汉字(6000个词汇)经过600小时日 语学习,中级,普通生活; 掌握300汉字(1500个词汇)经过300小时日语 学习,初级; 掌握100汉字(800个词汇)经过150小时日语 学习,半初级;
标准参照测验的创新设计与编制
内容
结构
绩效
从内容入手寻找 效度证据,可以 借助专家判断的 方法,也可以通 过经验规律、统 计等方法进行分 析。
从理论结构入手 寻找效度证据有 几种方法,常见 的有聚合效度法、 区分效度法和因 素分析法,其中 又以因素分析法 最为常用。
相关系数大小受 分数分布的影响, 不适用于标准参 照测验。下张介 绍一下标准参照 测验通过绩效或 结果来验证效度 的评估方法。
PO
b N
c
P OP e P OPAPBqAqB
1P e 1PAPBqAqB
标准参照测验的创新设计与编制
心理测量学
二、标准参照测验的信度
(一)分类一致性信度
标准参照测验的创新设计与编制
心理测量学
二、标准参照测验的信度
rxx
(二)荷伊特信度
1
MS人题 MS人
标准参照测验的创新设计与编制
心理测量学
1
标准参照测验概述
标准参照测验的创新设计与编制
心理测量学
第一节 标准参照测验概述
用
编
定
途
制
义
标准参照测验的创新设计与编制
心理测量学
一、标准参照测验的定义
• 戈莱塞(1971):“所谓标准参照测验,是 根据某一明确界定的内容范围而缜密编制 的测验,并且,被试在测验中所得结果, 也是根据某一明确界定的行为标准直接进 行解释的”。
心理测量学
Nedelsky 方法
整体 判断法
Angoff 修正法
判断法
Ebel 方法
Angoff 方法
标准参照测验的创新设计与编制
一、判断法
• (一)整体判断法
心理测量学
心理测量学第九章 目标参照测验.PPT
(二)测验项目的难度分析
相对于标准的高低 • 一般采用通过率(和常模参照测验相同) • 不是很重要,目标参照测验分析难度只是作为项目区分度
分析的基础。
(三)测验项目的区分度分析
1.难度差值 (1)掌握组—未掌握组鉴别指数 (2)教学敏感度(个人获得)指数 2.相关系数
(1)掌握组—未掌握组鉴别指数
一、行为标准制定 • 目标参照测验结果的解释是参照分数分界点进行的。 • 就目标参照测验本身而言,分数分界点并非必需。 • 从理论上说,并不存在可以清晰辨别的掌握者和非掌
握者。 • 在目标参照测验的实际应用中,分数分界点的确定却
是无法逃避的问题。
二、分数分界点的确定
(一)专家判定法 在测验的内容范围明确界定的基础上,由专家来判断
(二)专家判定法
2.Angoff方法 由专家直接判断处于临界水平的被试在某测验的每一
题目正确作答的可能性(Pi),设每题的满分为Fi,则该 测验的分数分界点(λ)为:
λ=∑Fi Pi
(二)专家判定法
3.Bookmark法 • 将测验按照由易到难的顺序讨论每道题目,判断“基本掌
握该领域知识的考生”能否做对所讨论的题目,在考生不 能通过的题目上做出标记,以此作为设置划界分数的依据。
处于临界水平的被试在每个题目上正确作答的可能性,进 一步以此为标准确定分数分界点。
临界水平的被试:那些刚由未掌握水平转入掌握水平的 被试,这些被试实际上是由专家想象出来的。
(一)专家判定法
1.Nedelsky方法 主要针对多重选择题组成的测验而言,由专家来判
断处于临界水平的被试在每一题上有能力排除的错误选 项,从而计算其正确回答的可能性,再求每一题上正确 回答的可能性之和,作为测验分数分界点。
戴海崎《心理与教育测量》教材讲解及考研真题详解-标准参照测验【圣才出品】
圣才电子书 十万种考研考证电子书、题库视频学习平台
界分
●Nedelsky 法
·适用于多选一的项目
·每一位专家判断临界水平被试都能排除的选项
·记录剩下选项数的倒数
·求所有项目的倒数和 A
·求所有 A 的平均,为划界分数
·例:三道四选一项目,项目一排除 1 个,项目二排除 2 个,项目三排除 2 个,A=0.33+0.5+0.5
10 0 1 1 0 1 0 0 1 1 1
P0
1 0 0.6 0.5 0.4 0.8 1 1
4 / 13
圣才电子书
十万种考研考证电子书、题库视频学习平台
第三节 信效度分析
3.1 标准参照测验中的信度
Hale Waihona Puke ●标准参照测验中原始分数的分布与常模参照测验不同,常模参照测验中分布较均匀,
·对项目代表性分等级
·评估临界被试在不同等级项目上的通过率
●Ebel 法比 Angoff 法更容易控制测验的结构
9 / 13
圣才电子书 十万种考研考证电子书、题库视频学习平台
●将 Ebel 的两个维度变为,完成项目所需要的能力和每个项目的测量目标,称为 Angoff 修正法
4.2.1 专家判断法(2)
●Angoff 法
X cutoff X i Pi
i
Xi
Pi
X i Pi
1
8
0.8
2
10 0.65
3
22 0.7
4
25 0.6
5
35 0.55
6.4 6.5 15.4 15 19.25
X cutoff 62.55
4.2.1 专家判断法(3)
第九章学生评价
第九章学生评价教学要求:1、了解学生评价的含义、功能、类型、方法及当代走向。
2、理解学生学业评价的含义及基本内容。
3、明确学生品德评价的含义及常用方法4、举例分析说明学生评价实施中存在的问题及对策。
教学重点:当今基础教育课程改革的评价体系教学方法:讲授法教学时数:4课时第一节学生评价概述一、学生评价与教育评价教育评价是指在一定教育价值观的指导下,依据确立的教育目标,通过使用一定的技术和方法对所实施的各种教育活动教育过程和教育结果进行科学判定的过程。
纵观教育评价理论与实践的历史发展,一般认为大致经历了古代的传统、传统近现代的科学测试和当代的科学评价三个不同时期。
学生评价是指根据一定的标准,通过使用一定的技术和方法,以学生为评价对象所进行的价值判断。
它是教育评价的重要领域之一,也是学校教育中每一位老师都必须实际操作的一项重要内容。
它既是教育评价的基础和重点,也是学校教育评价的核心。
它是教育评价中历史悠久而又永恒的话题,有了学校教育就有了对学生如何评价的问题。
因为,学生的质量既是衡量一所学校教育工作质量的标准,也是提高学校教育工作水平的根本所在和关键要素。
所以,构建合理的学生评价价格体系,有效地实施学生评价,促进学生发展,是教育的必然追求。
二、学生评价的标准为了使学生评价发挥其应有的作用,实施时首先要制定恰当的评价标准。
评价标准是在实施评价过程中进行价值判断的准则,具有显著的社会性特征,并因评价对象和要求的不同而千差万别。
学校教育工作以教育目标作为其出发点、依据和归宿,因此教育目标制约着学生评价标准必须与其相一致,它是教育目标在各个评价项目上的具体化。
我国尚未有一个独立的学生评价标准,而主要依据教育目标并依托于课程目标,将抽象的目标具体化,分成不同的阶段水平,以此作为学生评价的标准。
我国的教育目标由三个层次即国家的教育总目标、各级各类学校的培养目标、课程和教学目标所构成。
三、学生评价的类型(一)诊断性评价、形成性评价和总结性评价根据学生评价在教学活动中的不同作用可以分为诊断性评价、形成性评价和总结性评价,这是由美国教育心理学家布卢姆提出的影响较大并被广泛使用的分类法。
常模参照评价、标准参照评价、个体内差异评价
数学
3.适合于鉴定资格和水平,所有的达标测验均属于标准参照评价。
三、个体内差异评价
三、个体内差异评价
又叫成长参照评价
把评价对象个体的过去与现在进行前后纵 向比较,或者是把个体的有关侧面(如学 生不同学科成绩之间、同一学科内的不同 方面等)进行横向比较的评价。
过去
纵向比较
评价个体
现在
不同学科间横向比较
三、个体内参照评价Βιβλιοθήκη 例一: 不同时期的写作水平
过去
例二: 语文的学习情况
听
说
读
写
现在
我的写作能力 好一些,但阅 读能力稍差。
三、个体内参照评价 (一)优点
综合
评价
提供信息
个
别
动态
指
导
对象的发展变化
三、个体内参照评价 (二)缺点
1.没有客观标准
2.没有外部比较
3.很难确定评价对象的真实水平
归纳总结
归纳总结
教学评价的分类
根据评价标准的参照系不 同,可以把教学评价分为常模 参照评价、标准参照评价和个 体内差异评价。
你学会了吗?
整体状具况体例子
决定
标准每化个测成验员的水 平
例如:
标准化测验
参考系 78分是高分
还是低分呢?
确定
所有学生的考分
每个学生的标准分数即
代表他在学生团体中的
得分的相对水平 班级中的排名
一、常模参照评价 (一)优点
(二)缺点
1.判断在团体中的地位
2.树立竞争意识
1.过分追求分数和名次 2.忽视全面素质的发展
目 录 / contents
一 常模参照评价 二 标准参照评价 三 个体内差异评价
第九章教学评价
(一)教学评价概述
4.教学评价的一般方法
– 绝对评价法 – 相对评价法 – 个体内差异评价法
(一)教学评价概述
5.教学评价的发展趋势
– 在评价主体上,更加强调学生的自评。 – 在评价功能上,更加注重发挥评价的教育功能。 – 在评价类型上,更加重视实施形成性评价。 – 在评价方法上,更多采用绝对评价法。
第九章 教学评价
山东师范大学教育学院教育系 2007年3月
(一)教学评价概述
教学评价是依据教学目标对教学过程及结果进行价值判断并 为教学决策服价的功能
– 教育功能 – 管理功能
(一)教学评价概述
3.教学评价的类型
– 诊断性评价 – 形成性评价 – 总结性评价 – 诊断性、形成性、总结性评价的比较
(二)试题的编制
1.试题编制的原则: – 高信度; – 高效度; – 全面性; – 适应性; – 经济性。
2.试题编制的程序
3.客观性试题和非客观性试题
(三)考试结果的统计与分析
1.常模参照测验与标准参照测验 2.对考试成绩的统计分析 3.对试题的分析
标准参照测验相关理论和评价指标的综述
标准参照测验相关理论和评价指标的综述作者:刘潇来源:《科教导刊·电子版》2017年第06期摘要本文从国内近年来对于标准参照测验的一系列探索出发,对国内学者对于标准参照测验的相关理论和评价指标做的研究和陈述主要包括标准参照测验的评价指标如信效度,测验长度以及分数体系做了一个综合述评。
关键词标准参照测验评价指标分数体系中图分类号:O212 文献标识码:A1标准参照测验的定义与作用1.1标准参照测验的定义匹斯堡大学的Glaser首次提出标准参照测验,将测验分成标准参照测验和常模参照测验。
后来许多学者将内容参照、领域参照等解释为标准参照。
标准参照测验又称准则参照测验。
是一种精心编制的,在一定的行为领域上按照具体标准水平对测验结果作出直接解释的测验。
是一种与以经典测验理论为基础的与常模参照测验相对的测验类型。
1.2标准参照测验的作用了解个体在所规定的测量内容上的行为水平,其出发点是个体本身的绝对水平,而不是个体间的差异。
2标准参照测验与常模参照测验的不同常模参照测验的分数反应了一个人在所属群体中的相对位置,常模代表了某一群体的真正水平,而标准参照测验的分数标志一个人能力或知识的绝对水平,不与其他人的分数比较,标准是希望达到的目标,对个体作出是否达标或达到什么程度的判断,有很大的人为性。
3标准参照测验的评价指标3.1标准参照测验的信度估计标准参照测验的信度估计方法很多,如克龙巴赫系数或CTT中的其它信度指标。
标准参照测验一定程度上有别于常模参照测验,许多的学者对其信度估计做了很多的阐述和研究。
香港中文大学的杨志明教授用概化理论中的可靠性指数和()公式,分别针对交叉设计和嵌套设计,就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。
用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异,展示了等级决策分数线决策信度的估计方法。
安徽师大的赵必华教授在《标准参照测验信度的估计方法及其验证》中列举了四种标准参照测验信度的估计方法,分别是斯旺明内森方法;惠恩方法;萨伯考维克方法;玛希尔方法。
第九章 教学评价
第九章教学评价你在任何时候也不要急于给学生打不及格的分数。
请记住:成功的欢乐是一种巨大的情绪力量,它可以促进儿童好好学习的愿望。
请你注意无论如何不要使这种内在的力量消失。
缺少这种力量,教育上的巧妙措施都是无济于事的。
——苏霍姆林斯基目录第一节教学评价概述一、测验、测量与评价二、教学评价的功能三、教学评价的类型四、教学评价的一般方法五、教学评价的发展趋势第二节试题的编制一、试题编制的原则二、试题编制的程序三、客观性试题和非客观性试题第三节考试结果的统计与分析一、常模参照测验与标准参照测验二、对考试成绩的统计分析三、对试题的评析第一节教学评价概述定义:教学评价是依据教学目标对教学过程及结果进行价值判断并为教学决策服务的活动。
教学是教与学的双边活动,因此教学评价也相应包括对教师教的评价和对学生学的评价。
一.测验、测量与评价测验:用以测量个体的行为或作业的工具。
它通常由许多经过适当安排的项目(问题、任务等)构成,可以就被试对这些项目的反应计分,分数被用于评估个体的情况。
测量:运用某种准则确定人、物体或事件的数量的过程。
评价:一种根据资料对被试的行为作出价值判断的活动,是对客体满足主体需要程度的判断。
教学评价是系统地、有步骤地从量的测量(事实判断)和质的描述(价值判断)两个方面对教学活动进行判断的活动。
其中,价值判断是教学评价的本质属性,也是区别于教学测量的根本标志。
目的是对课程、教学方法及学生培养方案作出决策。
教学评价的基本内容:对学生学习结果的评价和对教师教学工作的评价,也可划分学生学业评价、课堂教学评价、教师评价。
学生评价既是教育评价的基础和重点,也是学校教育评价的核心。
在现行的学生学业评价中,测验依然居主流地位。
二、教学评价的功能(一)教育功能定向(明确的目标对学生学习效果具有直接影响作用)诊断(发现学习中的疏漏和问题,判断原因)反馈(积极评价提高自信,适度否定激励前进)改进(及时反馈有利于探求教学的问题,以求改进)强化(促使学生复习所学知识,知识深刻化、条理化)(二)管理功能选拔淘汰(为选拔新生和招录人员提供依据,选优劣汰)区别安置(对学生合理安置,科学分班编组)评定教师业绩(学生的学业成绩是评价教师工作业绩的重要依据)三、教学评价的类型1.根据评价在教学活动中的作用(功能):诊断性评价(摸底考试)、形成性评价、总结性评价(期末考试)2.根据评价所使用的方法和标准:相对性评价(常模参照评价)、绝对性评价(目标参照性评价)、个体内差异评价(学生的过去和现在进行比较)3.按照评价的主体:部评价(专业人员)、内部评价(自我评价)1.根据评价在教学活动中的作用(功能):(1)诊断性评价是指在教学活动开始之前,对评价对象的学习准备程度作出鉴定,以便采取相应的教学措施使教学计划顺利、有效实施而进行的测定性评价。
标准参照测验的设计与编制
标准参照测验的设计与编制
标准参照测验的设计与编制
第三节划界分数设置方法与被试评价
一、判断法 (一)整体判断法 在测验的内容范围明确界定的基础上,每位专家 从整体上对测验与和内容范围进行判断,提出处 于临界水平的被试能够正确回答的题目的比例, 然后将所有专家的分数平均,作为划界分数。 临界水平的被试指那些由未掌握水平转入掌握水 平的被试,这些被试实际上是在专家的想象中虚 拟出来的。
第三节划界分数设置方法与被试评价 二、综合法 (二)对照组法: Nedelsky1954提出 • 由专家直接选定掌握组、非掌握组被试, 剔除中间被试。而后进行施测得到原始分 数分布图。图中两条分布曲线的交叉点即 为测验分数分界点。 • 因受被试团体的影响,因此更合理的作法 是选取若干对对照组,取每对对照组交叉 点分数的平均值作为测验分数的分界点。
标准参照测验的设计与编制
第二节标准参照测验的信、效度和与误差控制 二、标准参照测验的信度 (一)分类一致性信度 • 对分类一致性信度考察的简单常用的方法是考查 被试在同一测验的两次施测中或两个复本的施测 中是否被分在同一类中。具体方法类似于常模参 照测验中的再测法和复本法。 • 采用同一批被试团体在两次测验结果中均被分为 及格和不及格类别中的人数百分比例作为分类一 致性信度的指标。
标准参照测验的设计与编制
第二节标准参照测验的信、效度和与误差控制
效标参照测验
效标参照测验“效标参照测验”效标参照测验(Criterion-referenced test)是一种评估学生学习成就的方法。
它通过与特定标准或目标进行比较,确定学生在特定领域中的能力水平。
效标参照测验不同于常见的相对评价方法,如百分制和等级制,它更关注学生是否达到了特定的学习目标。
效标参照测验提供了一种全面了解学生学习成就的方式。
它不仅可以评估学生在不同学科领域的知识,还可以评估学生在不同认知层次上的能力。
例如,在语言学习中,效标参照测验可以帮助评估学生的听力、口语、阅读和写作能力。
通过了解学生在每个方面的表现,教师可以更好地了解学生的强项和弱项,并有针对性地进行教学。
效标参照测验的结果还可以用于确定教学计划和目标。
通过对学生的评估,教师可以确定学生在特定学科或技能方面的掌握程度。
这样,教师可以针对学生的需要进行教学,制定相应的教学计划和目标。
这种个性化的教学方式可以更好地满足学生的需求,提高学习效果。
此外,效标参照测验还可以激发学生的学习动力。
当学生知道自己将接受一项根据特定标准进行评估的测验时,他们会更加专注和认真地学习。
这种评估方式可以激励学生努力提高自己的学习成绩,达到或超过预期的标准。
然而,效标参照测验也存在一些挑战和限制。
首先,确定有效的评估标准是一项复杂的任务。
标准的制定需要考虑到学科特点、学生的年级和教学目标等因素。
其次,评估过程需要严谨和客观,以确保结果的准确性和可靠性。
最后,评估结果应该以一种能够被学生和家长理解的方式呈现,以便于他们了解学生的学习情况。
总之,“效标参照测验”是一种有益的评估方法,它能够提供全面了解学生学习成就的途径。
通过这种评估方式,教师可以更好地了解学生的学习状况,制定个性化的教学计划和目标。
同时,这种评估方式也能够激发学生的学习动力,促使他们更加努力地学习。
然而,我们也必须充分认识到评估过程中的挑战和限制,以确保评估结果的准确性和可靠性。
常模参照测试与标准参照测试
5.常模参照测试与标准参照测试1. 常模参照性测试(横向)常模参照测试是为了显示考生语言能力的差异,每个考生的成绩只需要跟其他考生比较,确定其在全体考生中的位置。
因此常模参照性测试适用于选拔性测试,在中国比较重要的考试大都是常模参照性测试,如中考、高考、研究生入学考试等。
常模参照性测试的选拔性目的决定了其独有的特点,从命题角度而言,命题内容覆盖面宽,命题难易度离散程度较高,有助于拉开分数段;分数主要采用百分或标准分数的形式,能够报道考生在常模群体中所处的百分位置。
例如:大学英语四、六级考试如某考生四级报道总分是550分,则根据大学英语四级考试(CET-4)报道分数百分位对照表,可判断其在常模群体中的百分位是76%,表示这名考生的英语成绩优于常模群体中76%的人。
再如某考生六级报道总分是600分,则根据大学英语六级考试(CET-6)报道分数百分位对照表,可判断其在常模群体中的百分位在87%~92%之间,表示这名考生的英语成绩至少优于常模群体中87%的人,但不会优于92%的人。
看图并指出这位考生在汉语水平测试中所处的百分位置:优点:常模参照性测试的优点在于对于大多数考生来说较为公平,因为通过考试与否的标准是以与其他考生公平竞争的结果来确立的,尤其是中国学生比较习惯于这种测试模式,他们较习惯于从自我位置的确定中找到前进的目标。
缺点:(1)常模参照性测试的不足在于常模的效度往往受到受试人群的影响,常模随着受试人群的变化而变化。
(2)学生在常模参照性测试中的表现不能直接说明其在语言中的实际表现。
(3)常模参照性测试的回波作用有待商榷,在实际操作中,如果大多数学生没有通过考试,那么责任往往推卸给试卷内容,而不是首先考虑教学目标和教学质量是否出现了问题。
2. 标准参照性测试(纵向)Carrol, Cronbach, Glaser在1963年发表了三篇论文,提出了标准参照性测试的概念。
与常模参照性测试不同,标准参照性测试在考试之前就已经预先定好了衡量标准,然后根据这些标准来判断学生是否通过和不通过。
标准参照测验
由专家直接判断处于临界水平的被试在某测验的每一题目正确 作答的可能性(Pi),设每题的满分为Fi,则该测验的分数分界点 (λ)为:
λ=∑Fi Pi
Company name
四、标准参照测验的分数解释 –效标组预测法
临界组法
由专家判断和选择一组正处于临界水平的被试,将测验施测于该 组被试,计算他们在测验上的平均成绩,以体现测验的内容范围所要 求的临界水平,因而可视该平均成绩为测验分数分界点的估计值。 该方法的困难在于临界水平被试的选择和评定。
➢20世纪中期,人们发现了常模参照测验的局限:并不是所有的测验都 只关心个体间测差异,有的测验目的在于了解被试在测验内容上掌握的 绝对水平。
一、标准参照测验的定义与作用
怎样通过测验评价被试在教学活动中对内容的掌握程度?
➢ 这一测验的目的在于确定在某个教学领域内,被试是否掌握了该教学领 域的知识和技能,了解被试在该领域的困难,并对其有目的地加以教 学辅导与补救。
➢ 常模参照测验的结构效度评估大多是以相关系数为基础 ➢ 所以,关于目标参照测验的结构效度,目前尚未得到较大关注。
总体上说来,标准测验的信效度验证理论还未发展成熟和完善, 有待于进一步的研究和拓广、深化。
四、标准参照测验的分数解释
分数分界点的确定
专家判定法
1在、测N验ed的el内sk容y范方围法明
一致性程度。
2)测题的代表性 ▪ 要求组成标准参照测验的测题必须对测验领域总体有一定的 代表性,从而使测验具有较高的内容效度。 ▪ 为了保证测题的代表性,标准参照测验编制中往往需要制订 双向细目表;同时人们也提出了利用“重复实验”方法。
三、标准参照测验的信度与效度
(二)效度及其估计(续)
教学测量与评价名词解释
教学测量与评价名词解释教学测量与评价名词解释1. 测量:根据一定的法则使用量具对事物的特征进行定量描述的过程2. 教学测量:根据一定的法则使用量具对教师教与学生学的过程进行定量描述的过程3. 常模参照测验:以常模作为评价测验分数之标准的测验4. 标准参照测验:按照具体的行为标准水平对被试的测验结果作出直接解释的测验5. 项目分析:指对特定受测者在个别测验项目上所做反应的统计特征的计算和检验6. 难度:被试完成测验项目任务所遇到的困难程度7. 区分度:测验项目对所测量的心理特征的区分能力8. 误差:测量过程中由那些与测量目的无关的变化因素所产生的一种不准确(效度)或不一定(信度)的测量效应9. 真分数:把反映被试某种心理特质真正水平的那个数值10. 标准化:指测量的编制、实施、记分以及测量分数的解释程序的一致性11. 常模:常模团体的分数分布12. 信度:测量结果的可靠性、一致性、可信性、稳定性的程度13. 复本信度:用水平测验A、B对同一组被试在最短时间内施测两次所得结果的一致性14. 效度:实际测出的心理特质与所要测量的心理特质的程度15. 构想效度:测验实际测到所要测量的理论结构或特质的程度16. 效标:衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得我们所感兴趣的行为17. 导出分数:针对原始分数进行统计处理后获得的分数18. 内容效度:测验实际测到的内容与所要测量的内容之间的吻合程度19. 导出分数:针对原始分数进行统计处理后获得的分数20. 百分等级分数:在常模团体中低于该分数的人数百分比21. 标准分数:以平均数为参照点,标准差为单位表示的分数22. T量表:<量表:能够使事物的特征数量化的数字的连续体(T量表没找到)>23.比率智商:智力年龄与实际年龄的比率24.心理年龄:被试智力发展水平的年龄25.形成性评价:通过观察、活动记录、测验、问卷调查和咨询等形式对学生的学习进展进行持续评价教育测量与评价名词解释(上)(转)2017-04-09 15:32 | #2楼1、统计:就是“统而计之”对所考察事物的量的取值在其出现的全部范围内作总体的把握,全局性的认识。
第9章-目标参照测验PPT课件
其二,向内容方面或测量方面的专家提供每种能力所包 括的内容和行为的清晰表述;
其三,帮助解释被试个体的能力水平;
其四,向用户提供能力广度和范围的明确规定。
.
3
3、标准参照测验的定量标准——合格分数线
从定量方面讲,从客观上需要确定一个切断 点作为分类决断的依据。不管哪一类切断点, 都能在一定程度上体现“标准”一词的测量 评价功能的定量标准。
.
2
2、标准参照测验的定性标准——测验内容领域规范
从定性方面讲,“标准”一词指的是测试的内容或行为 的范围,而这个范围是测验分数所参照的,它将通过 “内容领域规范”得到明确。
测量专家认为,重视内容领域规范是标准参照测验 最重要的一环,至少有四个目的:
其一,为试题编写人员准备试题时提供内容和技术上的 指导;
预测源测验
通过人 数
未通过人数
效
标通过人数
a
b
测
验未通过人数 .
c
d
13
第四节 测验分数的解释——分数分界点的确定
一、专家评定法 这种方法是在测验的内容范围明确界定的基础上,
由专家来判断处于临界水平的被试在每一题目上正确 回答的可能性,进一步以此为标准确定分数分界点。 所谓临界水平的被试是指那些刚由未掌握水平转入掌 握水平的被试。具体评定方法主要有Nedelsky方法 和 Angoff方法。
.
4
(1)正确百分数
正确百分数是以学生在标准测验中答对题目的比 例来解释测验分数确百分数=(答对题目数/总题目数)*100
.
5
(2)掌握分数
无论是针对每一教学单元的形成性测验,还 是针对一门课程的终结性测验,如果要了解 与判断学生是否掌握已经学习的内容,要编 制一份有内容效度的教育测验来进行测量。
心理测量:标准参照测验
各类教育水平、职业水平测试都采取了标准参照测验的编制、施测、 计分和解释模式。标准参照测验还被广泛应用于教育教学实践。
医师执照考试
律师资格考试
教师随堂测试
计算机辅助教学
共同学习,未来可期
标准参照测验概述
目录
CONTENTS
1······标准参照测验的定义 2······标准参照测验编制 3······标准参照测验用途
一、标准参照测验的定义
根据某一明确界定的内容范围而缜 密编制的测验,并且被试在测验中 所得结果,也是根据某一明确界定 的行为标准直接进行解释的。
发展背景:教育改革运动
一、标准参照测验的定义
内容参照测验: 当使用的标准是用内容材料定义的,即
为掌握某领域知识和技能的比例,这时 测验就被称为内容参照测验(domainreferenced test)。
一、标准参照测验的定义
结果参照测验: 若已知测验分数和某个外部效标有关,则可用被试在效标上的表现直接解
释测验分数,这种测验被称为结果参照测验(result-referenced test)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
被试 1 2 3 4 5 6 7 8 9 10
1
前测 后测
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
前后测的项目得分表
项目
2
3
前测 后测 前测 后测
1
0
1
1
1
0
1
1
1
0
0
1
1
0
0
0
1
0
1
0
1
0
0
0
1
0
1
0
1
0
1
1
1
0
0
1
1
0
1
0
4
前测 后测
1
1
0
1
1
1
1
1
0
1
0
0
1
1
0
0
0
1
0
1
5
前测 后测
1
1
1
1
第九章:标准参照测验
一、标准参照测验概述:
❖标准参照测验产生
1、背景:常模参照的局限、教育改革运动 2、概念提出: 格莱塞(Glaser.A.J)克劳斯(David Klaus),1963,《美国心理学家杂志》 3、发展: 1969,波帕姆和德塞克:《标准参照测验的应用》 20世纪70年代,标准参照测验迅速发展的十年
(Competence Test)
第九章:标准参照测验
标准参照测验与常模参照测验的区别:
❖ 分数解释标准不同 ❖ 测验目的不同 ❖ 测验的内容范围规范的详略程度不同 ❖ 项目分析分组方法不同
第九章:标准参照测验
❖标准参照测验的优点与问题: 优点: ❖能提供对被试水平的绝对测量而非相
对测量。个人成绩的意义不直接依赖 于其他人的成绩。 ❖标准参照性测验与教学评价密切相关, 其理论和方法更易为教育工作者所理 解和应用。
第九章:标准参照测验
需要解决的问题: ❖所要测量内容范围是什么 ❖测验题目取样的代表性问题 ❖掌握标准的确定
第九章:标准参照测验
二、标准参照测验的预测和项目分析 1、预测 ❖ 前侧—后侧法 ❖ 已接受教学组——未接受教学组法 ❖ 对照组法
第九章:标准参照测验
2、项目分析
❖难度 ❖区分度
指标1:难度差值: ➢个人获得指数 ➢鉴别指数 指标2:相关系数
较差匹配 一般匹配 较好匹配 很好匹配 完美匹配
1
2
3
4
5
目标内容 测验题号
项目评定
1
2
12345
7
12345
14
12345
目标内容
9位专家对14道题目的等级评定结果
测验题号
专家评定结果
1
2
435545554
7
425555545
14
455545555
2
1
353214524
3
314434433
8
131211111
13
132112123
3
4
455455555
6
424444444
12
535555555
4
5
9
10
11
专家判断与中位数的差异
435545545 224142444 131211111 434455555 9 24 2 10 6 4 4 3 3
平均数 4.4 4.4 4.8 3.2 3.2 1.3 1.8 4.8 3.8 4.8
FiPi
1
2
0.9
1.8
2
6
0.7
4.2
3
6
0.75
4.5
4
10
0.8
8
5
6
0.7
4.2
6
12
0.65
7.8
7
12
0.6
7.2
8
18
0.55
9.9
9
10
0.6
6
10
18
0.5
9
∑Fi=100
∑FiPi=62.6
第九章:标准参照测验
(二)效标组预测法 ❖1、临界组法 ❖2、对照组法
比描述测验内部一致性系数
❖SS=SS人+SS题+SS人x题 ❖Rxx=1—SS人x题 / SS人
第九章:标准参照测验
四、标准参照测验的效度 1、内容效度: ❖ 确定内容范围:双向细目表 ❖ 方法:专家评判法 2、效标效度:命中率
第九章:标准参照测验
项目内容评定表
评定者姓名: 日期: 内容范围:
首先,请仔细阅读已界定的内容范围和测验项目; 然 后,请判断:你认为每一项目在多大程度上反映了其在被 编制时所欲测的目标内容。判断赖以产生的唯一基础是项 目内容与其意欲测量的目标内容之间的匹配程度。请采用 下面的五级量表:
4.4 3 1.3 4.6
中位数 5 5 5 3 3 1 2 5 4 5
5 4 1 5
第九章:标准参照测验
五、标准参照测验分数临界点的确定 (一)专家判定法
1、Nedelsky方法 2、Angoff方法:λ=∑FiPi 若请若干专家同时评定,则可以这 些专家所评定的及格线的平均值作 为最终及格线
题号 题目满分(Fi) 临界水平(Pi)
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
第九章:标准参照测验
三、标准参照测验的信度 1、分类一致性信度 ❖ 优点:分类一致性信度计算比较简单,
直观易懂 ❖ 缺点:
a、再测法和复本法的缺点 b、分界点确定问题,不同分界点, 标准不同,人数比例也不同。
第九章:标准参照测验
2、荷伊特信度—方差分析的方法 ❖1941年,荷伊特(C.Hoyt)提出方差分量
第九章:标准参照测验
❖标准参照测验的定义
所谓标准参照测验就是依据某一明确界定的内 容范围而缜密编制的测验,并且被试的测验结果 也是根据某一明确界定的标准直接进行解释的测 验。
——格莱塞,1971
内容范围:清晰界定内容范围。 标准:明确界定的分数分界点
第九章:标准参照测验
标准参照测验的不同名称:
❖标准参照测验(Criterion—Referenced Test, CRT) ❖目标参照测验(Objective—Referenced Test , ORT) ❖内容参照测验(Domain—Referenced Test , ❖结果参照测验(Result—Referenced Test , RRT) ❖掌握测验(Mastery Test)和基本能力测验