第七章测验等值
测量等值性及其应用ppt课件
一、测量等值性介绍
❖ 1. 前言 ❖ 2. 测量等值性原理 ❖ 3. 测量等值性的评定方法
中南大学湘雅二医院医学心理研究所
经营者提供商品或者服务有欺诈行为 的,应 当按照 消费者 的要求 增加赔 偿其受 到的损 失,增 加赔偿 的金额 为消费 者购买 商品的 价款或 接受服 务的费 用
❖ Step2:建立基于中意儿童样本的CDI基线模 型,并对模型进行拟合验证;
❖ Step3:设定中意儿童相对应的因素负荷等值 ,进行弱检验。若嵌套模型显著差于基线模 型,则进行拉格朗日乘数检验( Lagrange Multiplier Test),找出组间显著不等值的条目 ,并逐项设定自由估计,然后检验该模型( 部分等值)的拟合情况。
中南大学湘雅二医院医学心理研究所
经营者提供商品或者服务有欺诈行为 的,应 当按照 消费者 的要求 增加赔 偿其受 到的损 失,增 加赔偿 的金额 为消费 者购买 商品的 价款或 接受服 务的费 用
1.2 研究被试 ❖中国样本
❖样本包括550名小学二年级和三年级的儿童,其 中男285人,女265人。被试分别来自长沙和湘潭 的两所城市小学,学校的办学水平和规模在当地 均为中等水平。被试的年龄范围为7到10岁 (M= 7.78, SD= 0.62)。二年级学生人为236人,三年级 学生人数为314人。
(4)两组中对应的残差项相等。
中南大学湘雅二医院医学心理研究所
经营者提供商品或者服务有欺诈行为 的,应 当按照 消费者 的要求 增加赔 偿其受 到的损 失,增 加赔偿 的金额 为消费 者购买 商品的 价款或 接受服 务的费 用
测验等值的比较研究(北京翻译学院)
摘要本文对测验等值的几种设计和方法进行分析比较,并讨论如何使用这些设计和方法,同时指出一些尚待进一步研究的问题。
关键词测验等值等值设计等值方法一、等值的意义和作用人们有种种理由要求比较、解释不同时间、不同地点、不同考生的测验分数,以便对试卷或试题的质量,对不同学年的考生水平作出公正的评价、合理的解释,特别是高考、自考这种规模大、影响广的全国统一考试,它决定数百万考生的命运因而备受社会各界关注。
人们当然想知道,各年度试卷的难度水平是否有变化?各年度考生的实际水平是否有提高?不同年度考试之间的考试分数究竟有何关系?如果我们能够把不同年度、不同考生的考试成绩转化到同一个单位系统上去,则上述问题就能得到解决。
在教育与心理测量中,把测量同一种心理特质的不同测验分数,通过一定的数学模型转换成同一单位系统中的过程就称为测验的等值,可见测验等值是心理与教育测量中一个重要的研究领域。
根据等值对象的不同,测验等值包含两方面的内容,如果我们想把不同次测验所得到的分数进行等值,这种等值称为测验分数等值,例如在自学考试中,我们想知道去年的高数考试成绩60分究竟等同于今年的高数成绩多少分。
如果我们想对测验题目的参数如难度、区分度进行等值,这种等值就称为项目参数等值,本文主要讨论测验分数等值,项目参数等值的思想方法与之相似。
二、等值的条件等值是有条件的,不是任意两个测验都可以进行等值。
首先,要求等值的两个测验必须是测量同一心理物质的。
很难想象可以把数学测验的分数等值转换成语文测验的分数,但数学测验分数却可能转换成另一次内容难度近似的数学测验分数。
其次,只有当测量同一特质的两次测验的信度即可靠性相同或相近时才能进行等值。
信度值相差太大的两次测验不能进行等值,第三,测验等值转换关系应具有公平性。
公平性的意思是:若两个或多个测验可以进行等值,则无论以其中任何一个作为基准来进行转换都是可行的,这样考生接受其中任何一个测验,其分数经等值变换后都不会低估或高估其实际水平。
戴海崎《心理与教育测量》(第3版)课后习题(第7章 测验常模——第9章 测验等值)【圣才出品】
圣才电子书 十万种考研考证电子书、题库视频学习平台
①从测验的编制者来讲,确定常模团体的问题,变成确定所编制的测验将来用于什么总 体,所选定的常模团体必须能够代表该总体。大部分测验都有不止一个常模团体。
②对测验的使用者,要从不同角度来选定常模,选定一个与施测样本最适合的一个常模 团体。因为标准化测验通常提供许多原始分数与各种常模团体的比较转换表,被试的分数必 须与最合适的常模比较。
布仍然非正态。
c.任何一组原始分数经转换为 Z 分数以后均有 Z 0 、
数对不同测验分数进行比较。
,因此,可以利用 Z 分
②缺点:
Z 分数由于计算中经常出现负数和小数,且单位过大(一个标准差单位),所以,使用
起来不够方便。
(3)T 分数的优缺点
一种将 Z 分数作线性变换,使负号与小数消失,全部变为正数的转换方法。这种转换
圣才电子书
十万种考研考证电子书、题库视频学习平台
第 7 章 测验常模
1.试比较各种导出分数的优缺点。 答:导出分数就是在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的 具有一定参照点和单位,且可以相互比较的分数。这种按某种规则将原始分数转化为导出分 数的过程称作分数的转换。常用的导出分数有百分等级、标准分数、T 分数等。 (1)百分等级的优缺点 百分等级是应用最广的导出分数。一个原始分数的百分等级是指在一个群体的测验分数 中,得分低于这个分数的人数的百分比。其优缺点为: ①优点: a.是一种相对位置量数,具有可比性,且具有易于计算、解释方便等优点,对一般教 师、学生和家长而言,均能了解百分等级的意义,所以它较适用于不同的对象和性质不同的 测验。 b.百分等级不受原始分数分布状态的影响,即使分数分配不是正态的,也不会改变百 分等级常模的解释能力。 ②缺点: a.单位不等,尤其在分配的两个极端。 b.百分等级只具有顺序性,而无法用它来说明不同被试之间分数差异的数量。 (2)标准分数的优缺点 标准分数是一种具有相等单位的量数,又称作 Z 分数,以 Z 表示。它是将原始分数与 团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的 距离。其优缺点为:
《测验等值》
测验等值一、为什么进行测验等值研究测验、考试被作为一种尺度来对人的心理特质进行测量。
这种尺度应该具有稳定性。
不同的考试版本之间应该具有一致性。
对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。
尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免的。
这种差别不仅会影响到测验的质量,影响到评价标准的客观性,而且会使参加考试时间不同、使用试卷不用的考生受到不公平的对待。
这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。
这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。
如果不进行等值处理化,不同时间举行的考试的成绩之间不具备可比性,评价标准或证书授予标准会受到试卷难度起伏的影响。
一些水平不高的考生可能会由于运气好遇到较容易的试卷而通过考试获得相应资格,一些水平较高的考生可能会由于运气不好遇到较难的试卷而未通过考试并未能获得相应资格。
这种状况,不仅影响到选拔效率和人员素质,而且对考生也是很不公平的。
等值研究的意义并不局限于保证考试公平。
今天,为了避免命题和试卷编制中的盲目性和偶然性,许多考试机构都在致力于建设题库。
实现基于项目反应理论(Item Response Theory,简称IRT)的题目参数等值是建设科学化、大规模题库的前提。
基于经典测验理论(Classical T esing Theory,简称CCT)之上的等值方法只能实现不同试卷之间的等值,满足“试卷库”建设的需要,很难实现在统一的量尺上标定试题难度和区分度的任务,很难满足大规模题库建设的需要。
实现计算机化自适应性考试是许多考试的发展方向,也是摆在许多考试机构面前的重要课题。
计算机化自适应性测验开发中的一个核心环节就是在统一的量表上标定试题参数,实现各个考生所回答的不同题目之间的等值。
测验等值
随机等组 设计 铆测验 —非等组 设计
样本
P1 P2 样本 P1
X
q1
心理测量学
3
测验分数等值关系计算的基本方法
心理测量学
测验分数等值关系计算的基本方法
线性等值 等百分位等值 铆测验非等组设计下的等值关系计算
方法
心理测量学
线性等值
在单组设计或随机等组设计下的两个分 数,一个在测验形式x上,另一个在测验形
心理测量学
测验等值的含义
尽管我们在命题过程中总是尽量保持考试 难度的稳定性,但不同试卷之间在难度、信 度、分数分布方面的差别很难完全避免的。 这种差别不仅会影响到测验的质量,影响到 评价标准的客观性,而且会使参加考试时间 不同、使用试卷不同的考生受到不公平的对 待。
心理测量学
测验等值的含义
这样,就需要将具有不同难度、分数分布 的试卷的分数转换到一个统一的量尺之上, 采用统一的量尺对设计
铆测验—非等组设计:在测验编制时另外编 制一组测验试题,这些试题被称为共同题, 也称为铆(anchor)题。在数据采集时, 铆测验题即对第一组被试施测,又对第二组 被试施测。
心理测量学
等值设计方法图示
样本 P 测 验
单组设计
X
✓ 测 X ✓ 验
Y
✓ Y ✓ 测 验 V ✓ ✓ ✓ ✓ Y
心理测量学
等值步骤 两测验形式之间的等值关系,必须依据 等值条件去寻找这一隐性等值关系,并用 某种形式将其显示出来。
揭示两测验形式的等值关系,实现测验 等值应该按一定步骤进行。
心理测量学
等值步骤
测验等值步骤(七步)
确定等值目的 编制测验复份 选择一种数据采集的设计方法 贯彻数据采集设计方案
测验等值的方法:共同被试法
测验等值的方法:共同被试法
一帆
【期刊名称】《教育测量与评价(理论版)》
【年(卷),期】2015(000)006
【摘要】共同被试法是通过相同被试寻找不同测验形式之间等值关系的方法,适用于大规模测验的等值转换.当两个实际被试组能力分布差异较大或能力分布未知的情况下,可采用同一组被试,让他们参加两种测验形式的测验。
然后通过比较这一组被试在两种测验上的分数,得出测验等值关系。
【总页数】1页(P45-45)
【作者】一帆
【作者单位】
【正文语种】中文
【相关文献】
1.测验等值与量表研究的最前沿——美国《测验等值、量表制订、联结的方法和实践》(中文版)即将出版
2.无锚题测验等值设计方法研究进展
3.测验等值与量表研究的最前沿——美国《测验等值、量表制订、联结的方法和实践》(中文版)即将出版
4.对称相对熵测验等值法
5.测验等值设计的一种新方法──单组设计试卷分半法
因版权原因,仅展示原文概要,查看原文内容请购买。
心理测量练习题
心理测量学练习题册2014版第一章:心理测验总论名词解释1.心理测验:2.心理测量:简答:1.中国古代心理测量学思想的特点主要表现在哪些方面?2.简述从20世纪初叶开始至今心理测量运动的发展轨迹。
3.试述心理测量在当代的发展趋势?第二章:心理测验的编制选择题1.心理测验编制完成,试测时的时限一般规定为()。
(A)所有被试都完成测验(B)60%的被试完成测验(C)80%的被试完成测验(D)90%的被试完成测验2.编写容易并且无法猜测,但是评分不够客观的试题类型是()。
(A)匹配题(B)是非题(C)填空题(D)简答题3.下面哪一个难度的项目的区分度最不理想()。
(A) 0.8 (B) 0.5 (C) 0.1 (D) 0.64. 在一次心理测验中,高分组的通过率为75%,低分组的通过率为15%,那么该项心理测验的区分度为()。
(A) 50% (B) 60% (C) 100% (D) 70%5. 在一次全省招生考试中,高分组的通过率为80%,低分组的通过率为20%,那么该次考试的难度为()。
(A) 50% (B) 60% (C) 100% (D) 70%6.心理测验编制完成,测验的最终的时限一般规定为()。
(A)所有被试都完成测验(B)60%的被试完成测验(C)80%的被试完成测验 (D)90%的被试完成测验7.编写容易、评分客观的试题类型是()。
(A)填空题(B)是非题(C)论文题 (D)简答题8.下面哪一个难度的项目的区分度最小()。
(A) 1.0 (B) 0.5 (C) 0.3 (D) 0.69.编制心理测验时,最初编制的题目数量应是最终所需题目数量的()倍。
(A)1-1.5 (B)2-3 (C)3-3.5 (D)4-510. 在量表编制过程中,因素分析的主要目的是()。
(A)确定项目之间的相关(B)确定量表的信度(C)探索并降低测量维度(D)建立常模11. 下列选项中,可以不写进测验使用手册的是()。
《心理测量学》对教育测量的参考价值
《心理测量学》对教育测量的参考价值[摘要]本文首先对心理测量与教育测量的关系做了简要阐述,接着介绍了教育测量专业的发展和教学现状,最后对《心理测量学》一书的特色做简要评论,指出该书对教育测量专业发展及教学的一些借鉴意义。
[关键词]心理测量教育测量影响一、引言心理测量是通过观察人的少数的、代表性的行为,对贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段(郑日昌,1987)。
教育测量学是以教育学、心理学、统计学为基础,应用各种测试方法和手段,对教育现状、教学效果、学生学业成绩、个人能力、品德等方面进行科学测定和评价的一门教育科学(张敏强,1997)。
心理测量学和教育测量学作为两个不同的专业,有着各自不同的学科特色和发展轨迹。
心理测量研究的重心是个体的心理活动及其特点,而教育测量则更加关注学习者的学习效果,二者的研究范围和关注重点有一定的差异。
但是,心理测量学和教育测量学在理论发展与实际应用方面却又是密切相关的,最大的相同点在于两个专业都要使用大量的统计技术对个体的行为进行分析,不管这些行为是心理行为还是学习行为。
人们常常将心理测量和教育测量相提并论,认为教育测量就是心理测量学在教育领域的应用,这种看法也是有一定道理的,毕竟个体的学习行为也属于人类心理活动和社会行为的一种。
二、教育测量学的学科发展和教学现状在教育领域里,教育测量学包括教育测验和教育评估。
其中,教育测验是指在教育过程中,对学生学习成绩、学习能力或个性特征等一种量的测定,教育测验又可以分为水平测验、成绩测验、能力倾向测验、分班测验和诊断测验。
教育评估是根据已定的教学目标来判断学生、教师、学校在多大程度上完成或达到了这个目标的一个系统的评价过程。
我国正在积极倡导和大力推进素质教育,要想真正推进素质教育,必须建立素质教育运行机制,用教育评价理论和现代测量技术手段来评价学校、教师、学生,因此应该、加强对教育测量学的重视、加大对教育测量专业学科建设的投入。
测验等值是开发中考评价功能之必需
2010年2月第26卷第1期教育科学EducationScienceFeb,2010V01.26No.1测验等值是开发中考评价功能之必需杨悦(大连教育学院,辽宁大连116021)[摘要)中考是各地区规模较大和有影响力的高利害性考试,只有建立科学完善的考试评价系统才能充分发挥中考对地区初中教学多方面的服务作用,而建立完善考试评价系统的必备程序是等值。
IRT等值的步骤包括估计项目参数、进行IRT量袁转换以及制作分数转换表。
[关键词)中考评价;测验等值;IRT等值(中图分类号]G622.474(文献标识码]A(文章编号)1002—8064(2010)01—0047—03中考是判定初中毕业生是否达到初中毕业水平以及为高中阶段学校选拔新生提供录取依据的高利害性考试,因此是一个组织严密、命题规范、社会关注度极高的考试。
中考被作为一把量尺,用来度量考生知识与能力、素质与潜能,它的主要功能表现在两个方面,即评价和选拔。
以往人们更多地关注了中考的甄别与选拔功能,而对中考评价功能的开发与利用却远远不够。
其实,考试的本质是对教育现象的数量化认识,是一种事实判断[1],因此中考丰富的数据资源中蕴藏着大量的能够折射出初中教学质量的各方面信息,如何利用中考成绩,在现代测量理论和统计方法的指导下,借助先进的技术手段,挖掘这些信息,发挥中考的潜在评价功能,为初中教学改革提供有价值的参考依据和引领初中教学具有重要的现实意义和指导意义。
一、中考评价对地区初中教学的服务作用2001年,教育部在《基础教育课程改革纲要(试行)》中明确指出要“建立促进学生全面发展的评价体系。
评价不仅关注学生的学业成绩,而且要发现和发展学生多方面的潜能,了解学生发展中的需求,帮助学生认识自我,建立自信。
发挥评价的教育功能,促进学生在原有的水平上的发展。
”教育评价是按照社会的价值标准,对受教育者的诸种要素进行价值评估,其本质是一种价值判断[2]。
中考既然是各地区按照国家《课程标准》要求对本地区初中教学质量的一次检验,因此,中考评价可以为地区的初中教学提供以下服务:第一,可以向每所学校定量的描述该校学生各学科的整体学业水平以及学生在各学科不同能力维度的表现状况和对不同内容维度知识的学习效果。
测验等值(自编试题)
测验等值一,选择题1. (D)的目的是为了比较两个不同测验形式之间的实测分数A. 导出分数转换B.测验形式转换C. 数据平滑D. 等值转换2. 两个不同形式的测验之间进行测验等值是必须具备一定条件的,其中不包括(B)A. 同质性B. 样本可变性C. 等信度D. 可递推性3. 数据的采集方法,等值实现的途径,等值的计算方法进行周密的设计,称为(A)A. 测验等值设计B. 锚测验C. 数据平滑法D. 等值标准误差4. 测验等值结果是两个不同测验形式分数或项目参数间的转换关系,有三种表示方法,其中不包括( C )A. 表列法B. 公式法C. 对应法D. 图示法5. 线性等值用数学公式表示为,可以改写为y=Ax+B,其中A=(A)A. B. Sx / Sy C. y-Ax D. Fb+Lb二,填空题6. 经典测验理论下,测验等值关系的计算方法主要分为两类:百分位等值,线性等值7. 在等百分位等值方法的公式中PR代表:百分等级8. 锚测验的要求:与原测验测量同种心理品质,与原测验有相同的测验质量,长度不短于原测验1/59. 测验等值的需要源于:测量实践的需要三,简答题10. 为什么需要测验等值?答:在心理与教育测量实践中,经常遇到一个测验需要配备多个测验形式的情况,特别是那些测验内容易受记忆或针对性训练影响的测验,在测验之前需严格保密,测验之后不能再用,必须配备多个不同形式供不同次施测所用。
对于这种情况,测验编制者显然希望这些不同形式的测验结果分数应该是“相等”的,也就是说,如果是对同一个被试施测,通过各个不同形式所测得的结果应该是完全一样的。
为达此目的,测验编制者在测验编制的技术上作了许多努力,但在实际施测后,不同形式之间分数的差异依然存在,这就会引起评价的不公正。
这种结果在需要对参加不同形式施测的被试作统一评价时,就会造成些明显的失误。
避免这种失误的一条途径是寻找到不同测验形式之间分数的转换关系,把所有不同形式测验的分数你转换到同个分数系统上,就不会再出现上述不公正现象。
戴海崎《心理测量学》-7测验常模.ppt
绝对水平 相对水平
第七章 测验常模
第一节 分数转换
一、基本概念
1.原始分数 被试在接受测验后,根据测验的记分标准,对照被试
的反应所计算出的测验分数 2.导出分数 在原始分数转换的基础上,按照一定的规则,经过统
计处理后获得的具有一定参考点和单位,且可以相互 比较的分数。 3.分数转换 按某种规则将原始分数转化为导出分数的过程。
2.分析
(1)输入:预测与效标的平均数与标准差 以及所有变量间相关的相关距阵
(2)过程:联立方程 (3)输出: ①回归方程式(各个预测源的加权量) ②复相关系数R
R2:决定系数,表示效标中的变异数可由预测源来解释的比例
3.预测源的确定
首先选用最佳预测源 直到渐近效度不再增加 一般2-4个 条件:线性关系、连续性资料、同时获得
4.样本大小要适当。 总体的数目 群体的性质 测验结果的精确度 5.常模团体必须是近时的。 6.注意一般常模与特殊常模的结合。
二、制定常模的过程
(一)确定适用团体,抽样选取常模团体 (二)常模团体施测,得到分数及其分布 (三)确定常模分数类型,制作常模量表
三、几种主要的常模参照分数
(一)百分等级分数 (二)标准分数 (三)发展量表 人的许多心理特质,如智力、技能等,是
(二)剖析图
一、常模与常模团体 (一)常模 根据标准化样本的测验分数经过统计处理
而建立起来的具有参照点和单位的测验量 表。
(二)常模团体
1.定义:是由具有某种共同特征的人所组成 的一个群体,或是该群体的一个样本。
2. 常模团体的确定
测验编制者:确定所编制的测验的适用 总体,所选定的常模团体必须能够代表 该总体。
2.方法 (1)单位加权:Xc=X1+X2+…+Xn (2)等量加权:Zc=Z1+Z2+…+Zn (3)差异加权:Zc= W1Z1+ W2Z2+…+
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
式y上,对于任何一个被试团体,如果它们
的标准分数相等,这两个分数就被认为是等 值的。
心理测量学
线性等值
用数学公式表示,所谓测验分数x等值于
测验分数y,即有下式成立:
改写为:
其中:
心理测量学
等百分位等值原理
在单组设计或随机等组设计下的两个分 数,一个在测验形式 x上,另一个在测验形 式 y上,如果这两个分数有相同的百分等级, 那么这两个分数就被认为是等值的。按照这 个原理,寻找与 x 分数等值的 y 分数,只
心理测量学
随机等组设计
随机等组设计:从同一总体中随机抽取两组 考生,这两组考生被认为在能力分布上是相 同的或很接近,让这两组考生分别接受两份 不同测验X和Y,然后估计两测验形式的等值 关系。这种设计方案可克服练习效应和疲劳 等因素的不利影响。这种数据采集设计有一 个假设,即两被试样本的总体分布是相同的 。由于从同一总体抽样,因此,不考虑两组 之间的差异,这一假设比较容易得到满足。
随机等组 设计
锚测验 —非等组 设计
样本
P1 P2 样本 P1 q1
X ✓
心理测量学
3
测验分数等值关系计算的基本方法
心理测量学
测验分数等值关系计算的基本方法
线性等值 等百分位等值 锚测验非等组设计下的等值关系计算
方法
心理测量学
线性等值原理
在单组设计或随机等组设计下的两个分 数,一个在测验形式x上,另一个在测验形
测验等值的含义
我们想要知道数学能力在小学一年级和二年级的差 异情况。应该怎么比较他们的数学成绩? 研究生入学考试某个地区的英语泄题了,最后采用 了副卷进行考试,那么,最后算总分的时候,依然 采用几门科目成绩之和算总分? 我们要建立一个题库,希望试测数百个乃至成千个 试题。显然、这些试题决不能同时在一个考生组上 来试测,我们可能要同时测许多考生组。虽然其中 的第一组跟第二组,或第二组跟第三组间是有若干 共同试题的,但每一组的考生都只接受很少一部分 试题的测试。这样得到的难度和区分度可以直接应 用吗?
测验等值的含义
测量学上把所有不同测验形式的分数都转换 到同一个分数系统上的一套专门技术称为测 验等值(Test Equating)。
测验等值的实质就是通过对考核同一种心理 品质的多种测验形式作出测量分数系统的转 换,进而使得这些来自不同测验形式的测验 分数之间具有可比性。
心理测量学
测验等值的条件
测验等值必须满足的要求与条件
心理测量学
2
常用等值资料采集方法设计
常用等值资料采集方法设计
1
2 3
单组设计
随机等组 设计
锚测验— 非等组 设计
心理测量学
单组设计
单组设计:即把想要等值的两个或多个测验 同时向同一被试组施测,然后借助于同一被 试组把拟予等值的测验联系起来,这时两组 测验分数的差异主要是由于两个测验的难度 不同而引起的,因而从理论上来说这种等值 设计既简单又无抽样误差。但实际上由于练 习效应、疲劳及厌倦等因素的影响,会给等 值结果带来误差。
研究结果表明,并非在任何情况下等值都是最好的 处理。如果有证据表明两份试卷的难度差异很小, 就没有必要进行等值。
在实际的测验等值过程中我们无法知道等值是否必 要。因此,我们只能为了控制测量误差而采取等值 方法。尽管在有的情况下进行等值处理可能增大了 测量误差,但总体来讲,等值处理仍然是必要的。
心理测量学
本章小结
如果不进行等值处理,不同时间举行的考 试的成绩之间不具备可比性,评价标准或证书 授予标准会受到试卷难度起伏的影响。这种状 况,不仅影响到选拔效率和人员素质,而且对 考生也是很不公平的。
心理测量学
本章小结
等值研究的意义并不局限于保证考试公平。 今天,为了避免命题和试卷编制中的盲目性和 偶然性,国内许多考试机构都在致力于建设题 库。实现基于项目反应理论(Item Response Theory,简称IRT)的题目参数等值是建设科 学化、大规模题库的前提。
心理测量学
锚测验非等组设计计算
让两个被试组分别参加两个形式的测验, 在两个测验中有部分项目是共同的——锚题,
这样两组被试被锚题锚接在一起。使用该设
计可以采用线性等值方法来完成等值计算。
心理测量学
锚测验非等组设计计算
锚测验非等组设计线性等值方法计算公式如下:
其中, 是x测验向全体被试t施测时的平均 数与标准差的估计值, 是y测验向全体 被试t施测时的平均数与标准差的估计值。
通过前面的几个例子我们知道,不同测验形 式之间的分数或成绩不能直接比较,因为他 们是处在不同的评价系统上的,没有可比性 。所以在应用之前必须把分数转换到同一评 价系统之上。这样,就需要将具有不同难度 、分数分布的试卷的分数转换到一个统一的 量尺之上,采用统一的量尺对应考者进行测 量。
心理测量学
心理测量学
如果两组被试能力差异不大,四项估计值为:
其中, 与 是只参加测验x被试的平 与 是只参加测验y 是锚测 均数和标准差, 被试的平均数和标准差, 与 准差, 与
验向全体被试t施测得到的平均数和标
是既参加测验x又参加锚 测验被试的平均数和标准差,
与
是即参加测验y又参加锚测验被
是测验y对测验v的
心理测量学
锚测验—非等组设计
锚测验—非等组设计:在测验编制时另外编 制一组测验试题,这些试题被称为共同题, 也称为锚(anchor)题。在数据采集时, 锚测验题既对第一组被试施测,又对第二组 被试施测。
心理测量学
等值设计方法图示
样本 P 测 验
单组设计
X
✓ 测 X ✓ 验
Y
✓ Y ✓ 测 验 V ✓ ✓ ✓ Y
是测验x对测验v的回归系数, 是
和标准差,
测验y对测验v的回归系数。
心理测量学
如果两组被试能力有差异,这四项估计值为:
式中,
、
、
与
分别是各个测验的信度系数。
心理测量学
本章小结
测验等值是测验公平性的保证,其在测验
实施、编制与结果分析,题库的建立,不同单
位、地区、时间所测学科成绩的比较等方面,
都是极为必要的。
心理测量学
本章小结
基于经典测验理论(Classical Tesing Theory,简称CTT)之上的等值方法只能实现 不同试卷之间的等值,满足“试卷库”建设的 需要,很难实现在统一的量尺上标定试题难度 和区分度的任务,很难满足大规模题库建设的 需要。
经典测验理论的试题参数依赖于样本,试题参数随 考生的群体不同而变化。 等值的假设有时难以完全满足。 等值应用于平行测验才最好,等等。 正因为有这些局限性,迅速发展的项目反应理论为 测验等值提供了新的方法,它的最大优点是:试题参 数的估计独立于标准化过程的被试组。
CTT方法与IRT方法的比较
在本项研究中比较了4种基于CTT的等值方法和11种基于 IRT的等值方法。4种CTT方法均排在等值误差最小的5种 方法之中。 在IRT方法中,“同时单参数”等值方法在全部15种方法 中排在第三。今天,许多考试面临题库建设和发展计算机辅 助自适应性考试间题。CTT方法不能解决这两个问题。 CTT只能实现“试卷”之间的等值,不能实现“试题”之间 的等值。我们面临的问题不是“采用CTT还是IRT模型?” ,而是“IRT模型是否可以被接受”。本项研究的结果表明 ,某些IRT模型是可以被接受的。 谢小庆,对15种测验等值方法的比较研究,心理学报 2000,32(2):217一223
试的平均数和标准差, 是测验x对测 验v的回归系数, 回归系数。
心理测量学
其中, 与
是只参加测验x被试的平均数和标
准差,
差,
与
与
是只参加测验y被试的平均数和标准
是锚测验向全体被试t施测得到的平均
数和标准差, 与
与
是既参加测验x又参加锚测
验被试的平均数和标准差,
是即参加测验y又参加锚测验被试的平均数
测验所测心理结构或特性的同一性
等信度
测验等值转换关系的公平性
测验等值转换关系的可递推性
心理测量学
测验等值的条件
测验等值必须满足的要求与条件(续) 测验等值转换关系的对称性 测验等值转换关系对总体的惟一性或称样 本不变性 在测验等值处理中,如果待等值测验能 完全符合上述6个条件,则等值的结果将 令人满意。
测验等值
心理测量学
1
测验等值概述
2
常用等值资料采集方法设计
3
测验分数等值关系计算的基本方法
心理测量学
1
测验等值概述
心理测量学
测验等值概述
测验等值的含义ຫໍສະໝຸດ A B C等值误差
测验等值的条件
心理测量学
测验等值的含义
什么是测验等值?
为什么进行测验等值?
所有测验都可以进行等值么?
理论基础是什么?
测验等值如何进行?
心理测量学
等值误差
等值完成后必须对等值结果进行评价。评 价等值关系可靠性与准确性的指标是等值关 系中所包含等值误差的大小。等值误差有两 类:随机等值误差与系统等值误差。测验误
差不可避免一样,等值误差也是不可避免的。
等值误差
随机误差发生在用样本统计量来预测总 体参数的情况下。 系统误差是由于违背了数据收集设计或 等值方法的假设或者条件所造成的。
要找到与 x 分数有相等百分等级的y分数就
可以。
心理测量学
等百分位等值
对于测验x的每个一分数,可根据公式 在x测验分布中先求出与其对应的百分等级, 然后在y测验上求取具有该百分等级的分数。 即在两个测验上就有相同百分等级的分数就 是等值分数。
心理测量学
等百分位等值
百分等级计算公式为:
根据百分等级计算测验分数公式为: