教育统计与测量 第8章 难度 区分度
教育测量与评价的质量特性 难度与区分度课件
PPT学习交流
19
解
需进行显著性检验,才能确定其是否具有显著性意义
(1)对点双列相关公式中的 和 进行差异显著性检验,若差异显著, 表明 显著; (2)采用积差相关系数显著性检验的方法进行检验; (3)如果样本量较大(n>50),也可用下面近似方法:
, 认为 在0.05水平上显著;
,认为 在0.01水平上显著。
答对该题目的人数 被试人数
PPT学习交流
3
• 多值记分题的难度值计算
某题的平均得分 该题的满分
PPT学习交流
4
练习
• 题1:在100个学生中,答对第一题的30人,答 对第二题的60人,求第一、二道题的难度?比 较这两道题谁比谁难?
• 题2:某道论述题满分12分,所有考生在这道题 上的平均得分为3.6分,求该题的难度?
6
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
如果该题满分为10分,高分组得分总数为2100分交流
7
二、难度指标的等距变换
• 运用标准分数(Z分数)作为题目难度的指标
PPT学习交流
8
例:某校学生在一次测验中,第一题的答对率为 15%,第二题的答对率为25%,第三题的答对率为 35%,假定这三题所测量的能力近似正态分布,问
信度
0.00 0.42 0.63 0.84 0.915 0.949
要达到理想的测验信度,提高区分度是一个好办法
PPT学习交流
16
难度
1.00 .90 .70 .50 .30 .10 .00
区分度的最大值
.00 .20 .60 1.00 .60 .20 00
难度适中,可使区分度达到最大值
2.3难度和区分度
第三节难度和区分度一个测验的信度和效度在很大程度上取决于该测验的题目参数(难度和区分度),编制和筛选具有适当参数的题目是改善测验信度和效度的前提。
在通常情况下只要讨论常模参照测验中题目的难度和区分度。
一、难度受测团体中被试者在答案范围内回答题目的程度称为难度。
一般用难度指数p表示题目的难度。
1.题目难度的计算当题目的评分为多值时,受测者的得分可能是x(x=1,2,…,n,n为该题满分数)。
所谓难度指数(有时也称得分率),就是该题平由此可见,平均分越高,p值越大,题目的难度越小;平均分越低,p值越小,题目的难度越大。
当题目为二值评分(即0、1评分)时,上式可变形为其中,N是答题人数,R是答对人数。
这种难度指数也称为通过率,一般用于是非题或多项选择题。
由通过率可知,答对人数越多,p值越大,题目的难度越小;答对人数越少,p值越小,题目的难度越大。
形式为多选一的选择题有多个可能的答案供受测者选择。
选择正确答案的人数可能会受猜测机遇的影响,可供选择的答案越少,这种机遇的影响就越大。
对此,可以用公式对难度指数p进行校正。
其中,C是校正后的难度指数,p是校正前的难度指数,k是每个p题目可供选择的答案数。
2.题目难度的等距量表在进行测量时,用来表示一些对象和事件的某些特征的指标称作量表。
根据不同的单位和参照点,从低级到高级,从模糊到精确,可以用不同的量表表示。
用平均得分比率或答对人数比率表示难度,仅说明事物含有某种属性的多少,它是无相等单位,不具有等距性和可加性的顺序量表。
这种量表只能表示事物间的大小、次序关系,不能反映两个比率间的数量差异。
我们可以把这种量表转换成不仅有大小关系,而且有相等单位和规定参照点的等距量表,使其能表示题目之间难度差异的大小。
美国教育测验服务处(ETS)采用的难度指数为Δ=13+4Z,其中,Δ是正态化的等距难度指数,13是平均数,4是标准差,Z是标准正态曲线下的面积(即p值)所对应的值。
区分度与难度信度的关系
区分度与难度信度的关系1. 引言1.1 概述本文旨在探讨区分度与难度信度的关系。
在测量工具使用中,区分度和难度是评价试题质量和信号可靠性的重要指标。
区分度指标用于判断不同程度被试者之间对题目的辨别能力,而难度则反映了被试者在回答试题时所面临的困难程度。
区分度和难度两个概念密切相关,通过研究它们之间的关系,可以更好地评估测量工具的效果和准确性。
1.2 文章结构本文将按以下结构进行阐述:引言部分将给出概述、文章结构以及文章目的;接着,在第二部分中对区分度和难度进行详细解析和定义;然后,在第三部分中将探讨区分度与难度之间的关系,并深入研究其对信度的影响,并提供实例分析和案例研究;第四部分将介绍应用区分度与难度信息的方法和技巧,包括利用区分度进行题目筛选和试卷优化以及使用难度评估提升教学效果;最后,通过总结研究发现,给出结论部分及对未来的展望。
1.3 目的本文旨在深入探讨区分度与难度之间的关系,并阐明它们对测量工具信号可靠性的影响。
通过对这一关系的研究,我们可以更好地理解和评估测量工具在试题设计和教学评价中的应用效果。
文章还将介绍如何利用区分度和难度信息进行题目筛选和试卷优化,以便提高测量工具的质量和教学效果。
最终,本文将为相关领域的研究者、教育从业人员以及试题设计者提供实用指导和启示。
2. 区分度与难度的概念解析2.1 区分度的定义和作用区分度是指在一组测试题中,不同程度上能够区分被试者能力水平的程度。
换句话说,区分度衡量了一个题目在区别考生对该题目反应的能力上所起到的作用。
区分度常常被用来评估题目的质量和有效性。
在考试或测验中,具有较高区分度的题目能够准确地识别出具备不同能力水平的学生。
这些题目可以帮助教师或评估人员更准确地判断学生真实的知识掌握情况,并对学习效果进行评估。
因此,区分度具有重要意义,特别是在教育领域中进行有效评估和提供个性化教学方案时。
2.2 难度的定义和影响因素难度是指测试题对考生所构成挑战程度的程度。
2023年12月《教育统计与测量》考试用卷
《教育统计与测量》复习资料一单选题 (共12题,总分值0分 )1. 我国高考标准分数采用了一种方案,这种方案是( A )(0 分)A. 正态化转换方案B. 对比参照方案C. 百分等级方案D. 常模参照方案2. 用同一个量表(测验或评价表)对同一组被试测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数,这一概念是( B )(0 分)A. 复本信度B. 重测信度C. 同质性信度D. 分半信度3. 在现代测验理论的诸多模式中,最具有优越性的是( B )(0 分)A. 经典测验理论B. 题目反应理论C. 心理测验理论D. 智力测验理论4. 衡量测量题目质量的两个重要指标是( D )(0 分)A. 信度与区分度B. 效度与信度C. 难度与效度D. 难度与区分度5. 最早的测验理论是( A )(0 分)A. 经典测验理论B. 题目反应理论C. 心理测验理论D. 智力测验理论6. 表示每项评价指标在指标体系中所占的重要性程度,并赋予相应的值,这一概念是( D )(0 分)A. 评价指标B. 评价标准C. 指标权数D. 指标权重7. 一个测验或量表实际能测出其所要测量的特性的程度,这一概念是( A )(0 分)A. 效度B. 稳定性C. 信度D. 可信度8. 测量结果的稳定性程度是指( C )(0 分)A. 效度B. 稳定性C. 信度D. 可信度9. 一个与被试同类的团体在相同测验上得分的分布状况与结构模式,这一概念是( B )(0 分)A. 模型B. 常模C. 量规D. 参照物10. 根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程,这一概念是( A )(0 分)A. 测量B. 评价C. 测验D. 统计11. 衡量、判断人物或事物的价值,这一概念是( B )(0 分)A. 测量B. 评价C. 测验D. 统计12. 一个测验对于处于特定情境中的个体行为进行预测时的有效性,这一概念是( C )(0 分)A. 同质性信度B. 复本信度C. 效标关联效度D. 重测信度二计算题 (共1题,总分值100分 )13. 某小学个人卫生得分的平均数为,其中某班28名学生平均分数为,标准差为,问该班学生成绩是否低于全校的平均水平(100 分)答案:|t|=,t(27)=<<=t(27),<P<,在显着性水平上拒绝H0,接受H1,该班个人卫生得分显着低于全校平均水平。
考试题目的难度和区分度的量化分析——教育统计与测量在教学中的应用
考试题目的难度和区分度的量化分析——教育统计与测量在教学中的应用
教育统计与测量在教学中的应用教育统计与测量是教学中的重要组成部分,它是一种科学的方法,能够更有效地对学生的研究情况和教学效果进行定量分析,是一种有效的指导理念。
教育统计与测量的应用可以帮助教育机构更好地分析和管理教学,提高教育效果。
首先,教育统计与测量可以帮助教育机构合理安排考试题目,有效提高考试的难度和区分度。
教育统计与测量能够帮助考试组织者有效地确定考题的类型、难度和区分度,以便增加考试的客观性,以及考生的参与程度。
其次,教育统计与测量可以帮助教育机构评价学生的研究成果,以及教育教学的效果。
教育统计与测量的应用可以帮助评估教育机构的学生研究情况,以及考试成绩的变化情况,以及教育教学的效果。
通过定量分析,可以更有效地了解学生的研究情况,以及教育教学的效果,从而更好地指导教学工作,提高教育效果。
此外,教育统计与测量也可以帮助教育机构更好地改进教育教学的效果。
通过对学生研究情况和考试成绩的定量分析,教育机构可以及时发现研究中出现的问题,从而对教育教学进行必要的改进。
总之,教育统计与测量是教学中不可或缺的重要组成部分,它可以帮助教育机构更有效地安排考试题目,更好地评价学生研究情况和考试成绩,以及更有效地改进教育教学的效果,从而提高教育效果。
教育统计与测量的应用是教学中必不可少的,有助于提高教育效果的有效性。
信度、效度、区分度、难度的使用
信度、效度、难度、区分度及其在试卷分析中的使用教学测量(instructional measurement)是考核教学成效的一种方法。
这是借助于一定的手段与方式,对学生的学习成绩(简称学绩)进行探察,并以一定的数量来表示的考核办法。
2. 在教学测量中应注意什么(1)教学测量的目的在于考核教学成效,也就是考察教学目标的完成情况。
因此,教学测量的目标应以教学目标为依据,测量目标应与教学目标一致,而不能偏离教学目标(2)教学测量的对象是学生内在的能力与品德等的形成状况,它不可能像物理测量那样直接进行,只能借助于一定的手段与方式间接进行。
(3)教学成效是通过量化的学绩进行考察的。
也就是说,教学成效是以学生的学习成绩为直接考察依据的,而学绩是以一定的数量来表示的,因此命题的合理性与评分的客观性是有效教学测量的一个重要影响因素教学评价(instructional evaluation)就是依据教学目标,对学绩测验所得测量结果进行分析及解释。
它主要包含以下两个方面的工作。
(1)教学评价必须对学绩测验数据所表明的教学成效作出确切的诊断。
(2)教学评价必须对教学的成败原因进行分析,并对今后教学工作的改进方面作出明确的规定。
评价(估)的功能:为家长提供信息,为选拔提供信息,为学生提供信息,为教师提供信息,为学校(间)提供信息教学目标,有时也称为行为目标,是指对学生在一段时间教学后应该掌握的技能与概念的陈述。
信度信度指的是测量结果的稳定性程度,信度是衡量一个量表质量高低的重要指标。
信度不高的量表是不能使用的。
3.常见的信度种类(1)重测信度(2)复本信度(3)分半信度(4)同质信度(内部一致性信度)(5)评分者信度影响信度的因素♦被试♦主试者♦施测情境♦测量工具信度是指考试的可靠性,即考试结果的可信程度。
信度高的试题很少受到外部因素的影响,对任何学生的多次测定都会产生比较稳定的、前后一致的结果。
提高试卷信度的因素大致可包括以下几种情况:(1)使用ABC卷随机抽取试题。
试卷分析:信度、效度、难度和区分度
附件6、难度、区分度、信度和效度的一般说明一、难度难度是指试题的难易程度,它是衡量试题质量的一个重要指标参数,它和区分度共同影响并决定试卷的鉴别性。
一般认为,试题的难度指数在0.3-0.7之间比较合适,整份试卷的平均难度最好在0.5左右,高于0.7和低于0.3的试题不能太多。
1、难度的两种定义〔1〕P=1-x/w其中:x为某题得分的平均分数,w为该题的满分。
这种定义法,难度值小时表明试题容易,值大时表明试题难,最小值为0,最大值为1。
〔2〕P=x/w这种定义法,难度值小时表明试题难,值大时表明试题容易,最小值为0,最大值为1。
2、难度的计算〔1〕主观性试题的难度A、基本公式法:P=1-x/wB、极端分组法P=1-(XH+XL)/2W其中:XH为高分组的平均得分〔前27%〕,XL为低分组的平均得分〔后27%〕。
〔2〕客观性试题的难度A、基本公式法:P=1-R/N其中:R为答对人数,N为全体人数。
B 极端分组法:P=1-〔PH+PL〕/2其中:PH=RH/n叫高分组通过率,RH为高分组答对人数,n 为总人数的前27%。
PL=RL/n 叫低分组通过率,RL为低分组答对人数。
二、区分度区分度是区分应试者能力水平高低的指标。
试题区分度高,可以拉开不同水平应试者分数的距离,使高水平者得高分,低水平者得低分。
而区分度低则反映不出不同应试者的水平差异。
试题的区分度与试题的难度直接相关。
通常来说,中等难度的试题区分度较大。
另外,试题的区分度也与应试者的水平密切相关,试题难度只有等于或略低于应试者的实际能力,其区分性能才能充分显现出来。
1、区分度指标的评价-1.00≤D≤+1.00,区分度指数越高,试题的区分度就越强。
一般认为,区分度指数高于0.3,试题便可以被接受。
2、区分度的计算方法〔1〕基本公式法:D=〔H-L〕/N其中:D代表区分度指数,H代表高分组答对题的人数,L代表低分组答对题的人数,N代表一个组的人数即高分组与低分组人数之和。
教育测量与评价的难度与区分度PPT资料26页
教育测量与评价中题目(项目)的难度
二、难度的计算
主观题的平均数法
P X W
主观题的极端分组法
公式: 步骤
PXHXL(2NL) 2N(HL)
按测验总分依次排序,确定比例各为25%的高分组和低分组
为高分组、低分组分别编制每题得分的分析表(试题分析表)
用上述难度公式计算难度值
步骤:
P PH PL 2
按测验总分由高到低排序
从高分段向下选出全部试卷的27%作为高分组
从低分段向上选出全部试卷的27%作为低分组
按照上述公式计算项目难度值
例:100人参加某测验,高分组与低分组各取27人,其中第 一题高分组20人答对,低分组10人答对。这道题的难度系 数是多少?
教育测量与评价的
难度与区分度
2019-11-21
教育测量与评价中题目(项目)的难度
一、难度的含义 难度是指测验项目的难易程度 刻画被试作答一个题目所遇到的困难程度的量数,叫做题目的难度系数, 用符号 P表示
在教育测量中,P=正确回答试题的人数/参加测验的总人数
二、难度的计算 客观试题(二分法记分): P=R/N R:答对该题的人数;N:参加测验的总人数 对选择题的解答,因被试可猜测,故需对难度系数加以校正
教育测量与评价中题目(项目)的区分度
例:100名考生参加主观性试题测验,按高、低分各占人数
教育统计与测量 第8章 难度 区分度
例:某道论文题,高分组得分总 和为40分,低分组得分总和为15 分,有40人参加考试,这道题最 高得分为8分,最低得分为2分, 则此题的难度为多少?(0.125)
内部一致性方法是在假定整个测验具有足够效度的 基础上进行的,如果测验的效度不高,即使试题得 分与测验总分具有内部一致性,也不能说明区分度 较高 项目效度分析法是计算某一试题与外在校标分数的 相关性。 如果同质性题目,采用内部一致性;综合性测验, 采用项目效度分析。
1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此 ,使难度适中是提高区分度的重要方法。 2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数 尽量分布在整个分数量尺上。 3、掌握区分度的评价标准。
一、客观题难度的计算 1.原始定义法
p R N
P表示难度指标,N表示参加考试的总人数,R表示答 对某道客观题的人数。
选择题的解答由于允许被试猜测,校正公式 如下:
KP 1 CP K 1
具体步骤如下: 1)先按测验总分的高低,按由高到低的顺序依次排 列试卷。 2)从得分最高的一份试卷开始依次向下选出全部试 卷的27%作为高分组;从得分最低的一份试卷开始依 次向上选出全部试卷的27%作为低分组。 3)按计算公式计算难度
一般说来,影响题目难度的主要因素有:
◦ ◦ ◦ ◦ 考察知识点的多少; 考察能力的复杂程度或层次的高低; 考生对题目的熟悉态度; 命题的技巧。
教育测量与统计复习提纲
教育测量与统计复习提纲教育测量与统计复习提纲一、填空(14空,14分)二、概念解释(4题,16分)三、问答题(4题,36分)四、计算题(2题,20分)五、创新应用题(1题,14分)第一章:教育测量与评价的学科发展一、测量与评价基本问题(一)教育测量●测量三要素:测量的量具;测量的单位;测量的参照点。
●教育测量的概念:针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
●教育测量的特点:(问题:教育测量与物理测量的区别是什么)1、间接性与推断性,物理测量大多是直接性的;2、测量对象的模糊性和测量误差的不可避免性;3、量表具有多样性,结果具有相对抽象性。
●量表的概念与种类:(概念是名词解释)1、概念:量表指的是确定了测量单位和参照点并具有取值系统的测量工具。
2、种类:(按测量水平分)①称名量表(用来对事物或人的心理现象进行分类的)②顺序量表(也用于对事物或人的心理现象进行分类,但这种分类是以所测属性的数量大小为基础进行的)③等距量表(零点是相对的,即人为确定的相对零点。
例如温度计)④比率量表(除了具有量的大小和相等单位外,还具有绝对的零点)(二)教育评价●教育评价的概念1、是指按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。
2、著名的测量与评价领域人及名言:①格兰德朗认为,评价是为了确定学生达到教学目标的程度,收集、分析和解释信息的(课堂)系统过程;评价包括对学生的定量描述(测量)和定性描述(非测量)两方面。
教育测量与评价是所有成功教学的基础。
②斯塔费尔比姆认为,评价最重要的意图不是为了证明,而是为了改进。
(三)相关概念●教育测量与评价关系:1、测量与评价既有区别又有联系2、教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;3、教育评价往往是教育测量过程的延续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展;4、但在一定情况下,两者是一致的,许多教育测量本身就含有价值判断。
教育测量与评价重难点
教育测量与评价重难点引言:1.统计学是关于数据的收集、整理、描述和推断(以获得有关研究对象特征及规律)的一种方法论科学。
2.心理和教育研究大致可以分为两大类:定性研究和定量研究,两者的区别主要在于研究方法和研究范式。
定性研究:主要用文字来描述现象和叙述结果,目的是理解和解释现象,如心理分析主要采用定性研究。
定量研究:采用比较科学的方法,通过收集数据和统计分析,借助数字和地图表来呈现结果,目的是了解现象的数量特征或现象之间的关系,并做出解释或推断,如实验心理主要采用定量研究。
3.选定了一个研究问题后,定量研究的主要步骤如下:1)文献检索与文献综述。
2)研究设计。
3)前期研究。
彩排。
4)收集数据。
5)数据登录和整理。
6)统计分析。
7)解释统计结。
8)呈现结果,得出结论。
第一章第一节一、总体与样本1.研究对象的全体成为总体(population),组成总体的基本单元成为个体。
2.被抽到的个体成为样品(case),在心理和教育研究中,通常将样品称为被试(subject)。
3.样品的全体称为样本(sample),样本所包含的样品个数成为样本容量(sample size),通常用n或者N来表示。
二、变量1.在一项研究中,研究者感兴趣的不是研究对象本身,而是与研究目的有关的变量。
所谓变量(variable),是指研究对象的个体之间在性质和数量上可以变化并可以直接或间接测量的条件、现象或特征。
2.对于一个变量,每一个个体都有一个确定的取值,称为变量值(value)。
样本中所有样品(被试)的变量值全体称为样本数据(sample data)。
三、数据来源1.在心理研究与教育中,主要通过调查(survey)(包括问卷、访谈、观察)、实验(experiment)或测验(testing)来收集数据。
四、变量命名和编码1.对于确定的变量,每个个体都对应着一个变量值。
2.如果变量的取值不是数值,要用数值进行编码。
五、反向题的重新编码1.在调查或测验中,研究者为了控制被试的反应误差,有时会在问卷或者量表中加入所谓的反向题(negative item)。
难度与区分度
CP kP 1 k 1
CP:校正后的难度值;P:实际得到的通过率;K:选项数目
例:某次测验中,20个学生中有15人答对了某一选择题,分别计算此题有四 个选项、三个选项、两个选项时的难度值。
6/24/2019
8
二、难度的计算方法
(2)标准参照测验的目的是要考察被试的水平是否达到应有要求, 因而测验项目的难度,就不应由被试的实际通过率来决定,而应由 项目的考核要求是否体现了应有标准或教学目标来决定。无论项目 通过率是高还是低,只要体现了应用的标准或教学目标,项目的难 度就是合理的恰当的。
6/24/2019
19
一、基本概念
6/24/2019
4
二、难度的计算方法
01 以全体被试得分率为难度系数
某题平均得分
该题目的满分
6/24/2019
5
二、难度的计算方法
10名被试者在两道题上的得分情况
平题
学 生
A
B
C
D
E
F GH
I
J
均目 得满
分分
第
一 1 1 1 0 1 0 1 0 1 0 0.6 1
题
第
二 3 2.5 3 1.5 2 0 1.5 1 2 0.5 1.7 3
6/24/2019
区分度 0.1225 0.16 0.20 0.30 0.40 0.50
信度 0.00 0.42 0.63 0.84 0.915 0.949
25
可以看出,要保证测验的质量,必须提高各项目的区分 度。因此,有人称试题的区分度是测验是否具有效度的指示 器。事实上,项目区分度也可以称之为项目的效度。
教育测量与评价的难度与区分度
况如下表。计算该选择题的区分度。
生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
总 86 52 94 72 65 22 76 83 80 75 76 73 62 91 47 74 81 88 62 58 题1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 1 1 0 0 0
X
f
fx
X
f
fx
高分组 10
10
100 低分组 10
0
0
试
题
8
8
64
8
5
40
分
7
6
42
7
8
56
析
表
5
1
5
5
2
10
4
0
0
4
10
40
问题:
◦ 有3道试题(A、B、C),它们的难度P值分别为0.85、 0.75 、0.65,试比较这三 道题目的难度差异情况。
◦ 我们能说:
◦ 我们不能说:
◦ 如何进行差异比较?
◦ 步骤:
P PH PL 2
◦ 按测验总分由高到低排序
◦ 从高分段向下选出全部试卷的27%作为高分组
◦ 从低分段向上选出全部试卷的27%作为低分组
◦ 按照上述公式计算项目难度值
◦ 例:100人参加某测验,高分组与低分组各取27人,其中第一题 高分组20人答对,低分组10人答对。这道题的难度系数是多少?
A=B或A≠B 1 23
符号化
男1女2;男 生喜欢11、男
生不喜欢
10……
断定: A>B A=B
分等级、位 1 2 3 4 次、排列顺
教育测量项目分析8(难度、区分度)重点
PH:高分组(总分前27%)通过率; PL:低分组(总分后27%)通过率.
区分度的计算
区分度:测试题对被试的区分程度或鉴别能力.
极端分组法(非0-1记分)
XH XL D N ( H L)
XH:高分组(总分前27%)总得分; XL:低分组(总分后27%)总得分; H: 最高得分; L:最低得分. N:分组人数(总人数27%).
数学教育统计与测评
CONTENTS
教育测量项目分析
1 项目分析 2 难度的计算 3 区分度的计算
4 难度、区分度、信效度的关系
项目分析
项目分析:测题分析
项目分析是评价项目质量和筛选项目的依据。项目分析结 果的好坏也直接影响整个测验的质量。
难度的计算
难度:测验项目的难易程度. 通常用字母P表示。 0 P 1
难度:测验项目的难易程度.
①0-1记分测验: 为了平衡选项数目对难度的影响,可以进行校正。
kP 1 1 P CP P k 1 k 1
P:未校正的难度; k:可供选择答案数.
难度的计算
难度:测验项目的难易程度.
②非0-1记分测验: 得分率法
X P W
X
:被试平均得分; W:题目满分.
区分度的计算
区分度:测试题对被试的区分程度或鉴别能力.
相关法:被试测题得分和测验总分之间的相关系数 相关系数高意味着:学习成绩好的被试在该题得分高,学 习成绩差的被试在该题得分低。也就是说,该题对被试学 习成绩好坏有较好的鉴别能力。
区分度的计算
区分度的标准
区分度 0.40以上 0.30~0.39 0.20~0.29 0.19以下 评 价
非常好 良好,如能改进则更佳 尚可,仍需再改进 劣,必须淘汰或加以修改
教育统计与测量-测量质量分析
测验效度
测验效度,就是测验实际上测到它打算要测的东 西的程度。
真正测到了要测的东西,就是有效、效度高;否 则,就是无效或不十分有效,就是效度低。显然, 测验只有真正测到了要测的特性、特质、结构, 测验结果即测验分数的应用与解释,才能起到它 应起的作用,才能发挥出有效性。
因此,测验效度就是测验工具的正确性问题,是 测验分数的真实有效性问题,是测验质量高低的 根本表现所在,是测验性能的最重要的指标。
项目区分度指数的取值范围,跟一般的相关系数 的取值范围一样,在-1.00至+1.00之间。
如果项目区分度指数D≤0.20,项目应该被淘汰 如果0.2<D <0.3,需要修改 如果0.3≤D <0.4,合格 如果 0.4≤D ,性能优良
测验信度
测验信度,就是测验在测量它所测特质时得到的分数的一致性 (稳定性)。它是反映测验性能的一个重要的质量指标。
由于重测法十分强调特质的稳定性,所以,用这 种方法求取的信度系数就叫做稳定性系数
大家讨论一下重测信度的局限性
复本信度
复本信度是指通过使用两个平行形式的测验来测 查同一批被试,这样也可获得同一批被试的两批 独立值,从而通过求相关系数,估出测验的信度。
这要求两个测验所测的东西实质完全相同,只是 使用的具体测验项目不同。
这种用平行形式相关求得的信度系数,因为特别 强调两测验形式的等值关系,所以又叫等值性系 数。
内部一致性系数
利用单一测验内的项目之间的一致性关系来估出 测验信度。
常用的有折半相关系数,a系数
折半相关系数
“折半”是指将一个测验拆成两个半测验,再计算两个半 测验的相关系数,通过此相关系数来估计整个测验的信度。
假定有30名被试在两个项目上的题分以及全卷总分情况如 下表,请计算项目①与项目②的区分度
教育测量中难度与区分度的计算方法
信阳师范学院学报(自然科学版) Jo u rnal of X inyang N o rm al U n iversity 第16 卷第3 期2003 年7 月(N atu r al Science Edit io n)V o l. 16 N o. 3 Ju l.2003·综述·评论·争鸣·教育测量中难度与区分度的计算方法柳国杰, 陈军(信阳教育学院, 河南信阳464000)摘要: 教育测量中, 主、客观试题使用不同的计算方法, 本文应用教学工具对难度和区分度的计算方法分别进行了统一性证明, 并指出, 可用相同的指标测量试卷的质量1关键词: 教育测量; 难度; 区分度; 极端分组法; 统一性中图分类号: O 21211 文献标识码: A文章编号: 100320972 (2003) 03203512021 试题的难度和区分度111 主、客观题难度计算方法的统一性最常用测量试题难度的方法是将试题分为主观题和客观题, 并用不同的公式计算1主观题的难度P (平均得分的百分率) 为:①将试卷按总分高低排序1②按试卷一定比例, 如25◊ 、27◊ , 从高到低选取高分组, 从低到高选取低分组1③分别计算高、低分组的难度PH和PL:P H= X HƒW或P H= R HƒN0;P L= X L X LƒW或P L= R LƒN 0 ,P= XƒW(1)其中X 为全部考生在该题上得分的平均分,W 为该题的满分1客观题的难度P (通过率) 为:P = R ƒN (2)其中R 为答对该题的人数, N 为参加考试的总人数1( 1) 和(2) 从数学的角度来看是统一的, (2) 只是(1) 的特殊形式1 事实上, 设某客观题答对得W 分(一般W = 1) , 答错得0 分, 则按(1) 有P= XƒW= (W RƒN) ƒW= RƒN1其重要性在于: 按(1)、(2) 计算的难度本质是相同且可比的; 在理论研究中不必区分主、客观题, 但可考虑研究结论在客观题上的特殊形式1112 大规模测验中难度的计算方法11211 极端分组法的推广当考生人数较多时, 按(1) 或(2) 计算工作量太大, 可用极端分组法, 但一般资料中的极端分组法只用于客观题, 主观题另选它法, 即使使用极端分组法计算公式也不同, 这造成主、客观题难度测量的不统一, 缺乏可比性1 我们认为主、客观题可用统一的方法计算, 步骤如下:其中X H 、X L分别为高、低分组在该题上平均分; R H 、R L分别为高、低分组在该题上通过的人数, N 0 为高(低) 分组的人数④按P= (PH+ P L) ƒ2 计算该题的难度1 11212 进一步的讨论设高(低) 分组选取的试卷数为N 0 , 则共先取了n = 2N 0 份, 于是P = (P H + P L ) ƒ2= [ (X H + X L ) ƒ2 ]ƒW ,(X H+ X L) ƒ2 = (S HƒN 0 + S LƒN 0 )ƒ2= (S H+ S L) ƒ2N 0 = X ,其中S H 、S L分别为高分组和低分组分数和, X 为抽出试卷在该题取得的平均分, 则P = [ (X H + X L ) ƒ2 ]ƒW = X ƒW .可见极端分组法计算出的难度实质上是高、低分组组成的样本的难度, 即用样本的难度估计总体的难度1 综上所述, 提出两点建议:A 、将③④两步简化为按P= [ (X H+ X L) ƒ2 ]ƒW或P= XƒW计算难度1B、按P= XƒW计算难度时, 可用随机抽样方法, 以使样本具有代表性, 也利于统计分析1 对客观题P = X ƒW 化为P = R ƒN , 其中R 为抽出试卷收稿日期: 2002209225作者简介: 柳国杰(19642) , 男, 河南潢川人, 理学学士, 讲师, 主要从事微分方程、数理统计等方向的研究13510 第 16 卷 第 3 期信阳师范学院学报 (自然科学版) 2003 年 7 月在该题通过的人数, N 为抽出试卷总数 1113 区分度计算 为了使难度与区分度具有一定联系, 利于进一步分析, 可根据难度的计算和测验目的选择区分度 的计算方法 1①按极端分组法计算难度时, 主、客观题均可 首先计算 P H 和 P L , 再按 D = P H - P L 计算区分度D ; 也可直接按 D = (X H - X L ) ƒW 计算, 因为D = P H - P L = X H ƒW - X L ƒW= (X H - X L ) ƒW 1对客观题 (X H - X L ) ƒW 简化为 D = (R H -R L ) ƒN [ 1 ]中对极端分组法计算区分度把试题分为设对同一目的可供选择的各试卷的总分相同, 那么各试卷测试的平均分 X 反映了整个测验的难 易程度, 平均分较低的试卷较难, 平均分高的试卷 较易, 因此, 当各试卷部分不尽相同时, 可使用一般 公式P = X ƒW (3)计算试卷的难度, 其中 X 为全部考生的总平 均分, W 为试卷总分 1 按这种方法计算试卷难度P 和各道题的难度 P i 及其总分 f i 有必然联系 1不难证明P = P i f i ƒf i(4)即试卷的难度为各题难度的加权算术平均数, 其中主、客观题, 并使用不同的公式计算, 这样做有几个 权数为各题的总分, 可见在各题难度一定时, 各题 问题值得探讨:(1) 计算口径仍不一致, 缺乏可比性;(2) 对主观题得分相同时公式失败;(3) 主观题的区分度受最高分和最低分影响,缺乏稳健性 1②按 P = X ƒW 或 P = X ƒW 直接计算难度时, 可根据试题情况和测验目的使用其他计算方法[ 1 ]12 试卷的难度和区分在有些情况下对同一目的会有多份试卷可供 选择, 如从试题或试卷库中抽取试卷、建立备用卷 等, 这些试卷的质量应基本相同, 这就需要评价试 卷的质量 1 我们认为可使用和单个试卷的信度、效 度、难度与区分度等相同的质量指标来测量, 试卷 或整个测验的这些概念的含义与试题相应的概念 基本相同, 这里从略 1 下面仅就试卷的难度和区分 度的计算方法提出如下观点: 参考文献:分配的分数高低影响整个测验的难度 1对试卷的区分度, 在各题的区分度使用极端分 组法计算时, 可对各题的区分度 D i 加权平均来计 算试卷的区分度 D , 即D = D i f i ƒf i(5)3 主要结论主、客观题的难度计算公式 (1) 和 (2) 是统一 的, (1) 为一般公式 1 在使用极端分组法计算时, 可 使用统一公式 P = (P H + P L ) ƒ2 或 P = X ƒW 1按极端分组法计算区分度, 主、客观题可统一 按 D = P H - P L 计算 1对客观题化为 D = (X H - X L ) ƒW , 对主观题化 为 D = (R H - R L ) ƒN 0.试卷的难度可按 (3) (4) 计算, 区分度可按 (5) 计算 1[ 1 ] 宋岭梅 1 教育测量学[M ]1 武汉: 华中师范大学出版社, 19911 [ 2 ] 贺英杰 1 分析测量概论[M ]1 西宁: 西北工业大学出版社, 19931[ 3 ] 吴 敬, 李 豫, 胡建书, 等 1 概率统计学[M ]1 成都: 成都科技出版社, 19961Research on ca lcula t i n g m ethods of d if f iculty and d if feren t ia t ion in educa t ion surveyL IU Guo - j ie , CHEN Jun(X inyang Educat io n Co llege , X inyang 464000, Ch ina )Abstract : In the educat i o n su rvey , differen t calcu la t ing m ethods are u sed fo r ob jective and sub jective test s . T h is paper , u sing m athe m ethods , dem on s trates respectively the calcu la t ing m ethods of the degree of difficu lty and the degree of differen t ia t i o n in te rm s of their un ity , and it is po in ted ou t that the sam e criteria can be u sed to est i m ate the quality of exam inat i o n papers .Key words : educat i o n su r vey ; difficu l ty ; differen t i a t i o n ; ex t r em e group ing ; un ity责任编校: 郭红建352。
难度与区分度分析
例题:在100个学生中,答对第一题的30人, 答对第二题的60人,这两试题的难度值分别为:
30 P1 0.30 100
60 P2 0.60 100
难度值越小,试题越有难做;难度值越大, 试题越容易。
校正难度:
CP =
(kP 1) (k 1)
k表示每个测题中可供选择的答案数目 例题:10名学生参加一个测验,有一道 题是五选一的选择题,有6人答对,请计算 这道题校正后的难度系数。 P=R/N=0.6,CP=(kP-1)/(k-1)=0.5
采用统计方法分析试题的品质主要包括难度区分度等分析分析试题的内容分析试题文字的合适性等一难度的分析一含义二估算方法1得分率3极端分组法4卷面难度5难度的取值范围三测验题目的适宜难度四难度对测验分数分布形态的影响五基于难度的题目分析二区分度的分析一定义1概念2取值范围3鉴别指数的评价标准二计算方法1极端分组法2内部一致性系数1点二列相关系数2二列相关系数3积差相关系数三标准参照测验题目区分度的其他研究方法四区分度与难度的关系spss操作法一难度分析一含义测验的难易程度即被试完成项目任务时所遇到的困难程度
二、区分度的分析 (一)定义 1、概念 2、取值范围 3、鉴别指数的评价标准 (二)计算方法 1、极端分组法 2、内部一致性系数 (1)点二列相关系数 (2)二列相关系数 (3)积差相关系数 (三)标准参照测验题目区分度的其他研究方法 (四)区分度与难度的关系 SPSS操作法
一、难度分析 (一)含义 测验的难易程度,即被试完成项目任务时所 遇到的困难程度。难度系数用符号P表示。 (二)计算 1、以全体被试得分率为难度系数 (1)客观性试题:通过率 P=R/N 适用题型:选择题、判断题等。
例题:高中物理测验的被试共18人,高 分组和低分组若各取总人数的27%,则两 组各为5人。第五题为是非题,高分组5个 人全部答对,低分组5个人中有1个人答对 ,根据公式,该题的鉴别指数为:
3-教育测量与评价的难度与区分度
教育测量与评价中题目(项目)的区分度
例:100名考生参加主观性试题测验,按高、低分各占人数
的25%分组,其中第四题试题分析表如下所示,求该题目的 区分度。 X XL D H N ( H L)
X f 10 6 fx 120 60 低分组 X 12 10 f 0 4 fx 0 40 高分组 12 10
教育测量与评价பைடு நூலகம்题目(项目)的难度
二、难度的计算 主观题的平均数法
X P W
主观题的极端分组法 公式: X
P
H
步骤 按测验总分依次排序,确定比例各为 25%的高分组和低分组 为高分组、低分组分别编制每题得分的分析表(试题分析表) 用上述难度公式计算难度值
X L (2 NL) 2 N ( H L)
试 题 分 析 表
8
6 4
4
3 2
32
18 8
8
6 4
6
5 10
48
30 40
教育测量与评价中题目(项目)的区分度
三、区分度计算方法 相关法 考虑中间数据 以项目分数与效标分数的相关作为项目区分度的指标 (效标分数不易得到时,以测验总分代替) 相关越高,区分能力越好 具体方法:
80 75 76 73 46 39 40 41 合 合 合 合
Ф相关法计算区分度
测验的两个变量都是二分变量,可用计算Φ相关系数来表示
某项目的区分度 以测验总分划分为合格、不合格两类的被试在某一题目上通 过、未通过的人数列成四格表来计算
AD BC r A BC D A C B D
平均数上下各一个标准差的范围分别包含了全部人数的34%
难度与区分度
难度与区分度难度与区分度、信度、效度平均分(mean)表⽰考试分数的集中趋势的⼀种统计量,也是教育测量中使⽤最为⼴泛的⼀种统计指标。
平均分⼀般计算公式:(公式01)式中,为平均分;为学⽣I的考试分数;N为参加考试的学⽣数。
平均分的基本作⽤在于它可以作为⼀组分数的典型代表,其代表性优于中数、众数。
平均分数具有下列基本性质:l 平均分是由全部分数求出的。
l 每个分数与平均分的离差之和等于零,说明平均分数是各个分数的中⼼。
l 当分数分布呈正态时,平均分位于分布曲线的中点并和曲线的最⾼点相对应。
l 各个分数与平均分数的离差的平⽅和⽐各个分数与其他任何集中量数的离差的平⽅和都⼩。
难度(difficulty)难度与区分度、信度、效度并称为“考试四度”,是控制考试质量的⼀个重要指标,也是试卷编制中特别关注的⼀个要素。
难度⼜有试题难度和考试难度之分,前者是反映题⽬难易程度的量化指标,有时也称作试题难度系数,通常⽤该题⽬的答对率或平均得分率表⽰,⽽后者则是所有试题难易的综合反映,在考试分数控制、成绩解释上更为重要。
l 试题难度试题难度值与试题实际难易程度正好相反,越⼤表⽰试题越容易,⽽难度制越⼩则试题越难。
试题越难(试题难度值越⼩),说明能够正确解答该题的学⽣越少,或该题的得分越低。
主观题(答对得分、答错不得分)的试题难度⽤答对题⽬的⼈数与参加考试总⼈数的⽐值表⽰:(公式02)式中:为i试题难度,为答对该题⼈数,为总⼈数。
⽽试题使⽤连续分数计分时,试题难度则⽤参加考试的全体学⽣在该题的平均得分与该题满分的⽐值表⽰:(公式03)式中:为i试题难度,为该题平均得分,为该题满分值。
在试卷编制中,不同难度的试题在考试中扮演着不同的⾓⾊,不同难度试题的组和不但直接影响试卷难度和平均分数,进⽽影响对考⽣成绩的解释,还对成绩分布具有重要影响,从⽽影响考试深层的质量特性。
为了确保每⼀道试题在考试中发挥应有的作⽤,⼀般将试题难度值控制在⼀定的范围内,通常是在0.50.2之间。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内部一致性方法是在假定整个测验具有足够效度的 基础上进行的,如果测验的效度不高,即使试题得 分与测验总分具有内部一致性,也不能说明区分度 较高 项目效度分析法是计算某一试题与外在校标分数的 相关性。 如果同质性题目,采用内部一致性;综合性测验, 采用项目效度分析。
1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此 ,使难度适中是提高区分度的重要方法。 2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数 尽量分布在整个分数量尺上。 3、掌握区分度的评价标准。
一、难度的概念 难度是指测量试题的难易程度。一般是以能 够正确回答试题的人数与参加测验的总人数 的比,作为难度指标。 一个题目的难度大小,除了所测的内容本身 的难易程度有关以外,还与测验的编制技术 和被试的知识经验有关。 这就是说测验的难度具有相对性,正因为此 ,必须让试题通过实践来对难度作出检验。
难度分析
进行难度分析的主要目的是为了筛选题目。 A、测验题目难度水平的确定 测验题目难度水平的适当与否,取决于测验的目 的、性质和题目的形成。 当P值接近于0或接近于1时,即被试在该题上全 部答对或全部答错,则该题无法提供个体的信息 。而只当P值接近于0.50时,题目才能把被试做 最大的程度的区分。 但在实际工作中,若每一题的难度值均为0.50, 那么此测验很可能只能区分出好与差两种极端被 试的差异,却不能对各种被试作更精确的区分。 因此,一般各题的难度可在0.50+0.20之间。
X H X L 2nL p 2n( H L ) X H 为高分组得分总和,X L为低分组得分总和, n表示总人数的25 %,H是这道题的最高分,L为最低分。
例:某道论文题,高分组得分总 和为40分,低分组得分总和为15 分,有40人参加考试,这道题最 高得分为8分,最低得分为2分, 则此题的难度为多少?(0.125)
一般说来,影响题目难度的主要因素有:
◦ ◦ ◦ ◦ 考察知识点的多少; 考察能力的复杂程度或层次的高低; 考生对题目的熟悉态度; 命题的技巧。
难度控制:
◦ 正确估计考生水平; ◦ 弄清弄懂各知识点; ◦ 掌握命题技巧。
区分度的意义
(一)区分度(Discrimination)是指测验对考 生实际水平的区分程度,用符号D表示。又叫鉴 别力,它是评价试题质量,筛选试题的主要指标 与依据。
一、用极端分组法计算区分度 1、客观题区分度的计算: D=PH- PL 2、主观题区分度的计算:
XH XL D n( H L ) X H 为高分组得分总和,X L为低分组得分总和, n表示总人数的25 %,H是这道题的最高分,L为最低分。
极端分组法分析通常只在教师编制的课堂测绘 中使用。在标准化的或大规模的测验中,多采 用相关法分析试题的内部一致性。 由于测验总分属于连续变量,测验项目(试题 )多属二分称名变量(对、错或通过、不通过 ),所以,用相关法计算区分度时,多采用点 二列相关、二列相关、Φ系数等方法计算相关 系数。
解:依据主观题极端分组法计算公式
X H X L 2nL p 2n( H L ) 40 15 2 40 25 % 2 2 40 25 % 8 2
=0.125
1)测验难度影响分数的分布形态。 难度值越接近0,测验的难度就越大,测验分数就越是 集中在低分端,其分数分布越呈现正偏态;反之,难 度值越接近1.00,其难度就越小,测验分数越集中在 高分端,分数分布呈负偏态。 2)测验难度影响测验分数的离散程度 测验难度过大过小,都会造成测验分数偏离正态分布, 从而使分数的全距缩小,使测验分数的离散程度变小。 3)测验难度影响测验的鉴别能力 在测验中,考生之间相互配对比较的可能性越多,就 越有利于准确地鉴别考生的不同能力。(0.5配对最多)
一、客观题难度的计算 1.原始定义法
p R N
P表示难度指标,N表示参加考试的总人数,R表示答 对某道客观题的人数。
选择题的解答由于允许被试猜测,校正公式 如下:
KP 1 CP K 1
具体步骤如下: 1)先按测验总分的高低,按由高到低的顺序依次排 列试卷。 2)从得分最高的一份试卷开始依次向下选出全部试 卷的27%作为高分组;从得分最低的一份试卷开始依 次向上选出全部试卷的27%作为低分组。 3)按计算公式计算难度
由上表可知,难度适中,可使区分度达到最大值。
1、区分度与信度的关系(见下表)
区分度 信度
0.1225 0.16 0.20 0.30 0.40 0.50
0.00 0.42 0.63 0.84 0.915 0.949
这里是假定全部试题的难度均为0.50时所预测的信度系数。 区分度指的是平均值。 可见,要想达到理想的测验信度,提高区分度是一个好办法。
区分度(D)的取值范围介于- 1.00—+1.00之间, 值越大,区分度的效果越佳。 区分度D>0为正区分,D<0为负区分,D=0为零区分 。
区分度的高低直接影响到测验的信度和效 度。
D的最大值与试题难度的关系
难度
1.00 .90 .70 .50 .30 .10 .00
区分度的最大值
.00 .20 .60 1.00 .60 .20 00
pH pL p (pH 为高分组的难度,pL为低分组的难度)均分数法
X (X 表示所有考生在某一道题上的平均得分, K K表示此题的满分。) p
步骤如下: 1)按测验得分排列试卷,确定高分组与低分组,各 占总人数的25%(方法同前)。 2)分别为高分组、低分组编制每道试题的分析表。 3)按下列公式计算难度,