(完整版)试题的难度、区分度、信度和效度
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
试卷的难度、区分度、信度和效度
一.试卷的难度
(一)什么是难度
难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。一个
题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生
都不能答对,那么这个题目的难度就大。
客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题
难度计算公式:P=试卷平均得分/试卷满分。试卷难度计算公式:P=为平均分,K为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均
在0.5最佳,难度值过高或过低,都会降低测验的信度。
(二)难度的计算
(1)客观性试卷难度P(这时也称通过率)计算公式:
P=k/N(k为答对该题的人数,N为参加测验的总人数)
(2)主观性试卷难度P计算公式:
P=X/M(X为试卷平均得分;M为试卷满分)
(3)适用于主、客观试卷的计算公式:
P=(P H+P L)/2(P H、P L分别为试卷针对高分组和低分组考生的难度值)
步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。
(三)试卷难度的一般要求
就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。命题时
难度一般要按一定比例分配,如3:6:1或3:5:2。
二.试卷的区分度
(一)什么是区分度
区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不
同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度
高的考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低。
(二)区分度的计算
1.单个选择题目区分度的计算
将全体考生总分从高到低排列,将总分最高的27%考生定为高分组,总分
最低的27%考生定为低分组,分别计算两组考生在某道题目上的通过率,两个
通过率之差就是这道题的区分度(又叫鉴别指数)。
计算公式为:D=P H-P L. P H和P L分别为高分组和低分组的通过率。
2.整个试卷的区分度计算(常用)
计算公式为:D=2(X H—X L)/W,其中D为试卷区分度,X H为27%高分组平均分,X L为27%低分组平均分,W 为试卷总分。
一般也将全体考生总分从高到低排列,将总分最高的27%的考生定为高分组,总分最低的27%考生定为低分组,再分别计算各组的平均分。
(三)试卷区分度的一般要求
区分度(D)的取值范围介于-1.00至+1.00之间。通常D为正值,称为积极区分;D为负值称为消极区分;D值为0称为无区分作用。具有积极区分作用的试卷,其D值越大,区分的效果越好。
试卷的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的
区分度较好,0.2~0.29表明此题的区分度不太好需要修改,0.19以下表明此题的区分度不好应淘汰,高考的区分度一般要求在0.3以上。
三.试卷的信度
信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外,还要说明题目涉及的内容与教学的相关程度。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不致性,从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可信的,信度最高。
信度主要是指测量结果的可靠性、一致性和稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度,信度是效度的前提条件。
信度只受随机误差的影响,随机误差越大,信度越低。因此,信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应,不影响信度。
四.试卷的效度
效度是指考试有效性或正确性的质量指标,即是否考了要考的内容,试卷难度、区分度是否适宜,考试最终是否达到了它的预定目的等。
测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。
测试的效度一般可分为以下几类:
1)表面效度(face validity)。指测试应达到的卷面标准,即一套测试卷从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。
2)内容效度(content validity)。指测试卷是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。
3)编制效度(construct validity)。指测试卷的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。
4)经验效度(empirical validity)。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。
一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。
五、高考题的信度、效度、难度和区分度
高考的性质最主要的在两个方面:首先、高考是一种选拔性考试,高考成绩是高等学校录取新生的依据,这是高考的选拔性质。其次、高考是一种导向