第四章-心理测验的难度与区分度教案资料

合集下载

难度与区分度分析课件

THA合理安排测验的整体难度和时间限制，提高测验的区分度。
难度与区分度的关系
难度与区分度的关联性
难度与区分度相互影响
难度较高的题目可能具有较好的区分度，而简单题目往往区分度较低。
难度与区分度的平衡
在评估试卷或测试的总体效果时，需要平衡难度与区分度，以确保评估的有效性和可靠性。
优化建议
根据难度分析结果，提出优化任务或题目的建议，以提高测验的信度和效度。
区分度分析概述
区分度的定义与计算
区分度的定义
区分度是指测验题目对不同水平被试的区分程度，即题目对高水平和低水平被试的鉴别能力。
区分度的计算方法
常见的计算方法有极端分组法、相关系数法和回归系数法等。
区分度的影响因素
个性化教学中的应用
随着个性化教学的需求增加，难度与区分度分析的结果可以应用于教学策略的调整和个性化学习资源的推荐。
与其他指标的综合分析
可以考虑将难度与区分度分析与其他教学质量评价指标相结合，如信度、效度等，以更全面地评估试题或课程的质量。
跨文化比较研究
可以开展跨文化比较研究，探讨不同文化背景和教育体系下难度与区分度分析的共性和差异，以促进国际间的教育交流和合作。
评估的准确性和可靠性。
实际应用案例
案例一：数学试卷的难度与区分度分析
总结词
2. 区分度分析
通过数学试卷的难度与区分度分析，可以评估试卷的质量和考生的水平。
通过对比不同水平考生的答题情况，可以判断试题的区分度，从而鉴别优秀和一般考生。
1. 难度分析
根据考生答题的正确率，可以判断试题的难易程度，进而调整试题难度，提高试卷质量。
难度的影响因素

信度、效度、区分度、难度的使用

信度、效度、难度、区分度及其在试卷分析中的使用教学测量（instructional measurement）是考核教学成效的一种方法。

这是借助于一定的手段与方式，对学生的学习成绩（简称学绩）进行探察，并以一定的数量来表示的考核办法。

2. 在教学测量中应注意什么（1）教学测量的目的在于考核教学成效，也就是考察教学目标的完成情况。

因此，教学测量的目标应以教学目标为依据，测量目标应与教学目标一致，而不能偏离教学目标（2）教学测量的对象是学生内在的能力与品德等的形成状况，它不可能像物理测量那样直接进行，只能借助于一定的手段与方式间接进行。

（3）教学成效是通过量化的学绩进行考察的。

也就是说，教学成效是以学生的学习成绩为直接考察依据的，而学绩是以一定的数量来表示的，因此命题的合理性与评分的客观性是有效教学测量的一个重要影响因素教学评价（instructional evaluation）就是依据教学目标，对学绩测验所得测量结果进行分析及解释。

它主要包含以下两个方面的工作。

（1）教学评价必须对学绩测验数据所表明的教学成效作出确切的诊断。

（2）教学评价必须对教学的成败原因进行分析，并对今后教学工作的改进方面作出明确的规定。

评价（估）的功能：为家长提供信息，为选拔提供信息，为学生提供信息，为教师提供信息，为学校（间）提供信息教学目标，有时也称为行为目标，是指对学生在一段时间教学后应该掌握的技能与概念的陈述。

信度信度指的是测量结果的稳定性程度，信度是衡量一个量表质量高低的重要指标。

信度不高的量表是不能使用的。

3.常见的信度种类（1）重测信度（2）复本信度（3）分半信度（4）同质信度(内部一致性信度）（5）评分者信度影响信度的因素♦被试♦主试者♦施测情境♦测量工具信度是指考试的可靠性，即考试结果的可信程度。

信度高的试题很少受到外部因素的影响，对任何学生的多次测定都会产生比较稳定的、前后一致的结果。

提高试卷信度的因素大致可包括以下几种情况：（1）使用ABC卷随机抽取试题。

信度效度难度区分度分析

信度效度难度区分度分析在教育测量和评估领域，信度、效度、难度和区分度是四个非常重要的概念。

它们对于衡量测试的质量、评估学生的学习成果以及改进教学方法都具有至关重要的意义。

接下来，让我们逐一深入探讨这四个概念。

信度，简单来说，就是指测试结果的稳定性和可靠性。

如果我们对同一批学生在相同的条件下进行多次相同的测试，得到的结果应该是相近的。

就好比用同一把尺子去测量一个物体的长度，每次测量的结果都应该差不多。

信度主要包括重测信度、复本信度和内部一致性信度等。

重测信度是在不同时间对同一批被试进行重复测量。

比如，今天对一群学生进行了一次数学测验，一周后再用相同的测验对他们进行测试，如果两次测试的成绩相近，说明这个测验的重测信度较好。

然而，重测可能会受到记忆、练习等因素的影响。

复本信度则是使用两个平行的测验（即内容、形式、难度等方面都相似）对同一批被试进行测量。

如果两个测验的结果一致性高，就表明复本信度良好。

但要编制两个高质量的平行测验并非易事。

内部一致性信度通常通过计算测验内部各个项目之间的相关程度来衡量。

例如，一份试卷中的各个题目，如果它们在测量同一个知识点或能力方面表现出较高的一致性，那么这份试卷的内部一致性信度就比较高。

常用的计算方法有克朗巴赫α系数等。

效度是指测试能够准确测量出所要测量的东西的程度。

好比射箭要射中靶心，测验也要准确测量到我们期望测量的内容。

效度主要包括内容效度、结构效度和效标关联效度。

内容效度关注的是测验内容是否涵盖了所要考查的知识和技能范围。

比如，一场语文考试如果能够全面考查学生的字词、语法、阅读理解和写作能力，那么它在内容效度方面就表现较好。

为了确保内容效度，出题者需要对教学大纲和课程目标有清晰的理解。

结构效度考察的是测验是否能够反映出所假设的理论结构或心理特质。

比如，一个智力测验是否真正测量了智力的各个方面，而不仅仅是某些表面的表现。

这需要通过复杂的统计分析和理论研究来验证。

效标关联效度则是将测验结果与一个外在的标准进行比较。

心理测量的复习大纲

心理测量的复习大纲心理测量大纲.第一章：第一节一般测量概述1、测量的概念：依据一定的法则使用量具对事物的特征进行定量描述的过程。

2、影响测量精确的因素：一、测量对象本身的性质。

①确定型（物体的长度）。

②随机型（人的短时记忆容量）③模糊型，即事物本身的量是模糊不定的（人的性格特征）二、测量的精确度取决于测量工具的精确性。

3、根据测量的性质和不同的特点，可以将不同形式的测量大致分为4种类型。

①物理测量：及对事物物理特征的测量。

长度，重量等。

②生理测量：对机体生理特征的测量。

如对动植物各种化学成分含量的测量。

③社会测量：即对社会现象的测量，如人口普查。

④心理测量：对人的心理特征的测量。

如智力、人格测量。

4、任何测量都必须具备两个基本要素：参照点和测量的单位。

其中参照点分为绝对参照点和相对参照点。

5、测量的量表：能够使事物的特征数量化的数字的连续体就是量表。

量表可以分为四种：①命名量表：用数字代表事物或用数字对事物进行分类。

命名量表又分为名称量表（用数字指代个别事物）和类别量表（用数字指代事物种类）。

②顺序量表：按照事物的大小，等级，程度而排列数字的量表。

③等距量表：不仅能够指代事物的类别，等级而且具有相等的单位。

等距量表的数字是一个真正的数量，这个数量中各个部分的单位是相等的。

因此可以对其进行加减运算。

等距量表没有绝对的零点。

它的零点是人们假定的相对零点。

对于等距量表的两个数不能进行乘除运算。

④比率量表：除了具有类别、等级、等距的特征外，还有绝对的零点。

第二节心理与教育测量的性质1.、心理与教育测量的定义：依据一定的心理学和教育学原理，使用测验对人的心理特质和教育成就进行定量描述的过程。

其独特的性质：①心理与教育测量依据的法则在很大程度上只是一种理论，很难达到如同物理测量依据的法则那样普遍被人们接受的水平。

②心理与教育测量的对象是人的心理特质和教育成就。

③心理与教育测量的量具市有关领域的专家编制，经过长期的试用，修订，完善而逐渐形成的标准化测验。

信度、效度、难度、区分度

信度、效度、难度、区分度在全国统考教师资格考试中，对于备考的考生而言，无论是教育学还是心理学都存在一些学习方面的难点，这对于自己备考的考生而言是非常困难的。

中公讲师结合自己的教学经验与深厚的专业知识，将中学《教育知识与能力》的教学难点进行专题讲解，希望能够对各位考生的笔试备考提供一些帮助。

1、测量指标的含义信度、效度、难度、区分度是中学教学部分的考试内容，主要是用来检验测验质量本身的重要指标。

所谓信度指的是多次测量结果额一致性与稳定性。

它本身强调是测量结果是不是一样的，例如：小明第一次测量得分是80分，第二次测量得分也是80分，说明两次结果一样，则说明两次测量的信度高。

反之，第一次测量得分80分，第二次测量得分40分，两次结果不一样，说明信度低。

所谓效度指的是测量的正确性，是指一个测量所要测量的结果的程度。

效度所关注的是测量到对象多少程度?比如：假如小明本身的真实成绩是80分，第一次测量得分是正常发挥得分是80分，说明本次测量的效度高，如果失常发挥，高于80分或者低于80分，本次测量的效度低。

所谓难度主要指的是测量的难易程度，测量的难度系数值的范围是0—1，难度系数值越小，则反映试卷难度越大，难度系数值越大，则反映试卷难度越小。

所谓区分度，指的是测量对不同考生的区分程度，也就是可以理解为通过测验能够将好的选出来，差的筛下去。

比如高考的就是区分度很高的测验，否则就难以将好生、差生进行区分。

2、测量指标之间的关系信度与效度的十大关系：信度高，效度不一定高(或效度不一定低)信度低，效度一定低效度高，信度一定高效度低，信度不一定低(或信度不一定高)信度是效度的必要条件效度是信度的充分条件信度是效度的必要不充分条件效度是信度的充分不必要的条件有效度，一定有信度有信度，不一定有效度难度与区分度的关系：难度越大或难度越小，区分度越小难度中等，区分度越大以上是信度、效度、难度、区分度，祝各位考生顺利通过考试！拿到敲开教师行业的敲门砖！中公讲师解析。

第四章难度

难度=1-P（通过率），P值越大，题目越易；常模参照性考试（选拔性）：0.4—0.6为宜，
标准参照性考试（水平性）：0.6—0.8为宜。
二、难度的计算
难度的计算与测验项目的类型有关。客观性试题的难度的计算方法原始定义法极端分组法主观性试题的难度的计算方法
平均分数法
极端分组法
（一）客观性试题的难度的计算方法
X H X L (2 NL) P 2 N ( H L ) • XH：高分组所得总分；
• XL：低分组所得总分；H：该题最高分；L：该题最低分；N：考生总人数的27％（P109）
• 极端分组法计算主观性试题难度的步骤：
• （1）按测验总分依次排序，确定比例各为25%的
高分组和低分组；
• 测验试题的平均难度接近0.5最好，控制在0.5±0.2之间；
• （不是要求每道试题难度值都等于0.5）
• 如果选拔优生，难度值应当偏小，选20%优生参加竞赛，难度可以为0.2；
• 如果筛选差生，难度值应当偏大，选80%差生补习，难度可以为0.8；
• 常模参照测验中，大多数试题难度在0.3~0.7之间，少数题目在这一范围两边，整个试卷平均难度为0.5左右（ 0.45-0.55之间）。
第四讲难度内容： 1.难度的概念 2.难度的计算 3.难度对测验的影响 4.测验难度的控制
一、难度的含义
– 难度是指测验项目的难易程度，记为 P
– 在教育测量中
• P＝正确回答试题的人数/参加测验的总人数
• 1、难度是测验中项目分析的重要内容。 • 2、测验项目的难度对测验的信度和效度都有直接影响。 • 3、教育测量中，一般以能够正确回答的人数与参加测验的总人数之比作为难度指标。 • 4、难度的数值实际表示的是易度，与试题的实际困难程度相反。 • 5、难度是一个相对概念，难度的高低与被试的水平直接相关。难度应该是测验对某类被试的难度如何。

心理测验的难度与区分度课件

目标人群的各种情况。
难度与区分度在心理测验修订中的应用
定期修订心理测验
根据实践反馈和理论依据，定期对测验进行修订，以保持其效度和信度。
难度与区分度的调整
根据修订结果，对测验的难度和区分度进行必要的调整，以优化测验性能。
验证修订后的测验
对修订后的测验进行充分验证，以确保其能够有效地评估目标人群的心理特质和行为表现。
高区分度的题目能够更好地识别被试的优点和不足，有助于
指导个体的发展和干预。
低区分度的题目则难以准确区分被试的不同水平，影响测验
的有效性和可靠性。
区分度是编制心理测验的重要指标之一，对于评估和改进心
理测验具有重要意义。
04
心理测验的难度与区分度关系
难度与区分度的关系
难度和区分度是心理测验中两个重要的指标，它们之间存在密切的关系。
难度与区分度在心理测验解释中的应用
1 2 3
解释测验分数
根据测验的难度和区分度，为个体提供准确的分数解释，以帮助他们了解自己的心理特质和行为表现。
提供反馈和建议
根据个体的情况，为个体提供有针对性的反馈和建议，以帮助他们改善自己的心理状态和行为表现。
应用于实践
将心理测验及其解释结果应用于实际情境中，如选拔、培训、心理咨询等，以支持个体的职业发展和个人成长。
通过实测数据统计、专家评审等方法，对测验题目的难度水平进行评估，以保证测验质量。
03
心理测验的区分度分析
区分度概念的界定
区分度是指测验题目对被试心理品质的鉴别能力。
区分度是衡量题目质量的主要指标之一，也是编制心理测验的重
要环节。
区分度高的题目能够较好地区分被试的心理品质，低区分度的题

心理测量学教案(全)

心理测量学Psychological Testing一、说明（一）课程性质本课程适合于大学本科心理学、教育科学等专业的本科生及研究生教育。

本课程的学习将有助于实验设计、教育评价、心理与教育统计学等学科的学习，是培养学生科学研究及掌握研究方法的基础性学科。

（二）教学目的通过学习，要求学生掌握心理测量的基本知识、心理测量的编制和实施、以及良好测量所要求具备的基本条件。

更重要的是，通过本课程的学习要使学生熟练掌握不同心理测量的实际应用。

（三）教学内容本课程的主要教学内容有：心理测量的基本内涵及其评价和测量的一般步骤和方法两部分。

内容涉及一般测量解析，测量的要素及量表类型，测验信、效度、难度和区分度，测量的一般步骤和方法，智力测验、人格测验等心理测验，以及心理测量的综合应用和心理测量理论的新发展等内容。

（四）教学时数54个课时（五）教学方式课堂教学与实践应用相结合。

第一编心理测量的基本内涵及其评价第一章绪论教学要点：通过本章的学习，了解测量的基本性质及其要素，测量量表的四种水平，心里测量的本质、基本条件及功能，心里测量的发展以及心理测量的道德准则等内容，对心理测量有一个概括化的了解。

教学时数：[10学时]教学内容：一、一般测量解析1．测量(Measurement)概论2．测量的分类3．心理测量的种类（1）以测量对象来分，（2）以测量的目的来分，（3）以测量的方式来分类，（4）以项目结构或组成形式来分，（5）按评价参照的标准分类4．测量与测验（Test）、考试（Examination）、评价(Evaluation)联系与区别二、测量的要素及量表类型1．测量的要素识记：单位（Unit），参照点(Reference Point)，量表(Scale)2．量表类型（1）称名量表称名变量只说明某一事物与其他事物在名称、类别或属性上的不同，并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。

（2）顺序变量顺序变量是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量，具有等级性和次序性的特点。

第四章教育测验的难度和区分度

（2）关于校正问题的争议围绕校正问题，存在着两种不同的看法： ◆支持者：应校正，排除猜测对难度的影响理由：①猜测存在会高估测验的信度 ②校正可以反映题目的真实难度 ③校正可以培养被试诚实的美德 ◆反对者：反对进行校正理由：①猜测并非完全是盲目的 ②不校正对难度的影响不大，约4％左右（黄国彦，1997），可增加试题数目来解决 ③通过部分知识，合理猜测是值得培养的
主观题计算方法 1．基本公式:
P X X MAX
X ：全体被试的平均得分
X
MAX
：题目满分
例3: 一组被试在某道题上的得分分别为：
2、5、9、10、4、8、7、5、3、0
该题满分为10分，则测题难度为多少？
2．极端值公式:
1 P 2
XH X X MAX
L

三、难度值的等距处理 1．P值是反顺序量表，只能表示次序，但不能判断难度间差异的大小，需将其转化为Z分数。 2．转化方法：若P 〉0.5，则先求P-0.5，再查表若P〈 0.5，则先求0.5-P，再查表若P=0.5，则Z=0 一般，P=0.84，则Z=-1；P=0.16，则Z=1 3．美国教育测验服务社（ETS）的转化 ∆=13+4Z (13,4) ∆量表是以25为上限，1位下限的等距量表。 ∆值越大，难度越高注：一般情况下，难度的这种转化是非必需的。
3．选择题难度的校正选择题的一个特点就是容易受猜测的影响，这就使得答对的比例增加了，使得计算出来的难度系数增加，高估难度。（1）校正方法 CP=(KP-1)/(K-1) K：代表测题中可供选择的答案总数例3：一个测题未经校正前的难度指数为0.5，可供选择答案为5个，另一题目未经校正的难度指数为0.53，可供选择答案为4个，试比较两题的难度。答案：CP1＝0.38 CP2＝0.37

难度、区分度、信度和效度的一般说明

其中：XH为高分组的平均得分（前27%）,XL为低分组的平均得分（后27%）o （2）客观性试题的难度
A、基本公式法：P=1-R∕N 其中：R为答对人数，N为全体人数。 B极端分组法：P=I-(PH+PL)/2
其中：PH=RH/n叫高分组通过率，RH为高分组答对人数，n为总人数的前27%。PL=RL∕n叫低分组通过率，RL 为低分组答对人数。
②客观性试题:D=PH-PL,或D=RH-RL/n
③一般也可以用D=XH—XL/X满计算。
其中：XH为高分组某试题的平均分，XL为低分组某试题的平均分，X满为该题的满分。
三、信度
信度是指测得结果的一致性或稳定性，稳定性越大，意味着测评结果越可靠。相反，如果用某套试题对同一应试者先后进行两次测试,结果第一次得80分，第二次得50分，结果的可靠性就值得怀疑了。
二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分。而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关。通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。 1、区分度指标的评价 -1.00≤D≤+1.00,区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于0.3,试题便可以被接受。
信度通常以两次测评结果的相关系数来表示。相关系数为1,表明测评工具如试卷完全可靠；相关系数为0,则表明该试卷完全不可靠。一般来说，要求信度在0.7以上。
1、评价信度的方法
（1）再测信度。它是指将同一试卷在相同的条件下，对同一组考生先后实施两次，两次测评结果的相关系数。

心理测量复习资料

心理测量第一章：心理测量的历史1、中国古代心理测量的方法P（7）（一）观察法（二）访谈法（三）自然实验法（四）个案调查法2、心理测验产生的社会背景和对个体差异的研究P（9）背景：心理测验最初产生的原因是，在西方一些国家完成工业革命后，对劳动力的需要急剧增加。

工厂需要童工和低能儿，因此要有适当的工具和手段以便有效识别，人们对精神异常者和智力落后者的同等不良待遇，人们要对他们进行区别，也需要建立一种客观的分类标准和鉴别方法。

对个体差异的研究：天文学的一个事件。

第二章：心理测量概述1、测量的定义P（23）测量就是根据一定的法则用数字对事物加以确定。

2、测量的要素P（24）参照点：计算事物的量的起点。

参照点有两种：一种是绝对零点。

另一种是人为指定的参照点。

心理测量中的参照点是人定的，从该点起计算的数值不能以“倍数”的方式解释。

单位：理想的单位需要具备两个条件：一是有确定的意义，即同一单位在大家看来意义是相同的，不允许有不同的解释。

而是有相等的价值。

也就是说，第一单位与第二单位间的距离等于第二单位与第三单位间的距离。

3、测量的量表：要测量某个事物，必须有一个定有单位和参照点的连续体，将要测量的每个事物放在这个连续体的适当位置上，看他距离参照点的远近，以此得到一个测量值，这个连续体就叫量表（measurement），即测量的量表是指在进行测量时体现了测量规则的连续体。

命名量表：类别量表或称名量表，它是量表中测量水平最低的一种，只是用数字来代表事物或把事物归类，没有任何数量的意义，只起着标志事物的作用，因而没有序列性、等距性和可加性。

顺序量表：等级量表，其测量水平比命名量表高，指明类别的大小或含有某种属性的多少，它所适用的统计方法有中位数、百分位数、斯皮尔曼等级相关和肯德尔和谐系数等，但不能做加、减、乘、除运算。

顺序量表具有区分性和序列性，但不具有等距性，也没有可加性。

等距量表：等距量表不仅有大小关系，而且有相等的单位。

第四章测量信度

五、评分者信度
评分者信度（Scorer
Reliability）指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中，如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时，评分者信度等于两者评分的相关系数（积差相关或等级相关）。 2、当评分者人数大于2时，评分者信度采用肯德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数，N是被评的对象数，Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件

要构造出2份或2份以上真正平行的测验。被试有条件接受两次以上的测验。
复本信度的优缺点
优点：
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点：
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节信度的定义
一、什么是信度

信度指测量结果的稳定性、一致性程度。一个好的测量工具必须具备好的信度，也就是说它多次测量的结果应该相对的稳定、一致。

信度反映的是测量中随机误差的大小，随机误差小，则信度高；反之，则信度低。
测验题目本身并不能提供信度的估计值，信度统计来自于测验分数。也就是说，在检验信度之前必须要实施心理测验，以获得测验分数。
遗忘和练习的效果基本相互抵消；（3）在两次施测的间隔期内，被试所要测查的心理特质没有获得更多的学习和训练；（4）被试有条件接受两次相同的测验，取决于时间、经费等因素。

心理测量4 项目分析

24
注意事项
当测验用于选拔或诊断时，应该多选择难度值接近录取率的项目。测验为选择题时，难度值应大于随机猜测概率水平。
难度等于概率水平，说明题目可能太难；或题意不清，被试凭猜测作答。难度（通过率）低于概率水平，说明题目有系统偏差。是非题难度值0.75时最合适，四选一题目0.63时最合适。
16
鉴别指数的判断
因为高分组条目总得分上高于低分组，理论上他们每个条目的通过率也要高于低分组。
D>0时，D越大，说明该条目区分两种水平（组）的能力越强
D<0则反映高分组的得分反而低于低分组，说明该条目有问题。
伊贝尔（L. Ebel, 1965）关于鉴别指数评价项目性能的标准：
鉴别指数（D） 0.40以上 0.30~0.39 0.20~0.29 0.19及以下
11
测验的难度测验的难度取决于组成测验项目的难度通过观察测验分数的分布，可以进行直观检验。如果测验难度适中，分数的分布应当接近常态分布；如果测验偏难，分布呈正偏态（图13-4，A）如果测验偏容易，分布呈负偏态（图13-4，B）测验偏难或偏容易时，可以通过增加或减少不同难易程度的条目来解决。
公式：
rpq
Xp Xq St
pq
rpq 点二列相关系数 X p 为与二分变量通过组相对应的连续变量的平均数
X q 为与二分变量未通过组相对应的连续变量的平均数
St 为连续变量的标准差 p 通过组人数与总人数之比（通过率）
q 未通过组人数与总人数之比（未通过率）
举例（例9）：
19
二列相关
适用于两个连续变量，但其中一个变量被人为分成两类。
理论上最大区分度（以总分对半划分高、低分组时）

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度一.试卷的难度(一)什么是难度难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。

一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。

客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题难度计算公式:P=试卷平均得分/试卷满分。

试卷难度计算公式:P=为平均分,K 为试卷满分值。

易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39; P值越大,难度越低,P值越小,难度越高。

一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。

(二)难度的计算(1)客观性试卷难度P(这时也称通过率)计算公式:P=k/N(k为答对该题的人数,N为参加测验的总人数)(2)主观性试卷难度P计算公式:P=X/M(X为试卷平均得分;M为试卷满分)(3)适用于主、客观试卷的计算公式:P=(PH +PL)/2(PH、PL分别为试卷针对高分组和低分组考生的难度值)步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。

(三)试卷难度的一般要求就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。

一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。

命题时难度一般要按一定比例分配,如3:6:1或3:5:2。

二.试卷的区分度(一)什么是区分度区分度是指考试卷目对考生心理特征的区分能力。

区分度高的试卷能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。

区分度高的1考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低。

(二)区分度的计算1.单个选择题目区分度的计算将全体考生总分从高到低排列,将总分最高的27%考生定为高分组,总分最低的27%考生定为低分组,分别计算两组考生在某道题目上的通过率,两个通过率之差就是这道题的区分度(又叫鉴别指数)。

心理测量学难度的名词解释

心理测量学难度的名词解释心理测量学是一门研究人类心理行为的学科，通过测量和评估个体的心理特征，帮助了解和分析他们的个性、能力和情绪状态。

在心理测量中，难度是评估测量工具或测试题目相对于被测者而言的复杂程度。

难度的解释在不同的上下文中会有不同的含义和应用。

在心理测量的实践中，难度主要涉及到测量工具的设计和测试题目的选择。

传统上，难度被定义为被测者在特定测量项目上获得的平均分数。

在这种定义下，难度越高意味着被测者在该项目上的表现越差，难度越低则意味着被测者在该项目上的表现越好。

然而，这种测量难度的方法很大程度上取决于被测者的能力水平，因此难度值的解释可能会因被测者的属性而有所偏差。

为了克服这个问题，心理测量学家发展了一种相对难度的指标，称为区分度。

区分度指的是一个测试题目与其他题目之间的差异程度，即能够准确区分高能力和低能力被测者的项目。

通过区分度，我们可以更好地评估测量工具的难度，并更准确地识别和分类被测者的能力水平。

难度在心理测量中的解释还涉及到考试评估和教育研究领域。

在考试评估中，难度用于衡量考试题目的复杂程度，以确定考试的合理性和有效性。

难度过高或过低的考试都会影响到对被测者能力的正确评估。

因此，评估考试难度的目标是确保考试具有一定程度的挑战性，同时也能够准确地区分被测者的能力差异。

在教育研究中，难度被用来评估学习材料或教学方法的合适性。

教学材料或方法的难度过高可能导致学生的挫败感，影响其学习积极性和成绩。

相反，难度过低可能导致学生对学习内容的不重视，无法发挥真正的潜力。

因此，教育研究者需要评估教学材料或方法的难度，以便适应学生的认知水平和学习需求。

除了以上的相关应用，难度在心理测量中还与测量信度和效度密切相关。

测量的难度和信度、效度之间的关系是心理测量学家经常关注的问题之一。

难度的高低会影响测量工具的可靠性和有效性，因此研究者需要平衡难度与测量结果的关系，以确保测量工具的质量。

总的来说，心理测量学难度是一个重要的概念，它涉及各个领域的实践和研究。

心理测量：测验题目的区分度及其提高

二、区分度的计算方法
（一）相关系数法
2.积差相关：
适用于题目为多级计分题，测验总得分（或效标分数）为连续变量
或
二、区分度的计算方法
（二）鉴别指数法 1 根据测验总分排序
2 高低分组
3 高分组和低分组的得分率
4 高分组的得分率减去低分组的得分率
二、区分度的计算方法
题目区分度的取值范围为 [-1， 1]
测验题目的区分度及其提高
目录
CONTENTS
1······区分度的定义 2······区分度的计算方法 3······区分度的评价标准及其提高
一、区分度的定义
是指题目的难易程度区分度( discrimination )指题目对被试特质差异的区分能力。
若所有被试在某个题目上均答对或均答错，则此题目不能区分不同特质的被试，即此题目无区分能力。
心理测量中通常将被试在某一题目上的得分与其测验总得分间的相关系数作为题目区分度的指标。
二、区分度的计算方法
得分率法
01
极端分组法
02
二、区分度的计算方法
（一）相关系数法通过计算被试在某一题目上的得分与测验总得分间的相关系数来计算该题目的区分度。
1.点二列相关：适用于二值计分题，测验总得分为连续变量
三、区分度评价标准及其提高
（三）提高题目区分度的方法
01 控制好题目难度。
保证题目所测心理特质与全测验 02 所测心理特质的一致性。
03 题目的语言表述准确规范，题干及答案无歧义。
04 借助选项分析提供的信息对不良选项进行修改，以提高题目的区分能力。
共同学习，未来可期
01 当r=0时，题目不能区分出高低能力被试，D=0，该题目无区分能力 02 当r>0时，高能力者得高分、低能力者得低分，D>0，该题目积极的区分能力 03 当r<0时，高能力者得低分、低能力者得高分，D<0，该题目也有区分能力，

第四章测验信度、效度、区分度及难度

课堂教学规范化培训内容之三教学测验及其分析河南中医学院教务处2005-5-25第一部分测验题目类型及编制测验总是由一系列的题目构成的，测验题目可以说是测验的基本构成元素。

在一个测验中，题目编制恰当与否直接关系到整个测验的质量与效果。

只有正确地掌握不同类型试题的测试功能及命题方法，才能根据考试的目的和要求，正确地选择合适的题型并编制出高质量的试题，组成高质量的测验试卷。

教师的工作就是进行教学，善于利用测验的教师才是更好的教师。

有效的测验能改善一位教师的教学效果。

测验题目基本上分为两大类：选择――反应型和建构――反应型。

前者一般要求被试者在几个选项中选择正确的答案，如是非题、匹配题、选择题等，后者要求被试者自己提供答案，如作文题、简答题、填空题等。

若根据被试作答的范围和评分方法不同，又可称为主观性试题和客观性试题。

客观性试题是因为客观评分而得名，在测验前就已准备好了正确答案，不同评分者的独立评分，所得结果基本上是相同的。

主观性试题主要包括论述题、操作题和作文题等。

它们适合于测量较高层次的教学目标，尤其是适合于测量综合、评价等目标层次的内容。

一、选择――反应性试题测验总是与题目有关，教师选择的题目类型一定切合他们打算做的推论，同时也要确保这些推论和教师的教育决策直接相关。

编制选择――反应测验题目的方法主要涉及编写选择题、判断题、多重判断题、匹配题等。

这些题型可以帮助教师有效地了解学生的认知状态――也就是对所教授的知识和技能的掌握情况。

选择――反应性试题一般就是我们所说的客观性试题。

从客观性试题角度来看，一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。

客观性试题的答案明确，作答简便，因而在限定的时间内测验可以包含足够数量的试题，能保证对知识内容的覆盖。

㈠选择题选择测验题(multiple-choice test item)一直主导着各个国家的学业成就测验。

选择题可以用来考查学生知识的掌握或更高层次的思维能力。

心理测量：测验题目的难度与难度分布控制

过难
过易
三、合理难度分布及其控制
2 难度对测验分数散程度的影响
测验过难或过易，被试间的差异较小，即测验分数的离散程度很小。只有当测验趋近中等难度时，测验分数分布范围较广，离散程度才会较大。分数分布范围较广，测验信度较高，反之信度较低。题目难度集中在0.5附近最佳，集中在两端最差。
三、合理难度分布及其控制
当测验题目过难（即P值过小）时，被试分数主要集中在左侧低分端，从而使测验分数呈正偏态分布。
当测验题目过易（即P值过大）时，被试分数主要集中在右侧高分端，从而使测验分数呈负偏态分布。
当测验题目趋近中等难度时，测验分数基本呈正态分布。
三、合理难度分布及其控制难度对测验分数分布形态的影响
中等
3 难度对题目区分度的影响
题目过难或过易均会导致题目的区分度很低，只有题目难度适中时才可能有较高的区分度。
三、合理难度分布及其控制
（二）合理难度及合理难度分布
取决于测验的目的及所测特质的性质等多方面因素。在常模参照测验中，对所有被试而言，合理项目难度为0.5左右，
分布范围应控制在0.3至0.7之间。在标准参照测验中，对于恰好合格的被试而言。难度为0.5左右，
控制试卷难度分布是在控制题目难度的前提下进行的，它主要是通过控制不同难度题目的比例来达到所需的难度分布。
选拔性测验常模参照测验标准参照测验
难、易题目所占比例应充分考虑选拔的比例
中等难度题目的比例要高，而偏难偏易的题目比例要低
不同难度题目的比例应结合“目标”本身来确定
三、合理难度分布及其控制
二、难度的计算方法
二、难度的计算方法
（一）得分率法得分率指所有被试在该题目上的平均得分占题目满分的百分比。计算公式为:

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其基本假设是测验得高分的被试即为高能力被试，测验得低分的被试即为低能力被试。
心理测量学
江西师大心理与教育统计测量中心
1、相关系数法
（1）点二列相关法
心理测量学
江西师大心理与教育统计测量中心
1、相关系数法
（2）积差相关法
心理测量学
江西师大心理与教育统计测量中心
2、极端分组法（鉴别指数法）
二、区分度的计算
1、相关系数法
点二列相关积差相关
2、用极端分组法计算区分度：
D表示区分度 PH表示高分组的难度 PL表示低分组的难度
D=PH—PL
1、相关系数法
该方法的基本思想是，若题目有好的区分度，则高能力的被试在该题上应得高分，低能力被试应得低分，即被试在题目上的得分应与测验总分相一致。
（把和代入P=(PH+PL)/2 ，计算这个题目的难度系数。
难度计算实例
例4-1 下表是随机抽取22名被试在某数学测验中四道题目的得分情况，每题的满分分别为1分、2分、3分和4分，请分析其难度。
哪道题最难？
三、难度系数变换
上述所得难度系数，不论是得分率还是失分率，都属于顺序变量，不具有相等的单位，因此，通过p值比较并不能客观指出题目难度之间的差异大小。
好坏的成分不同测验，目的不同，难度值不同。
奥林匹克测验？选择补习功课的学生？
第四章心理测量的难度与区分度
2 第二节项目的区分度
心理测量学
一、区分度的定义
定义：
指测验对考生实际水平的区分程度或测验对被试特质差异的区分能力，用符号D表示。
具有良好区分度的测验，实际水平高的应该得高分，实际水平低的应该得低分。所以，区分度又叫鉴别力。
四、题目的难度分布
P的取值范围为：0≤P≤1 当P=0时，试题的实际困难程度最大(所有
的考生都得0分) 当P=l时，试题的实际难度最小(所有的考生
都全对)。
常模参照测验难度分布
要尽可能地区分被试的个别差异，测验结果就尽可能拉开距离。
P值尽量接近0.50 为宜
思考：P等于1或0时，以为着什么，是否还可以区分被试？
Eg：三个题目难度系数分别为0.5、0.6、0.7，三个题目之间难度差是否相等？
• 可知第一题最难，第二题次之，第三题最容易 • 难度系数相差都是10%，但并不代表第一题与
第二题难度只差等于第二题与第三题难度之差
难度系数变换办法
假设每个试题所要测量的潜在特质或能力是呈正态分布的，然后就可以根据正态分布曲线,将试题的难度系数P作为正态曲线下的概率面积，转换成具有相等单位的等距量表,即Z分数（标准分数）量表。
值,用符号P表示。
二、难度系数计算方法 P：题目难度 X拔：被试在某题目上的平均得分
Xmax：该题目的满分
以全体被试得分率为难度系数
以全体被试通过率为难度系数
P=K/N
P：题目难度
K：答对人数 N：全体被试人数
以两端组被试得分率的均值为难度系数
P=(PH+PL)/2 （（12））两按从组被高人试分数的往分总下别分找占，，总将找人全出数体高的被分2试组7PPP%：HL者；：：。题从由低高目分高低分难组组到分度被被低往试试进高的的行找得得排，分分序找率率。出低分组（3）分别计算高分组、低分组的被试在该题目上的平均得分。（4）代入公式分别计算高分组和低分组被试在同一个题目上的难度系数。
Z值存在负值不易理解，因此做如下转换
难度Z值转换公式:Δ=13+4Z
Δ：第1题题目：Δ难=1度3+；4*1Z.0：4=由17p.1转6 换来的标准分数
思第考2题：：ΔΔ=的13取+4值*0范.67围=1？5.68
第 13-题--：-2Δ5=13+4*0.39=14.56
第4题：Δ=13+4*0.25=14 第5题：Δ=13+4*（-0.25）=12 第6题：Δ=13+4*（-0.59）=9.64
江西师大心理与教育统计测量中心
心理测量学
江西师大心理与教育统计测量中心
三、区分度的评价标准
1965年美国测量学家伊贝尔根据长期经验提出如下标准：
四、区分度与测验信度、难度的关系
区分度与信度关系
信度区分度
第四章-心理测验的难度与区分度
第四章项目
1
第一节项目的难度
心理测量学
PX/Xmax
一、难度的定义
难度定义
难度difficulty：指项目的难易程度，即就是被试完成题目或项目任务时所遇到的困难程度
难度系数：p
定量刻画被试作答一个题目所遇到的困难程度的量数，就叫题目的难度系数，也常称为难度
实验表明：
所有题目的难度系数分布在0.30至0.70之间，并且整个测验的平均难度系数在0.50左右时，测验对被试有较大的鉴别力，测验分数也接近正态分布
标准参照测验难度分布
目的是检验被试是否已达到教学目标规定的掌握程度教师期望学生都能够在教学之后掌握所有的教学内容通过率达到1.00时，所有学生都掌握了教学内容。如果教学是有效的，多数试题的难度系数P值都会很大，难度系数反映的是教学质量的好坏的成分多于试题质量的
基本思想：
心理测量学
江西师大心理与教育统计测量中心
3、题目区分度计算实例
例4-2 下表是随机抽取22名被试在某语文测验中四道题目的得分情况，四题满分分别为1分、3分、5分和60分，其中第4题为作文题，请计算四题的区分度。
心理测量学
江西师大心理与教育统计测量中心
3、题目区分度计算实例
心理测量学
是评价试题质量，筛选试题的主要指标与依据
区分度的分类
正区分(D>0)
称积极区分，指实际水平高的考生得了高分，实际水平低的考生得了低分
负区分(D<0)，
称消极区分，实际水平高的考生得了低分，实际水平低的学生得了高分
零区分(D=0)
指实际水平高低与得分之间没有太大的关系，呈现出零相关
难度等距转换实例
题号 1 2 3 4 5 6
答对率 0.15 0.25 0.35 0.40 0.60 0.70
难度Z值 1.04 0.67 0.39 0.25 -0.25 -0.84
难度差异 --
0.37 0.28 0.14 0.50 0.59
思考：
Z分数为负值时，说明试题难还是容易？
难度等距转换公式