最新3-3 教育测量与评价的质量特性难度与区分度

合集下载

教育测量与评价的质量特性难度与区分度课件

PPT学习交流
19
解
需进行显著性检验，才能确定其是否具有显著性意义
（1）对点双列相关公式中的和进行差异显著性检验，若差异显著，表明显著；（2）采用积差相关系数显著性检验的方法进行检验；（3）如果样本量较大（n>50)，也可用下面近似方法：
，认为在0.05水平上显著；
，认为在0.01水平上显著。
答对该题目的人数被试人数
PPT学习交流
3
• 多值记分题的难度值计算
某题的平均得分该题的满分
PPT学习交流
4
练习
• 题1：在100个学生中，答对第一题的30人，答对第二题的60人，求第一、二道题的难度？比较这两道题谁比谁难？
• 题2：某道论述题满分12分，所有考生在这道题上的平均得分为3.6分，求该题的难度？
6
练习
题5：某区域1000人参加考试，试卷第一题高分组 180人答对，低分组60人答对，求该题难度？
如果该题满分为10分，高分组得分总数为2100分交流
7
二、难度指标的等距变换
• 运用标准分数（Z分数）作为题目难度的指标
PPT学习交流
8
例：某校学生在一次测验中，第一题的答对率为 15%，第二题的答对率为25%，第三题的答对率为 35%，假定这三题所测量的能力近似正态分布，问
信度
0.00 0.42 0.63 0.84 0.915 0.949
要达到理想的测验信度，提高区分度是一个好办法
PPT学习交流
16
难度
1.00 .90 .70 .50 .30 .10 .00
区分度的最大值
.00 .20 .60 1.00 .60 .20 00
难度适中，可使区分度达到最大值

教育测量与评价的质量特性难度与区分度

难度的影响因素
测验项目的性质
测验目的
测验项目的性质不同，难度也会有所不同。例如，记忆类的题目通常比分析类的题目更容易。
测验目的不同，难度也会有所不同。例如，选拔性测验通常比水平性测验更难。
被试群体的水平
被试群体的水平越高，测验项目的难度通常越低。反之，被试群体的水平越低，测验项目的难度通常越高。
案例二：某评价体系的区分度评估
总结词
该案例介绍了如何通过区分度指标来评估某评价体系的区分度，以确定评价结果是否准确反映学生的实际水平。
详细描述
首先，选取两个水平不同的学生群体作为参照样本。然后，根据评价体系对两个样本进行测试，并记录每个样本在各个评价指标上的得分。接着，计算每个评价指标的区分度值，并分析其分布情况。最后，根据区分度值的大小和分布情况，评估该评价体系的区分度是否良好。
案例三：难度与区分度的综合应用
总结词
该案例探讨了如何将难度和区分度两个质量特性结合起来，以优化教育测量与评价体系的设计。
VS
详细描述
首先，分析现有教育测量与评价体系的难度和区分度情况。然后，根据分析结果，调整试题难度和区分度指标，以提高评价体系的准确性和可靠性。最后，通过实际应用和验证，评估优化后的教育测量与评价体系的效果。
难度的计算方法
通过率
通过率是指被试在测验项目上的通过人数与总人数之比，可以直
观地反映测验项目的难度。
难度指数
难度指数是指被试在测验项目上的平均得分与该测验项目的满分之比，可以更准确地反映测验项目的难度。
难度曲线
难度曲线是以难度为横轴，通过率为纵轴绘制的曲线，可以更全面地反映测验项目的难度分布。
因素分析法

教育测量与评价的难度与区分度

况如下表。计算该选择题的区分度。
生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
总 86 52 94 72 65 22 76 83 80 75 76 73 62 91 47 74 81 88 62 58 题1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 1 1 0 0 0
6
5
30
4
2
8
4
10
40
教育测量与评价中题目（项目）的区分度
三、区分度计算方法
相关法考虑中间数据以项目分数与效标分数的相关作为项目区分度的指标（效标分数不易得到时，以测验总分代替）相关越高，区分能力越好具体方法：
▪ 积差相关法 ▪ 点二列相关 ▪ 二列相关 ▪ Φ相关
积差相关法计算区分度
主观性试题区分度的计算公式： D X H X L
▪ 说明：
N(H L)
▪ XH：高分组所得总分；XL：低分组所得总分；H：该题最高分；L：该题最低分；N：考生人数（总人数的25％）
▪ 步骤：
▪ 按测验总分由高到低排序；分别确定测验总分的25％、25％作为高低分组；列出试题分析表；将数据带入以上公式加以计算
个标准差的位置，由0.84－0.50＝0.34去查Z值，Z＝－1σ 若一个项目的难度位0.16，则这个项目的难度在平均数以上
一个标准差的位置，由0.50－0.16＝0.34去查Z值，Z＝σ 若某个项目有50％的学生通过，这个项目的难度落在下图0
的位置上
0.13% 2.14% 13.59% 34.13% 34.13% 13.59% 2.14% 0.13%
分等级、位 1 2 3 4 次、排列顺

3-3教育测量与评价的质量特性难度与区分度

全体被试总分的标准差
例：有一测验向8名学生施测，其中两个题目的题分和测验总分如表3-11所示，请计算这两题的区分度。
解
积差相关系数的显著性检验方法（1）当样本容量n>50时，采用正态分布检验；（2）当样本容量n<50时，采用t分布检验；（3）直接查“积差相关系数(r)显著性临界值表
• 高低分组法
• 题4：60人参加考试，某题满分为12分，正确得分累积是480分，求该题难度？
– 难度值的其他计算方法
（1）以全体被试失分率为难度系数
（2）以两端组被试得分率的均值为难度系数
练习
题5：某区域1000人参加考试，试卷第一题高分组 180人答对，低分组60人答对，求该题难度？
如果该题满分为10分，高分组得分总数为2100分，低分组得分总数为830分，求该题难度？
– 测验难度影响测验的鉴别能力。在测验中，考生之
间相互配对比较的可能性越多，就越有利于准确地鉴别考生的不同能力。
• 难度的影响因素及其控制
– 主要因素：
• 考察知识点的多少； • 考察能力的复杂程度或层次的高低； • 考生对题目的熟悉态度； • 命题的技巧。
– 难度控制：
• 正确估计考生水平； • 弄清弄懂各知识点； • 掌握命题技巧。
教育测量与评价的质量特性
第三பைடு நூலகம் 难度与区分度
一、难度与难度系数的计算
• 概念
– 难度：被试完成题目或项目任务时遇到的困难程度
– 难度系数：定量刻画被试作答一个题目所遇到的困难程度的量数，叫做题目的难度系数，也常称为难度值，用符号P表示
• 计算方法
– 二值记分题的难度值计算
答对该题目的人数被试人数

3-3 教育测量与评价的质量特性难度与区分度

要达到理想的测验信度，提高区分度是一个好办法
.
难度
1.00 .90 .70 .50 .30 .10 .00
区分度的最大值
.00 .20 .60 1.00 .60 .20 00
难度适中，可使区分度达到最大值
.
二、区分度的计算
• 相关法
– 点双列相关系数
通过该项目的被试的平均总分
全体被试总分的标准差
.
Hale Waihona Puke • 测验难度对分数分布的影响
– 测验难度影响分数的分布形态。难度值越接近 0，测验的难度就越大，测验分数就越是集中在低分端，其分数分布越呈现正偏态；反之，难度值越接近1.00，其难度就越小，测验分数越集中在高分端，分数分布呈负偏态。
– 测验难度影响测验分数的离散程度。测验难度过大过小，都会造成测验分数偏离正态分布，从而使分数的全距缩小，使测验分数的离散程度变小。
.
二、难度指标的等距变换
• 运用标准分数（Z分数）作为题目难度的指标
.
例：某校学生在一次测验中，第一题的答对率为 15%，第二题的答对率为25%，第三题的答对率为 35%，假定这三题所测量的能力近似正态分布，问第一、第二、第三题的难度差异怎么样？
.
值越大，表示试题越难；值越小，表示试题难度越容易
未通过该项目的被试的平均总分
未通过该项目的被试人数占总人
数的百分比
通过该项目的被试人数占总人数的百分比
.
例. 某班15名学生参加一次测验的总分及第一题的得分情况如表3-10所示，计算第一题的区分度
.
解
需进行显著性检验，才能确定其是否具有显著性意义
（1）对点双列相关公式中的和进行差异显著性检验，若差异显著，表明显著；（2）采用积差相关系数显著性检验的方法进行检验；（3）如果样本量较大（n>50)，也可用下面近似方法：

教育学考研教育测量与评价重难点

教育学考研教育测量与评价重难点教育测量与评价是教育学考研中的一个重要领域，它涉及到教育质量的衡量与提升、学生评价与发展等方面。

本文将重点介绍教育测量与评价的重难点，帮助考生更好地准备教育学考研。

一、测量与评价的基本概念在进行教育测量与评价的学习之前，首先需要了解相关的基本概念。

测量是指通过量化的方式来获取关于学习者特质的信息，评价则是对学习者进行判断和评估。

两者相互关联，测量提供了评价的依据，而评价则对测量结果进行解释和应用。

二、测量与评价的方法和技术1. 古典测量理论：古典测量理论是测量领域的一个重要理论基础，它主要依赖于经验判断和直觉。

古典测量理论可以帮助我们了解测量的基本原则和方法。

2. 计算机化测量与评价：随着计算机技术的发展，计算机化测量与评价成为教育领域的一个重要方向。

它可以提供更加准确和全面的数据，并能够快速进行大规模的评价。

3. 非测试评价方法：除了传统的测试评价方法外，还有一些非测试评价方法可以用于教育测量与评价。

例如观察评价、问卷评价、访谈评价等。

这些方法能够从不同的角度和维度对学生进行评价，提供全面的评估结果。

三、教育测量与评价的难点及应对策略1. 测量工具的选择：在教育测量与评价中，选择适当的测量工具是至关重要的。

面对众多的测量工具，考生需要根据具体情况和研究目的进行选择。

可以通过参考前人的研究经验和相关文献，确定最适合的测量工具。

2. 数据处理和分析：教育测量与评价产生的数据通常需要进行处理和分析。

考生需要熟悉各种统计分析方法，并能够根据研究目的选择合适的分析方法。

此外，掌握统计软件的使用也是必要的。

3. 评价结果的解释和应用：教育测量与评价的最终目的是为了改进教育质量和促进学生的发展。

然而，评价结果的解释和应用往往是一个复杂的过程。

考生需要具备较强的分析和解释能力，以及对教育政策和改革的理解。

四、教育测量与评价的前沿研究教育测量与评价领域一直在不断地发展和创新。

一些前沿的研究方向包括：1. 多维测量模型：传统的测量方法通常只考虑一个维度的特质，而多维测量模型可以同时考虑多个维度，提供更加全面和准确的测量结果。

第三章_教育测量与评价的质量特性上课用

2、内容效度的估计
（1）逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。以考试内容效度分析来说，就是依靠专家来分析一份试卷的所有题目，把所有题目按考试内容分布和考查目标分布进行双向分类，形成实际的“题目双向分类表”；基于这个“题目双向分类表”的分析，然后由专家对这次考试（测量）的内容效度的满意程度作出等级判断或评语描述。（双向细目表）这里不妨先提供一份测验的命题双向细目表以增加读者的感性认识。（2）量化分析法
rxx 2rhh 1 rhh
式中的rxx为整个测验的信度系数； rhh 为两个“半测验”上得分的相关系数。
分半信度只需要一种测验形式，实施一次测验，它比重测信度和复本信度的操作更简便。注意：当一个测验无法分成对等的两半时，不宜使用分半信度。
例三
对初中一年级学生进行地理成绩测验，每答对 1题得1分，答错1题得0分，其测验结果如下表，试估计该测验的分半信度？
内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。
（二）结构效度
结构（Construct）——是指心理学或社会学上的一种理论构想或特质。它本身观察不到、并且也无法直接测量到，但学术理论假设它是存在的，以便能够来解释和预测个人或团体的行为表现。例如，智力就是心理学中的一种结构，结构效度指的就是测验能够测量到理论上（通常是心理学或社会学）所定义的某一心理结构或特质的程度。
第一节教育测量与评价的信度一、什么是信度
——信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度，它能够反映测量工具的稳定性或可靠性，一般用信度系数表示。信度本身与测量结果的正确与否无关，它的用途在于检验测量本身是否稳定。

难度与区分度

1、难度
1.2 难度的计通过率计算难度。当项目以二分法计分（答对得分、答错不得分）时，难度一般用正确回答项目的人数与参加测验总人数的比值为指标，即：P =R／N（P 为项目难度； R 为答对该项目的人数；N 为参加测验的总人数。）例：在100个学生中，答对第一题的30人，答对第二题的60人，求第一、二道题的难度？比较这两道题谁比谁难？

2.区分度
2.1 区分度的含义

区分度与信度
区分度和测验的信度也存在着密切的关系。有人通过研究发现，测验的信度随项目的平均区分度的提高而增长，且信度增长的速度较区分度增长为快。因而，提高试题和项目的区分度是达到理想的测验信度的一个有效途径。

区分度与难度
项目的区分度与难度的关系，前面的讨论已经涉及。我们知道，在难度接近0.5 时，项目的鉴别力接近最强，也就是区分度值接近最大。区分度相同的项目其难度值可能不一样。在这种情况下，P 值小的项目所能区分的是高分组的学生，P 值大的项目所能区分的是低分组的学生。为了对全部参加测验的学生都能够有所区分，需要测验中的全部项目都有必要的区分度，且难度不同的项目比例也要适当。
D=（XH-XL）/N（H-L） XH为高分组得分总数 XL为低分组得分总数 H为该道题的最高分 L为该道题的最低分 N为应试总人数的25%。
2.区分度
2.2 区分度的计算
02)内部一致性系数
标准化的或大规模的测验中，多采用相关法分析试题的区分度,通过计算某一题目得分与测验总得分或效标分数的相关系数来判定。相关越大，区分度越高。点二列相关:适用于二分变量(0,1记分)，测量总分连续二列相关:两个变量都是正态连续，其中一个被认为分为两类(及格、不及格) 积差相关：非二分变量，得分具有连续性，被试团体较大时，可认为服从正态分布。题目得分与测验总分求积差相关系数得到区分度。

第三章教育测量与评价的质量特性

（一）重测信度(test retest reliability)重测信度指的是用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。

（二）复本信度(alternate forms reliability)复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。

（三）同质性信度(homogeneity reliability)同质性信度也叫内部一致性信度(internal consistency reliability)，它是指测验内部所有题目间的一致性程度。

1. 分半信度(split half reliability)2. 库德—理查逊信度(Kuder & Richardson reliability)3. 克龙巴赫(cronbach)α系数当测验题型较多，并非都是二分记分题时，估计测验信度可采用克龙巴赫α系数。

四、标准参照测验的信度分析1. 百分比一致性指标百分比一致性(percent agreement，简称PA)指标是指同一测验或两平行测验先后两次施测，其对被试的分类结果一致的比例。

2. κ一致性系数κ一致性系数(kappa coefficient of agreement)，是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。

五、测量标准误与测验信度的关系测量标准误是指测验中所得测值偏离真分数的程度，记为SE。

显然，它与测验信度系数之间存在着必然联系，这种关系可定量地表示如下：SE=Sx1-rxx(3-15)式中，SE为测量的标准误，Sx为观察分数的标准差，rxx是测量的信度系数。

测量标准误是反映测量结果精确性和可靠性的又一指标，同时也是人们正确解释测验分数的科学依据。

六、评分者信度1. 评分者信度的含义评分者信度(scorer reliability)指的是多个评分者给同一批人的答卷进行评分的一致性程度。

3-教育测量与评价的难度与区分度

教育测量与评价中题目（项目）的区分度
例：100名考生参加主观性试题测验，按高、低分各占人数
的25％分组，其中第四题试题分析表如下所示，求该题目的区分度。 X XL D H N ( H L)
X f 10 6 fx 120 60 低分组 X 12 10 f 0 4 fx 0 40 高分组 12 10
教育测量与评价பைடு நூலகம்题目（项目）的难度
二、难度的计算主观题的平均数法
X P W

主观题的极端分组法公式： X
P
H

步骤按测验总分依次排序，确定比例各为 25％的高分组和低分组为高分组、低分组分别编制每题得分的分析表（试题分析表）用上述难度公式计算难度值
X L (2 NL) 2 N ( H L)
试题分析表
8
6 4
4
3 2
32
18 8
8
6 4
6
5 10
48
30 40
教育测量与评价中题目（项目）的区分度
三、区分度计算方法相关法考虑中间数据以项目分数与效标分数的相关作为项目区分度的指标（效标分数不易得到时，以测验总分代替）相关越高，区分能力越好具体方法：
80 75 76 73 46 39 40 41 合合合合
Ф相关法计算区分度
测验的两个变量都是二分变量，可用计算Φ相关系数来表示
某项目的区分度以测验总分划分为合格、不合格两类的被试在某一题目上通过、未通过的人数列成四格表来计算
AD BC r A BC D A C B D
平均数上下各一个标准差的范围分别包含了全部人数的34％

区分度名词解释教育评价与测量

区分度名词解释教育评价与测量
区分度是教育评价与测量领域中的一个重要概念，用于衡量一个测量工具（如考试）对于区分学生不同能力水平的程度。

在教育评价中，区分度可以帮助教师和教育者了解学生在某一领域的学习表现，并对教学方法进行调整和改进。

区分度的计算方法通常基于经验概率理论，并使用统计分析技术进行量化。

常用的区分度指标是麦克伦恩相关系数（Point-Biserial Correlation），它衡量了一个考试题目与总分之间的相关性。

如果一个题目的区分度较高，即与总分的相关性较强，那么这个题目就能够有效地区分学生的能力水平。

相反，如果一个题目的区分度较低，即与总分的相关性较弱，那么这个题目就不能很好地区分学生能力的差异。

区分度的高低对于教育评价的准确性和可信度具有重要影响。

如果题目的区分度较低，那么即使学生在总分上得到不同的分数，也无法明确地了解他们在具体知识点上的掌握程度。

因此，在评价学生能力时，应该选择具有较高区分度的题目，并对题目的设计和难度进行合理调整，以确保评价的有效性。

此外，区分度的概念也可以应用于其他教育评价方法，如问卷调查和观察评估。

在这些评估中，区分度可以帮助确定问卷项或观察指标是否能够有效地区分不同的特征或行为。

通过选择具有较高区分度的项或指标，可以提高评估的敏感性和准确性。

总之，区分度是教育评价与测量中的重要概念，它衡量测量工具对于区分学生不同能力水平的能力。

通过合理选择具有较高区分度的题目或指标，可以提高评价的准确性和可信度，从而更好地了解学生的学习表现和能力水平。

教育测量与评价的难度与区分度27页PPT

自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢，但是我从不后退。——亚伯拉罕·林肯
39、勿问成功的秘诀为何，且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔，思而不学则殆。——孔子
1、不要轻言放弃，否则对不起自己。
2、要冒一次险!整个生命就是一场冒险。走得最远的人，常是愿意去做，并愿意去冒险的人。“稳妥”之船，从未能从岸边走远。-戴尔．卡耐基。
梦境
3、人生就像一杯没有加糖的咖啡，喝起来是苦涩的，回味起来却有久久不会退去的余香。
教育测量与评价的难度与区分度 4、守业的最好办法就是不断的发展。 5、当爱不能完美，我宁愿选择无悔，不管来生多么美丽，我不愿失去今生对你的记忆，我不求天长地久的美景，我只要生生世世的轮回里有你。

3-教育测量与评价的难度与区分度

教育测量与评价中题目（项目）的区分度
例：100名考生参加主观性试题测验，按高、低分各占人数
的25％分组，其中第四题试题分析表如下所示，求该题目的区分度。 X XL D H N ( H L)
X f 10 6 fx 120 60 低分组 X 12 10 f 0 4 fx 0 40 高分组 12 10

只关心研究对象的顺序，不问津间距是否一致如：合格与否、优良中差等
3. 等距量表

间距量表，在赋值时有相等的度量单位，采用相对零点，被测所对应的测量值由明确的距离关系原始测验分数经过统计处理后推导出一种新的量表分数，此分数的“零
点”是一个相对零点
4. 比率量表具有等距量表的一切性质，采用绝对零点。针对总体而不是样本不但能确定一个被测比另一个被测大（小）多少，而且还能得出其间的倍数关系

步骤：

PH PL P 2
按测验总分由高到低排序从高分段向下选出全部试卷的27％作为高分组从低分段向上选出全部试卷的27％作为低分组按照上述公式计算项目难度值

例：100人参加某测验，高分组与低分组各取27人，其中第一题高分组20人答对，低分组10人答对。这道题的难度系数是多少？
二列相关计算区分度
测验总分与项目分数均为连
续变量，其中一个被人为地分成两个类别，
X p X q pq rb St Y
生总作类
1 2 3 4 5 6 7 8 9 10 11
公式的说明： p为二分变量中某一类别在全部变量中所占的比例，q为另一类别所占的比例（q＝1-p） St为全部连续变量的标准差 Y表示正态曲线下与P相对应的纵线高度。

教育测量与评价—教育测量与评价的质量特性

7/29/2021
rxx 教质育量1 测特量性MM与S人S评人价题—教育测量与评价的
7
评分者信度
评分者信度的含义
评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。
评分者信度的计算
（1）当评分者人数为两人时，评分者信度等于两个评分者给同一批被
试的答卷所评分数的相关系数。依据数据形式，可采用不同的相关系数计
的相关系数。即：ｒXX= ρXX´
7/29/2021
教育测量与评价—教育测量与评价的
3
质量特性
重测信度（稳定性系数）
（1）重测信度是指用一个量表（测验或评价表）对同一组被施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。
（2）重测信度基本假设：某测验所要测量的潜在特质，短期内不会随着时间推移而改变。
教育测量与评价—教育测量与评价的质量特性
信度的意义
信度是指测量结果的稳定性程度，记为rXX 。换一句话说，信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度。
测验信度是对测验工具及其操作的整体质量的一种量度，是测验性能的重要质量指标。如果测验本身抗干扰能力强，测验实施过程各方面误差因素都控制得好，多次施测所得分数（测值）的一致性就高，那么测量信度高，人们在使用所得测值时就会感觉可靠。
点量表（用完全无关、有点相关、相关较密切、完全相关来表示）来表示这种相关
的程度大小”；当两位专家完成此项工作后，统计弱相关（完全无关、有点相关）、
强相关（相关较密切、完全相关）的题目数，则此测验的内容效度系数为：内容效
度系数 =D/（A+B+C+D）（ D 表示两位专家都判定为强相关的题目数）

教育测量与评价的质量特性

项目上的平均通过率表示项目的难度 P＝（PH＋PL）/ 2 步骤：按测验总分由高到低排序从高分段向下选出全部的27％作为高分组从低分段向上选出全部的27％作为低分组
教育测量与评价中题目（项目）的难度
二、难度的计算
主观题的平均数法 P X W
主观题的极端分组法 PXHXL(2NL)
N：考生总人数的25％
P向Z的转换 CP=(KP-1)/(K-1)
数学能力与智力正相关。
分别求出这两组被试通过试题的百分比
目的：预测某个个体将来的行为假定每个试题所要测量地潜在特质或能力是呈正态分布的，
XL：低分组所得总分；
X
f
fx
可将P值作为正态曲线下的概率面积，以此转换成Z分数
效标：检验测验效度的外在的、客观的标准，即效度的标准
CP=(KP-1)/(K-1) CP：校正后的难度值；P：实际得到的通过率；K：选项数目例：一个题目的难度值为0.75，分别计算此题有四个选项、三个选项、
两个选项时大的难度值
教育测量与评价中题目（项目）的难度
二、难度的计算客观题的极端分组法根据测验分数按高低排序，用两个极端组在某
有
X 2
V 2
I2
2 E
则： rx2y
2 v 2 X
根据统计定义，可知道效度与信度的哪些关系？
教育测量与评价的效度
二、效度的类别
内容效度：侧重于测验题目取样的代表性，考查这些题目对所欲测量的内容和行为反应测量的有效程度
结构效度：侧重于一个测验的能够测量到心理学和教学理论上的抽象概念和特质的程度
XH：高分组所得总分；
2N(HL)
XL：低分组所得总分；H：该题最高分；L：该题最低分；N：考生总人数的25％

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3-3 教育测量与评价的质量特性难度与区分度
一、难度与难度系数的计算
• 概念
– 难度：被试完成题目或项目任务时遇到的困难程度
– 难度系数：定量刻画被试作答一个题目所遇到的困难程度的量数，叫做题目的难度系数，也常称为难度值，用符号P表示
• 计算方法
– 二值记分题的难度值计算
答对该题目的人数被试人数
• 题4：60人参加考试，某题满分为12分，正确得分累积是480分，求该题难度？
– 难度值的其他计算方法
（1）以全体被试失分率为难度系数
（2）以两端组被试得分率的均值为难度系数
练习
题5：某区域1000人参加考试，试卷第一题高分组 180人答对，低分组60人答对，求该题难度？
如果该题满分为10分，高分组得分总数为2100分，低分组得分总数为830分，求该题难度？
被试总人数
因为Z= 1.79< Z0.05=1.96,未达到显著性水平，所以该题的区分度值得怀疑
– 积差相关系数
• 对于非二分法记分的题目，因得分具有连续性，在被试团体较大时，可用认为题目分数服从正态分布
被试总分减去某题目得分而获得的一个新变量（D=X- Y)的方差
全体被试在某
题目上得分的标准差
，认为在0.05水平上显著；，认为在0.01水平上显著。
– 二列相关系数
• 适用于两个变量都是正态连续变量，但其中一个变量因为某种原因被人为地分为两类。
正态分布下百分比p与q分割点所在位置的曲线高度
解：p = 0.5333, 查正态分布表，得Y = 0.3975, 于是：
二列相关系数的显著性检验可用下列公式进行：
高分组、低分组人数比例各占总人数的27% D代表项目鉴别度指数； PH、PL分别表示高分组和低分组在该题目上的得分率
该题目的满分值
– D值是鉴别题目测量有效性的指标，D值越高，题目越是有效；值记分题的难度值计算
某题的平均得分该题的满分
练习
• 题1：在100个学生中，答对第一题的30人，答对第二题的60人，求第一、二道题的难度？比较这两道题谁比谁难？
• 题2：某道论述题满分12分，所有考生在这道题上的平均得分为3.6分，求该题的难度？
• 题3：语文测验第五题最高得分为12分，这道题考生的平均得分是8.5分，求该题难度？
例. 某班15名学生参加一次测验的总分及第一题的得分情况如表3-10所示，计算第一题的区分度
解
需进行显著性检验，才能确定其是否具有显著性意义
（1）对点双列相关公式中的和进行差异显著性检验，若差异显著，表明显著；（2）采用积差相关系数显著性检验的方法进行检验；（3）如果样本量较大（n>50)，也可用下面近似方法：
三、测验题目的恰当难度和恰当
难度的分布
• 测验题目难度水平的确定
– 测验题目难度水平的适当与否，取决于测验的目的、性质和题目的形成。
– 当P值接近于0或接近于1时，即被试在该题上全部答对或全部答错，则该题无法提供个体的信息。而只当P值接近于0.50时，题目才能把被试做最大的程度的区分。
– 但在实际工作中，若每一题的难度值均为0.50，那么此测验很可能只能区分出好与差两种极端被试的差异，却不能对各种被试作更精确的区分。因此，一般各题的难度可在0.50+20之间。
第四节教育测量与评价中题目（项目）的区分度
一、区分度的意义
• 题目区分度（Discrimination)就是题目区别被试水平能力的量度，常记为D。又叫鉴别力，它是评价试题质量，筛选试题的主要指标与依据；
• 区分度的取值范围介于-1.00 — +1.00之间，值越大，区分度效果越佳；
• 区分度D>0为正区分，D<0为负区分，D=0为零区分。
• 区分度的高低直接影响到测验的信度和效度。
思考：区分度与信度、难度有什么关系？
假定试题的难度均为0.5
区分度
0.1225 0.16 0.20 0.30 0.40 0.50
信度 0.00 0.42 0.63 0.84 0.915 0.949
要达到理想的测验信度，提高区分度是一个好办法
难度 1.00 .90 .70 .50 .30 .10 .00
• 测验难度对分数分布的影响
– 测验难度影响分数的分布形态。难度值越接近 0，测验的难度就越大，测验分数就越是集中在低分端，其分数分布越呈现正偏态；反之，难度值越接近1.00，其难度就越小，测验分数越集中在高分端，分数分布呈负偏态。
– 测验难度影响测验分数的离散程度。测验难度过大过小，都会造成测验分数偏离正态分布，从而使分数的全距缩小，使测验分数的离散程度变小。
二、难度指标的等距变换
• 运用标准分数（Z分数）作为题目难度的指标
例：某校学生在一次测验中，第一题的答对率为 15%，第二题的答对率为25%，第三题的答对率为 35%，假定这三题所测量的能力近似正态分布，问第一、第二、第三题的难度差异怎么样？
值越大，表示试题越难；值越小，表示试题难度越容易
全体被试总分的标准差
例：有一测验向8名学生施测，其中两个题目的题分和测验总分如表3-11所示，请计算这两题的区分度。
解
积差相关系数的显著性检验方法（1）当样本容量n>50时，采用正态分布检验；（2）当样本容量n<50时，采用t分布检验；（3）直接查“积差相关系数(r)显著性临界值表
• 高低分组法
– 测验难度影响测验的鉴别能力。在测验中，考生
之间相互配对比较的可能性越多，就越有利于准确
• 难度的影响因素及其控制
– 主要因素：
• 考察知识点的多少； • 考察能力的复杂程度或层次的高低； • 考生对题目的熟悉态度； • 命题的技巧。
– 难度控制：
• 正确估计考生水平； • 弄清弄懂各知识点； • 掌握命题技巧。
区分度的最大值 .00 .20 .60 1.00 .60 .20 00
难度适中，可使区分度达到最大值
二、区分度的计算
• 相关法
– 点双列相关系数
通过该项目的被试的平均总分
全体被试总分的标准差
未通过该项目的被试的平均总分
未通过该项目的被试人数占总人
数的百分比
通过该项目的被试人数占总人数的百分比

最新3-3 教育测量与评价的质量特性 难度与区分度

教育测量与评价的质量特性 难度与区分度课件

教育测量与评价的质量特性难度与区分度

教育测量与评价的难度与区分度

3-3教育测量与评价的质量特性难度与区分度

3-3 教育测量与评价的质量特性 难度与区分度

教育学考研教育测量与评价重难点

第三章_教育测量与评价的质量特性上课用

难度与区分度

第三章 教育测量与评价的质量特性

3-教育测量与评价的难度与区分度

区分度名词解释教育评价与测量

教育测量与评价的难度与区分度27页PPT

3-教育测量与评价的难度与区分度

教育测量与评价—教育测量与评价的质量特性

教育测量与评价的质量特性

最新3-3 教育测量与评价的质量特性难度与区分度

教育测量与评价的质量特性难度与区分度课件

3-3 教育测量与评价的质量特性难度与区分度

第三章教育测量与评价的质量特性