教育测量与评价的质量特性培训讲义PPT课件
合集下载
《教学测量与评价》PPT课件
• 二、教学测量与评价的分类 • 根据实施教学评价的时机:形成性评价与总结性评价 • 根据教学评价资料的处理方式:常规参照评价和标准参照评价、 • 根据教学评价的功能:配置性评价和诊断性评价 • 根据教学评价的严谨程度:正式评价和非正式评价
• 三、教学测量与评价的功能 • 1、为教师调整和改进教学提供充足的反馈信息; • 2、是学校前别学生学业成绩、家长了解学生学习情况的主要方
式; • 3、是教学过程的一个重要组成部分; • 4、是教育评价和决策的依据。
第二节 教学测量与评价的方法和技术
• 对于认知和技能领域的学业成就,最常用的教学评价 手段是标准化成就测验和教师自编测验。
• 对于情感以及道德行为表现,常采用非测验性的评价 手段。如案卷分析、观察、问卷量表以及谈话。
• 一、标准化成就测验
•
1.客观题
•
(1)选择题
•
(2)是非题
•
(
2.主观题
•
(1)论文题
•
(2)问题解决题
• 三、非测验的评价技术 • 案卷分析 • 观察
1.行为检查单 2.轶事记录 3.等级评价量表 • 情感评价
• 四、教学评价结果的处理与报告 • (一)评分 • (二)合格与不合格 • (三)其他报告方式
第十四章 教学测量与评价
第一节 教学测量与评价的意义和作用
• 一、教学测量与评价的基本概念
• 教学评价是指有系统地手机有关学生学习行为的资料,参照 预定的教学目标对其进行价值判断的过程,其目的是对课程、 教学方法以及学生培养方案作出决策。 – 包括:确定评估目标 • 搜集有关资料 • 描述并分析资料 • 形成价值判断 • 做出决定 – 教学评价与测量及测验的关系 • 测验和测量是对学习结果的客观描述,教学评价是 对客观结果的主观判断和解释。主观判断和解释以客 观描述为基础,测验和测量的结果,通过教学评价赋 予意义。
教育测量与评价的质量特性 难度与区分度课件
PPT学习交流
19
解
需进行显著性检验,才能确定其是否具有显著性意义
(1)对点双列相关公式中的 和 进行差异显著性检验,若差异显著, 表明 显著; (2)采用积差相关系数显著性检验的方法进行检验; (3)如果样本量较大(n>50),也可用下面近似方法:
, 认为 在0.05水平上显著;
,认为 在0.01水平上显著。
答对该题目的人数 被试人数
PPT学习交流
3
• 多值记分题的难度值计算
某题的平均得分 该题的满分
PPT学习交流
4
练习
• 题1:在100个学生中,答对第一题的30人,答 对第二题的60人,求第一、二道题的难度?比 较这两道题谁比谁难?
• 题2:某道论述题满分12分,所有考生在这道题 上的平均得分为3.6分,求该题的难度?
6
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
如果该题满分为10分,高分组得分总数为2100分交流
7
二、难度指标的等距变换
• 运用标准分数(Z分数)作为题目难度的指标
PPT学习交流
8
例:某校学生在一次测验中,第一题的答对率为 15%,第二题的答对率为25%,第三题的答对率为 35%,假定这三题所测量的能力近似正态分布,问
信度
0.00 0.42 0.63 0.84 0.915 0.949
要达到理想的测验信度,提高区分度是一个好办法
PPT学习交流
16
难度
1.00 .90 .70 .50 .30 .10 .00
区分度的最大值
.00 .20 .60 1.00 .60 .20 00
难度适中,可使区分度达到最大值
3-2教育测量与评价的质量特性 效度ppt课件
• 效标关联:又称为经验效度或统计效度,一个测 验对处于特定情境中的个体行为进行预测时的有 效性。
• 效标关联可分为同时效度和预测效度
12
• 估计方法
– 相关法
• 积差相关 • 等级相关 • 点双列相关 • 二列相关 • 四分相关……
– 显著差异法
• 根据效标测量将被试分为两个极端组(如好与坏,成功 与失败等),然后检验这两组测验分数是否具有统计学 上的差异显著性
就现有资料,用什么方法可以判断教师们的意见是否 正确?
15
表2-1:
(答对的题数)
1 2 3 4 5 6 7 8 9 10
A5
所B 4
评 的
C
3
等D2
级E 1
1 3 10 5 4 2 1 6 8 8 4 31 2459831 1 13211 11211
16
解:(1)设期末考试的等第为y,空间想像力测 验答对的题数为x,列出二重交叉次数分布表:
9
• 验证步骤
– 第一,提出有关理论结构的说明,并据此设计 测量用的试题;
– 第二,提出可以验证该理论结构存在的假设说 明;
– 第三,采用各种方法收集实际的资料,以验证 第二步提出的假设的正确性;
– 第四,收集其他类型的辅助证据,淘汰与理论 结构相反的试题,或是修正理论,并重复第二 和第三步,直到上述的假设得到验证。
• 应用范围:教育测量(尤其是学业成就测 验);某些用于选拔和分类的职业测验
• 注意:不适用于能力倾向和人格测验
7
• 分析方法
– 逻辑分析的方法。请有关专家对测验题目与原 定内容范围的吻合程度作出判断。
– 统计分析法。从同一个教学内容总体中抽取两 套独立的平行测验,用这两个测验来测同一批 被试,求其相关。若相关高,表明测验内容效 度较高;若相关低,表示测验的内容效度较低。
• 效标关联可分为同时效度和预测效度
12
• 估计方法
– 相关法
• 积差相关 • 等级相关 • 点双列相关 • 二列相关 • 四分相关……
– 显著差异法
• 根据效标测量将被试分为两个极端组(如好与坏,成功 与失败等),然后检验这两组测验分数是否具有统计学 上的差异显著性
就现有资料,用什么方法可以判断教师们的意见是否 正确?
15
表2-1:
(答对的题数)
1 2 3 4 5 6 7 8 9 10
A5
所B 4
评 的
C
3
等D2
级E 1
1 3 10 5 4 2 1 6 8 8 4 31 2459831 1 13211 11211
16
解:(1)设期末考试的等第为y,空间想像力测 验答对的题数为x,列出二重交叉次数分布表:
9
• 验证步骤
– 第一,提出有关理论结构的说明,并据此设计 测量用的试题;
– 第二,提出可以验证该理论结构存在的假设说 明;
– 第三,采用各种方法收集实际的资料,以验证 第二步提出的假设的正确性;
– 第四,收集其他类型的辅助证据,淘汰与理论 结构相反的试题,或是修正理论,并重复第二 和第三步,直到上述的假设得到验证。
• 应用范围:教育测量(尤其是学业成就测 验);某些用于选拔和分类的职业测验
• 注意:不适用于能力倾向和人格测验
7
• 分析方法
– 逻辑分析的方法。请有关专家对测验题目与原 定内容范围的吻合程度作出判断。
– 统计分析法。从同一个教学内容总体中抽取两 套独立的平行测验,用这两个测验来测同一批 被试,求其相关。若相关高,表明测验内容效 度较高;若相关低,表示测验的内容效度较低。
教育测量与评价的质量特性 PPT课件
目的:诊断现状
预测效度:测验分数取得一段时间后才获得效标资料,计算这两种 资料间的相关系数
目的:预测某个个体将来的行为
效标效度的估计方法
相关法
直接计算测验分数与效标分数的相关系数
积差相关、等级相关、二列相关等
显著差异法
根据效标测量将被试分为两个极端组,检验这两个组测验分数是 否具有统计学上的差异显著性
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
1.区分度与难度的关系
难度(P) 1.00 0.90 0.70 0.50 0.30 0.10 0.00
区分度(D的最大值) 0.00 0.20 0.60 1.00 0.60 0.20 0.00
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
效标:检验测验效度的外在的、客观的标准,即效度的标准 效标效度,也称为效标关联效度,也称为实证效度 验证方法是指一个测验对处于特定情境中的个体行为进行预测时
的有效性 例:
高考成绩预测大学学习成绩 能力倾向测验预测工作成效
分类:
同时效度:测验分数与效标资料的取得约在同一时间内连续完成, 这两种资料的相关系数即为同时效度
框架及其假设 比如:中学生数学能力的研究
数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、 空间想象能力构成;数学能力与早期教育有关;数学能力与智 力正相关。
编制测验,施测并收集测验结果 分析测验结果,考查测试的结构效度,考查测验结果是否支持
理论构想
三、各类效度的验证方法
3.效标效度的验证方法
一、难度的含义
难度是指测验项目的难易程度,记为 P 在教育测量中
预测效度:测验分数取得一段时间后才获得效标资料,计算这两种 资料间的相关系数
目的:预测某个个体将来的行为
效标效度的估计方法
相关法
直接计算测验分数与效标分数的相关系数
积差相关、等级相关、二列相关等
显著差异法
根据效标测量将被试分为两个极端组,检验这两个组测验分数是 否具有统计学上的差异显著性
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
1.区分度与难度的关系
难度(P) 1.00 0.90 0.70 0.50 0.30 0.10 0.00
区分度(D的最大值) 0.00 0.20 0.60 1.00 0.60 0.20 0.00
教育测量与评价中题目(项目)的区分度
二、区分度对测验的影响
效标:检验测验效度的外在的、客观的标准,即效度的标准 效标效度,也称为效标关联效度,也称为实证效度 验证方法是指一个测验对处于特定情境中的个体行为进行预测时
的有效性 例:
高考成绩预测大学学习成绩 能力倾向测验预测工作成效
分类:
同时效度:测验分数与效标资料的取得约在同一时间内连续完成, 这两种资料的相关系数即为同时效度
框架及其假设 比如:中学生数学能力的研究
数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、 空间想象能力构成;数学能力与早期教育有关;数学能力与智 力正相关。
编制测验,施测并收集测验结果 分析测验结果,考查测试的结构效度,考查测验结果是否支持
理论构想
三、各类效度的验证方法
3.效标效度的验证方法
一、难度的含义
难度是指测验项目的难易程度,记为 P 在教育测量中
《教育评价与测量》课件
详细描述
标准化处理可以采用多种方法,如Z 分数法、百分位数法等,将原始数据 转换为标准分数或相对位置,以消除 不同评价指标之间的量纲和量级差异 。
04 教育评价的实施过程
评价计划的制定
确定评价目的和评价对象
确定评价方法和工具
明确评价的目标和评价的对象,为后 续的评价工作提供指导。
根据评价标准和指标,选择合适的评 价方法和工具,确保评价的有效性和 可靠性。
评价指标的权重分配
总结词
权重分配是根据各评价指标的重要程 度对其进行加权处理,以突出重要指 标在评价中的作用。
详细描述
权重分配应根据教育目标和评价目的 进行合理设置,可以采用专家打分、 层次分析法等定性与定量相结合的方 法进行权重赋值。
评价指标的标准化处理
总结词
标准化处理是将不同性质和单位的评 价指标转换为可比较的统一标准,以 便进行综合评价。
测量的效度与项目分析
效度评估
内容效度、结构效度和验证效度。
项目分析
对测验项目的质量进行评估,包括难度、区分度和项目功能差异等指标。
03 教育评价的指标体系
评价指标的确定
总结词
确定评价指标是教育评价的关键步骤,需要综合考虑教育目 标、学生发展需求和课程要求等因素。
详细描述
在确定评价指标时,应首先明确教育目标和期望学生达到的 发展水平,然后根据课程内容和教学要求,选择能够反映学 生知识、技能、态度等方面的可测量指标。
教育评价的类型和特点
总结词
教育评价可以分为多种类型,每种类型具有不同的特 点和应用范围。
详细描述
根据不同的分类标准,教育评价可以分为多种类型。按 照评价目的可以分为诊断性评价、形成性评价和终结性 评价;按照评价对象可以分为学生评价、教师评价、课 程评价、学校评价等。每一种评价类型都有其特定的应 用范围和特点,需要根据具体情境选择合适的评价类型 和方法,以达到最佳的评价效果。同时,不同评价类型 之间也存在相互补充的关系,应该根据实际需要综合运 用。
标准化处理可以采用多种方法,如Z 分数法、百分位数法等,将原始数据 转换为标准分数或相对位置,以消除 不同评价指标之间的量纲和量级差异 。
04 教育评价的实施过程
评价计划的制定
确定评价目的和评价对象
确定评价方法和工具
明确评价的目标和评价的对象,为后 续的评价工作提供指导。
根据评价标准和指标,选择合适的评 价方法和工具,确保评价的有效性和 可靠性。
评价指标的权重分配
总结词
权重分配是根据各评价指标的重要程 度对其进行加权处理,以突出重要指 标在评价中的作用。
详细描述
权重分配应根据教育目标和评价目的 进行合理设置,可以采用专家打分、 层次分析法等定性与定量相结合的方 法进行权重赋值。
评价指标的标准化处理
总结词
标准化处理是将不同性质和单位的评 价指标转换为可比较的统一标准,以 便进行综合评价。
测量的效度与项目分析
效度评估
内容效度、结构效度和验证效度。
项目分析
对测验项目的质量进行评估,包括难度、区分度和项目功能差异等指标。
03 教育评价的指标体系
评价指标的确定
总结词
确定评价指标是教育评价的关键步骤,需要综合考虑教育目 标、学生发展需求和课程要求等因素。
详细描述
在确定评价指标时,应首先明确教育目标和期望学生达到的 发展水平,然后根据课程内容和教学要求,选择能够反映学 生知识、技能、态度等方面的可测量指标。
教育评价的类型和特点
总结词
教育评价可以分为多种类型,每种类型具有不同的特 点和应用范围。
详细描述
根据不同的分类标准,教育评价可以分为多种类型。按 照评价目的可以分为诊断性评价、形成性评价和终结性 评价;按照评价对象可以分为学生评价、教师评价、课 程评价、学校评价等。每一种评价类型都有其特定的应 用范围和特点,需要根据具体情境选择合适的评价类型 和方法,以达到最佳的评价效果。同时,不同评价类型 之间也存在相互补充的关系,应该根据实际需要综合运 用。
教育测量与评价的质量特性培训讲义(PPT31页)
例:某校学生在一次测验中,第一题的答对率为 15%,第二题的答对率为25%,第三题的答对率为 35%,假定这三题所测量的能力近似正态分布, 问第一、第二、第三题的难度差异怎么样?
值越大,表示试题越难; 值越小,表示试题难度越容易
三、测验题目的恰当难度和恰当
难度的分布
• 测验题目难度水平的确定
– 测验题目难度水平的适当与否,取决于测验的目的、 性质和题目的形成。
(2)以两端组被试得分率的均值为难度系数
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
如果该题满分为10分,高分组得分总数为2100分, 低分组得分总数为830分,求该题难度?
二、难度指标的等距变换
• 运用标准分数(Z区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。 例:“你是否觉得自己很难与孩子交流思想和感情”
反之,难度值越接近1. 测验难度过大过小,都会造成测验分数偏离正态分布,从而使分数的全距缩小,使测验分数的离散程度变小。
一、难度与难度系数的计算
• 概念
– 难度:被试完成题目或项目任务时遇到的困难 程度
– 当P值接近于0或接近于1时,即被试在该题上全部答对 或全部答错,则该题无法提供个体的信息。而只当P值 接近于0.50时,题目才能把被试做最大的程度的区分。
– 但在实际工作中,若每一题的难度值均为0.50,那么此 测验很可能只能区分出好与差两种极端被试的差异, 却不能对各种被试作更精确的区分。因此,一般各题 的难度可在0.50+20之间。
• 题2:某道论述题满分12分,所有考生在这道 题上的平均得分为3.6分,求该题的难度?
• 题3:语文测验第五题最高得分为12分,这道 题考生的平均得分是8.5分,求该题难度?
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果该题满分为10分,高分组得分总数为2100分, 低分组得分总数为830分,求该题难度?
二、难度指标的等距变换
• 运用标准分数(Z分数)作为题目难度的指 标
例:某校学生在一次测验中,第一题的答对率为 15%,第二题的答对率为25%,第三题的答对率为 35%,假定这三题所测量的能力近似正态分布, 问第一、第二、第三题的难度差异怎么样?
二列相关系数的显著性检验可用下列公式进行:
被试总人数
因为Z= 1.79< Z0.05=1.96,未达到显著性水平,所以该题的区分度值得怀疑
教育测量与评价的质量特性培训讲义( PPT31 页)
教育测量与评价的质量特性培训讲义( PPT31 页)
– 积差相关系数
• 对于非二分法记分的题目,因得分具有连续性,在 被试团体较大时,可用认为题目分数服从正态分布
• 区分度D>0为正区分,D<0为负区分,D=0为零区 分。
• 区分度的高低直接影响到测验的信度和效度。
思考:区分度与信度、难度有什么关系?
假定试题的难度均为0.5
区分度
0.1225 0.16 0.20 0.30 0.40 0.50
信度 0.00 0.42 0.63 0.84 0.915 0.949
– 难度控制:
• 正确估计考生水平; • 弄清弄懂各知识点; • 掌握命题技巧。
第四节 教育测量与评价中题目 (项目)的区分度
一、区分度的意义
• 题目区分度(Discrimination)就是题目区别被试水 平能力的量度,常记为D。又叫鉴别力,它是评价 试题质量,筛选试题的主要指标与依据;
• 区分度的取值范围介于-1.00 — +1.00之间,值越 大,区分度效果越佳;
未通过该项目的 被试的平均总分
未通过该项目的 被试人数占总人
数的百分比
通过该项目的 被试人数占总 人数的百分比
例. 某班15名学生参加一次测验的总分及第一题 的得分情况如表3-10所示,计算第一题的区分度
教育测量与评价的质量特性培训讲义( PPT31 页)
解
需进行显著性检验,才能确定其是否具有显著性意义
– 二列相关系数
• 适用于两个变量都是正态连续变量,但其中一个变 量因为某种原因被人为地分为两类。
教育测量与评价的质量特性培训讲义( PPT31 页)
正态分布下百分比p与q分 割点所在位置的曲线高度
教育测量与评价的质量特性培训讲义( PPT31 页)
解:p = 0.5333, 查正态分布表,得Y = 0.3975, 于是:
– 但在实际工作中,若每一题的难度值均为0.50,那么 此测验很可能只能区分出好与差两种极端被试的差异, 却不能对各种被试作更精确的区分。因此,一般各题 的难度可在0.50+20之间。
• 测验难度对分数分布的影响
– 测验难度影响分数的分布形态。难度值越接近0, 测验的难度就越大,测验分数就越是集中在低分端, 其分数分布越呈现正偏态;反之,难度值越接近 1.00,其难度就越小,测验分数越集中在高分端, 分数分布呈负偏态。
• 计算方法
– 二值记分题的难度值计算
答对该题目的人数 被试人数
– 多值记分题的难度值计算
某题的平均得分 该题的满分
练习
• 题1:在100个学生中,答对第一题的30人,答 对第二题的60人,求第一、二道题的难度?比 较这两道题谁比谁难?
• 题2:某道论述题满分12分,所有考生在这道 题上的平均得分为3.6分,求该题的难度?
– 测验难度影响测验分数的离散程度。测验难度过大 过小,都会造成测验分数偏离正态分布,从而使分 数的全距缩小,使测验分数的离散程度变小。
– 测验难度影响测验的鉴别能力。在测验中,考生之
间相互配对比较的可能性越多,就越有利于准确地鉴 别考生的不同能力。
• 难度的影响因素及其控制
– 主要因素:
• 考察知识点的多少; • 考察能力的复杂程度或层次的高低; • 考生对题目的熟悉态度; • 命题的技巧。
教育测量与评价的质量特性培训讲义P PT课件
教育测量与评价的质量特性
第三节 难度与区分度
教育测量与评价的质量特性培训讲义P PT课件
一、难度与难度系数的计算
• 概念
– 难度:被试完成题目或项目任务时遇到的困难 程度
– 难度系数:定量刻画被试作答一个题目所遇到 的困难程度的量数,叫做题目的难度系数,也 常称为难度值,用符号P表示
被试总分减去某 题目得分而获得 的一个新变量 (D=X- Y)的方差
教育测量与评价的质量特性培训讲义( PPT31 页)
全体被试在某
题目上得分的 标准差
值越大,表示试题越难; 值越小,表示试题难度越容易
三、测验题目的恰当难度和恰当难 度的分布
• 测验题目难度水平的确定
– 测验题目难度水平的适当与否,取决于测验的目的、 性质和题目的形成。
– 当P值接近于0或接近于1时,即被试在该题上全部答对 或全部答错,则该题无法提供个体的信息。而只当P值 接近于0.50时,题目才能把被试做最大的程度的区分。
• 题3:语文测验第五题最高得分为12分,这道 题考生的平均得分是8.5分,求该题难度?
• 题4:60人参加考试,某题满分为12分,正确 得分累积是480分,求该题难度?
– 难度值的其他计算方法
(1)以全体被试失分率为难度系数
(2)以两端组被试得分率的均值为难度系数
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
(1)对点双列相关公式中的 和 进行差异显著性检验,若差异显著, 表明 显著; (2)采用积差相关系数显著性检验的方法进行检验; (3)如果样本量较大(n>50),也可用下面近似方法:
, 认为 在0.05水平上显Байду номын сангаас;
教育测量与评价的质量特性培训讲义( PPT31 页)
,认为 在0.01水平上显著。
教育测量与评价的质量特性培训讲义( PPT31 页)
要达到理想的测验信度,提高区分度是一个好办法
难度 1.00 .90 .70 .50 .30 .10 .00
区分度的最大值 .00 .20 .60 1.00 .60 .20 00
难度适中,可使区分度达到最大值
二、区分度的计算
• 相关法
– 点双列相关系数
通过该项目的被 试的平均总分
全体被试总 分的标准差
二、难度指标的等距变换
• 运用标准分数(Z分数)作为题目难度的指 标
例:某校学生在一次测验中,第一题的答对率为 15%,第二题的答对率为25%,第三题的答对率为 35%,假定这三题所测量的能力近似正态分布, 问第一、第二、第三题的难度差异怎么样?
二列相关系数的显著性检验可用下列公式进行:
被试总人数
因为Z= 1.79< Z0.05=1.96,未达到显著性水平,所以该题的区分度值得怀疑
教育测量与评价的质量特性培训讲义( PPT31 页)
教育测量与评价的质量特性培训讲义( PPT31 页)
– 积差相关系数
• 对于非二分法记分的题目,因得分具有连续性,在 被试团体较大时,可用认为题目分数服从正态分布
• 区分度D>0为正区分,D<0为负区分,D=0为零区 分。
• 区分度的高低直接影响到测验的信度和效度。
思考:区分度与信度、难度有什么关系?
假定试题的难度均为0.5
区分度
0.1225 0.16 0.20 0.30 0.40 0.50
信度 0.00 0.42 0.63 0.84 0.915 0.949
– 难度控制:
• 正确估计考生水平; • 弄清弄懂各知识点; • 掌握命题技巧。
第四节 教育测量与评价中题目 (项目)的区分度
一、区分度的意义
• 题目区分度(Discrimination)就是题目区别被试水 平能力的量度,常记为D。又叫鉴别力,它是评价 试题质量,筛选试题的主要指标与依据;
• 区分度的取值范围介于-1.00 — +1.00之间,值越 大,区分度效果越佳;
未通过该项目的 被试的平均总分
未通过该项目的 被试人数占总人
数的百分比
通过该项目的 被试人数占总 人数的百分比
例. 某班15名学生参加一次测验的总分及第一题 的得分情况如表3-10所示,计算第一题的区分度
教育测量与评价的质量特性培训讲义( PPT31 页)
解
需进行显著性检验,才能确定其是否具有显著性意义
– 二列相关系数
• 适用于两个变量都是正态连续变量,但其中一个变 量因为某种原因被人为地分为两类。
教育测量与评价的质量特性培训讲义( PPT31 页)
正态分布下百分比p与q分 割点所在位置的曲线高度
教育测量与评价的质量特性培训讲义( PPT31 页)
解:p = 0.5333, 查正态分布表,得Y = 0.3975, 于是:
– 但在实际工作中,若每一题的难度值均为0.50,那么 此测验很可能只能区分出好与差两种极端被试的差异, 却不能对各种被试作更精确的区分。因此,一般各题 的难度可在0.50+20之间。
• 测验难度对分数分布的影响
– 测验难度影响分数的分布形态。难度值越接近0, 测验的难度就越大,测验分数就越是集中在低分端, 其分数分布越呈现正偏态;反之,难度值越接近 1.00,其难度就越小,测验分数越集中在高分端, 分数分布呈负偏态。
• 计算方法
– 二值记分题的难度值计算
答对该题目的人数 被试人数
– 多值记分题的难度值计算
某题的平均得分 该题的满分
练习
• 题1:在100个学生中,答对第一题的30人,答 对第二题的60人,求第一、二道题的难度?比 较这两道题谁比谁难?
• 题2:某道论述题满分12分,所有考生在这道 题上的平均得分为3.6分,求该题的难度?
– 测验难度影响测验分数的离散程度。测验难度过大 过小,都会造成测验分数偏离正态分布,从而使分 数的全距缩小,使测验分数的离散程度变小。
– 测验难度影响测验的鉴别能力。在测验中,考生之
间相互配对比较的可能性越多,就越有利于准确地鉴 别考生的不同能力。
• 难度的影响因素及其控制
– 主要因素:
• 考察知识点的多少; • 考察能力的复杂程度或层次的高低; • 考生对题目的熟悉态度; • 命题的技巧。
教育测量与评价的质量特性培训讲义P PT课件
教育测量与评价的质量特性
第三节 难度与区分度
教育测量与评价的质量特性培训讲义P PT课件
一、难度与难度系数的计算
• 概念
– 难度:被试完成题目或项目任务时遇到的困难 程度
– 难度系数:定量刻画被试作答一个题目所遇到 的困难程度的量数,叫做题目的难度系数,也 常称为难度值,用符号P表示
被试总分减去某 题目得分而获得 的一个新变量 (D=X- Y)的方差
教育测量与评价的质量特性培训讲义( PPT31 页)
全体被试在某
题目上得分的 标准差
值越大,表示试题越难; 值越小,表示试题难度越容易
三、测验题目的恰当难度和恰当难 度的分布
• 测验题目难度水平的确定
– 测验题目难度水平的适当与否,取决于测验的目的、 性质和题目的形成。
– 当P值接近于0或接近于1时,即被试在该题上全部答对 或全部答错,则该题无法提供个体的信息。而只当P值 接近于0.50时,题目才能把被试做最大的程度的区分。
• 题3:语文测验第五题最高得分为12分,这道 题考生的平均得分是8.5分,求该题难度?
• 题4:60人参加考试,某题满分为12分,正确 得分累积是480分,求该题难度?
– 难度值的其他计算方法
(1)以全体被试失分率为难度系数
(2)以两端组被试得分率的均值为难度系数
练习
题5:某区域1000人参加考试,试卷第一题高分组 180人答对,低分组60人答对,求该题难度?
(1)对点双列相关公式中的 和 进行差异显著性检验,若差异显著, 表明 显著; (2)采用积差相关系数显著性检验的方法进行检验; (3)如果样本量较大(n>50),也可用下面近似方法:
, 认为 在0.05水平上显Байду номын сангаас;
教育测量与评价的质量特性培训讲义( PPT31 页)
,认为 在0.01水平上显著。
教育测量与评价的质量特性培训讲义( PPT31 页)
要达到理想的测验信度,提高区分度是一个好办法
难度 1.00 .90 .70 .50 .30 .10 .00
区分度的最大值 .00 .20 .60 1.00 .60 .20 00
难度适中,可使区分度达到最大值
二、区分度的计算
• 相关法
– 点双列相关系数
通过该项目的被 试的平均总分
全体被试总 分的标准差