教育测量的质量指标
教育测量与评价的质量特性难度与区分度
![教育测量与评价的质量特性难度与区分度](https://img.taocdn.com/s3/m/e12a744677c66137ee06eff9aef8941ea66e4b73.png)
难度的影响因素
测验项目的性质
测验目的
测验项目的性质不同,难度也会有所 不同。例如,记忆类的题目通常比分 析类的题目更容易。
测验目的不同,难度也会有所不同。 例如,选拔性测验通常比水平性测验 更难。
被试群体的水平
被试群体的水平越高,测验项目的难 度通常越低。反之,被试群体的水平 越低,测验项目的难度通常越高。
案例二:某评价体系的区分度评估
总结词
该案例介绍了如何通过区分度指标来评估某评价体系的区分度,以确定评价结果是否准确反映学生的 实际水平。
详细描述
首先,选取两个水平不同的学生群体作为参照样本。然后,根据评价体系对两个样本进行测试,并记 录每个样本在各个评价指标上的得分。接着,计算每个评价指标的区分度值,并分析其分布情况。最 后,根据区分度值的大小和分布情况,评估该评价体系的区分度是否良好。
案例三:难度与区分度的综合应用
总结词
该案例探讨了如何将难度和区分度两个 质量特性结合起来,以优化教育测量与 评价体系的设计。
VS
详细描述
首先,分析现有教育测量与评价体系的难 度和区分度情况。然后,根据分析结果, 调整试题难度和区分度指标,以提高评价 体系的准确性和可靠性。最后,通过实际 应用和验证,评估优化后的教育测量与评 价体系的效果。
难度的计算方法
通过率
通过率是指被试在测验项目上的 通过人数与总人数之比,可以直
观地反映测验项目的难度。
难度指数
难度指数是指被试在测验项目上的 平均得分与该测验项目的满分之比, 可以更准确地反映测验项目的难度。
难度曲线
难度曲线是以难度为横轴,通过率 为纵轴绘制的曲线,可以更全面地 反映测验项目的难度分布。
因素分析法
教育测量与评价——测量指标
![教育测量与评价——测量指标](https://img.taocdn.com/s3/m/10877d3c5f0e7cd1842536c4.png)
——测量的质量指标
教育测量的质量指标
衡量教育测量的质量,可采用四个指标: • 信度 主要对整个测量而言。 • 效度 • 难度 主要对测量的项目而言。 • 区分度
一、信度概述
(一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具有较高的信度, 也就是说,一个好的测量工具,只要遵守操作 规则,其结果就不应随工具的使用者或使用时 间等方面的变化而发生较大的变化。 必须从以下两个方面去理解测量的信度: 信度指实测值(X)和真值(T)相差的程度; 信度指两次重复测量或等值测量之间的关联程度。
(2)建立结构效度的步骤
A、提出理论假设; B、根据假定结构拟定测题,编制测验; C、以测验结果为根据来验证假设结构中 的各种因素是否成立。
(3)结构效度的估计
A、因素分析法 其目的是把一些具有错综复杂关系的因素归结为 数量较少的几个综合因素或称共同因素,并以 此测验所测之特质对测验分数作出解释。 B、多元特质多重方法矩阵法 是由肯贝尔和菲斯克1959年提出的最受欢迎的一 种结构效度的评估方法。 这种方法的设想:若采用两种方法以上的方法去 测量两种以上的特质,那么这些测量结果之间 可以形成一个多元特质多重方法矩阵。
(三)提高信度的方法
1、影响测量信度的主要因素 (1)被试方面 (2)主试方面 (3)施测情境方面 (4)测量工具方面 (5)两次施测的间隔时间方面
2、提高测量信度的常用方法
(1)适当增加测验的长度 (2)测验的难度要适中 (3)测验的内容应尽量同质 (4)测验的程序应统一 (5)测验的时间要充分 (6)测验的评分要尽量做到客观化,减少 评分误差
效标关联效度的估计方法
(1)相关法 由于测验分数和效标分数这两个变量的类型不同, 二者相关系数的计算方法也就不同。 A、积差相关法:适用于两个变量为连续变量 进行显著性检验: 自由度df=N-2,检验的是两个变量,都减去2; 置信度取0.05,查相关系数界值表,寻找临界值; 结论:r>临界值,说明显著相关,效度高;r<临 界值,说明无相关,效度低。
教育测量的质量指标--信度概述
![教育测量的质量指标--信度概述](https://img.taocdn.com/s3/m/5f93a6a62e3f5727a4e96295.png)
)
E=x-T
(公式1-2
(一)信度指实测值和真值相差的程度
1、试比较以下两次测量结果(只进行 一次)的信度:
用尺子量100cm高的一个儿童,得到1cm 的绝对误差;量185cm高的一位运动员 ,也得得到1cm的绝对误差。
要比较两种测量结果的信度,一定要看误差分数(E )对于真分数(T)所占的百分数是多少。这个百分 数表示该实得分数(x)的相对误差。其计算式如下 :
rxx
1-σE2 σ2x
=1- 2.8 =0.865 20.8
(二)信度指统计量与参数之间的接近程度
❖统计量是指样本上的各种数字特征。(如样本平均数 、标准差等);参数是总体上的各种数字特征(如总体 平均数、标准差等)。 ❖在统计学中,统计量越接近参数,这个统计量的可靠 性越高。而要知道统计量与参数的接近程度,可以对参 数进行区间估计。
NXY x Y
r A1A2 [N X 2 ( X )2 ] [N Y 2 ( Y )2 ]
12 6420 280 286
[12 6594 2802 12 6912 2862
采用重测法计算稳定系数时,要注意的问题:
1、两次测验之间的时间间隔要适宜,尽可能在 较短的时距内进行。
➢ 信度(reliability):指的是测量结果的 稳定性和可靠的程度,亦即测量的结果是否 真实、客观地反映了考生的实际水平,可记 为rxx。
➢ 具体而言,可以从以下三方面来理解测量的 信度:
(一)信度指实测值和真值相差的程度
x=T+E (公式1-1)
x表示实测值,T表示真值(是未知的,可以
把多次测量的实测值的平均值作为真值的近似
2、怎样估计对一组人或一个人测量多次的实测 值与真值(真分数)的差异程度呢?
教育数据类别与测量质量指标
![教育数据类别与测量质量指标](https://img.taocdn.com/s3/m/89b52e7211661ed9ad51f01dc281e53a5802518e.png)
教育数据类别与测量质量指标引言近年来,随着信息技术的迅猛发展和教育领域信息化的推进,教育数据的收集、分析和利用逐渐成为教育研究和决策的重要工具。
教育数据的分类与测量质量指标是教育数据分析的基础,对于教育领域的决策、政策制定和教育评价具有重要作用。
本文将介绍教育数据的常见分类和测量质量指标的相关概念和方法。
教育数据的分类教育数据的分类主要根据数据的来源、类型和涵义进行划分,以下是常见的几种教育数据的分类:1. 学生基本信息数据学生基本信息数据包括学生的个人信息、家庭背景信息等,常见的有学生的性别、年龄、籍贯、父母的教育程度、家庭收入等。
这些数据对于分析学生的学习表现、学业发展和影响因素具有重要意义。
2. 教师信息数据教师信息数据包括教师的个人信息、教育背景、工作经验等,常见的有教师的性别、年龄、教育程度、所教学科、授课年级等。
这些数据对于分析教师的教学效果、教学经验和教育资源分配具有重要作用。
3. 学生成绩数据学生成绩数据是指学生在各个学科或课程中的表现和成绩情况。
这些数据包括学生的考试成绩、作业成绩、平时表现评价等,常见的有学科成绩、总评成绩、排名等。
这些数据对于评价学生的学业水平、学科素养和学习能力具有重要意义。
4. 学生行为数据学生行为数据是指学生在学习和生活中的行为表现和习惯。
这些数据包括学生的出勤情况、课堂参与度、作业完成情况、违纪记录等,常见的有缺勤次数、迟到次数、旷课次数、课堂互动次数等。
这些数据对于分析学生的学习态度、行为习惯和学习方式具有重要作用。
5. 教育资源数据教育资源数据包括学校的师资力量、教育设备、教育经费等。
这些数据对于评价学校的教学质量、教育资源配置和教育投入产出效益具有重要意义。
测量质量指标教育数据的测量质量指标是衡量数据质量高低的重要标准。
以下是常用的几种教育数据的测量质量指标:数据准确性指数据与事实之间的一致性和准确性程度。
数据准确性的评价可以通过数据比对、数据验证和数据校验等方式进行。
试题质量分析
![试题质量分析](https://img.taocdn.com/s3/m/722383475f0e7cd184253686.png)
rxx12 rr=1 2 0 0..4 45 55 5=0.625
信度系数多大为宜? 信度在0.8以上基本合格,一般要求 0.9以上。
对于学科测验,信度系数要求达到 0.9以上,智力测验要求达到0.8以 上,品德测验能达到0.6以上即可。
67
19
15.0%
72
21
16.5%
77
17
13.4%
82
14
11.0%
87
12
9.5%
92
7
5.5%
97.5
2
1.6%
一、测验分数的分布状态 2、分数分布直方图 将分数的不同等级的频数用矩形块 标绘的图表(每一矩形的面积对应于 频数)。
学生成绩次数分布直方图
组距
1 2 3 4 5 6 7 8 9 10 11 12
不重不漏
分数区间 40~44 45~49 50~54 55~59 60~64 65~69 70~74 75~79 80~84 85~89 90~94 95~100
学生成绩分布表
中值Xc
表述 组限
42
47
人数f 2 4
占总人数的百分比 1.6% 3.1%
52
6
4.7%
57
10
7.9%
62
13
10.2%
B
3
3
6
C
3
0
3 N 5
D
2
1
E
1
0
N
( X i X )2
i 1
N
3 X 12 / 5 2.4
1
Y 5 / 5 1.0
X = 0.8, Y 1.2 =1.1
3 2 .4 1 1 + 3 2 .4 3 1 + 3 2 .4 0 1 + 2 2 .4 1 1 + 1 2 .4 0 1
教育数据类别与测量质量指标
![教育数据类别与测量质量指标](https://img.taocdn.com/s3/m/d2df15af52d380eb63946d77.png)
第二节 教育测量的质量特性
教育数据类别与测量质量指标
一、教育测量的信度和效度
n 一个高质量的测验,它的结果是可靠而 且是有效的;
n 可靠性(信度)和有效性(效度)是评 价测验质量的两个重要指标。
教育数据类别与测量质量指标
n 当一个测验多次测量的结果一致时,它 就被认为是可靠的;
n 估计测量一致性程度的指标被称为信度。
6
90
97
85
97
7
80
89
48
89
r
0.91
0.26
教育数据类别与测量质量指标
相关系数与相关程度表一览表表
|r|
相关 程度
0 ≤0.3
零相 关
微相关
0.3<|r| ≤0.5
切实相关
0.5< |r| ≤0.8
密切相关
>0.8
1.0
高度相 完全相
关
关
教育数据类别与测量质量指标
八、差异显著性检验
★假设检验的基本原理 1.假设 n 虚无假设(零假设):是关于当前样本所属的 总体(指参数)与假设总体(指参数)无区别 的假设,一般H0表示。 n 备择假设(研究假设):是关于当前样本所属 的总体(指参数)与假设总体(指参数)相反 的假设,一般用H1表示。 由于直接检验备择假设的真实性困难,假设检 验一般都是从虚无假设出发,通过虚无假设的 不真实性来证明备假设的真实性。
2. 标准差(σ或S)
标准差概念:标准差是指离差平方和后平均的 方根。
教育数据类别与测量质量指标
问题1:某班甲乙两组在一次测验中的
成绩分别为65,68,71,72,74 (均分为70分)和 30,50,86, 90,94(均分为70分)。如何评 价两组的学习情况?
教育测量的质量指标
![教育测量的质量指标](https://img.taocdn.com/s3/m/697aad5b974bcf84b9d528ea81c758f5f61f292b.png)
教育测量的质量指标引言教育测量是评估学生学习成果和教学效果的重要手段。
通过对学生的能力、知识、技能等方面进行测量,可以了解他们的学习状况以及教学的有效性。
然而,要确保教育测量的质量,需要依据一系列的指标进行评价和监控。
本文将介绍教育测量的质量指标,并讨论其意义和应用。
1. 可靠性可靠性是指测量工具在重复使用中能够得到相似结果的程度。
一个可靠的测量工具应该在不同的时间、不同的场合和不同的评估者之间产生一致的结果。
常用的衡量可靠性的指标包括内部一致性、重测信度和等价性。
内部一致性(Cronbach’s Alpha)内部一致性是指测量工具中各项指标之间相互关联的程度。
通过计算各项指标的相关系数,可以评估测量工具内部一致性的高低。
一般来说,Cronbach’s Alpha系数在0.7以上被认为是可接受的,越接近1表示内部一致性越高。
重测信度(Test-Retest Reliability)重测信度是指在不同时间进行相同测量的结果之间的相关性。
通过将同一测量工具在两个不同时间点进行测试,并计算其相关系数,可以评估测量工具的重测信度。
一般来说,相关系数应该大于0.7才被认为是可靠的。
等价性(Parallel Forms Reliability)等价性是指在不同测量工具中相同或类似的项目之间的一致性。
通过将不同但具有相似性质的测量工具同时应用于被测对象,并计算其相关系数,可以评估测量工具的等价性。
一般来说,相关系数应该大于0.7才被认为是等价的。
2. 效度效度是指测量工具能够准确地衡量所要测量的内容的程度。
一个有效的测量工具应该与被测对象所具有的实际水平或其他标准进行相关。
常用的衡量效度的指标包括内容效度、构造效度和效标关联效度。
内容效度(Content Validity)内容效度是指测量工具中各项指标是否能够全面、恰当地反映所要测量的内容。
通过专家评价、内容分析等方法,可以评估测量工具的内容效度。
一般来说,测量工具应该包含全面的内容领域,并且各项指标与内容领域高度相关。
《教育测量与评价》客观答案
![《教育测量与评价》客观答案](https://img.taocdn.com/s3/m/0c75f9fe4693daef5ef73de9.png)
《教育测量与评价》考查复习内容201406一、概念解释教育评价、测验的信度、形成性测量与评价、诊断性测量与评价教育评价:是指按照一定的价值标准和教育目标,利用测量或非测量的方法系统地收集资料信息,对教育的发展变化及其影响教育发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。
测验的信度:即测验的可靠性,指的是测量的一致性程度。
简单地说就是测量结果的可信程度。
形成性测量与评价:是在教学过程中经常实施的,在性质上大致相当于现在的中小学单元测验。
诊断性测量与评价:是对经常表现出学习困难的学生所做的测量与评价,它的目的是对个人的问题行为及其原因进行诊断。
二、选择题1.在教学过程中经常实施的,在性质上相当于现在的中小学单元测试,我们称之为【形成性测量与评价】。
2.在编制客观性试题时,题干要尽可能地采用【正面陈述】。
3.科举考试制度始于【隋朝(隋炀帝大业二年(606))】。
4.测量与评价的指导思想是【创造适合学生发展的教育】。
5.被称为教育评价的催生物的是美国的一项著名研究,它是【八年研究】。
6.测量结果的稳定性程度是指【信度】。
7.一个测验或量表实际能测出其所要的特性的程度,这一概念是【效度】。
8.衡量测量题目质量的两个重要指标是【难度与区分度】。
9.表示每项评价指标在指标体系所占得重要性程度,并赋予相应的值,这一概念是【指标权重】。
10.最早的测量理论是【经典测验理论】11.一般将测量理论分为【经典测验理论】、概化理论和项目反应理论三大类,或称三种理论模型。
12.现代教育科学研究的三大领域:教育基本理论研究、【教育测量与评价科学研究】、教育发展理论研究。
13.教育测量的质量指标有:【信度】(可靠性)、【效度】(有效性)、【难度】(难易程度)和【区分度】(鉴别度)14.测量的分类,从低级到高级分:【称名量表】、顺序量表、等距量表、比率量表三、简答题1.教育测量的含义与特点是什么?含义:针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
《教育测量与评价》复习资料
![《教育测量与评价》复习资料](https://img.taocdn.com/s3/m/127711c385254b35eefdc8d376eeaeaad1f316da.png)
《教育测量与评价》复习资料教育测量与评价第⼀章教育测评概述第⼀节教育测量概述⼀、什么是测量(⼀)测量的定义⼀般认为,测量是根据法则给事物分派数字。
具体来说,是指根据⼀定的法则和程序,对事物或现象在数量上的规定性加以描述和确定的过程。
这⾥包含了测量应有的三个特性:1、法则。
2、事物。
3、数字。
(⼆)测量的三要素1、单位。
2、参照点。
3、量表。
⼆、什么是教育测量(⼀)教育测量的定义教育测量是根据测量学的原理和⽅法对教育现象及其属性从量的规定性上予以确定和描述的过程。
(⼆)教育测量的特点1、测量结果的间接性。
2、度量单位的相对性。
3、测量对象的复杂性。
4、测量⽬的的针对性。
第⼆节教育评价概述⼀、什么是评价评价就是根据某种价值观对事物及其属性进⾏判断、衡量,或者说是衡量、判断⼈或事物的价值。
⼆、什么是教育评价教育评价是根据⼀定的价值观或价值标准,运⽤可⾏的科学⼿段(包括测量或⾮测量),通过系统地搜集信息、分析解释,对教育现象进⾏价值判断,从⽽为不断优化教育和教育决策提供依据的过程。
三、教育评价与教育测量的关系测量是依据⼀定的法则和程序,对事物或现象在数量上的规定性加以描述和确定的过程;评价是泛指根据⼀定的观念和标准衡量、判断⼈物或事物的价值。
测量的结果只有通过评价的解释才能揭⽰其实际意义。
测量是依据,评价是测量的具体体现。
测量关⼼的是数量的多少,评价关⼼的是价值的⾼低;测量是纯客观的,评价带有主观性;测量是⼀种单⼀的活动,评价则是⼀种综合的活动。
教育测量就是借助⼀定的⼯具,给教育现象赋值,来获取评价对象数量的⽅法。
教育测量是教育评价获得数据资料的重要⼿段。
教育测量可以为教育评价提供价值判断的基本数量事实,是教育评价的基础;教育评价是教育测量过程的延续,是对教育测量结果的解释与应⽤。
值得指出的是,教育评价并⾮⼀定以教育测量为基础,有时教育评价和教育测量是同义词。
⽐如,当教师对学⽣的成绩进⾏测验时,可以说是测量学⽣的成绩或评价学⽣的成绩。
教育质量的测量与评估
![教育质量的测量与评估](https://img.taocdn.com/s3/m/d312657dbdd126fff705cc1755270722192e59ad.png)
教育质量的测量与评估教育,作为培养下一代、推动社会进步的重要力量,其质量的高低直接关系到个人的成长和社会的发展。
而如何准确地测量和评估教育质量,则是教育领域中一个至关重要的课题。
教育质量的测量并非是一个简单的任务,它涉及到多个方面和复杂的因素。
首先,我们需要明确教育质量的内涵。
教育质量不仅仅是学生在考试中取得的分数,更包括学生在知识、技能、态度、价值观等多方面的发展。
它关乎学生是否具备了适应未来社会的能力,是否拥有了批判性思维、创新能力、合作精神以及良好的道德品质。
在测量教育质量时,学业成绩是一个常见的指标。
考试分数、作业完成情况、学科竞赛的表现等都可以在一定程度上反映学生对知识的掌握程度。
然而,过度依赖学业成绩来评估教育质量是片面的。
因为学业成绩可能无法全面展现学生的综合素质,比如创造力、沟通能力、解决问题的能力等。
除了学业成绩,学生的学习过程也值得关注。
观察学生在课堂上的参与度、提问的积极性、与同学的合作情况等,可以了解他们的学习态度和方法。
教师的教学方法和教学效果同样对教育质量有着重要影响。
教师是否能够激发学生的学习兴趣,是否能够根据学生的差异进行因材施教,这些都是衡量教育质量的重要因素。
评估教育质量还需要考虑教育资源的投入和利用情况。
学校的硬件设施,如图书馆、实验室、体育场馆等的配备是否齐全;软件方面,如师资队伍的素质、课程设置的合理性等,都直接关系到教育质量的高低。
充足且合理利用的教育资源能够为学生提供更好的学习环境和条件。
教育质量的评估方法也多种多样。
标准化测试是一种常见的方式,但它存在一定的局限性。
标准化测试往往侧重于对知识的记忆和理解,而对于学生的高阶思维能力和实际应用能力的评估可能不够全面。
此外,观察法、问卷调查法、案例分析法等也被广泛应用于教育质量的评估中。
观察法可以让评估者直接观察课堂教学、学生的行为表现等,获取直观的信息。
问卷调查法则能够收集到来自学生、家长、教师等多方面的反馈,了解他们对教育质量的看法和感受。
教育测量与评价(简答题和名词解释)
![教育测量与评价(简答题和名词解释)](https://img.taocdn.com/s3/m/5b59a229fab069dc5122010e.png)
教育测量与评价(简答题部分)什么是表现性评价:一种性质的评定方法新型的更加直接的考察学生综合运用的知识、解决实际问题能力的方法,在促进学生发展和改进教学方面有显著作用表现性评价 1优点:有助于测查学生综合运用所学知识解决实际问题的能力优化教学过程,使学生的能力尽可能得到发展激发学生的学习动机,为终身学习打基础注重知识技能的整合与综合运用复杂的任务表现教学性评价与教学活动有密切的联系2缺点:信度问题效度问题实用性问题耗时过多不能评价所有类型的学习目标高利害评使用表现性评价就要十分谨慎品德测试的意义:有利于学生思想上的自我教育和学校德育工作的顺利进行激励先进和鞭策后进有利于学生德育管理德育和行为科学研究的重要手段品德测评的类型:诊断性形成性总结性品德测评的基本要求:外显行为测评和道德认识测评相结合单项测评和整体测评相结合定向性测评和定量测评相结合测评指标体系确立的依据:社会的需要德育大纲德育结构学生年龄特征测评基本要求:重视指标体系的开放性教育性处理好普遍性和特殊性的关系稳定性和发展性的关系统一性的灵活性的关系品德测评的方法、运用:定时考核(学生成绩测量)问卷测评(问卷或量表测试)项目评分(设置一些测试的项目,给予一定的分数,对学生的思想和行为表现进行测量)情景测验(设计情景,展开活动)社会关系测量(通过学生回答,来了解学生的人际关系)意向测评法(Q技术、和语义分析)行为观测法(有目的有计划的考察学生思想行为)教师评价的特点:是一个活动过程,一个特殊的连续活动,包括一系列的方法和步骤有目的有计划的活动过程根本目的在于形成价值判断,进而做出选择评价者与被评价者是同一的教师评价的主体:行政部门、学校、教师参评(教育行政部门依法对教育人力支援进行管理对教师的考核人工作进行指导和督导有助于提高教师的信度与效度)学生参评(是教学过程中的主体,直接承受着教师教学效能的影响)家长参评(家长是教育的投资方,间接的把学生的意见反馈给教师的有效手段)教师自评的意义:鼓励教师积极主动的进入评价角色增加教师评价的信度自我评价其实是教师自我反思、自我教育、激发内在动因的过程和自我提高的过程教育评价的模式:实证范式评价(行为目标评价操作主意模式)人文范式(发展性评价模式自主性评价模式团体性评价模式教师校本)教师评价程序:确定目的确定评价者制定指标体系确定评价方式评价过程的实施指标体系的构成:素质评价指标(教师实施教育教学的基础)职责评价指标(实施教育教学的关键)绩效评价指标(最终目标教师评价过程:教师自我评价和学校评价教师评价主要工具:工作评估报告(1工作评估报告表:教师个人资料评价专家资料目的评定签字2评估具体内容3观察、总结)教师评价案例:日本1教师与校长、教导主任会面,确定自己的教学目标、教学方向,并就完成程度做自我评价2教导主任做第一次评估,校长通过观摩教师授课进行最终评估3评估综合评估过程中参考家长和学生的意见。
教育测量的质量指标--信度概述
![教育测量的质量指标--信度概述](https://img.taocdn.com/s3/m/8c612cef1ed9ad51f01df2e4.png)
ΣX=280 ΣY=286 ΣX2=6594 ΣY2=6912 ΣXY= 6420
n 判别两组数据谁好谁差,不能只靠对平均数的 统计和比较,关键是确定这两组数据偏离各
自的平均数的大小。为了消除数据容量的影 响,我们借鉴研究加权平均数的方法,选用 各个偏差的平方的平均数,来描述一组数据
偏离其平均数的大小,这就是方差。
n 根据假设,实得分数的方差应等于真分数的方差加上 测量误差的方差。即:
(二)信度指统计量与参数之间的接近程度
❖统计量是指样本上的各种数字特征。(如样本平均数 、标准差等);参数是总体上的各种数字特征(如总体 平均数、标准差等)。 ❖在统计学中,统计量越接近参数,这个统计量的可靠 性越高。而要知道统计量与参数的接近程度,可以对参 数进行区间估计。
(二)信度指统计量与参数之间的接近程度
把多次测量的实测值的平均值作为真值的近似
值),E表示误差。
n
)
E=x-T
(公式1-2
(一)信度指实测值和真值相差的程度
n 1、试比较以下两次测量结果(只进行 一次)的信度:
n 用尺子量100cm高的一个儿童,得到1cm 的绝对误差;量185cm高的一位运动员 ,也得得到1cm的绝对误差。
•要比较两种测量结果的信度,一定要看误差分数( E)对于真分数(T)所占的百分数是多少。这个百 分数表示该实得分数(x)的相对误差。其计算式如 下:
一、信度的概念
➢ 信度(reliability):指的是测量结果的 稳定性和可靠的程度,亦即测量的结果是否 真实、客观地反映了考生的实际水平,可记 为rxx。
➢ 具体而言,可以从以下三方面来理解测量的 信度:
经典教育测量理论试题质量评价指标述评
![经典教育测量理论试题质量评价指标述评](https://img.taocdn.com/s3/m/a0706b383968011ca300914e.png)
教育理论研究经典教育测量理论试题质量评价指标述评仲红(青岛大学图书馆,山东青岛266071)摘要:考试试题质量评价是教育测量学的一项重要内容,是改革教学和考试制度的重要工具。
经典教育测量理论的试题质量评价指标主要包括信度、效度、区分度和难度等。
研究表明,这些评价指标虽是试题质量评价的基础,但却难以较为准确地评判试题的质量。
科学的评价试题质量的方法离不开专家的逻辑判断,应当是主、客观评价方法的有机结合,即不仅要知其数量多少,更要了解其发展变化过程。
关键词:试题质量;信度;效度;难度;区分度中图分类号:G40一058.1文献标识码:A文章编号:1009—010×(2008)09一0007—03一、引言考试试题质量综合评估是教育测量学的一项重要内容,它是改革教学、实行科学化教育管理的重要工具,教育过程中的各项教育问题,离开对考试试题质量的评价都无从谈起。
经典教育测量理论有一整套评价试题质量的方法,常用的数量化指标就有信度、效度、区分度和难度等,然而,从这些评价方法或评价指标本身来看,它至少存在两个方面的缺陷:其一是现行的试题质量评价方法重在数量的测定,即着重以数量化的标准客观地表示考试的特质,评价结果过分依赖考试的质量以及学生的考试成绩。
只有考试成绩真实,考试组织得当,对几个数量化指标的测算才是可靠的;否则是不可信的。
毋庸讳言,因考试组织及评分标准不一致等方面的原因,考试成绩不可避免的会存在误差,有时这些误差会超出可容许的范围。
如著名教育家斯太奇就曾做过这样一个实验,他把同一份试卷复印142份,请142位教师评分,结果评分为35种,从50分到98分,因此,在这种情况下,仅仅依据学生考分来评估试题质量,难免会有失偏颇。
其二是现行评价方法所依赖的几个数量化指标的测算方法,还可以做进一步改进,如试题内容效度评价指标作为一个量化指标目前尚无一种科学的测算方法:因此,无论是教育管理者还是教师都有必要重新认识和评价经典教育测量理论中的试题质量评价指标。
第9讲,教育测评的质量指标(信度)
![第9讲,教育测评的质量指标(信度)](https://img.taocdn.com/s3/m/ba0bea0b79563c1ec5da71b4.png)
第九讲教育测评的质量指标(信度)九、十、十一讲,主要介绍和探讨教育测量与评价的信度、效度,教育测量与评价中题目的难度、教育测量与评价中题目的区分度。
学习本章内容时,要理解概念和方法,比较不同概念和不同方法之间的联系与区别,通过自己归纳与分类整理,更好地掌握本章内容。
学完本章后,你应当能够:了解信度、效度、难度、及区分度;依据不同情况采用恰当的方法计算测验的信度;领会标准参照测验的信度与一般测验信度的区别;依据不同情况选用恰当的方法对测验的效度进行评价;计算题目的难度;分析题目的区分度;领会测验的信度与测量分数误差之间的关系。
重点内容是:掌握同质性信度即内部一致性信度的各种分析方法;掌握标准参照测验的信度的分析方法;掌握测验的内容效度的分析与研究方法;掌握测验题目难度的各种分析方法;知道估计题目区分度的方法。
(一)教育测量与评价的信度教育测量与评价的信度,简单地说就是教育测量与评价结果的可信程度,记为。
如果用同一测量工具反复测量同一种特质对象,则多次测量结果间的一致性程度也叫信度。
测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。
本节研究信度的估计方法。
一、重测信度和复本信度1.重测信度重测信度指的是用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。
重测信度有个基本假设,那就是假设某测验所要测量的潜在特质,短期内不会随着时间推移而改变。
因此,重测信度的用途也在于估计测验结果(以测验分数表示)经过一段时间后是否仍然维持稳定、一致的特性,又称为稳定性系数。
重测信度适用于异质性测验。
所谓异质性测验就是说一个测验包括几个不同的部分,这几个部分分别测量着几个不同的心理特质,它们之间可能并不存在相关,或相关较低。
对于这种异质性测验计算重测信度是比较可靠的。
此外,重测信度比较适用于速度测验而不太适用于难度测验。
速度测验的测题数量多,而且有一定的时间限制,被试很难记住第一次施测的内容,所以第二次施测较少受记忆的影响,而难度测验则相反。
第二章教育测量的质量指标1
![第二章教育测量的质量指标1](https://img.taocdn.com/s3/m/af516feccc22bcd127ff0c1b.png)
PPT文档演模板
第二章教育测量的质量指标1
(二)等值性系数( coefficient of equivalence )
n 以A、B两型英语复本测验对初中三年级10个学 生施测,为避免由测验施测顺序所造成的误差, 其中5个学生先做A型测验,休息15分钟后,再 做B型测验;而另5个学生先做B型测验,休息15 分钟后,再做A型测验。10个学生A型测验结果 记为X,B型测验结果记为Y,其测验的复本信度 如何?
PPT文档演模板
第二章教育测量的质量指标1
(二)等值性系数( coefficient of equivalence )
n 缺点:
n 1、编制两个完全相等的测验是很困难的,如果 两个复本过分相似,则变成再测形式,而过分不 相似,又使等值的条件不存在;
n 2、两个复本测验有可能在某种程度上测量了不 同的性质,这就会低估测验的信度;
n 估计方法有两种: n 1、分半法(Split-half method):是将一次测验分成两
个假定相等而独立的两部分来记分。通常是以题目的奇数 为一组,偶数为一组,计算两级的相关系数,最后用斯皮 尔曼-布朗公式校正,求得整个测验的信度系数。
n 斯皮尔曼-布朗公式为:
rxy 为两组测验分数的相关系数, rtt表示整个测验的 信度系数。
PPT文档演模板
第二章教育测量的质量指标1
•问题:为什么不直接用奇数题总分与偶数 题的部分计算出的相关系数作为整个测验 的信度系数而要加以校正?
•这是因为测验的长度(指量表中所包含的题目 数)对信度的大小有一定的影响,测验越长,信 度越高。
•而用分半法,实际上等于把整个测验长度减小 了一半,所以按分成两半的资料求出的信度必然 低于整个测验的信度。
教育测量的质量指标概述
![教育测量的质量指标概述](https://img.taocdn.com/s3/m/41f209a26294dd88d0d26b6f.png)
•表2-1:
(答对的题数) 1 2 3 4 5 6 7 8 9 10
A5
所B 4
评 的 等
C D
3 2
级E 1
1 3 10 5 4 2 1 6 8 8 4 31 2459831 1 13211 11211
•解:(1)设期末考试的等第为y,空间想像力测 验答对的题数为x,列出二重交叉次数分布表:
• 为了证明这个论点,他们让刚入高中的103名学生作10道 题,测量其空间想像力。为避免知道了某些学生的刚入高中 时的成绩影响以后考试的评分,试卷暂不评阅。立体几何学 完后,进行考试,按得分多少把成绩分为五等(A、B、C、D 、E)分别得5、4、3、2、1分。这时才评阅入学时的试卷, 统计出期末得5、4、3、2、1分者在入学测验中分别答对1道 题至10道题的人数(见表2-1)。
• ⑵学生的心理活动、心理特征与其外部表现之间, 一般仅具有相关关系而无函数关系,外部行为并不 能准确无误地反映某种心理状态。
• ⑶教育测量的对象不是物而是有主观能动性的人。 人能有意识地调节自己的外部行为,掩盖自己的内 心活动,这就增加了认识其精神现象的难度。
二、效度的统计学原理及其与信度的关系 1、效度的统计学原理
采用求统计量的公式进行计算,其公式有以下三种形式 :
内容效度主要应用于成就测验、学科测验、选拔和分类 职业测验。
内容效度不适合用于能力倾向和人格测验。
(二)效标关联效度
• 又可称为经验效度或统计效度,是以测验分数和 效标之间的相关系数来表示测验效度的高低的。
• 效标就是足以显示测验所欲测量的特性的变量或 足以显示测验所欲预测的特性的变量。它是用来 检验测验效度的外在的、客观的标准和尺度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 教育测量的质量指标第一节 信度第二节 效度第三节 难度第四节 区分度一、 信度的概念信度指的是测量结果的稳定性或可靠的程度。
也就是测量结果是否真实、客观地反映了考生的实际水平。
具体而言,可以从以下三方面来理解测量的信度。
(一)信度指实测值与真值相差的程度测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真实值。
由于各种原因,实测值一般不会完全等于真实值,两者之差称为测量误差。
测量误差越小,测量的信度就越高。
用一个等式表示如下:x = T + E式中,x 表示实测值,T 表示真值,E 表示误差。
但测量的真实值是未知的,因此,误差也就无法求出来。
当然,可以把很多次测量的实测值的平均值作为真实值的近似值,但这在实践上不具有可操作性。
所以,根据这种理解,无法求出信度的大小。
(二)信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。
统计量是指样本上的各种数字特征(如样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差等)。
统计量越接近参数,这个统计量的可靠性就越高,因此,信度就越高。
要知道统计量对参数的接近程度,可以对参数进行区间估计。
这种方法对估计真分数也很有用的。
但这种理解也无法计算出信度。
(三)信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量以后,计算两次测量的相关系数,相关系数越高,说明测量的信度就越高;反之,就越低。
对于信度的这种理解,有利于信度的计算。
但重复测量会受到被测对象的经验、知识增长等因素的影响,等值测量又较难编制,因此,采用这种方法计算信度时,也是有误差的。
信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。
因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。
只有信度高的测量才能成为教育工作者有用的工具,否则,测量的结果是无意义的、无效的。
二、 信度的理论公式根据上述对实数的分解,可将实得分数的方差分解为:2x σ=2T σ+2E σ,其中,2T σ 表示真分数的方差,2E σ表示随机误差方差。
信度的计算公式为:rxx =22xTσσ=1-22xEσσ从以上公式可以看出,随机误差的方差越小,测量的信度就越高。
信度的取值范围为[0,1],如果测量误差的方差为0,那么,测量的信度等于1,如果测量误差的方差等于观察分数的方差,则测量的信度为0。
三、信度的类型采用上述的理论公式是计算不了信度的,因为真分数根本不知道,这样也就计算不出误差分数。
因此,上述理论公式只能帮助我们更进一步地理解信度的含义。
那么,在实际测量中,如何计算或估计信度的大小呢?下面介绍几种常用方法。
(一)稳定性系数(1)稳定性系数又称重测信度。
它是指用同一测验试卷,在先后两个不同时间内对同一组被测试卷,两次测验实得分数的相关系数。
稳定性系数是估量信度最简单的方法,只需用同一份试卷对同一被测试卷测验两次即可。
(2)估计稳定系数的基本程序是:适当时距测验A1(A)测验A2(A)A表示两次测验试卷相同,A1和A2表示同一测验经过适当时间间隔施行两次。
时距可以是几天或者几个月。
(3)使用重测法要注意几点:〔1〕重测法只适用于速度测验而不适用于难度测验;〔2〕所测的信度大小,常常受两次测验时间间隔长短影响;〔3〕第二次测验没有吸引力,不易引起学生的兴趣;〔4〕要实施两次测验,耗费人力、物力和时间较多。
(二)等值性系数(1)当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一平行型测验或者复份。
复份在测验的内容、题数、格式、难度、平均分、标准差等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。
(2)决定等值系数的方法是。
先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求它们得分的相关系数。
这个相关系数即为信度的等值性系数。
(3)其基本程序为:最短时距测验A1测验B1A 1表示用试卷A进行的第一次测验,B1表示用试卷B进行的第一次测验,试卷A和B等值。
这种确定信度系数的方法称为复份法。
(4)采用复份法估计信度系数要注意:〔1〕两次测验试卷要等值,即在内容、题型、题数、难度、区分度等方面要基本相同;〔2〕两次测验要尽可能在较短的时矩内进行;〔3〕确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。
〔4〕在实际操作中,要编制两份等值的测验非常困难。
(三)内部一致性系数前两种估计信度系数的方法都要测验两次。
该种估计信度系数的方法只需测验一次。
方法是把一次测验人为地分成两个部分,比较两个部分的一致性程度,从而估计信度系数。
根据分成两部分的不同,内部一致性系数的估计方法有两种:(1)分半信度这种方法是将一次测验分成两个假定相等而独立的两部分来记分,通常是以题目的奇数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼—布朗公式校正,求得整个测验的信度系数。
斯皮尔曼—布朗公式为:xy xytt r 1r 2r +=式中,r xy 为两组测验分数的相关系数,r tt 表示整个测验的信度系数。
(2)库德尔—理查德森公式法用这种方法只需测验一次,然后以各个问题的正确反应数为基础,或根据各人总分的平均数和标准差,计算信度系数,常用的库德尔—理查德森公式有 r 20KR 和r 21KR 。
〔1〕r 20KR 的用法:这个公式以每题能正确回答的人数占总人数的百分数为基础(每题只有通过或未通过两种分数)。
r 20KR =)1(12s pq K K ∑-- 式中,r 20KR 为整个测验结果的信度系数。
K 为测验题目数,p 为各题正确反应人数占总人数的百分数,q 为各题错误反应人数占总人数的百分数,s 2为各应试者各题得分之和的方差。
〔2〕r 21KR 的用法:这个公式以各反应者总分的平均数和方差为基础计算,无需各题难度的信息。
公式如下:r 21KR =1-2)(8.0Ks x K x -⨯ 式中,x 是各人总分的平均分,2s 是各人总分的方差,K 是题目数。
〔3〕计算内部一致性系数,需要注意下列问题:〈1〉若用分半法时,以按奇数题和偶数题分为两半为宜。
若把整个测验分为前后两半,一方面前半部试题和后半部试题未必等值,另一方面被试者在完成后半部试题时可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。
〈2〉若速率是测验的重要因素,则不宜用分半法。
因为速度测验中试题的难度低,被试者得分的多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而会夸大分半法的信度估计。
〈3〉如果答案多种多样,得分也多种多样时,则不能用上列公式计算一致性系数。
(四)论文式测验的信度系数论文式测验的评分,没有严格的评分标准,以致同样的一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的α系数公式:α= )1(122Ti s s K K ∑--式中,α为信度系数,K 为题目数,2i s 为每题各应试者得分的方差,∑2i s 为每题各应试得分的方差之和;s 2T 为所有被应试者所得总分的方差。
(五)评分者信度一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不同的评分者对同一份试卷给分不同,甚至有很大的悬殊。
在作文测验、投射测验、品德测验、创造力测验等的评分中,都存在这个问题。
评分者所评的分数越一致,评分的信度越高。
要计算评分者评分的一致性系数,需区分评分者的人次数。
若为2人评N 份试卷,可用斯皮尔曼等级相关的公式计算;若三人以上的评分者评N 份试卷时,则需计算肯德尔和谐系数 。
四、提高信度的方法(一)信度系数以多大为宜信度系数究竟以多大为好,没有明确的标准。
要看测验的目的和类型。
对于学科测验,信度系数要求达到0.9以上,智力测验要求达到0.8以上,品德测验能达到0.6以上就算不错了。
(二)测量误差的来源(1)测验本身所引起的误差〔1〕测验本身的有些因素会直接产生误差。
例如,有些测验题目的格式,如判断题,猜测的可能性很大,这就引起测验的不稳定性。
〔2〕如果测题的难度过大,以致每个被试者大量猜测,则所有被试者的总分接近于随机分布,所以测题越难,其信度越低。
另一方面,测题越易,分数离差越小,而信度也就越低。
〔3〕规定时限可以鼓励人们加速作出反应,但常常会引起不稳定的测验分数。
〔4〕测题的用词模棱两可也会引起不稳定的分数。
〔5〕测验本身长度也会影响信度,一般说来,测题越多,测验越可靠。
〔6〕测验所包含的测题样本也会引起测量误差。
测题取样所引起的误差在测验的单一形式中也可能出现。
如果测验是要测量单一特性,那么,这个测验上的每一个测题都应该测量它,而不该测量其他的东西。
但是实际上,有些测题能测量多种心理特性,因此,在一个测验中所包含的特定测题的抽选就变成了一个误差的可能来源。
(2)测验的实施所引起的误差〔1〕由于测验的经验日益丰富,测验的实施更加标准化,实施条件的变化所引起的误差可能性就大为减少。
然而,由于对实施指导语的错误理解,对答案纸的错划,时间记录的错误以及一些不能预见的干扰等,都会产生误差。
〔2〕对一组被试实施测验不是同一个主试,而是由多个主试实施,以及主试本身在安排测验上有较多的余地,这些也会引起误差。
〔3〕记分也会产生误差,如论文式的测验和其他自由反应的测题各格式,记分就很难做到完全客观,从而产生误差。
(3)被试所引起的误差这是最难控制的误差。
甚至当我们具有测验的等同形式,在标准化的实施和记分程序下,测验的情境以最理想的方式加以安排,由于被试本身的不一致性也会使测验的分数不一致。
具体表现为:动机的作用;学习、发展和教育的影响;对于测验的经验;测验的焦虑;生理因素等。
(三)提高测验信度的方法(1)适当增加测验题目的数量测验题目的数量越多,题目的代表性就越大。
这种方法既可提高信度,也可提高效度。
因此,一次测验的题目不能太少。
但题目太多也无法操作。
所以,只能适当增加测验题目的数量。
(2)测验的难度要适中因为测验的难度中,能使测验难度达到最大,也能使测验的区分度达到最大,所以,必须使测验的难度适中。
(3)测验的内容应尽量同质如果测验的内容过于庞杂,必然要求考生具有不同的能力、知识或技能,致使测验的信度降低。
例如,外语、数学测验的信度常高于语文、历史测验的信度。
因此,为了提高测验的信度,测验内容应尽量同质。
(4)测验的程序应统一测验的过程直接关系到信度的高低,可以说,信度主要是在测验的实施过程中要重点保证的。
测验的程序统一包括试卷统一、测验开始时的指导语、回答问题的方式、分发及回收试卷的办法、测验时间的掌握等,这是关系到测验信度的重要因素。