第十一章教育测量的质量指标xin

合集下载

第十一章教育测量法

❖ （三）注意误差的影响
❖ 随机误差：由于难于控制的偶然因素，使测量结果不准确； ❖ 系统误差：由于某种因素的影响，使测量变量有系统地发生变化而产生的误差。
现在学习的是第8页，共53页
❖ 系统误差
❖ 由于仪器结构上不够完善或仪器未经很好校准等原因会产生误差。例如，各种刻度尺的热胀冷缩，温度计、表盘的刻度不准确等都会造成误差。
❖ 要比较两种测量结果的信度，一定要看误差分数（E）对于真分数（T）所占的百分数是多少。这个百分数表示该实得分数（x）的相对误差。其计算式如下：
❖
相对误差＝E/T×100% 公式（1-3）
❖ 把上述两次测量（设为甲和乙）和绝对误差分数和真分数代入上式，得：
❖
相对误差（甲）＝1/100×100%＝1%
的某一种属性的顺序排列出等第次序。
如：根据学生的测验成绩排出名次，成绩最好的为1，成绩次之为2 ，再次之为3，依次类推。
又如，对于生活水平，我们可以给出四个等级：贫困、温饱、小康、富裕。
现在学习的是第17页，共53页
（三）等距量表（间距量表）
是具有相等的单位，但没有绝对零点的量表。等距量表的数量单位之间的间距是相等的，可以相加减。
的准则，按准则对测量内容进行规范化、标准化的操作。
（4）测量工具。指测量的指标体系。没有工具，测量难以进行。
现在学习的是第6页，共53页
二、教育测量法的特点
（一）教育测量一般是间接测量测量心理属性，需要具体行为操作指标；（二）教育测量的结果是相对的学生不断成长变化；测量对象不同、测量工具不同，无法比
现在学习的是第19页，共53页
上述四种量表的比较：
量表
称名量表
顺序量表
条件

第三讲教育测量之质量指标

三、项目的难度
（一）难度的概念难度是指测验试题的难易程度。例如，在教育测量中，客观题的难度一般用正确回答试题的人数与参加测验的总人数之比值来表示。其公式为： R P= --- N

（二）难度的计算

１．客观题难度的计算 R P = —— N
２、主观题难度的计算

讨论问题：
1、如何解决 “难度悖论”？ 2、如何提高效度？
3、如何保证信度？

对于其他类型的测验，目的不同对难度的要求也不同。比如，选拔奥林匹克数学竞赛的学生，难度值就得偏小；而选择补习功课的学生，难度值就得偏大。
（五）控制题目难度的基本方法
一般说来影响题目难度的主要因素有： ①考查知识点的多少； ②考查能力的复杂程度或层次的高低； ③考生对题目的熟悉程度（如本来较易的题目会因考生均未注意而造成很难，或本来较难的题目会因为考生普遍练习过而变得较容易）； ④命题的技巧性（如同一个问题，可以命得容易，也可以命得较难）。
（一）效度的含义
效度是指测量结果的准确性和有效性的程度，亦即测量是否达到了预期的目的。我们可以从以下几方面来理解效度：
首先，测量的效度始终是对一定的测量
目的而言的。其次，测量的效度也是对测量的结果而言的。第三，一种测量的效度只是高或低的问题。第四，在教育测量中，效度问题比在其他领域的测量更为重要。

2.
测验实施方面一个测验的效度要得到保证，主试应当适当控制测验情境，遵照测验守则的各项规定实施。例如场地的布置、材料的准备、回答方式的说明、时间的限制等。如不遵照标准化的程序进行，则必然使效度降低。
3．被试主观状态方面

教育测量的质量指标

教育测量的质量指标引言教育测量是评估学生学习成果和教学效果的重要手段。

通过对学生的能力、知识、技能等方面进行测量，可以了解他们的学习状况以及教学的有效性。

然而，要确保教育测量的质量，需要依据一系列的指标进行评价和监控。

本文将介绍教育测量的质量指标，并讨论其意义和应用。

1. 可靠性可靠性是指测量工具在重复使用中能够得到相似结果的程度。

一个可靠的测量工具应该在不同的时间、不同的场合和不同的评估者之间产生一致的结果。

常用的衡量可靠性的指标包括内部一致性、重测信度和等价性。

内部一致性（Cronbach’s Alpha）内部一致性是指测量工具中各项指标之间相互关联的程度。

通过计算各项指标的相关系数，可以评估测量工具内部一致性的高低。

一般来说，Cronbach’s Alpha系数在0.7以上被认为是可接受的，越接近1表示内部一致性越高。

重测信度（Test-Retest Reliability）重测信度是指在不同时间进行相同测量的结果之间的相关性。

通过将同一测量工具在两个不同时间点进行测试，并计算其相关系数，可以评估测量工具的重测信度。

一般来说，相关系数应该大于0.7才被认为是可靠的。

等价性（Parallel Forms Reliability）等价性是指在不同测量工具中相同或类似的项目之间的一致性。

通过将不同但具有相似性质的测量工具同时应用于被测对象，并计算其相关系数，可以评估测量工具的等价性。

一般来说，相关系数应该大于0.7才被认为是等价的。

2. 效度效度是指测量工具能够准确地衡量所要测量的内容的程度。

一个有效的测量工具应该与被测对象所具有的实际水平或其他标准进行相关。

常用的衡量效度的指标包括内容效度、构造效度和效标关联效度。

内容效度（Content Validity）内容效度是指测量工具中各项指标是否能够全面、恰当地反映所要测量的内容。

通过专家评价、内容分析等方法，可以评估测量工具的内容效度。

一般来说，测量工具应该包含全面的内容领域，并且各项指标与内容领域高度相关。

教育测量与评价测量指标

教育测量与评育测量的质量，可采用四个指标： • 信度主要对整个测量而言。 • 效度 • 难度主要对测量的项目而言。 • 区分度
一、信度概述
（一）什么是信度信度是指测量结果的稳定性或可靠性程度。一般地说，一个好的测量必须具有较高的信度，也就是说，一个好的测量工具，只要遵守操作规则，其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度：信度指实测值（X）和真值（T）相差的程度；信度指两次重复测量或等值测量之间的关联程度。
例三
• 对初中一年级学生进行地理成绩测验，每答对1题得1分，答错1 题得0分，其测验结果如下表，试估计该测验的折半信度？ • 学生序号题序 • 1 2 3 4 5 6 • 1 1 0 0 0 0 0 • 2 0 0 0 1 0 0 • 3 1 0 1 0 0 0 • 4 1 1 0 0 1 0 • 5 1 0 0 1 0 0 • 6 1 1 1 0 1 1 • 7 1 1 1 1 0 1 • 8 1 1 0 1 1 0 • 9 0 1 1 0 0 1 • 10 1 1 1 1 1 1
3、折半信度（分半信度）
• 就是将测验分半，再求被试在每一半测验上所得分数的相关系数。 • 首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则，将试题分成两半，或者将从易到难排列的测题，按照测题序号，奇数测题为一组，偶数测题为一组，分成两半； • 然后计算每个被试在两个分半测验分数的积差相关系数，再用斯皮尔曼—布朗公式加以校正。 • 斯皮尔曼—布朗公式为
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12

3-1教育测量与评价的质量特性：信度

• 通过计算可知：
把上述数据代入下列公式，可得
• 采用重测法计算稳定系数，需注意：
– 两次测验之间的时间间隔要适宜，尽可能在较短的时距内进行；
– 两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同；
– 确定两测验是否等值，还要考察两次测绘结果的平均数与标准差；
– 重测法适用于速度测验（运动技能）而不适用于难度测验；
测验的长度（指量表中所包含的题目数）对信度的大小有一定的影响，测验越长，信度越高。
用分半法，实际上等于把整个测验长度减小了一半，所以按分成两半的资料求出的信度必然低于整个测验的信度。
• 斯皮尔曼-布朗公式的基本假设：两个半测验的变异数必须相等（方差齐性）
若不能满足上述假设，选择下述两个等价的公式之一：（1）佛朗那根（Flanagan)公式
相对误差＝E/T×100%
把上述两次测量（设为甲和乙）和绝对误差分数和真分数代入上式，得：
相对误差（甲）＝1/100×100%＝1% 相对误差（乙）＝1/185×100%＝0.54% 据此，度量乙的信度要比度量甲的信度高。
最大绝对误差＝E/X ×100%
怎样估计对一组人或一个人测量多次的实测值与真值（真分数）的差异程度呢？
教育测量与评价的质量特性
教育测量的质量特性
衡量教育测量的质量，可采用四个指标：信度主要对整个测验而言。效度
难度主要对测验项目而言。
区分度
第一节教育测量与评价的信度
一、信度的意义
• 信度（reliabity）
– 测量结果的可信程度和稳定性程度 – 记为rxx
二、信度的统计定义
X= T + E
解
S

教育测量的质量指标--信度概述

奇数题总分偶数题总分
X
Y
38
37
37
37
38
36
41
39
40
39
36
34
38
38
39
39
40
39
35
36
方法：分半法
得分被试
01 02 03 04 05 06 07 08 09 10
σ2
可见为，［0，E 1越］小。，测量的信度就越高。信度的取值范围
例：对5个人的某种智力因素的测验结果如表1-1，试估计测量的信度。
表1-1 测量5个学生的某种分数
学生
真分数误差分数实得分16
B
9
+1
10
C
15
+2
17
D
21
+1
22
E
12
-2
10
（1）按2σ
(xx)2 的方差公式， N
r A1A2 [N
NXYxY X2 ( X)2] [N Y2 (
Y)2]

126420280286
[1265942820 1269122826

采用重测法计算稳定系数时，要注意的问题：
1、两次测验之间的时间间隔要适宜，尽可能在较短的时距内进行。
2、两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同。
分别计算2T、 σσ E2和σ 2x并列入表内。
学生 A B C D E
平均数方差
真分数 18 9 15 21 12 15 18
误差分数－2 ＋1 ＋2 ＋1 －2 0 2.8
实得分数 16 10 17 22 10 15 20.8

教育测量的质量指标19页word

第二章教育测量的质量指标第一节信度第二节效度第三节难度第四节区分度一、信度的概念信度指的是测量结果的稳定性或可靠的程度。

也就是测量结果是否真实、客观地反映了考生的实际水平。

具体而言，可以从以下三方面来理解测量的信度。

（一）信度指实测值与真值相差的程度测量的目的之一，就是希望通过测量得到的实测值能够接近事物的真实值。

由于各种原因，实测值一般不会完全等于真实值，两者之差称为测量误差。

测量误差越小，测量的信度就越高。

用一个等式表示如下：x = T + E式中，x 表示实测值，T 表示真值，E 表示误差。

但测量的真实值是未知的，因此，误差也就无法求出来。

当然，可以把很多次测量的实测值的平均值作为真实值的近似值，但这在实践上不具有可操作性。

所以，根据这种理解，无法求出信度的大小。

（二）信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。

统计量是指样本上的各种数字特征（如样本的平均数、标准差等），参数是总体上的各种数字特征（如总体的平均数、标准差等）。

统计量越接近参数，这个统计量的可靠性就越高，因此，信度就越高。

要知道统计量对参数的接近程度，可以对参数进行区间估计。

这种方法对估计真分数也很有用的。

但这种理解也无法计算出信度。

（三）信度指两次重复测量或等值测量之间的关联程度如果对同一对象进行两次重复测量或者等值测量以后，计算两次测量的相关系数，相关系数越高，说明测量的信度就越高；反之，就越低。

对于信度的这种理解，有利于信度的计算。

但重复测量会受到被测对象的经验、知识增长等因素的影响，等值测量又较难编制，因此，采用这种方法计算信度时，也是有误差的。

信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。

因为教育测量的对象主要是精神现象，所测量的特性不易把握，为了能真实地反映测量对象的某种特点，需要更加注意测量的信度，从而正确地判断测量结果的价值。

只有信度高的测量才能成为教育工作者有用的工具，否则，测量的结果是无意义的、无效的。

教育测量的质量指标

第二章教育测量的质量指标第一节信度第二节效度第三节难度第四节区分度一、信度的概念信度指的是测量结果的稳定性或可靠的程度。

也就是测量结果是否真实、客观地反映了考生的实际水平。

具体而言，可以从以下三方面来理解测量的信度。

（一）信度指实测值与真值相差的程度测量的目的之一，就是希望通过测量得到的实测值能够接近事物的真实值。

由于各种原因，实测值一般不会完全等于真实值，两者之差称为测量误差。

测量误差越小，测量的信度就越高。

用一个等式表示如下：x = T + E式中， x 表示实测值， T 表示真值， E 表示误差。

但测量的真实值是未知的，因此，误差也就无法求出来。

当然，可以把很多次测量的实测值的平均值作为真实值的近似值，但这在实践上不具有可操作性。

所以，根据这种理解，无法求出信度的大小。

（二）信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。

统计量是指样本上的各种数字特征（如样本的平均数、标准差等），参数是总体上的各种数字特征（如总体的平均数、标准差等）。

统计量越接近参数，这个统计量的可靠性就越高，因此，信度就越高。

要知道统计量对参数的接近程度，可以对参数进行区间估计。

这种方法对估计真分数也很有用的。

但这种理解也无法计算出信度。

对于信度的这种理解，有利于信度的计算。

但重复测量会受到被测对象的经验、知识增长等因素的影响，等值测量又较难编制，因此，采用这种方法计算信度时，也是有误差的。

信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。

只有信度高的测量才能成为教育工作者有用的工具，否则，测量的结果是无意义的、无效的。

教育测量的质量指标

第二章教育测量的质量指标第一节信度第二节效度第三节难度第四节区分度一、信度的概念信度指的是测量结果的稳定性或可靠的程度。

也就是测量结果是否真实、客观地反映了考生的实际水平。

具体而言，可以从以下三方面来理解测量的信度。

（一）信度指实测值与真值相差的程度测量的目的之一，就是希望通过测量得到的实测值能够接近事物的真实值。

由于各种原因，实测值一般不会完全等于真实值，两者之差称为测量误差。

测量误差越小，测量的信度就越高。

用一个等式表示如下：x = T + E式中，x表示实测值，T表示真值，E表示误差。

但测量的真实值是未知的，因此，误差也就无法求出来。

当然，可以把很多次测量的实测值的平均值作为真实值的近似值，但这在实践上不具有可操作性。

所以，根据这种理解，无法求出信度的大小。

（二）信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。

统计量是指样本上的各种数字特征（如样本的平均数、标准差等），参数是总体上的各种数字特征（如总体的平均数、标准差等）。

统计量越接近参数，这个统计量的可靠性就越高，因此，信度就越高。

要知道统计量对参数的接近程度，可以对参数进行区间估计。

这种方法对估计真分数也很有用的。

但这种理解也无法计算出信度。

对于信度的这种理解，有利于信度的计算。

但重复测量会受到被测对象的经验、知识增长等因素的影响，等值测量又较难编制，因此，采用这种方法计算信度时，也是有误差的。

信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。

只有信度高的测量才能成为教育工作者有用的工具，否则，测量的结果是无意义的、无效的。

教育测量的质量指标

第二章教育测量的质量指标第一节信度第二节效度第三节难度第四节区分度一、信度的概念信度指的是测量结果的稳定性或可靠的程度。

也就是测量结果是否真实、客观地反映了考生的实际水平。

具体而言，可以从以下三方面来理解测量的信度。

（一）信度指实测值与真值相差的程度测量的目的之一，就是希望通过测量得到的实测值能够接近事物的真实值。

由于各种原因，实测值一般不会完全等于真实值，两者之差称为测量误差。

测量误差越小，测量的信度就越高。

用一个等式表示如下：x = T + E式中，x 表示实测值，T 表示真值，E 表示误差。

但测量的真实值是未知的，因此，误差也就无法求出来。

当然，可以把很多次测量的实测值的平均值作为真实值的近似值，但这在实践上不具有可操作性。

所以，根据这种理解，无法求出信度的大小。

（二）信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个基本概念。

统计量是指样本上的各种数字特征（如样本的平均数、标准差等），参数是总体上的各种数字特征（如总体的平均数、标准差等）。

统计量越接近参数，这个统计量的可靠性就越高，因此，信度就越高。

要知道统计量对参数的接近程度，可以对参数进行区间估计。

这种方法对估计真分数也很有用的。

但这种理解也无法计算出信度。

对于信度的这种理解，有利于信度的计算。

但重复测量会受到被测对象的经验、知识增长等因素的影响，等值测量又较难编制，因此，采用这种方法计算信度时，也是有误差的。

信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。

只有信度高的测量才能成为教育工作者有用的工具，否则，测量的结果是无意义的、无效的。

教育测量与评价——测量指标

•7
1111 01
•8
1101 10
•9
0110 01
• 10
1111 11
可编辑ppt
12
（三）提高信度的方法
1、影响测量信度的主要因素（1）被试方面（2）主试方面（3）施测情境方面（4）测量工具方面（5）两次施测的间隔时间方面
可编辑ppt
13
2、提高测量信度的常用方法
（1）适当增加测验的长度（2）测验的难度要适中（3）测验的内容应尽量同质（4）测验的程序应统一（5）测验的时间要充分（6）测验的评分要尽量做到客观化，减少
• 2、两个复本测验有可能在某种程度上测量了不同的性质，这就会低估测验的信度；
• 3、被试同时接受性质相似的两个测验，可能减少完成测验的积极性；
• 4、虽然两个复本测验的题目材料不同，但被试一旦掌握了解题的某一模式，就能触类旁通，有可能失去复本的意义。
可编辑ppt
10
3、折半信度（分半信度）
3、重测法适用于速度测验而不适用于难度测验；
4、应注意提高被试者的积极性。
可编辑ppt
6
2、复本信度
• 指的是两个平等的测验测量同一批被试所得结果的一致性程度。
• 其大小等于同一批被试在两个复本测验上所得分数的相关系数。
• 所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致（或相等）的两份或多份测验。
• 2、两个复本在同时使用时，可以避免再测信息的一些缺点，如首测时再测在记忆、练习、效果的影响，间隔期间获得新知识的影响，两次施测的环境不同和被试主观状态不同的影响，以及为了应付测验所作训练的影响等。
可编辑ppt
9
缺点：

第9讲,教育测评的质量指标(信度)

第九讲教育测评的质量指标（信度）九、十、十一讲，主要介绍和探讨教育测量与评价的信度、效度，教育测量与评价中题目的难度、教育测量与评价中题目的区分度。

学习本章内容时，要理解概念和方法，比较不同概念和不同方法之间的联系与区别，通过自己归纳与分类整理，更好地掌握本章内容。

学完本章后，你应当能够：了解信度、效度、难度、及区分度；依据不同情况采用恰当的方法计算测验的信度；领会标准参照测验的信度与一般测验信度的区别；依据不同情况选用恰当的方法对测验的效度进行评价；计算题目的难度；分析题目的区分度；领会测验的信度与测量分数误差之间的关系。

重点内容是：掌握同质性信度即内部一致性信度的各种分析方法；掌握标准参照测验的信度的分析方法；掌握测验的内容效度的分析与研究方法；掌握测验题目难度的各种分析方法；知道估计题目区分度的方法。

（一）教育测量与评价的信度教育测量与评价的信度，简单地说就是教育测量与评价结果的可信程度，记为。

如果用同一测量工具反复测量同一种特质对象，则多次测量结果间的一致性程度也叫信度。

测验信度是对测验工具及其操作的整体质量的一种量度，是测验性能的重要质量指标。

本节研究信度的估计方法。

一、重测信度和复本信度1.重测信度重测信度指的是用同一个量表（测验或评价表）对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。

重测信度有个基本假设,那就是假设某测验所要测量的潜在特质，短期内不会随着时间推移而改变。

因此，重测信度的用途也在于估计测验结果（以测验分数表示）经过一段时间后是否仍然维持稳定、一致的特性，又称为稳定性系数。

重测信度适用于异质性测验。

所谓异质性测验就是说一个测验包括几个不同的部分，这几个部分分别测量着几个不同的心理特质，它们之间可能并不存在相关，或相关较低。

对于这种异质性测验计算重测信度是比较可靠的。

此外，重测信度比较适用于速度测验而不太适用于难度测验。

速度测验的测题数量多，而且有一定的时间限制，被试很难记住第一次施测的内容，所以第二次施测较少受记忆的影响，而难度测验则相反。

教育测量的质量指标1信度

把多次测量的实测值的平均值作为真值的近似
值)，E表示误差。
?
E＝x-T
（公式1-2）
（一）信度指实测值和真值相差的程度
? 1、试比较以下两次测量结果（只进行一次）的信度：
? 用尺子量100cm高的一个儿童，得到1cm 的绝对误差；量185cm高的一位运动员，也得得到1cm的绝对误差。
要比较两种测量结果的信度，一定要看误差分数（ E）对于真分数（ T）所占的百分数是多少。这个百分数表示该实得分数（ x）的相对误差。其计算式如下：
第二章教育测量的质量指标
信度·效度·难度·区分度
第二章教育测量的质量指标
? 衡量教育测量的质量，可采用四个指标： ? 信度
主要对整个测量而言。 ? 效度 ? 难度
主要对测量的项目而言。 ? 区分度
第一节信度
? 一、信度的概念 ? 二、信度系数的类型 ? 三、信度对于教育测量的意义 ? 四、提高信度的方法
（二）信度指统计量与参数之间的接近程度
?我们不妨将测量的平均值看做平均数抽样分布中的一个平均数，真值视为平均数抽样分布的总平均数（μ），这样一来，只要能估计出实得分数分布的标准差——测量的标准误，就可以利用区间估计的公式，算出实测值与真值的接近程度，从而计算出测量结果的信度。
?
rxx
?
? ?
rxx ? 0.865
（1）将已知统计量代入公式（1? 9），求测量的标准误；
? E＝ 20.（8 1? 0.865）＝1.67
（2）根据总体均数区间估计的公式，
求真分数在某一区间的概率；
P（x ? 1.96 ? ? E ?u?x ? 1.96 ? ? E）? 0.95
则P（x ? 1.96? 1.67?u?x ? 1.96? 1.67）? 0.95 P（11.73?u?18.27）＝0.95

教育数据类别与测量质量指标

四、集中量
2. 加权平均数( ) 是不同比重数据(或平均数)的平均数
或. N表示各组的频数；X 表示各组的平均数。
教育数据类别与测量质量指标
n 例1：一个学生某门课期中考试成绩为 72分，期末考试成绩为86分，而期考试占总成绩的40%，期末占60%，这个学生的学期总分是多少？
教育数据类别与测量质量指标
教育数据类别与测量质量指标
n 问题3：设某考区已录取高中学生语文平均分为69分，标准差为12.5分，而未录取高中的学生语文平均分为40分，标准差为12.5分。比较他们语文成绩的离散程度。
CV1=12.5/69 *100%=18.12%；
CV2=12.5/40 *100%=31.25%。
未录取学生的离散程度大。
程度。
教育数据类别与测量质量指标
要获得较高的构想效度：
n 理论构思必须结构严谨，符合逻辑，层次分明，形成某种“构思网络”；
n 对研究的各种变量作出明确、严格的说明； n 给变量下明确的操作定义，并制定相应的、客
观的测量指标； n 消除或控制影响构思效度的因素。
教育数据类别与测量质量指标
影响构思效度的因素
正态分布：是一种连续型随机变量的概率
分布。
二项式分布中当
p=q
时，且n很大时，二项式分布接近于正态分布
表2:一个学生做１０题正误题做对不同题数的概率分布
(做对每题的概率p=1/2;做错的概率为1/2)
做对题数
012
3
4
5
6
78
9 10
出现方式数
1 10 45 120 210
252 210 120 45 10
n 效度不仅受随机误差的影响，还受系统误差的影响。

教育测量的质量指标概述

• 就现有资料，用什么方法可以判断教师们的意见是否正确？
•表2-1：
（答对的题数） 1 2 3 4 5 6 7 8 9 10
A5
所B 4
评的等
C D
3 2
级E 1
1 3 10 5 4 2 1 6 8 8 4 31 2459831 1 13211 11211
•解：（1）设期末考试的等第为y，空间想像力测验答对的题数为x，列出二重交叉次数分布表：
• 为了证明这个论点，他们让刚入高中的103名学生作10道题，测量其空间想像力。为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分，试卷暂不评阅。立体几何学完后，进行考试，按得分多少把成绩分为五等（A、B、C、D 、E）分别得5、4、3、2、1分。这时才评阅入学时的试卷，统计出期末得5、4、3、2、1分者在入学测验中分别答对1道题至10道题的人数（见表2-1）。
• ⑵学生的心理活动、心理特征与其外部表现之间，一般仅具有相关关系而无函数关系，外部行为并不能准确无误地反映某种心理状态。
• ⑶教育测量的对象不是物而是有主观能动性的人。人能有意识地调节自己的外部行为，掩盖自己的内心活动，这就增加了认识其精神现象的难度。
二、效度的统计学原理及其与信度的关系 1、效度的统计学原理
采用求统计量的公式进行计算，其公式有以下三种形式：
内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。
内容效度不适合用于能力倾向和人格测验。
（二）效标关联效度
• 又可称为经验效度或统计效度，是以测验分数和效标之间的相关系数来表示测验效度的高低的。
• 效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量。它是用来检验测验效度的外在的、客观的标准和尺度。

第十一章教育测量的质量指标xin

计算方法有两种：
１.分半信度
是把一次测验按题目番号分为两半，一半是奇数题，一半是偶数题，计算两部分的相关系数，最后用斯皮尔曼－布朗公式校正
２.库德尔－理查森公式法（１）rKR20的用法：这个公式以每题能正确回答的人数占
总人数的百分数为基础计算
rKR20为整个测验结果的信度系数，Ｋ为测验题目数，Ｐ
非二分法记分的项目，可将题目得分与测验总分求积
差相关系数以得到题目的区分度
rxy
X i X Yi Y X i X 2 • Yi Y 2
积差相关的另一计算公式：
rxy
S
2 X
SY2
S
2 D
2S X SY
Sx为全体被试在某道题目上得分的标准差；Sy为全体被试总分的标准差；SD是由被试总分减去某题目得分而得到的新变量的方差
根据假设编制测验
以逻辑及实证的方法，检验结果是否符合心理学的理论框架及其假设
比如：中学生数学能力的研究
数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、空间想象能力构成；数学能力与早期教育有关；数学能力与智力正相关。
编制测验，施测并收集测验结果
分析测验结果，考查测试的结构效度，考查测验结果是否支持理论构想
教育测量与评价中题目（项目）的难度
二、难度的计算
主观题的极端分组法
公式： P X H X L (2NL) 2N(H L)
步骤按测验总分依次排序，确定比例各为25％的高分组和低分组为高分组、低分组分别编制每题得分的分析表（试题分析表）用上述难度公式计算难度值
教育测量与评价中题目（项目）的难度
前后测对比法（根据前后两次测验的差异显著性，确定测验的内容效度）

教育测量的质量指标

第二章教育测量的质量指标第一节信度第二节效度第三节难度第四节区分度一、信度的概念信度指的是测量结果的稳固性或可靠的程度。

也确实是测量结果是否真实、客观地反映了考生的实际水平。

具体而言，能够从以下三方面来明白得测量的信度。

〔一〕信度指实测值与真值相差的程度测量的目的之一，确实是期望通过测量得到的实测值能够接近事物的真实值。

由于各种缘故，实测值一样可不能完全等于真实值，两者之差称为测量误差。

测量误差越小，测量的信度就越高。

用一个等式表示如下：x = T + E式中，x 表示实测值，T 表示真值，E 表示误差。

但测量的真实值是未知的，因此，误差也就无法求出来。

因此，能够把专门多次测量的实测值的平均值作为真实值的近似值，但这在实践上不具有可操作性。

因此，依照这种明白得，无法求出信度的大小。

〔二〕信度指统计量与参数之间的接近程度统计量和参数是统计学中的两个差不多概念。

统计量是指样本上的各种数字特点〔如样本的平均数、标准差等〕，参数是总体上的各种数字特点〔如总体的平均数、标准差等〕。

统计量越接近参数，那个统计量的可靠性就越高，因此，信度就越高。

要明白统计量对参数的接近程度，能够对参数进行区间估量。

这种方法对估量真分数也专门有用的。

但这种明白得也无法运算出信度。

〔三〕信度指两次重复测量或等值测量之间的关联程度假如对同一对象进行两次重复测量或者等值测量以后，运算两次测量的相关系数，相关系数越高，说明测量的信度就越高；反之，就越低。

关于信度的这种明白得，有利于信度的运算。

但重复测量会受到被测对象的体会、知识增长等因素的阻碍，等值测量又较难编制，因此，采纳这种方法运算信度时，也是有误差的。

信度是任何一个测量的必要条件，关于教育测量来说，它具有更为重要的意义。

因为教育测量的对象要紧是精神现象，所测量的特性不易把握，为了能真实地反映测量对象的某种特点，需要更加注意测量的信度，从而正确地判定测量结果的价值。

只有信度高的测量才能成为教育工作者有用的工具，否那么，测量的结果是无意义的、无效的。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

逻辑分析法（定性的方法）
依靠有关专家对测验题目与应测内容范围的吻合程度作出判断
对每一道题目逐一进行审查，以此形成“题目双向细目表”
与“命题双向细目表”加以对照，以确定试卷的效度
统计分析法（定量的方法）
克龙巴赫法（两套测验试题，对相同被试实施测试后，计算得分的相关系数）
抽象概念或特质的程度
效标：检验测验效度的参照标准，实际上是本测验所想测量或要预测的特性或功能测验分数与作为效标的另一独立测验结果之间的一致性程度
（一）内容效度的概念和估计方法
1.内容效度的概念
测验试题对欲测验内容或行为目标的代表性程度
2.内容效度的验证方法逻辑分析法
统计分析法（定量的方法）
2.结构效度的建立过程
① 对所欲测量的属性根据某种理论提出假定的结构
② 根据假定的结构拟定测试题，编制测验 ③ 寻求测验分数与其它评定之间的关系 ④ 以测验结果为根据来验证假设结构中的
各种因素是否成立，验证的方法可以从差异ห้องสมุดไป่ตู้性上寻求证据
⑤ 将与假设结构相违背的测试题删去，对测验进行修改之后，再重新实施第③和
评分一致性考查法（不同评分者之间评分的一致性程度，即考查评分者信度）
前后测对比法（根据前后两次测验的差异显著性，确定测验的内容效度）
（二）、构想效度及其验证方法
1.结构效度的概念
测验对于人的假设属性或理论概念测量到的程度
这些假设属性或理论概念是决定人们外部行为的内隐或潜在的特性
第④个步骤
结构效度建立的示例
建立理论框架
从理论框架出发，提出各种假设
根据假设编制测验
以逻辑及实证的方法，检验结果是否符合心理学的理论框架及其假设
比如：中学生数学能力的研究
数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、空间想象能力构成；数学能力与早期教育有关；数学能力与智力正相关。
（3）若答案多种，得分多样，不宜用上边的公式计算。
3、论文式测验的信度系数
4、评分者信度计算方法
肯德尔和谐系数
公式为：
rw
1
ss R K 2 (n3 n)
12
三、影响信度的因素
（一）测验的长度一般来说，测验越长，信度值越高。这是因为： ①测验加长，可能改进项目取样的代表性，从而能更
为各题正确反应人数占总人数的百分数；Ｑ为个题错误反应人数占占总人数的百分数，Ｓ２为应试者总分的方差例：有一种包含６个问题的测验，１０个应试者得分如下，试估计应试者反应的一致性程度
计算内部一致性系数要注意的问题：
（1）若用分半法时，以按奇数题和偶数题分为两半为宜。
（2）若速率是测验的重要因素，则不宜用分半法。
第十一章测量的种类及其质量分析
第一节教育测量的种类
根据测量的目标分类：智力测量、成绩测量、品德状况测量、人格特征测量、能力倾向测量。
根据测量的方式分类：个别测量、团体测量根据测量的材料分：文字测量和非文字测量根据测量的来源分：标准化测量、教师自编测量根据参照标准分：常模参照测量、标准参照测量
（二）等值性系数（复本信度）
等值性系数是估计测验间跨形式的一致性指标，是以两个等值（题型、题数、难度、区分度相同）但具体内容不同的量表，在最短时间内，对相同应试者先后施测两次测验所获得的两组对应分数的相关系数。
（三）内部一致性系数（同质性信度）
是估计测验内部跨测题的一致性指标，是同一测验试卷的两个部分得分的相关系数
第三节效度
一、效度的概念效度是量表能实际测量出其所要测量的特性或功能的程
度。效度可从以下几方面理解：第一，测量的效度始终是对一定的测量目的而言的。第二，测量的效度是对测量结果而言的第三，测量的效度只是高低问题第四，在教育测量中，测量效度显得更为重要
信度和效度的关系:
信度是效度的必要非充分条件一个测验的效度不会超过它的信度的
编制测验，施测并收集测验结果
分析测验结果，考查测试的结构效度，考查测验结果是否支持理论构想
（三）、效标关联效度及其验证方法
1.效标关联效度的验证方法
效标关联效度是指测验分数与作为效标的另一独立测验结果之间的一致性程度，即推断某测验所得分数与同类标准测验所得分数的相关程度。效标关联效度（criterion-related validity）的验证方法是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。
平方根
二、效度的类别和估计方法
测验题目样本对于应测内容与行为领域的代表性程度
侧重于测验题目取样的代表性，考查这些题目对所欲测量的内容和行为反应测量的有效程度
效度的种类
内容效度
结构效度
效标关联效度
结构：心理学或社会学上的一种理论构想或特质
侧重于一个测验能够测量到心理学和教学理论上的
好地反映受测者的真实水平； ②测验的项目越多，在每个项目上的随机误差就可以
互相抵消。（三）测验的难度测验的难度与信度没有直接对应关系，但是当测验太
难或太易时，则分数的范围就会缩小，从而降低信度。
（三）测验内容的同质性（四）被试者差异（五）评分的客观性
四、提高测验信度的方法 1.适当增加测验题目的数量 2.测验的难度要适中 3.测验的内容要尽量同质 4.测验的程序应统一 5.测验的时间要充分 6.评分要客观
计算方法有两种：
１.分半信度
是把一次测验按题目番号分为两半，一半是奇数题，一半是偶数题，计算两部分的相关系数，最后用斯皮尔曼－布朗公式校正
２.库德尔－理查森公式法（１）rKR20的用法：这个公式以每题能正确回答的人数占
总人数的百分数为基础计算
rKR20为整个测验结果的信度系数，Ｋ为测验题目数，Ｐ
第二节测量的信度
一、信度的概念信度是指测验结果的一直性或可靠性的程度信度可以理解为：（一）实测值和真值相差的程度
X=T+E (二）两次重复测量或等值测量之间的关联程度
二、信度的估计方法（一）稳定性系数（重测信度）指用同一试卷对相同被试者在不同时间测验两次的实得分数的
相关系数
例：用某量表测验１０个学生，得分记为Ｘ。为了考察测量结果的可靠性，于１５天后用原量表对这１０个学生重测一次，得分记为Ｙ。问测验结果是否可靠？

第十一章教育测量的质量指标xin

第十一章教育测量法

第三讲 教育测量之质量指标

教育测量的质量指标

教育测量与评价测量指标

3-1教育测量与评价的质量特性：信度

教育测量的质量指标--信度概述

教育测量的质量指标19页word

教育测量的质量指标

教育测量的质量指标

教育测量的质量指标

教育测量与评价——测量指标

第9讲,教育测评的质量指标(信度)

教育测量的质量指标1信度

教育数据类别与测量质量指标

教育测量的质量指标概述

第十一章教育测量的质量指标xin

教育测量的质量指标

第三讲教育测量之质量指标