第三讲 教育测量之质量指标
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信度的理论公式:
rXX
2T 2E =------ = 1 -- ---2X 2X
(二)信度的估计方法
1、稳定性系数
适当时距 测验A1────→测验A2
2、等值性系数
最短时距 测验A1────→测验B1
3、内部一致性系数 (1)分半信度 ( 2 ) 库 德 尔 - 理 查 森 公 式 法 ( Kuder-
(二)效度的估计
1974 年美国心理学会发行的《教育和 心理测验的标准》一书将效度分为三大 类:内容效度、效标关联效度和结构效 度。下面介绍这三种效度及其估计。
1. 内容效度
是指测验目的代表所欲测量的内容和 引起预期反应所达到的程度。也就是测 量内容的代表性程度。 内容效度的估计: (1)逻辑分析的方法 (2)用测验题目与教材内容比较的方法
在常模性参照性测验中要求试题难 度适中,即大多数题目的难度在 0.3-0.7 之间,少数题目可在这一范围之两边且 题数(或题分)大体相当,使整个试卷 的 平 均 难 度 为 0.5 左 右 ( 0.45-0.55 之 间)。 只有适中的题目难度,才能使试题 产生区分不同程度考生的最大效果,也 才能使考生得分呈正态分布。而对全部 考生都能做或都不会做的题目则应予删 去。
2.
测验实施方面 一个测验的效度要得到保证,主试 应当适当控制测验情境,遵照测验守则 的各项规定实施。例如场地的布置、材 料的准备、回答方式的说明、时间的限 制等。如不遵照标准化的程序进行,则 必然使效度降低。
3. 被试主观状态方面
被试的兴趣、动机、情绪、态度和 身体健康状况以及是否充分合作与尽力 而为等,都能影响测验结果的可靠性和 正确性。无论是能力测验或人格测验, 只有借助被试真实的反应,才能正确地 推断其心理特性和适应状况。
Richardson reliability)
4、论文式测验的信度系数
K S 2i =---------( 1 - ----) K --1 S 2T
5、评分者信度 计算肯德尔和谐系数
(三)影响信度的因素
1.测验本身所引起的误差
有些测验题目的格式,如判断题,猜测的 可能性很大,这就引起测验的不稳定性。 如果测题的难度过大,以致每个被试大量猜测, 则所有的被试的总分接近于随机分布,其变差 大部分为误差变差。 如果在任何测验中,猜测已成特征,则测题 愈难,其信度越低。
另一方面,测验越易,分数离差越小, 而信度也就越低。规定时限可以鼓励人 们加速作出反应,但常常会引起不稳定 的测验分数。 测题的用词模棱两可也会引起不稳定 的分数。 又如测验本身的长度也会影响信度, 一般说来,测题愈多,测验愈可靠。
测验所包括的测题样本也会引起测量 误差。测题取样所引起的误差在测验的单 一形式中也可能出现。 如果测验是要测量单一特性,那么这 个测验上的每一个测题都应该测量它,而 不应该测量其他的东西。 但是实际上,有些测题能测量多种心 理特性,因此,在一个测验中所包含的特 定测题的抽选就变成了一个误差的可能来 源。
三、项目的难度
(一)难度的概念 难度是指测验试题的难易程度。例 如,在教育测量中,客观题的难度一般 用正确回答试题的人数与参加测验的总 人数之比值来表示。其公式为: R P= --- N
(二)难度的计算
1.客观题难度的计算 R P = —— N
2、主观题难度的计算
2.测验的实施所引起的误差
由于对实施指导语的错误理解,对 答案纸的错划,时间记录的错误以及一 些不能预见的干扰等,都会产生误差。 对一组被试实施测验不是同一个主 试,而是由很多的主试实施,以及主试 本身在安排测验上有较多的余地,这些 也会引起误差。 记分也会产生误差,如论文式的测 验和其他自由反应的测题格式,记分就 很难做到完全客观,从而产生误差。
此外,测验实施的外在因素也可能影响
信度。 比如,测试时间;环境;测试的组织; 考场纪律;集体舞弊;等等。
3.被试所引起的误差 动机的作用;
学习、发展和教育的影响;
对于测验的经验; 测验的焦虑; 生理因素等。
(四)如何提高信度?
信度系数以多大为宜? 信度系数究竟以多大为好,没有明 确的标准,要看测验的目的和类型。对 于学科测验,信度系数要求达到0.9以上, 智力测验要求达到0.8以上,品德测验能 达到0.6以上就算不错了。
X P = ---K
(三)难度对测验的影响
1.测验难度影响测验分数的分布形态 难度值过大或过小,都会造成测验分数的 偏态分布。难度值越接近0,测验的难度就越 大,正确回答试题的人数就越少,测验分数就 越是集中在低分段,其分数分布呈正偏态;相 反,难度值越接近1,其难度就越小,正确回 答试题的人数就越多,测验分数集中在高分段, 分数分布呈现负偏态。
3.测验难度影响测验的鉴别能力
这里实际上是谈的难度对区分度的 影响。适中的难度可使试题的区分度达 到最大。
(四)测验的适宜难度
从以上难度值的计算公式,我们可 以得出难度值 P 的取值范围为: 0 P 1 ,当 P = 0 时,试题的实际困难程度最 大(所有的考生都得 0 分),当 P = 1 时, 试题的实际难度最小(所有的考生都全 对)。
(四)提高效度的方法
1.控制系统误差
效度的高低主要受到系统误差的影 响。例如,由于仪器没有校准,题目和 指导语有暗示性、答案有明显的组型 (如选择题的答案都是第二个)等原因 都会影响测验的效度。因此,必须控制 这些因素。
2.精心编制量表
首先,测验内容要确实能适应测验目的; 其次,题目表述必须清楚、简明,所用字、词、 句能为学生理解,内容应能引起被试者的兴趣, 排列由易到难,但前面的题目不应暗示后面的 答案;再次,题目难度合适,有足够的区分度; 最后,试卷印制清楚,无错误和遗漏,并力求 精美。
4.估计效度所依循的效标
选择适当的效标是统计效度的先决 条件。如因所选的效标不当,以致测验 的效度不能显现出来,则测验的价值可 能被淹没。
5.样本方面
效度确认所依据的样本,必须确能 代表某一测验所拟应用的全体对象。
总之,为了增进测验的效度,必须 要求测验编制和实施程序的标准化,注 意被试在测验情境中的行为反应,并顾 及适当样本和效标的选择,以建立符合 测验目的和功能的效度。
1.适当增加测验题目的数量 2.测验的难度要适中 3.测验的内容应尽量同质 4.测验的程序应统一
5.测验的时间要充分
6.评分要尽量做到客观化、减少评分误
差。 最后,应试者参加测验的动机水平、积 极性、疲劳程度也会影响测验分数,从而 影响信度。
二、测量的效度(Validity)
第三讲 教育测量的质量指标
一、测量的信度
(一)信度的含义
信度指的是测量结果的稳定性或可靠 的程度,亦即测量的结果是否真实、客 观地反映了考生的实际水平。
具体而言,可从以下三方面理解信度: 1、信度指实测值和真值相差的程度。 X=T+E 2 、信度指样本与总体之间的接近程度。 3 、信度指两次重复测量或等值测量之 间的关联程度。
2. 测验难度影响测验分数的离散程度
测验难度直接影响测验分数的离散程度, 因为难度过大或过小,测验分数的分布都呈偏 态分布,亦即测验分数都分布在高分段或低分 段,这样,测验分数的离散程度就变小了。而 这不一定符合考生的实际情况,因为考生的差 异是客观存在的。只有难度适中的测验,其分 数的分布范围才有可能达到最大。
(三)影响效度的因素
1. 测验组成方面
测题是构成测验的要素。而测题的性能是 影响测验效度的因素之一。 例如,测验的取材、长度、测题的鉴别力、 难度及其编排方式等都和效度有关。如果测验 材料经审慎地选择,测验的长度恰当、测题具 有相当的鉴别力且难度分布适当,并对测题作 出合理的安排,就能提高测验的效度。
2. 效标关联效度 效标就是足以显示测验所欲测量的特 性的变量或足以显示测验所欲预测的特 性的变量,作为检定效度的参照尺度。 效标关联效度又可称为经验效度或统 计效度,是以测验分数和效标之间的相 关系数来表示测验的效度的高低的。
3. 结构效度
所谓结构效度,是指一个测量能实际 测量出理论上的构念或心理特性的程度。 它的目的在于用心理学的概念来说明分 析测验分数的意义,也就是说从心理学 的理论观点就测验的结果加以解释和探 讨。
四、项目的区分度
(一)区分度的概念
区分度是指测验对考生实际水平的 区分程度,用符号D表示。具有良好区分 度的测验,实际水平高的应该得高分, 实际水平低的应该得低分。所以,区分 度又叫鉴别力。它是评价试题质量,筛 选试题的主要指标与依据。
区分又分为正区分(D0)、零区分 ( D=0 )和负区分( D0 ),正区分又称 积极区分,负区分又称消极区分。 所谓正区分是指实际水平高的考生 得了高分,实际水平低的考生得了低分; 负区分正好相反;零区分是指实际水平 高低与得分之间没有太大的关系,呈现 出零相关。
对于其他类型的测验,目的不同对 难度的要求也不同。比如,选拔奥林匹 克数学竞赛的学生,难度值就得偏小; 而选择补习功课的学生,难度值就得偏 大。
(五)控制题目难度的基本方法
一般说来影响题目难度的主要因素有: ①考查知识点的多少; ②考查能力的复杂程度或层次的高低; ③考生对题目的熟悉程度(如本来较易的题目 会因考生均未注意而造成很难,或本来较难的 题目会因为考生普遍练习过而变得较容易); ④命题的技巧性(如同一个问题,可以命得容 易,也可以命得较难)。
(一)效度的含义
效度是指测量结果的准确性和有效 性的程度,亦即测量是否达到了预期的 目的。我们可以从以下几方面来理解效 度:
首先,测量的效度始终是对一定的测量
目的而言的。 其次,测量的效度也是对测量的结果而 言的。 第三,一种测量的效度只是高或低的问 题。 第四,在教育测量中,效度问题比在其 他领域的测量更为重要。
3.妥善组织测验
严格按照测验手册进行,不作超出规 定的解释,掌握好时间。评分时务必遵 循评分标准,仔细登记,避免错误。
4.扩充样本的容量和代表性
加大样本容量,可以增加样本对总 体的代表性,而且使随机误差相互抵消, 使测量更可靠。同时,样本大了,被试 者差异也就加大了,潜在真分数的方差 随着增大,效度也就提高了。
(二) 区分度与测验信度、难度的关系
1、 区分度与信度的关系 要想达到理想的测验信度,提高区 分度是一个好方法。 2、 区分度与难度的关系 难度适中,区分度有可能达到最大。
(三)提高区分度的方法
1.使题目的难度适中,使整个考试难 度适中。 2、着重考察复杂的学习结果。 尽量考察复杂的学习结果,使高能 学生能得高分或最高分,低能学生得低 分甚至最低分,使分数尽量分布在整个 分数量尺上。这样,可以提高区分度。
讨论问题:
1、如何解决 “难度悖论”? 2、如何提高效度?
3、如何保证信度?
来自百度文库
5.合理处理效度和信度的关系
信度是效度的必要条件。虽然信度 高的测验效度不一定高,但效度高的测 验,信度却一定比较高。 在处理信度与效度的关系问题上,首先 要保证高的效度。
6.适当增加测验的长度
增加测验的长度可以提高信度,而 效度的最大值又与信度有关,所以,也 可以提高效度。 因此,适当增加测验题目的数量既 可以提高信度,又可以提高效度。