教育测量中的信度和效度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

教育测量与评价的质量特性 NWNU
结构效度及其验证方法
结构效度的验证方法
① 测验内部寻找证据法 这种方法是通过研究测验内部结构来验证测验的结构效度。它主要包括 内容效度、作答过程分析、测验的同质性和因素分析等四个方面。 ② 考察测验的实证效度法 如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类 作为该测验的结构效度指标,至少可以从效标的性质与种类来推论测量 的结构效度。主要方法有差异被试比较法和先后测试分析法。


教育测量与评价的质量特性 NWNU
估计同质性信度的三种方法
克龙巴赫系数
当测验题型较多,并非都是二分记分题时,估计测验信度可采 用克龙巴赫系数。其计算公式为:
2 K s 1 2i K 1 sx

教育测量与评价的质量特性 NWNU
标准测验的信度分析
一、信度的意义
信度是指测量结果的稳定性程度,记为rXX 。换一句话说,信 度是指用同一测量工具反复测量同一种物质对象所得多次测量 结果间的一致性程度。
测验信度是对测验工具及其操作的整体质量的一种量度,是测
验性能的重要质量指标。如果测验本身抗干扰能力强,测验实 施过程各方面误差因素都控制得好,多次施测所得分数(测值) 的一致性就高,那么测量信度高,人们在使用所得测值时就会 感觉可靠。
数。即: rXX= ρXX´
实际意义
教育测量与评价的质量特性 NWNU
三、信度的估计方法
重测信度 复本信度
同质性信度
教育测量与评价的质量特性 NWNU
重测信度
重测信度是指用一个量表(测验或评价表)对同一组被试施测 两次所得结果的一致性程度,其大小等于同一组被试在两次测 验上所得分数的相关系数。
有:积差相关、等级相关、点双列相关、二列相关、四分相关、Φ相关、 列联相关法等等。在使用过程中,该选择何种计算方法,应根据测验分
数与效标测量数据资料的形式而定。
教育测量与评价的质量特性 NWNU
效标关联效度及其估计方法
效标关联效度的估计方法*
②显著差异法:该方法是根据效标测量将被试分为两个极端组,然后检 验这两组测验分数是否具有统计学上的差异显著性。若这两组被试的测 验分数差异,则说明该测验有较高的效度。 ③命中率:当测验用取舍决策时,常使用命中率这一指标。因为这类测 验效度高不高,就是看其取舍是否与实际一致。命中率包括总命中率、 正命中率和负命中率三种。
这是一个很难达到的条件。另外,重测信度的一些不足,在复
本信度中仍然存在,需要加以克服。
复本信度不仅适用于难度测验,也是适用于速度测验。
教育测量与评价的质量特性 NWNU
同质性信度
同质性信度的概念
同质性信度(内部一致性信度)是指测验内部所有题目间的 一致性程度。这里题目间的一致性含有两层意思:其一是指 所有题目测的是同一种心理特质;其二是所有题目得分之间 都具有较高的正相关。
等方面都相当,并且都用来测量相同潜在特质或属性,但试题
又是不相同的测验。
教育测量与评价的质量特性 NWNU
复本信度
实施复本测验的方式:一是在同一个时间连续施测(此时所得 的复本信度叫等值性系数),二是间隔一段时间后施测(此时 所得复本信度叫等值稳定性系数)。
使用复本信度首先要构造出两份或两份以上的真正的平行测验。
教育测量与评价的质量特性 NWNU
内容效度及其分析方法
内容效度的分析方法
逻辑分析法:依靠有关专家对测验题目与应测内容范围的吻 合程度作出判断。 依靠专家来分析一份试卷的所有题目,把所有题目按考试内 容和考查的目标分布进行双向分类,形成实际的“题目双向 分类表”,然后与事先制订的“题目双向细目表”进行对照 分析,了解实际命题在多大程度上偏离了原命题计划。
教育测量与评价的质量特性 NWNU
结构效度及其验证方法
结构效度的含义
结构效度是指一个测验或量表实际测到所要测量的理论结构 (结构是指心理学或社会学上的一种理论构想或特质)的程度。
教育测量与评价的质量特性 NWNU
结构效度及其验证方法
结构效度的验证一般步骤
① 提出有关理论结构的说明,并据此设计测量用的试题; ② 提出可以验证该理论结构是存在的假设说明; ③ 采用各种方法收集实际的资料,以验证第二步提出的假设的正确性; ④ 收集其他类型的辅助证据,淘汰与理论结构相反的试题,或是修正 理论,并重复第二和第三步,直到下述的假设得到验证,即测验的结 构效度获得支持为止。
教育测量与评价的质量特性 NWNU
同质性信度
同质性信度的概念
同质性信度的基本假设:当一个测验具有较高的同质性信度 时,说明测验主要测的是某一单个心理特质,由于众多的题 目测试了同一心理特质,那么实测结果就是该特质水平的反 映。
同质性信度不适用于异质测验和速度测验。
教育测量与评价的质量特性 NWNU
SE S X 1 rXX
SX为观察分数的标准差 rxx是测量的信度系数
教育测量与评价的质量特性 NWNU
测量标准误与测验信度的关系
测量标准误的意义 测量标准误是反映测量结果精确性和可靠性的又一指标,同时 也是人们正确解释测验分数的科学依据。
教育测量与评价的质量特性 NWNU
评分者信度
估计同质性信度的三种方法
估计同质性信度的三种方法
分半信度 库德-理查逊信度 克龙巴赫系数
教育测量与评价的质量特性 NWNU
估计同质性信度的三种方法
分半信度
分半信度指是的将一个测验分成对等的两半后,所有被试在这 两半上所得分数的一致性程度。 分半信度的计算方法和等值复本信度的方法类似,只不过分半 信度计算的是两个“半测验”上得分的相关系数,只是半个测 验的信度,还必须用斯皮尔曼—布朗公式加以校正。
重测信度有个基本假设,那就是假设某测验所要测量的潜在特
质,短期内不会随时间推移而改变。
教育测量与评价的质量特性 NWNU
重测信度
重测信度属于异质性测验
异质性测验:一个测验包括几个不同的部分,这几部分分别测量几个不 同的心理特质,它们之间可能并不存在相关或相关较低。(如加减乘除)
重测信度适用于速度测验而不适用于难度测验
评分者信度的含义
评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。 评分者信度的计算
(1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被
试的答卷所评分数的相关系数。依据数据形式,可采用不同的相关系数 计算方法。 (2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行 估计。
教育测量与评价的质量特性 NWNU
效标关联效度及其估计方法
效标关联效度的含义、种类及适用范围
效标关联效度是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。 根据效标资料获得的时间不同及测验使用的目的不同,效标关联效度可以分为:
① 同时效度:测验分数与效标资料的取得约在同一时间内连续完成,计 算这两种资料的相关系数即代表测验的同时效度。这种效度的目的主要 用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来 取代不易搜集的效标资料。
采用。
教育测量与评价的质量特性 NWNU
估计同质性信度的三种方法
库德——理查逊信度
该方法适合于测验题目全部为二分记分题的测验的内部一致性 信度分析。常用的库德-理查逊公式有:
KR20 K pi qi 1 2 K 1 sx
KR21 K X K X 1 2 K 1 Ks x
② 预测效度:在测验分数取得一段时间后才获得效标资料,计算这两种
资料间的相关系数即代表测验的预测效度。预测效度的作用在于预测某 个个体将来的行为。
教育测量与评价的质量特性 NWNU
效标关联效度及其估计方法
效标关联效度的估计方法*
①相关法:该方法就是计算测验分数与效标测量的相关系数,具体方法
标准参照测验的概念
标准参照测验是以预定的标准为参考,来衡量个体被试是否达 到标准的一种测验。所谓标准就是有测样所参考的行为领域和 或教学目标所确定的被试在测验上应当达到的行为表现。
教育测量与评价的质量特性 NWNU
标准测验的信度分析
标准测验信度分析的两种方法
百分比一致性指标
百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的 分类结果一致的比例。其计算公式为:
教育测量与评价的质量特性
——信度和效度
教育测量与评价的质量特性 NWNU
教育测量与评价的质量特性
教育测量与评价的信度 教育测量与评价的效度
教育测量与评价中题目的难度
教育测量与评价中题目的区分度 教育测量与评价方案的可用性
“四度” & 方案的可用性
教育测量与评价的质量特性 NWNU
PA ad N
K一致性系数
K一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致的最
大可能次数百分比的比率。其计算公式: K PA PC
1 PC
教育测量与评价的质量特性 NWNU
测量标准误与测验信度的关系
测量标准误的概念 测量标准误是指测验中所得测值偏离真分数的程度,记为SE。 它与测验信度系数之间存在可定量的表达关系:
二、信度的统计定义
定义1:信度是一个被测团体真分数方差与观察分数方差之比。 即:rXX=σ2T / σ2X (0<rxx<1)
理论意义
定义2:信度是一个被试团体的真分数与观察分数的相关系数的 平方。即:rXX=ρ2TX
理论意义
定义3:信度是一个被试团体在测验X(A卷)上的观察分数与在
测验X的任意一个“平行测验” X´(B卷)上观察分数的相关系
W
1 K2 12
N
s
3
N

教育测量与评价的质量特性 NWNU
测量与评价的效度
效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度。 对这一概念,我们可以从以下几个方面来理解:
① 效度始终是针对一定测量目的而言的;
② 效度只有程度上的差异;
③ 效度是针对测量结果而言的;
④ 评价一个测量是否有效要多角度、多方面地收集证据。
教育测量与评价的质Hale Waihona Puke Baidu特性 NWNU
教育测量与评价的信度
测量的目的:测试被施测对象是否具有某种属性特质 测量信度的目的:施测的结果是否准确 测量效度的目的:测量的工具是否能够测量对象的某种属性特 质。
教育测量与评价的质量特性 NWNU
估计同质性信度的三种方法
分半信度 计算分半信度的方法并不难,南难就难在如何将测验分成相等 的两半。分半分方法很多,如按题号的奇偶分半、按题目的难 度分半、按题目的内容分半等等。 在实际的应用中,由于题目一般都是依据难度大小排列,采用
奇偶分半可使两半测验的题目在难度上基本相等,因此常常被
速度测验由于题量较大,有规定的时间,第二次测验较少受记忆的影响。
重测信度还适用于运动技能的测验
教育测量与评价的质量特性 NWNU
复本信度
复本信度是指两个平行测验测量同一批被试所得结果的一致性 程度,其大小等于同一批被试在两个复本测验上所得分数的相 关系数。
复本测验:在试题格式、题数、难度、指导语说明、施测要求
教育测量与评价的质量特性 NWNU
测量与评价的效度
效度的统计定义 效度可定义为目标真分数方差与观察分数方差之比: r2XY = σ2V / σ2X σ2V
:目标真分数方差;
σ2X:观察分数方差
教育测量与评价的质量特性 NWNU
内容效度及其分析方法
内容效度的含义及应用范围
内容效度是指测验题目样本对于应测内容与行为领域的代表 性程度。如果是教学情境下的成就测验,那么其内容效度就 是看测验题目样本能体现教学目标与教材要求的程度。 内容效度主要适用于教育测量(尤其是学业成就测验)的情 境中,也适合于某些用于选拔和分类的职业测验,但不适合 某些心理测验(如智力测验、人格测验)。
教育测量与评价的质量特性 NWNU
二、信度的统计定义
X = T + E
X:观察分数(测量的结果) T:真分数(客观具体的实际水平)
E:测量的误差
σ 2 x = σ 2 T
σ2x :观察分数的方差
σ2T :真分数的方差 σ2E :误差分数的方差
+ σ 2E
教育测量与评价的质量特性 NWNU
相关文档
最新文档