测验效度

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

效标关联效度

定义:效标关联效度(criterion-related validity) 也称为统计效度(statistical validity)或实证效 度(empirical validity)。
• 以测验分数和效度标准之间的相关系数, 来表示测验效度的高低,所以又称之为统 计效度。由于它以实践的效果来作为检验 测验是否有效的标准,所以也称为实证效 度。实际上是一个测验对于特定情境中的 个体行为进行预测时的有效性程度。
源自文库 效
成功

失败
成功 测验分数 失败
正确接受(A) 错误接受(B)正 错误拒绝(C) 确拒绝(D)

在实际计算测验的效度时,要统计出四类被试 的人数(即表中ABCD四个数字),再计算分 类决策的取舍正确性。
总命中率
正命中率
构念效度

构念
如何理解:构念或构想是充满科学想象的 产物,抽象而属假设性的概念或特质 。 为更好地描述人的具有内在一致性的 行为和心理现象
观念效标与效标的测量
• 选择效标时首先要进行逻辑分析,判断被 试的某种行为表现与所要测量的心理特质间 是否有对应关系,如果所测特质是该行为表 现的决定因素或主要影响因素,则这一行为 表现就可作为相应测验的效标。

观念效标是指从概念上确定所要选择的测验 效标是什么 。
• 观念效标确定后就要将其数量化,即以具 体的测量指标表示效标行为水平的高低,这 就是效标的测量。 效标所具有的特点: 有效性 可靠性 客观性 实用性
(1)1954年由APA颁布的《关于心理测验和 诊断技术的技术建议》 (2)1955年由国家教育协会颁布、由AERA 和NCME编制的《关于成就测验的技术建议》
(3)1966年由APA出版、由APA, AERA和 NCME共同编制的《教育与心理测验及手册 的标准》
(4)3家机构于1974年对第3个文件的修订版
• 效度的概念
CTT认为,效度(validity)是指一个测验或量 表实际能测出其所要测的心理特质的程度。
效度概念的理解
效度是一个相对的概念:(1)效度是相对 于一定的测量目的而言的 ;(2)只能达到 某种程度上的准确 。 • 效度是测量的随机误差和系统误差的综 合反映

• 判断一个测量是否有效要从多方面收集 证据
关于construct的解释是:“测验所测量的 概念或特性(the concept or the characteristic that a test is designed to measure)。”
• 使用术语‘概念(concept)’可能比使用术语 ‘construct’更好,但是,我们使用后者的原 因是为了强调,这些范畴是为了将经验组织 进定律性陈述而精心创造的。(Cronbach)
效度的估计

由于真分数方差是无法估计的,因此对测验的 效度的检验就难以依靠心理计量学的理论。
• 但由于潜在心理特质之间及与人的外显 行为之间有密切的关系,因此我们可以通 过逻辑的和实证的方法对效度进行间接的 验证。
内容效度

定义:content related validity,又称内容关联效 度。
同时效度(concurrent validity)和 预测效度(predictive validity)

同时效度:测验分数与效标资料的取得约在同 一时间内连续完成,计算这两种资料的相关系 数即代表测验的同时效度。指测验与同时获得 的效标行为的一致性程度。
• 预测效度:在测验分数取得一段时间后才 获得效标资料,计算这两种资料间的相关系 数就代表测验的预测效度。指测验结果对效 标行为的预测程度。


99年版本 :效度被定义为“关于测验分数的 特定解释所得到的支持程度。这种支持来自累 积的证据或理论。这种解释是测验应用的基 础。” “在本标准中,所有的分数都被视为 对构念的测量”。 在99年版《标准》中,没有再沿用把效度分为 构念、内容和效度标准的3种分类法 。

关于Construct



效标关联效度的估计方法


相关系数法 区分法或分组检验法 思路:被试接受测验后,让他们工作一段时间, 再根据工作成绩(效标测量结果)分为两个极端 组(成功与不成功,合格与不合格),然后检 验这两组被试原来的测验分数是否具有统计学 上的差异显著性。
重叠量 另一个版本:计算出成功组中低于失败组 平均数的人数,再计算出失败组中超过成 功组平均数的人数,两数相加除以两组总 人数即为重叠量。 计算出处于两组分数分布的共同区域的人数 百分比

在90年代出现两种主要趋向:①加强理论 趋向;②心理学理论与通过经验和实验的 假设检验之间密切联系。
日益认识到构念(结构construct)在描述 和理解人类行为中的重要性。构念是一种 广泛的范畴,源自直接可观察的行为变量 共同具有的一般特性。构念又是一种理论 实体,本身无法直接观察。

99年的《标准》认为,就说明测验测量 什么东西而言,构念效度逐渐被认为是 基本的、包括一切的效度概念。
确定构念效度的步骤

预测效度和同时效度之间的逻辑区分,不是根 据时间而是根据测验目标。
• 同时效度多用于诊断现在的状态,检查 和测量现有的某种能力或特质的有效性。 • 预测效度则预测将来的结果,表明测 验对某种行为的预测的有效性。

“某人具有这种能力吗?” “某人会有这种 能力吗?” “某人的心理正常吗?” “某人会出心理 问题吗?” “某人有资格当优秀飞行员吗?” “某人具备 成为优秀飞行员的必要条件吗?”
val.= ó2co /ó2o=r2XY
效度概念发展的四阶段

最初测验是用来评定个体在指定的内容领域已 经学会了什么东西
• 第二阶段时,重点则转到预测现在或将来 某个时候,不同的个体在一定的情境中会怎 样反应?同一个体在不同的指定情境中又会 怎样反应?所要预测的行为在情境中的表现 逐渐被称为效标。
效度与信度的关系

信度是效度的必要条件(necessary condition) 而非充分条件(sufficient condition) 。效度是 测验的首要条件,而信度是效度不可缺少的 辅助品。
• 信度系数的平方根是效度系数的最高限
rc=rxy/

rxxryy
• rc表示校正后的效度系数,rxy表示实得的 效度系数,rxx为测验的信度,ryy为效标的信 度

Validation是一种用以了解测验得分的意义的 科学研究(Scientific inquiry into test score meaning),并指出Validation研究的两个目的, Validity for measurement与Validity for decisions
• 总而言之, Validation一词的使用,则在强 调效度的动态过程。
(5)1985年颁布了《标准》的第5个版本
对效度的重新定义和分类

85年版本 :效度被定义为“从测验所做 出推论的适当性或合理性的程度” 。
根据证据来源不同,证据被划分为来自 “构念(construct)”、来自内容(content) 和来自标准(criterion) 3种,效度也被相 应地划分为3种。

译为“结构” 的人并没有准确理解 construct本身的涵义
• 在英语中,与“概念(concept)”相比, construct更强调建造、创造、人为的意思。
• 所以,认为译为“构念”会更好,既强调 了建造、创造的意思,又体现了概念的意思。
效度概述

效度所要回答的问题:(1)测验测量的是什么? (2)对它所测量的东西测量到什么程度?
心理测量学
第十一讲 测验效度
教育与心理测验标准

1999年美国教育研究协会(American
Educational Research Association, AERA)、美 国心理学会(American Psychological Association, APA)和美国国家教育测量学会 (National Council on Measurement in Education, NCME) 3家机构共同颁布了新版的《教育与
构念的两个基本的属性
它们本质上是对某些规律性进行的抽象概括 它们与具体的可观察的实体或事件存在相关
构念效度(construct related validity)
指一个测验实际测到所要测量的理论构念和
特质的程度,或者说它是指测验分数能够说 明心理学理论的某种构念或特质的程度。 测验结果与对某特质理论解释的一致性程度。
•内容效度比
内容效度与表面效度

表面效度(face validity)
• 表面效度会影响被试的测验动机 • 适当的表面效度
内容效度的应用

成就测验 教育测量中的标准参照测验 职业测验
效标关联效度



效标:即效度标准(validity criterion),是指独 立于测验结果,反映测验目的的行为参照,也 称效标行为。 理解:用来检验效度的参照标准 ;用来显示 测验所欲测量的特性的变量。 例如:智力测验 ,它的效标可以有哪些呢? 飞行员选拔测验的效标有哪些呢?企业的招聘 测验的效标。
• 验证测验内容效度的程序





确定所要测量的全部内容范围 将测验目的具体化为不同层次的测验目标 确定每一层次测验目标在整个测验中所占的比 重 编制测验双向细目表 按比例随机抽取测验题目 请专家对测题的代表性、测题对测验目的的适 合性进行分析
内容效度的确定

题目样本与总体得分相关法 •两测验的相关法 •处理后的重测法
Validity / Validation
• Content validity、Construct validity、 Predictive validity、Concurrent validity

1999年的《标准》改以Validation来说明心 理测验的有效性的评估。
• 把Validation译成:效度验证、考验效度、 效化
效度的数学定义及基本原理

一组测验分数的总变异(ó2o)包括三部分: • 真实的(稳定的)、与测量目的有关的 变异(ó2co) • 真实的、但出自无关来源的变异(ó2sp) • 随机误差的变异(ó2e)
• 三者关系如下:ó2o =ó2co +ó2sp +ó2e
• CTT将测量效度定义为:在一列测量中, 与测量目的有关的真实变异数(由所要测量 的变因引起的有效变异数)与总变异数(实 得变异数)的比率 。

命中率或取舍正确性
命中率的计算方法是:先根据测验的临界分数 将被试分为成功与不成功的两类,再根据效标 将被试分为成功与不成功的两类。这样被试就 分成了四类:在测验分数上成功而在效标分数 上也成功的(A);在测验分数上成功而在效 标分数上不成功的(B);在测验分数上不成 功而在效标分数上成功的(C);在测验分数 和效标分数上都不成功的(D)四类。
心理测验标准》(Standards for Educational and Psychological Testing )。

《标准》是教育与心理测验领域中的一份权威 性文献,体现了测验领域中的行业标准,是测 验工作者和测验研究人员的一本重要的参考书。

在1999年之前,颁布《标准》的3家机构曾经 颁布过5个有关测验开发和使用的文件。
常用的效标 :



学业成就(academic achievement) 实际工作表现(job performance) 对照组(contrasted groups) 精神病诊断((psychiatric diagnosis) 特殊训练课程成绩(performance in specialized training) 评定(ratings) 先前己有的测验((previously available tests)

测验的效度受它的信度制约 。
• 根据效度和信度的定义有:r2XY= ó2co /ó2o 和rXX = ó2T/ó2O •又因为ó2T= ó2co + ó2sp •所以可得到:r2XY=ó2CO/ó2O=(ó2T-ó2SP) /ó2O=rXX-ó2SP/ó2O • 因为ó2SP >0 所以 r2XY <rXX 这就是说, 一个测验的效度总是受它的信度所制约的。
相关文档
最新文档