测验效度概念的新发展201305

合集下载

测验效度

测验效度

理论建构 概念或特质 编制测验并实施 效度高 结果证明特性
3.适用范围:主要用于智力测验、人格测验等。 4.结构效度的确定方法: ①因素分析法:是确定心理特质的一种方法。通过对 测验结果进行因素分析,寻找影响测验分数的公共 因素。主因素分析法或方差极大法得到的因素负荷 正好是各项目与公共因素的相关系数,有时也称因 素负荷为因素效度。因素分析法的目的是把一些具 有错综复杂关系的因素归结为数量较少的几个综合 因素或称共同因素,并以此测验所测之特质对测验 分数作出解释。
•0.13 •0.22
•第2 •因素
•0.54 •0.55
•3.你觉得现在的工作能充分体现你的价值。
•4.你做现在的工作时感到很高兴。 •5.你在现在的工作中能充分发挥你的创造力。 •6.你所在的单位团队精神很强。 •7.你在单位中能够畅所欲言。 •8.你在单位中和同事们一起工作时心情舒畅。 •9.你在单位中遇到难题时能无顾虑地请教别人。 •10单位里的同事们能重视自己的意见。
2
4
4
10
8假设检验
2
4
4
10
9方差分析 10非参数法 项目数总计
4 3 25
3 3 30
1 3 25
2 1 30
10 10 100

表6-2 台湾地区某初中的统考内容
章 节 单元名称 1-1 因子与倍 数 1-2 质因子分解 1-3 最大公 因子与 最小公 倍数 2-1 2-2
分数的加法, 分数的除法 减法与乘法

第三节 结构效度

1.结构效度(construct validity,也称建 构效度) :是指一个测验实际测到所要测 量的理论结构和特质的程度。或测验分数 能够说明教育与心理理论的某种结构或特 质的程度。

测验的效度(新教材)

测验的效度(新教材)

要求内容效度的测验,不一定要求测验为同质的。
• 测量单一心理特质的测验要求测验条目有高度的同质性 • 测量一组不同心理特质的成套量表,不要求各分测验之间具 有同质性。
2018/11/27
6

(二)内容效度的评估方法
• 1、专家判断法
• 请有关专家对条目进行审定(逻辑效度) • 审定步骤
①定义测验总体范围,描述相关知识与技能及 所用材料的来源。 ②编制双向细目表,确定各种内容所占比例, 标出每个条目设计所测内容。(见表) ③制定一个相应的评定量表来评价效度,如测 验包括的内容、技能、材料的重要程度、条目 对内容的实用性等。请每位评定者对各方面进 行评价,然后总合所有评定者的评价。
2
2018/11/27
测量的效度受随机误差和系统误差的影响


测验分数的总方差(SX2) =真实方差(ST2) +误差方差( SE2 ) 真实方差(ST2)=有关的方差(SV2有效方差) +无关但稳定方差(SI2系统误差) SX2 = SV2+ SI2+SE2 信度rxy2=有效方差SV2 /总方差SX22018/1 Nhomakorabea/27 9
(三)内容效度的特性



1、不是普遍适用,根据具体情况分析; 2、有时间上的特定性,适合过去总体的代表性测验, 未必符合现在的总体。 3、不同类型的测验对表面效度的要求是不同的 表面效度 是由外行对测验做表面上的检查,不反映测验实际 测量的东西,只是指测验表面上看来好象是测量所 要测的东西。 考虑题目与测量目的之间明显的、直接的关系。 编制测验,表面效度是一个必须考虑的特性。
• 需要被试者在测验中尽最大努力的测验要求较高的表面效度 • 需要被试这尽可能按自己实际情况回答的测验要求较低的表 面效度

测验的效度(新教材)课件

测验的效度(新教材)课件
综合多种方法进行评估
结构效度的评估需要综合考虑多种方法,包括内容效度、校标关联 效度和因子分析等,以获得全面的评估结果。
04
验证效度
验证效度的定义
验证效度
指测验在特定目的下对测量目标的代表性和准确性进行的评估。它反映了测验 结果与实际目标之间的关联程度。
定义解释
效度评估旨在确保测验真正测量了所需测量的内容,并且所得结果与实际情境 相符合。
性和可靠性。
因子分析
通过因子分析等方法,对测验的 结构进行统计检验,判断测验是
否符合预期的结构模型。
结构效度的注意事项
明确测量目标和概念定义
在评估结构效度之前,需要清晰地定义测量目标和所测量的概念 ,以确保测验内容与测量目标的一致性。
考虑测验的适用性
评估结构效度时,需要考虑测验的适用范围和适用人群,以确定测 验是否适用于特定的测量目的。
测验的效度(新教材)课件
contents
目录
• 测验效度的基本概念 • 内容效度 • 结构效度 • 验证效度 • 应用与实例
01
测验效度的基本概念
定义与意义
定义
测验效度指的是测验在多大程度 上准确地测量了所要测量的特性 与功能。
意义
测验效度是衡量测验质量的重要 指标,对于评估个体的能力、选 拔人才、诊断问题等具有重要意 义。
的一致性。
在编制测验时,应尽量选择具有 代表性的题目,并确保题目难度 适中,以提高测验的内容效度。
在评估内容效度时,应综合考虑 专家的意见和统计分析的结果, 以确保评估的准确性和可靠性。
03
结构效度
结构效度的定义
结构效度是指测验在多大程度上能够 测量出所要测量的理论结构和特质的 程度。它关注的是测验内容与测量目 标之间的对应关系。

测验的效度

测验的效度
測驗的效度
林陳涌 國立台灣師範大學 生物學系
信度…...


信度所關心的是測驗分數的一致性或穩 定性。 一個具有良好信度的測驗,使用在不同 的主試者 評分者 時間 情境或使用 類似的問題,其所得的分數應該接近相 同或一致。 一般而言分數愈一致,受誤差的影響愈 小。所以信度主要在說明測驗分數中測 量誤差所佔的成分。
• 新編職業測驗 目前工作成績 • 新編生物成就測驗 在校生物月考成績

易於取得,故較易於考驗。此種效度可 用來取代收集資料的複雜方法。
預測效度

指測驗分數與實施測驗後一段時間所取 得的效標之間的相關,旨在使用測驗分 數預測個人在效標方面的未來表現。
• 新編職業測驗 • 錄取後一段時間後的工作成績
效標關聯效度




以經驗性的方法,研究測驗分數與一些 外在效標間的關係,故又可稱為經驗效 度或統計效度。 如果測驗分數和外在效標的相關愈高, 表示測驗愈能有效預測外在效標。 外在效標指測驗所要預測的某些行為或 量數。學業性向測驗以學校的學業成績 作為效標。 同時效度與預測效度
同時效度

指測驗分數與實施測驗同一個時間所取 得的效標之間的相關,旨在使用測驗分 數估計個人在效標方面的目前實際表現。
多項特質--多項方法分析--獲得構
念效度證據的方法六

採用多項特質--多項方法分析的基本條件
• 必須有兩種以上的測量方法測量兩種以上的 特質,其所測量的特質均一樣。

方法:M1. 人格量表 M2. 教師評定 特質:A. 成就性 B. 社會性 C. 獨立性
多項特質—多項方法分析矩陣 特質 方法 1 方法 2 A1 B1 C1 A2 B2 C2 A1 (.77) M1 B1 .40 (.81) C1 .31 .29 (.92) A2 .59* .27 .11 (.71) M2 B2 .29 .63* .12 .37 (.78) C2 .18 .09 .68* .25 .18 (.83) ()中的數字為信度係素 * 為輻合性效度 其餘為區別性效度 相同方法相同特質: 信度 相同方法不同特質: 區別性效度 不同方法相同特質: 輻合性效度 不同方法不同特質: 區別性效度

效度-基本概念、测量和解释

效度-基本概念、测量和解释
同时效度:诊断现状; 预测效度:预测将来。
4、都是用简便的测验去预测个体行为,因 此也成为效标预测效度。 5、效标污染:效标评定受到评定者知道测 验分数的“污染”,即测验分数影响效标 成绩。
效标污染会人为提高测验分数与效标之间的相关 。
2012/5/28 效度:基本概念、测量和解释 16
6、效标度量 一个测验有多少种具体用途,就可以 根据多少种效标进行效度分析。评定任何 情境中行为的任何方法,都为某种特定的 目的提供一种效标度量。 (1)智力测验的常用效标是学业成就。 (2)能力倾向测验的常用效标是训练课程 的成绩。
效度:基本概念、测量和解释
9
2、统计分析法(克伦巴赫相关法) (1)从统一教学内容总体中抽取两套独立 的平行测验,用这两个测验来测同一批 被试,求其相关。 (2)若相关低,则两个测验中至少有一个 缺乏内容效度;若相关高,则测验可能 有较高的内容效度。
2012/5/28
效度:基本概念、测量和解释
10
(三)应用
1、内容效度能让我们回答教育成就测验效 度的两个基本问题: (1)该测验覆盖了规定的知识和技能的代 表性样本吗? (2)测验成绩不受无关变量影响吗?
2012/5/28
效度:基本概念、测量和解释
12
2、内容效度主要应用于成就测验 (1)成就测验主要测量被试掌握某种技能 或学习某门课程所达到的程度。题目取样 的代表性是内容效度的主要考察方面。 (2)使用语某些对员工进行选拔和分类的 职业测验。 (3)不适用于能力测验和人格测验。
效度:基本概念、测量和解释
18
(二)具体方法
1、相关法 计算测验分数与效标测量之间的相关系数 ,包括积差相关、等级相关、二列相关、 四分相关等。 2、区分法 对照组、高分组&低分组 3、命中率

第4节 测验的效度

第4节 测验的效度

中华心理学习网
官方总站:圣才学习网
(二)效度具有连续性 1.测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。因此,我们评 价一个测验时,不应该说“有效”或“无效”,而应该用效度较高或较低来评价。 比如我们用尺子来测量人的腰围,从而衡量体重,一定程度上也是可以的。当然准确性会差些,即效度会较低, 因为体重重的,一般腰围也粗些,可是有两个明显的干扰变量:身高和胖瘦。 2.效度是针对测验结果的。 举个例子来说,当对某一儿童实施一套智力测验时,儿童的父母首先可能会提出“这个测验有效吗?”这样的 问题。实际上,他们是在问“这个测验真的测得出智力吗?测验的结果真的代表了孩子的智力水平吗?”可以看出, 测验的有效性是针对测验结果而言的,即测验效度是“测验结果”的有效性程度。
中华心理学习网
官方总站:圣才学习网
2.想编制有较高内容效度的心理测验: (1)首先要对所测量的心理特性有个明确的概念,并划定出哪些行为与这种心理特性有关,又较密切。这就 需要通过查阅大量资料,观察及询问来发现究竟哪些行为是受这种心理特性所制约。 例如要测定人的“忧虑性”,就要对忧虑性概念有个明确的内容范围,然后从临床观察、病人自述、医生笔记 以及文献报道中了解到具有忧虑性的人具有哪些行为特点,并通过自己的观察及调查加以验证,从而明确编制测量 人的“忧虑性”的测验。 (2)其次,测验题目应是所界定的内容范围的代表性取样。 有人在编制测验时不注意取样策略,哪方面内容编起来容易,哪方面题目就占较大比例,这样会影响测验的内 容效度。为了防止此种情况的发生,必须对内容范围进行系统分析,将该范围区分细目,并且对每个细目作适当加 权,然后再根据权数从每个细目中作随机取样,直到得到所需要的题目数。 3.需要说明的是,要求内容效度的测验,并不一定要求测验为同质的。 例如智力测验通常包括了各种能力与技能,高度同质性的规定将不实际且不需要。在细目之内的高度同质性也 许需要,但要求测验总体为同质就不必要了。然而,假使测验是用来测量某一心理特质时,则高度的同质性是需要 的。

测验的效度

测验的效度
现在学习的是第29页,共35页
测验实施中的因素
• 主试的因素
是否遵从测验使用手册的各项规定;
指导语是否统一正确;
测验的时限是否一致; 评分是否合理。
• 测验情境和时间间隔因素
测验与效标时间间隔是否过长;
场地的布置、材料的准备、测验场所有无噪音和其它 干扰因素的影响;
• 被试影响因素 兴趣、动机、情绪、态度和身心状况、健康状态以及 是否充分合作与尽力而为、反应定势等。
• 假设X与Y呈直线相关,建立回归方程:
yˆabyxx
• 通过求解可知:
byxrx ysy/sx
aybyxx
• 把所求的a和b值代入回归方程,如果已 知某人的测验分数(X),便能对他的效标 分数进行预测。
现在学习的是第24页,共35页
二、预测误差
• 如果我们知道测验的效度系数,我们就 能预测真正的效标分数的范围。
(B)区分法 (D)失误法
现在学习的是第34页,共35页
• 要保证测验具有较高效度,测验本身的 因素要做到( )。 (A)测验材料必须对整个内容具有代表性 (B)测题设计时应尽量避免容易引起误差 的题型(如是非题) (C)测题难度要适中,具有较高的区分度 (D)测验长度要恰当,测题的排列应先易 后
是通过实践来检验效度。如发展量表。
现在学习的是第7页,共35页
内容效度的特性
• 内容效度不具有普遍适用性,它具有内容范围的 特定性和时间的特定性。
• 内容效度与表面效度既区别又联系。
评定主体不同:表面效度是靠外行的表面检查而确立的 ,它不反映测验实际测量的东西,内容效度是专家系统 分析确立的。
• 区分效度法
两个构思不同的测验,其相关为区分效度,如果区分效度低, 则构想效度高;如果区分效度高,则不一定证明构想效度高。

效度概念的演进、新进展及效度的估计方法

效度概念的演进、新进展及效度的估计方法

可编辑ppt
8
2.构想效度的六个方面
——Sam Messick的效度理论
在这阶段,作出突出贡献的是美国学者Sam Messick,他于 1989年提出的效度理论,极大地深化和推动了人们对效度概念 的认识和理解。
Sam Messick认为,效度是一种总体性的、评价性的判断, 代表了理论原理在多大程度上证明了由测验成绩所得解释的充分 性和恰当性。将效度划分为多种类型的传统做法得到的效度是支 离破碎的、不完整的,而且这种做法缺乏对测验成绩的价值内涵 和社会后果的考虑。新的、一元的效度概念将这些方面统合起来 组成一个更为全面的构想效度理论。
可编辑ppt
7
(三)第三阶段:效度是一元且多维的
时间: 20世纪70年代到现在
1.两大特点
①不同效度类型统合起来,逐渐形成一个统一而丰富的概念。 效度只有一个,但证明效度的证据却可以来自很多方面,可以从内容、 效标以及构想等多种渠道寻求支持。 构想效度反映了效度概念最为本质的要求,其他效度都是统摄于其下 的。它已经成为一个统合各方面效度证据的综合性概念。 ②对效度本身解释力的反思。 泛泛地谈论某一测量工具的效度是不负责任的,因为效度指的是事实 和理论对由测验分数所得解释的支持程度。被评估的是对测验成绩所作 的解释,而不是测验本身。
时间:20世纪50年代之前 主要代表人物:Hull Bingham Guilford Gu1Liksen。 主要观点:相关即有效。 Bingham(1937 ):测验的成绩与采用其它客观方法进行度量 所得结果之间的相关就是效度。 Guilford(1946):只要一个测验与某事物相关,那么对于该事 物来说它就是有效的。
一方面,效度研究所包括的内容越来越丰富:从测验与效标之间的 简单相关到多种效度类型,再到一元且多维的构想效度,现阶段的效 度已经足以容纳所有可能为分数的解释提供支持的证据。

效度概念的演进、新进展及效度的估计方法-文档资料

效度概念的演进、新进展及效度的估计方法-文档资料

2.构想效度的六个方面
——Sam Messick的效度理论
在这阶段,作出突出贡献的是美国学者Sam Messick,他于
1989年提出的效度理论,极大地深化和推动了人们对效度概念 的认识和理解。
Sam Messick认为,效度是一种总体性的、评价性的判断,
代表了理论原理在多大程度上证明了由测验成绩所得解释的充分 性和恰当性。将效度划分为多种类型的传统做法得到的效度是支
1954年,美国心理学会《关于心理测验和诊断的技术建议》一 书对当时流行的各种效度概念进行了归纳概括,列举了四种类型的效 度: ①预测效度 ②同时效度 ③构想效度 ④内容效度 1966年,美国心理学会、美国教育研究学会和国家教育测量委员 会联合出版的《教育与心理测验的标准和指南》中,将效度类型进一 步简化为: ①效标关联效度 ②构想效度 ③内容效度 该阶段的特点:出现了各种与特定测验目的相联系的效度类型。 特点:美中效度都与特定的目的相联系——人们普遍认为,不同的 测验有不同的效度要求,比如成就测验更重视内容效度,能力测验强 调效标关联效度,而人格测验则突出构想效度等。
(二)第二阶段:效度有多种类型
时间:20世纪50年代到70年代。 不同的学者针对不同性质的测验或测验过程的不同方面,提出 了效度的多种类型。 1.内容效度 测验最早用途,是评定个体在指定的内容领内容 与测验所要评定的内容领域相比较。 2.效标效度 测验发展到第二阶段,重点转向预测。现在或将来 某个时候,不同的个体在一定的情境中会怎样反应?同一个体在不 同的指定情境中又会怎样反应? 3.结构效度 测验发展到第三阶段,出现两种主要趋向:(1)加强 理论研究;(2)心理学理论与通过经验和实验的假设检验之间密切联 系。这两种趋向使人们认识到结构在描述和理解人类行为中的重 要性,测验的编制必须考虑结构效度。

心理测量学 第五章 测验效度

心理测量学 第五章  测验效度

(四)系统比较

评价内容效度最常用的方法是由 有关专家对测验题目与测验所涉及的 内容总体的符合性进行判断,即定性 的方法,而不是定量的方法。将测验 所涉及的内容总体进行细分,由专家 们对各个部分进行系统比较,可以大 大地提高这种定性判断的准确性。
第三节
效标关联效度
一、效标和效标关联效度 二、效标关联效度的计算 三、影响效标关联效度的因素
例1 为了考察高等教育自学考试数学试卷 的效度,有关单位在自学高考的高等数学考 试之后,请30名考生参加了某重点大学的高 等数学结业考试。这些考生在两次考试上的 成绩如下表。 计算自学高考数学试卷成绩与普通大学数学 考试成绩之间的相关系数:见附件1
例2 某工厂考虑采用一项考试作为 招收工人的依据。为了检验这项考试 的效度,对20名新工人施测考试之 后,让他们工作了一年,并根据其工 作各方面表现进行综合评定。这20 名工人的考试成绩和工作评定成绩如 表。见附件2
正确录取人数 A Ppc 录取总人数 A B
5.预测误差 效度系数反映了预测的的误差范围,预测误 差的大小称为估计的标准误,即
2 SE S Y 1 rXY
标准误差是误差分数( E Yˆ Y )的分布的标 准差,真正的效标分数Y有95%的可能在估 ˆ 计的效标 Y 增减1.96个标准误的范围之内, 即
ˆ ˆ Y 1.96SE Y Y 1.96SE
2 YX 2 Y

rXY
S
2 YX
S
2 Y
=效度系数 =由测验所决定的效标分数方差 =效标分数方差
对于例1,我们可以认为,由于
r
2 XY
=
(0.882)2=0.78,所以,数学成绩的方 差的78%可以用测验分数来解释。

效度概念的演进、新进展及效度的估计方法

效度概念的演进、新进展及效度的估计方法

回顾效度概念的演变历史,我们不难发现:对于效度的 确认从最初作为研究过程最后环节的相关检验发展为一个 持续不断的动态过程。
运用各种技术不断地评价、质疑和检查由测验结果所作 推论和解释的有效性成为整个研究过程中不可或缺的组成 部分。
对于这一历程,我们可以从研究内容和研究方法两个角度加以 总结:
一方面,效度研究所包括的内容越来越丰富:从测验与效标之间的 简单相关到多种效度类型,再到一元且多维的构想效度,现阶段的效 度已经足以容纳所有可能为分数的解释提供支持的证据。
2.内容效度也适用于某些对员工进行选拔和分类的职业测验 如果测验内容是取自实际工作,或者是实际工作所需要的知识和技能时, 内容效度尤为合适。美国从八十年代起,广泛采用这种方法来编制联邦政 府和州政府公务员测验 3.内容效度通常并不适合于能力倾向测验和人格测验 虽然编制任何测验都应该考虑测验内容的恰当性和代表性。但是,相比 成就测验,能力倾向测验和人格测验与所取样的行为领域的内在相似性大 为降低。所以,这些测验的内容只能显示某些假设,而这种假设指导测验 编制者选择某种内容来测量规定的心理属性。为了建立测验效度,需要采 用效标效度和结构效度的方法在经验上证实这类假设。
4.对照组(contrasted soups)
对照组一般是一个合成效标,它反映日常生活中累积的、不可控制的选 择影响。这种效标最终是根据某特定团体之内的幸存者与淘汰者。
例如,把音乐学院学生的分数与未经选择的大学生的分数相比较,就可 以得出音乐能力倾向测验的效度。
当然,选取对照组,可以根据任何效标,例如学校成绩、评定或工作表 现,只要选择效标度量分布的两端就行。
另一方面,随着研究内容的丰富化,研究方法也日益多样化。不但 要有统计学的方法以及专家的判断,甚至引人了认知心理学的方法和 生理心理学的方法作为支撑。构想效度所涉及诸多方面的不同性质要 求综合运用多种定性的和定量的方法加以解决。这也是近些年来越来 越多的学者倡导量的研究和质的研究并重的原因之一。

简述测验中效度的概念

简述测验中效度的概念

简述测验中效度的概念测验是一种常见的心理学研究工具,用于测量个体的某些心理特质、能力或行为。

测验的有效性在心理学研究中至关重要,其中效度是测验有效性的一个重要指标。

本文将简述测验中效度的概念及其在测验研究中的重要性。

效度是指测验测量的内容是否与测验的目的相符。

如果测验的内容与目的不符,则测验效度就会降低。

因此,测验的效度是测验是否有效的重要指标。

测验效度一般分为两种:内部效度和外部效度。

内部效度是指测验测量的内容是否与测验的目的相符。

例如,如果一项测验旨在测量个体的智力水平,那么测验的内容应该涵盖智力的多个方面,如数学、语言、空间能力等。

如果测验只涵盖其中的一两个方面,那么测验的效度就会降低。

因此,内部效度是测验的内容是否充分的重要指标。

外部效度是指测验的结果是否与其他已知的测量结果相符。

例如,如果一项测验旨在测量个体的社交能力,那么测验的结果应该与个体的社交行为、情感状态等相关。

如果测验的结果与这些相关因素不符,那么测验的效度就会降低。

因此,外部效度是测验结果是否准确的重要指标。

测验效度的重要性在于,如果测验效度不高,那么测验的结果就不能反映个体的真实特质或能力。

这就会导致测验结果的误解或误导,从而影响到测验的应用价值。

因此,在研究测验时,必须注意测验效度的问题,以保证测验的有效性和可靠性。

测验效度的提高可以通过以下几种方法实现:1. 测验内容的广泛性:测验的内容应该涵盖测量目的的多个方面,以确保测验的内部效度。

2. 样本的多样性:测验的样本应该具有多样性,以确保测验的外部效度。

例如,如果一项测验旨在测量个体的社交能力,那么测验的样本应该包括不同年龄、性别、文化背景等的个体,以确保测验结果的广泛性和可靠性。

3. 测验的标准化:测验应该经过标准化处理,以确保测验的结果具有可比性和可靠性。

4. 测验的改进:如果测验效度不高,那么需要对测验进行改进,以提高测验效度。

总之,测验效度是测验有效性的一个重要指标。

效度概念演进及其新发展

效度概念演进及其新发展

效度概念演进及其新发展
效度概念演进及其新发展
回顾了心理测量学中效度概念发展的三个阶段,早期效度概念关注的是两个变量之间的相关,随后重点转向效度的多种类型,现阶段则注重考察测验的构想效度.总之,效度确证成为一个持续不断的动态过程;在这个过程中,运用各种技术不断地评价、质疑和检查由测验分数所作推论和解释的有效性成为心理与教育测量研究中不可或缺的组成部分.
作者:孙晓敏张厚粲作者单位:北京师范大学心理学院,北京,100875 刊名:心理科学PKU CSSCI英文刊名:PSYCHOLOGICAL SCIENCE 年,卷(期):2004 27(1) 分类号:B84 关键词:心理测验效度构想效度。

04-测验质量(效度)

04-测验质量(效度)
例如,用全国高考的成绩作为效标来检验高中毕业会 考的成绩,计算两者之间的相关系数就是会考的同时 效度;而用大学一年级的成绩作为效标来检验高考的 成绩,计算两者之间的相关系数就是高考的预测效度
效标关联效度及其用特殊课程或特殊训练的成等; 职业兴趣测验:可采用从业人员实际工作成绩或记录;
返回
测验效度的有关问题
对内容效度,结构效度和效标关联效 度的几点总结
影响效度的因素 提高效度的方法
几点总结
1. 效度问题的研究基本上是两个问题:测量什么东 西,即测验所欲测量的性质是什么;测验对它所测 量的东西达到何种程度。
测验效度的三种主要类型都 是围绕这两方面展 开的。其中结构效度帮助我们运用测验分数解释人 的心理特质,可由结构效度研究的资料来回答测验 所测量的东西或所测量的变量的性质;效标关联效 度可用来了解测验分数能否有效地预测或估计某种 行为表现,是关于测验结果的一些实际用途的检验; 内容效度研究的问题是变量的内容范围;同时,它 又帮助我们决定测验分数能否代表某种学习结果的 成果,也是关于测验结果的一些实际用途的检验。
用测验分数和效标(准则)分数之间的相关 系数ryy来表示,它实质上是指测验对某一行为表 现的预测的高低。所谓效标是指足以显示测验所 欲测量的特性的变量,作为检定效度的参照尺度。
效标关联效度及其估计方法
同时效度(concurrent validity)是指测验 与当前效标之间的关联程度。
预测效度 (predictive validity)是指测验将来 的效标之间的关联程度。
内容效度
内容效度:
内容效度可以作为检验测验结构效度的一个 方面。举个例子,在编制一个数学测验时,编 制者主要考虑的是计数和运算能力,那么,如 果该测验具有较高的内容效度,基本上也就可 以排除测量数学推理能力这一结构的可能性。

测验的效度(新教材)

测验的效度(新教材)
效标成绩测验预测失败成功成功a失误b命中失败c命中d失误总命中率pct命中命中失误bc正命中率pcp测验与效标皆成功人数测验成功人数总命中率pct3833223833771正命中率pcp3822386320203921正命中率高低随划分测验分数成功与失败的临界分数的高低而变化临界分数越低正命中率越低20203922效度系数的实际意义常常以决定性系数来表示即相关系数的平方它表示测验正确预测或解释的效标的方差占总方差的比例
工 作 失 败
3
2 1 0 1
1
4
5
6
2 2
9
2
2
3 1
1
23
12 4 1
1 1 3 13 17 21 23 9 6 5 2
合计人数
2018/11/27
10 0 18
• 从t 检验方法中可以发现差异显著性与样本大小 有密切关系,当样本较大时,平均数之间的小差 异也有显著性,但这种差异用于区分团体时实际 价值很小。 • 重叠计算法
• 如果 t 检验有显著差异,进一步求两个分部的重叠量, 以解决上述缺点。 • 一组(A组)内被试超出另一组(B组)平均值的人 数与该组(B组)内部平均值以上人数之比。如果该 比例越低,说明两组差异越大。 • 举例:前例中以6分为界,失败组有7人≥6分, 而成功组有38人≥6分,其比例为7/38。 • 计算两组分布共同区的百分比,重叠量越大,说明分 数差异越小,测验效度越差。 • 举例:前例中两组分布重叠范围从2~7分,共 86%的人分布在此区域。
t
• t 检验统计量
• XH 高分组平均值 • XL 低分组平均值 • SH2 高分组方差
XH XL
2 H
S S NH NL
2 L

测验的效度.

测验的效度.

效度與信度的關係
有效度必先有信度 有信度未必有效度

建構效度
差異團體 以對照團體作為效標 方式

– 求差異團體在測驗總分的差異
建構效度

因素分析
建構
理論上包含 的因素
編製測驗
檢證是否與理 論的因素符合

具建構效度

修改試題
建構效度

不同特質不同方法
– 收斂效度(convergent validation) 測驗應與有關的變項間有很高的相關 – 區辨效度(discriminant validation) 測驗應與不同的變項間無顯著相關
Lecture 4 測驗的效度
效度的意義 效度的性質 效度的類型 影響效度的因素 效度與信度的關係

效度的意義

傳統的定義
– 測驗能測量到所欲測量特質的程度

新近的看法
– 測驗能夠達到某種目的的程度
效度的性質
效度的判斷係依據測驗分數的使用目的 或測驗結果的解釋,並非測驗工具本身 效度是程度上的差別,並非全有或全無 效度在使用的目的和情境方面具有特殊 性,不宜視為普遍性的特質 效度無法直接測量,但可由其他資料推 論
方法1
特質
方法2
方法3
A1 B1 C1 A2 B2 C2 A3 B3 C3
.89 .51 .38 .57 .22 .11 .56 .23 .11 .89 .37 .22 .57 .11 .22 .58 .11 .76 .09 .10 .46 .11 .12 .45 .93 .68 .59 .67 .43 .34 .94 .58 .42 .66 .32 .84 .33 .34 .58 .94 .67 .58 .92 .60 .85

第7讲:测验的效度

第7讲:测验的效度

1.3.2 效度一元化概念的提出
随着研究的深入和理论的发展,研究者们现在 随着研究的深入和理论的发展, 倾向于被测验的效度看成是一个一元化的概念 )。美国 (unitary concept)。美国 )。美国1985年修订的 年修订的 教育与心理测量标准》明确地说: 《教育与心理测量标准》明确地说: 效度是一个一元化的概念。 效度是一个一元化的概念。虽然积累证据 的方式可以有很多种, 的方式可以有很多种,但效度指的总是根据分 数所做的推论在多大程度上得到了证据的支持, 数所做的推论在多大程度上得到了证据的支持, 被认为有效的是一测验为特定用途所做的推论, 被认为有效的是一测验为特定用途所做的推论, 而不是测验自身。 而不是测验自身
3)试题的哪些方面需要检查? )试题的哪些方面需要检查?
考查范围: 考查范围:
A 汉语水平词汇大纲中的甲级词 B 实词
面对这样的突发事件,他显得比我们想象的还要镇定 镇定。 ① 面对这样的突发事件,他显得比我们想象的还要镇定。 A 悲伤 B 犹豫 C 严肃 D 平静 ② 外祖父 A 爸爸的爸爸 B 爸爸的妈妈 C 妈妈的爸爸 D 妈妈的妈妈 ③ 这本书是他 。 A 的 B 了 C 过 D着 着 ④ 年轻 学习 认真 服务 热情 教师
2 内容效度
2.1 概念 内容效度( 内容效度(content validity)是指一个 ) 测验在多大程度上测到了它要测的内容。 测验在多大程度上测到了它要测的内容。 取样合理,代表性强的测验, 取样合理,代表性强的测验,内容效度 就高,反之,内容效度就低。 就高,反之,内容效度就低。内容效度 的高低, 的高低,一般由专家根据对内容范围和 测验内容的分析来判定,所以, 测验内容的分析来判定,所以,内容效 度是一种非经验性效度。 度是一种非经验性效度。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

测验效度概念的新发展谢小庆(北京语言大学)摘要:在1985年《教育与心理测验标准》(第5版)出版之前,效度研究的核心概念是“效标(criterion)”。

效度研究被视为一种用“效标”对测验的效度进行证明(verify)的过程,效度研究被视为一种对测验分数做出有效(valid)解释的过程。

在1985年以后,效度研究的核心概念是“证据(evidence)”。

效度研究被视为一种通过积累证据对测验的效度进行支持(support)的过程,效度研究被视为一种对测验分数做出合理(reasonable)解释的过程。

关于效度的这种理解,突出地体现在1999年出版的《教育与心理测验标准》(第6版)中。

美国教育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为是“测量领域的《圣经》”。

在2006年《教育测量》(第4版)出版以后,效度研究的核心概念变为“理由(warrant)”。

效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证(argument)”,效度研究被视为一种对测验分数做出可接受的(plausible)解释的过程。

本文结合作者在考试实践中的一些体会,介绍了效度概念的新发展。

关键词:测验考试效度考试是一把尺子,被用来测量应考者的能力。

这把尺子本身可能存在质量问题。

只有达到质量标准的考试才能被应用。

效度是刻画考试质量的最重要指标,它反映了考试在多大程度上实现了考试目的。

在美国教育研究协会(American Educational Research Association,AERA)、美国心理学会(American Psychological Association,APA)和美国国家教育测量学会(National Council on Measurement in Education,NCME)共同制定的《教育与心理测验标准(Standards for Educational and Psychological Testing)》[1][2]和美国教育协会(American Council on Education)和美国国家教育测量学会共同组织编写的、被人们称为“教育测量领域的《圣经》”的《教育测量(Educational Measurement)》[3][4]中,首先讨论的都是考试的效度问题。

一、效度概念的历史演变考试是一把尺子。

这把尺子的准确性,需要靠另一把尺子来检验。

这“另一把尺子”,就是“效标(criterion)”,或“标准”。

在招生名额有限的情况下,当我们准备将一项测验(如手指速度测验或注意力测验)作为“打字员培训班”的招生考试时,我们可以对这项测验的有效性进行检验。

我们可以计算经过一个月培训后的学员的打字速度与测验分数之间的相关。

如果存在显著的相关,我们可以说这项测验是有效的。

这时,经过一个月培训后的打字速度就是“效标”。

早期的效度研究是围绕“效标”展开的。

例如,作为美国高考的《学术评估测验(SAT)》的主要效标是大学第一年各科考试成绩的平均,英语TOEFL考试的效标是英语教师对学生英语水平的评价,汉语水平考试(HSK)的效标是汉语教师对学生汉语水平的评价。

在教育部考试中心的资助下,笔者曾经进行过一次关于语文高考的效度研究,采用了4种效标:高中成绩,高中任课教师对学生语文水平的评价,高中同学之间的互相评价,大学第一学年的各科成绩平均。

[8]受国家公务员局委托,笔者曾经对若干年的中央机关公务员录用考试进行效度研究。

研究所采用的最主要效标是考生的学历,划分为大专、本科、硕士、博士等几个等级。

大学中由任课教师命题的、监管并不严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗?真的可以被作为效标去检验高考成绩吗?如果以“学历”作为效标来检验公务员录用考试的成绩,高学历就一定是高能力吗?为什么不直接根据学历来录用公务员呢?“效标”被用来对考试的质量进行检验。

在许多情况下,这些效标很容易受到质疑。

心理测量学家们发现,“效标”只能在很有限的领域内为测验提供有说服力的效度检验,更多的情况下则是捉襟见肘,难以自圆其说。

于是,他们尝试着为“效标”配备了两个助手,一个的名字叫“内容(content)”,另一个的名字叫“构念(construct)”。

在可疑的“效标”显然靠不住的时候,心理测量学家说,测验可以是特定知识内容总体的一个代表性样本。

只要我能够证明我编制的测验是特定知识内容总体的具有代表性的样本,我就可以说我的测验是有效的,说它具有“内容效度(content validity)”。

例如,高考语文考试可以是中学语文教学内容总体的一个代表性样本。

“内容效度”面临双重挑战。

首先,我需要证明我编的高考语文试卷是中学语文教学内容总体的一个代表性样本。

这并不容易。

“中学语文教学内容总体”本身就是一个充满争议的话题。

关于什么是“语文”,1949年以来已经争论了60多年。

基本观点有4种。

一是语言和文字。

二是语言和文学。

“唐初四杰”是哪几人?《过秦论》的作者是谁?《红楼梦》的主题思想是什么?《阿Q正传》的主题思想是什么?《小桔灯》采用的是什么描写手法?这些,属于文学问题,不属于语言和文字的范围。

三是语言和文化。

中国人结婚穿红而不穿白,中国人责“无后”为“不孝之最”,这些属于中华文化。

四是语言和人文。

礼义廉耻,仁义礼智信,这些属于“人文”。

根据“语言和人文”的观点,语文还应该包含教化,包含品德教育,包含价值观。

语文界的前辈叶圣陶、吕叔湘、张志公等,基本持“语言和文字”的看法。

今天,在我国语文教学界最有影响的一批权威人物则持“语言和人文”的看法。

“总体”的边界都不清楚,怎么证明你编的测验是具有代表性的样本?其次,即使我能够证明我的测验是具有代表性的样本,我还需要继续证明那些掌握了“中学语文教学内容总体”的考生更有可能在包括数学系、物理系、生物系在内的大学学习中具有优势。

近年来,人们常常提到“钱学森之问”,追问“为什么中国的大学培养不出杰出人才”。

我还需要继续证明,我编制的作为“中学语文教学内容总体”代表性样本的语文高考试卷,确实可以向那些潜在的“杰出人才”倾斜。

显然,这是比证明我的试卷具有取样代表性更困难的任务。

当主将“效标”和助手“内容”都招架不住的时候,心理测量学家就只好以另一个助手“构念”来搪塞。

他说,虽然我无法证明我的考试具有“效标关联效度”和“内容效度”,但我的考试具有“构念效度”。

“构念效度”成了一个“筐”,所有无法得到效度证明的考试都可以往里面装。

据说,“语文能力”是一个“构念”,这个“构念”可以用考试来界定,这些界定“构念”的考试具有“构念效度”。

关于“构念效度”虚弱的逻辑基础和循环论证,讨论的文章已经很多,不再赘述。

正是由于认识到原有效度概念框架的脆弱,心理测量学家们开始尝试构造新的效度研究范式(Paradigm)。

这种努力,体现在1985出版的《教育与心理测验标准(第5版)》[1]中,在1989年出版(1993年修订)的《教育测量(第3版)》[4]和1999年出版的《教育与心理测验标准(第6版)》[2]中,得到比较完整地阐述。

在新的研究范式中,不再将效度划分为效标关联效度、内容效度和构念效度。

“构念”被用来定义效度概念。

“构念”被定义为:“测验所要测量的概念或特性(the concept or the characteristic that a test is designed to measure)”。

(AERA,1999,第173页)。

所谓效度,就是测验对构念进行测量的有效程度。

从此,“构念效度(construct validity)”这一短语对于效度来讲已经成为多余(redundant)”。

(AERA,1999,第174页)。

随着“构念效度”退出历史舞台,“构念”走到了舞台的中心。

在新的研究范式中,“证据(evidence)”取代效标成为效度研究的核心概念。

效度研究被视为一种通过积累“证据”对测验的效度提供支持(support)的过程,效度研究被视为一种对测验分数做出合理(reasonable)解释的过程。

在《教育与心理测验标准(第6版)》中,提出了支持考试效度的5个方面的证据:基于内容的证据(evidence based on content);基于反应过程的证据(evidence based on response processes);基于内部结构的证据(evidence based on internal structure);基于与其他变量之间关系的证据(evidence based on relations to other variables);基于测验结果的证据(evidence based on consequences of testing)。

[2][9]这时,效度研究的逻辑是,虽然我不能“证明”我的考试是有效的,但我可以用尽可能多的“证据”去支持我的考试。

尽管我不能确认某项考试一定有效,但我可以从互相竞争的考试中选择得到更多证据支持的考试,我可以根据效度研究结果做出合理的选择。

在2006年出版的《教育测量(第4版)》中,将这种效度研究范式称为基于构念效度研究之上的“一元化效度模型(construct validation as the basis for a unified model of validity)”。

(Brennan,2006,第21页)在考试实践中,这种效度研究范式继续受到挑战,继续遭到质疑。

人们发现,仅仅靠作为证据的“事实(fact)”或“可观察行为(observable behavior)”并不足以对测验效度提供足够的支持。

只有当“证据”与一些预设的“假设”结合在一起时,才能对测验提供支持。

在考试领域中的一个重要的效度研究案例是美国教育测验服务中心(ETS)关于客观性选择题和主观性作文题的比较研究。

选择题能否被用于考查写作能力?上世纪50年代初,在美国语文教学界曾经存在激烈的争论。

为此,ETS从1954到1957年进行了一项长达3年的实证研究。

ETS对《英文写作水平考试》(English Composition Achievement Test ,简称ECT,全部是选择题)、《普通写作测验》(General Composition Test,简称GCT ,两小时的作文考试)和《学习能力倾向测验》(Scholastic Aptitude Test,简称SAT,)的言语部分(全部是选择题)等三个考试进行了比较研究。

采用的效标是语文教师对学生作文水平一年或一年以上的观察结论。

1957年,ETS公布了他们的研究成果:SAT的效度最高,与语文教师基于长期观察对学生写作能力做出的主观评价最一致。

相关文档
最新文档