第五章 效度
第五章 效度与系统误差
100/1 100/4 88/12
94/8
50/3
33/4 22/5 4/2
85/10 48/7 63/16 31/13
4、命中率法
决策
结果
将会成功
接受
将会失败
关于个体 的信息 策略 可能成功 拒绝 可能失败
决策过程
真 正 的 表 现 水 平
成功
失误 (错误的消极)
命中 (正确的积极)
二者的一个重要差别 是进行测验(即预测源) 与进行效标测量之间的 时间 • 不同时间=预测效度 • 同一时间=同时效度
方法不同
• 预测效度
学生参加高考,有些人上了北师大 以后,将他们的平均学业成绩与高 考分数求相关 这个相关称为效度系数 如果二者相关很高,那么高考成绩 对预测大学平均学业成绩来说有高 效度
当测验用于提高工作或学习效率时,应重视正命 中率;当强调维护社会公平时,则应重视总命中 率。
5、功利率法
对使用测验的投入和产出进行比较,这种效度指标 叫功利率。
U=B(Ns)-C(Na)-S
U:效度 B:录用一个合格的人所产生的平均利润 C:录用一个不合格的人所造成的损失 Ns,Na:录用合格和不合格的人数 S:整个选拔过程的费用
多种特质-多种方法的矩阵说明:
实线三角形对角线上的相关系数是采用相同方法测量相同特 质,是两次测量的信度系数; 在虚线三角形对角线上的相关系数,是采用不同方法测量相 同特质(相容效度),它们的数值越大说明测量的效度越好; 实线三角形中的相关系数是采用相同方法测量不同特质的结 果(区分效度),它们的数值越小说明测量的效度越好; 虚线三角形中的相关系数,是采用不同方法测量不同特质的 结果。
第五章效度
3、效标和效标测量:
效标,即衡量测验有效性的参照标准,指的是 可以直接而且独立测量的我们感兴趣的行为。
效标可以分为两个层次,其一是理论水平的观 念效标,其二是操作定义水平的效标测量。
4、常用的效标
(1)学业成就; (2)实际工作表现 (3)特殊训练成绩 (4)精神病诊断 (5)等级评定 (6)效标团体的比较 (7)先前有效的测验
(二)构想效度(construct Validity)
1954年提出,有人翻译为构思效度,也有叫结 构效度。它是指测验能够测量到理论上的构想 和特质的程度,即测验的结果是否能证实或解 释某一理论的假设、术语或构想,解释的程度 如何。
(三)效标效度
1、定义:又称实证效度,反映的是测验预测个 体在某种情境下行为表现的有效性程度。
空间想象能力 67 1 2 4 6 4 6 1 2 2 3 1 35 23
测验成绩
00403106308
一年后几何测 65 7 6 5 4 6 7 3 6 5 4 6 70 62
验成绩
02588282088
1 110011010011 1
5、效标效度的表示方法 (1)相关法:
(2)命中率法
是当测验用来做取舍的依据时,用其正确决定 的比例作为效度指标的一种方法。命中率的计 算有两种方法,一是计算总命中率,另一种是 计算正命中率。
(3)命中率法
效标成绩 测验预测
成功(+)
失败(-) A(失误)
成功(+) B(命中)
失败(-) C(命中) D(失误)
总命中率:PCT
命中 命中 失误 100%
A
CB BC
100% D
正命中率 : PCP
心理测量学 第五章 效度(用)
b YX r XY
sY sX
0
0 . 923
a=57.5-0.923×69.4=-6.56 Yˆ =-6.56+0.923X
如果我们已知一组人的测验得分,我们可以 根据上式得到他们的效标成绩平均值的预测 值: X=76时, Yˆ =-6.56+0.923×76=63.6 X=55时, Yˆ =-6.56+0.923×88=74.7 预测值不是一个确定值,只是一个估计值, 可以被理解为所有获得某一测验分数者的平 均效标分数值。就是说,所有在测验上得76 分的人的效标分数的平均分为63.6,在例1 中,测验中实际得76分的人的效标平均分为 59.5,测验得88分的人的效标平均分为79.5。
三、影响效标关联效度的因素
(一)样本 这种影响来自两个方面:一是样本的含量,二是样 本的代表性。 (二)基础率 基础率是经选择的总体中具有某种与测验目的有关 的特质的人数比例。极高与极低的基础率,运用测 验都是得不偿失的。 (三)录取率 录取率是根据测验选拔出的人数与全体受测者的比 例。录取率越低,选拔的有效性越高。录取率越高, 错误选择的可能性越大。
2. 方差比例。根据效度定义,效度是有效 分数方差在所得分数方差中所占比例。这只 是一种理论概念,在实际的效度系数的计算 中,效度分数的平方可以解释为在效标分数 的方差中可以用测验分数来解释的百分比,
r XY
2
S YX SY
2
2
r XY =效度系数
S YX
2
SY
2
=由测验所决定的效标分数方差 =效标分数方差
例1 为了考察高等教育自学考试数学试卷的 效度,有关单位在自学高考的高等数学考试 之后,请30名考生参加了某重点大学的高等 数学结业考试。这些考生在两次考试上的成 绩如下表。 计算自学高考数学试卷成绩与普通大学数学 考试成绩之间的相关系数:见附件1
第5章效度_PPT幻灯片
3、经验推测法
这种效度是通过实践来检验效度。如儿 童发展量表是否有效,需要经过实践调查。
(三)内容效度的特性 表面效度(重点):是由外行对测
验作表面上的检查确定的,它不反映 测验实际测量的东西,只是指测验表 面上看来好像是测量所要测的东西。
编制测验时,表面效度需要考虑。
最高行为测验,如智力测验、成 就测验,需要较高的表面效度。
第三节 影响效度的因素
一、测验本身的因素 二、测验实施中的干扰因素 (一)主试的影响因素 (二)被试的影响因素 三、样本团体的性质 (一)样本团体的异质性 (三)干涉变量 四、效标的性质
一、测验本身的因素
如词汇和句型不能过于太难,如低年级 小学生,要用拼音和图形来注解。测验取 材、测验长度、试题类型、难度、区分度 及编排方式等都会影响效度。
• 1、如果某测验的效度系数是0.70,则在测 验中无法作出正确预测的比例是( )。
• (A)0.30 • (B)0.51 • (C)0.49 • (D)0.70
• 2、一个测验所测量的与所要测量的心理特 点之间符合的程度,指的就是测验的( )。
(A)信度 (B)难度 (C)区分度 (D)效度
• 3、好的效标应具备的条件包括( )。 • (A)效标测量本身必须有效 • (B)效标必须具有较高的信度 • (C)效标可以客观地加以测量 • (D)效标测量的方法经济实用
典型行为测验却要求较低的表面效 度,如大多数人格测验,如UPI中的25 题“想轻生”。
二、构想效度
(一)什么是构想效度 定义:是指测验能够测量到理论上的构
想或特质的程度,即测验的结果是否能 证实或解释某一理论的假设、术语或构 想,解释的程度如何。
建立构想效度的三步
效度
第五章 测量效度当我们面对某一测量工具时,有时对它非常信任,有时也会发生怀疑,这时我们可能会采用再次施测该测验的方法,判断该测量有无误差。
或者我们还会找到测量相同心理特质的较成熟测验,通过对两个测验的相关系数的考察,检验新测量工具的准确性。
这种在原测量工具之外寻找新的证据来肯定或否定某一测量工具准确性的做法就是在研究测量的效度问题。
效度是指测量结果的正确性、有效性程度。
举个例子来说,在一项物理测验中,本来打算考察学生的力学三定律的实际应用能力,但是,大量的测题是关于公式的记忆考察的,这就存在一个需要注意到的系统误差问题。
通过上一章内容介绍,我们知道信度的高低是受随机误差大小的影响。
这个物理测题复测的一致性可能很高,但是这个测验却并没能真正测量到学生运用定律解决实际问题的能力,所以,我们认为它是低效的、不准确的。
另一方面,如果这个测验测量到了需测量的东西,但它对于所测量的东西又测量到了什么程度?是低效还是高效呢?这两个问题都是信度所不能研究的,他们却是测验效度的基本问题:1.测验测量的对象是什么?或者说,测验测是否测到了它要测得对象?2.测验对它所测量的对象测量到什么程度?两个基本问题就类似要测量一个人的身高,首先要有一把尺子,尺子是测量高度的适宜工具。
然而这个尺子准不准?除了要考察几次测量结果是不是稳定一致,即信度问题以外,还要考察尺子刻度的准确性。
心理测量不像物理测量,它是一种间接测量,需要对反映心理特性的行为进行考察。
因为效度才能表明测验对其想测量的心理特性测量的如何,所以效度问题是科学测量工具最应该重视的问题。
第一节 效度概述一、效度的定义效度(validity )是指一个测验或量表实际能测出的与所要测量的心理特点之间符合的程度,或简单地说是指一个心理测验的准确性。
例如,一个小学生数学测验,由于小学生识字数量或者文字理解上的有限性,数学成绩受到影响,数学测题对学生真实数学能力考察的准确性就值得怀疑了。
第五章 效度
ˆ 这里, Y 为预测的效标分数;
S X 和 SY 分别为效标分数与测验分数的标准差.
X为测验得分。
效标关联效度的关键是选择好效标。一个好的效标必 须具备以下几个条件:(1)可靠性,即效标测验必须具有 较高的信度,如果效标测验不稳定,就不能与本测验有恒 定的关系.相关系数也就不能科学地解释同时或预测效度; (2)有效性,即效标测验本身必须是有效的,如果效标测 验本身缺乏有效性,则无法准确确定本测验的同时效度或 预测效度;〔3)客观性,即效标测验必须尽量客观 标准化.力求排除主观偏见,特别是防止效标污染的影响; (4)实用性.即效标应尽量使其用法简单、省时、花费少、 讲究经济实用。
三、效标关联效度
效标关联效度是指测验分数与作为效标的另一独立测验结果之间 的一致性程度。一般是用本测验与效标测验去测同一组被试得到的 两组分数的相关系数表示。 所谓效标,是检验测验效度的参照标准。效标实际上是本测验 所想测量或要预测的特性或功能,这些特性和功能通常以另一独 立测验的结果来表示。因此,效标是估计效标关联效度的主要根 据,所以效标必须确实能反映某个方面的特性和功能,才能成为估 计测验效度的依据。在运用效标进行测验时.还要避免效标污染。 所谓效标污染,是指由于主试知道某个人(或某个集体)的原来测验 成绩,存有成见,凭印象给分.影响了在效标测验中对某个人(或 某个集体)的成绩评定。
第一节 效度的估算
效度的估算与效度的类型相关,对于测验效度 的类型,不同学者有不同的分类方法。美国心理 学会1974年发行的《教育和心理测验的标准》一 书,正式采用将效度分为内容效度、构想效度和 效标关联效度三大类的方法。目前在教育与心理 测量中,应用最广泛的就是这种效度分类方法。
一、内容效度
内容效度是指测验内容与预定要测的内容之间 的一致性程度。也可以说是指测验内容对所要测 验的全部内容的取样代表性程度。取样代表性是指 测验题目能最大限度地代表预测的内容范围。因 此,一个测验要具有较高的内容效度必须具备两个 条件,其一是测验内容范围明确,其二是取样具有 代表性。
第五章 测量效度_PPT幻灯片
第五章 测量效度
第二节 效度的估计
二、实证效度 (一)实证效度的含义、种类及作用 2 实证效度的种类和作用 预测效度表达的是测验与将来进行的效标之间的
效度关系。 预测效度用于预测某个个体将来的行为。
第五章 测量效度
第二节 效度的估计
二、实证效度 (一)实证效度的含义、种类及作用
2 实证效度的种类和作用 “某人具有这种能力吗?” “某人会有这种能
反映。 3 判断一个测量是否有效要从多方面收集证
据
第五章 测量效度
第一节 效度概述
(二) 效度的数学定义及其基本原理
回顾前面介绍的CTT的内容: 一组测验分数的总变异(S2X)包括三部分: 真实的(稳定的)、与测量目的有关的变
异(S2V) 真实的、但出自无关来源的变异(S2I) 随机误差的变异(S2E)
第二节 效度的估计
一、内容效度 (二)内容效度的确定方法 2 内容效度的统计分析方法: Cronbach提出,两测验的相关法 3再测法:
处理后的重测法
第五章 测量效度
第二节 效度的估计
二、实证效度 (一)实证效度的含义、种类及作用 1 含义:实证效度是指一个测验对处于特定情境
中的个体的行为进行估计的有效性。即以实践的 效果来作为检验标准,所以也叫效标关联效度。
联效度,是指一个测验实际测到的内容与所要测 量的内容之间的吻合程度,也即测验项目在多大 程度上表示了所要测定的特征范畴。
如,如果要从一批待业人员中挑选机床工,所用 的测验项目就应该能表明机床操作能力的范畴。
第五章 测量效度
第二节 效度的估计
一、内容效度
(一)含义及应用范围
2 内容效度通常包括欲测的知识范围,以及 该范围内各知识点所要求掌握的程度两个 方面。一般以双向细目表的形式呈现。
第五章 测量效度_PPT幻灯片
3.确定每一层次目标在整个测验项目中所占的
比重。
4.编制测验双向细目表。
验的效度的考察。
内容效度对各种用于人员选拔和安置的职
业测验也是适用的。职业测验关心的是被试是
否具有从事某项职业的知识、技能等,那么要
明确某项职业所需的全部知识和技能,再对这
些知识和技能进行取样,取出一个有代表性的
样本。
内容效度不适合用于能力倾向测验和人格
测验。
缺点:缺乏理想的数量指标,因而妨碍了信息 交流和各测验的相互比较。
一、内容效度
(一)含义
内容效度是指一个测验实际测到的内容与所要测
量的内容之间的吻合程度。
一个测验要有内容效度必须具备两个条件: 1.要有定义得完好的内容范围
20以内的加减法 中小学生的心理健康的特点和表现。 2.测验项目应是已界定的内容范围的代表性样本
如果把所有的内容视为一个总体,那么测验项目可 以视为一个样本,这个样本要具有代表性,这个样 本能够代表总体的程度就是内容效度。
最高行为测验要求有较高的表面效度,典型
行为测验却要ቤተ መጻሕፍቲ ባይዱ较低的表面效度。
(二)估计方法 1.专家判断法 2.统计法
复本法 (克龙巴赫法) 再测法 内容效度比
专家评定法
这是一种定性分析的方法,由专家对测验项目 与所涉及的内容范围进行符合性判断。
我们以教育测验为例来说明应遵循的程序。
1.确定所要测量的全部内容范围。比如要考察某一学 科测验是否有效度,就要根据教材和教学大纲列出这 门课程的全部知识点。
第五章-测量效度
第五章测量效度第一节效度概述一、什么是效度(一)效度的概念效度是指一个测验或量表实际能测出其所要测的心理特质的程度。
例如,一个小学生数学测验的成绩若同时受到其数学和语文能力的影响(如,有的人看不懂题意等)则认为实际测到其所要测的特质(数学能力)的程度不高,因而它是个效度不高的数学测验。
(二)对效度概念的理解1、效度是一个相对概念。
这种相对性表现在两个方面:(1)效度是相对于一定的测量目的而言的。
因为效度是指实测结果与所要测查的特质之间的吻合一致性程度,因此,一个测验或量表是否有效主要是看它是否达到了测量目的。
测量某一特质有效的量表,若用它来测量另一种特质,则必然会无效或效度极低。
例如,测量身高很有效的钢尺若用它来测量体重则必定无效。
又如,人的测量智力很有效的量表若是用来测量性格则必定是效度不高的。
(2)心理特质是较隐蔽的特性,只能通过他的行为表现来进行推测,因此,心理测量不可能达到百分之百的准确,而只能达到某种程度上的准确。
不过,由于任何一个量表的编制都有其目的,所以在正常情况下,一个量表的效度也不会为零。
例如,一个数学测验,无论其文字表达如何艰深,它总能测到一定的数学能力,即总会有一定的效度,而不会效度为零。
(3)判断一个测量是否有效要从多方面收集证据。
表面上看来,测量的效度就是实际测量的结果与我们所要测量的心理特性的吻合一致性程度,获取效度的办法也就是拿实测结果与心理特性来比较。
然而,心理特性是我们要测的东西,是未知的,通常也是比较抽象和隐蔽的。
因此,不能把它直接拿来与结果比较,而必须先从多种角度把这种特性描述清楚。
由于描述心理特性的角度可以是理论上的,也可以是实践上的,途径很多,因此,获取测量效度的途径也是多样的。
例如,智力测验是否测得了人的智力,我们就可以从理论上做逻辑分析,也可以从他在工作、学习中的实际表现等许多方面加以证实。
(4)效度和信度一样,也是指一列测量的特性,也是一个构想概念。
第五章 效度
3、选择效标测量必须满足以下要求: 1)有效性(关联性) 2)可靠性 3)客观性(抗偏性):产生效标测量中偏差 的主要原因在于效标污染 4)实用性(可得性)
效标污染(criterion contamination) 是指评定者知道被试测验的分数,而使其效 标分数受到影响的情况。如入学考试分数 与教师主观评定。
2、组的分类
根据被试的效标行为表现,将他们分为不同 的组别(团体),如果这些组在测验分数 上有显著性差异,则说明该测验的效度高。
3、预期表
预期表法是将预测源分数和效标分数制成双 维图表,并将每个变量按水平分成若干档 次,这个经验型的预期表可以不用计算相 关系数或其他统计数据,而只要有频数和 百分比。
2、内容效度通常是由那些对非常具体的领域 的测验决定的,如:课堂测验、学绩测验。
构想效度一般是由设计用于测量抽象属性的 测验决定的。如:攻击、诚实。
联系: 1、两者都代表了判定测量效度的方法——判 定一个测验是否测量了它声称要测量的东 西。 2、一个内容范围代表了一组相似测验项目, 从理论上可能抽取所有项目,但实践上, 也是内容范围上所处的位置或分数的抽象 物,与构想的概念非常相似。
当效标测量是评定等级时,如何防止效标 污染?
1.
评定者应综合评定,而不只是依据某个测验, 评定细节或规则细化,才能尽可能客观。 尽量不让评定者知道以前的测验结果,防止评 定时产生主观倾向。
2.
4、常用的效标 学业成就:学习成绩、学历、奖励 工作成就:实际工作表现 等级评定:以效标行为的主观评定作为效标测量 团体对照:选择效标行为表现有差异的团体 先前有效的测验
(三)搜集结构效度资料的方法
1、测验内法 这种方法主要是通过研究测验内部构造来分析测验的构想效 度 1)确定测验的内容效度 如语文能力测验 2)分析被试答题时的反应过程 如数学推理测验 3)考查测验的同质性
5第五章 测量的效度
⑴表面效度是由外行对测验作表面上的检查所确定的; 内容效度是由够资格的专家详尽地、系统地对测验作评 价而建立的。 ⑵前者只考虑题目与测量目的之间明显的、直接的关系; 后者则同时考虑题目与测量目的和内容总体之间逻辑的
微妙关系。
⑶表面效度高的题目内容效度不一定高,表面效度低的 题目内容效度也不一定低。
1.专家判断法
⑴含义:请有关专家对测验题目与原定内容的符合性做出判断,看测 验题目是否代表规定的内容。由于这是一个逻辑分析(定性分析) 的过程,也叫逻辑效度。
⑵具体操作步骤:以教育测验为例
测验编制者 专家
①明确欲测内容的范围,包括知识范围和能 ①明确欲测内容的范围,规定 力要求两个方面 好各纲目的比例; ②将测验目的具体化为不同层次的测验目标 ②确定每个题目所测的内容, ③确定每一层测验目标在整个测验中的比重;与双向细目表对照,比较、记 录; ④编制双向细目表; ③制定评定量表,作总的评价 ⑤确定每一小格中的测题数量; ⑥按比例随机抽取测验题目;
(1)测验内容效度有时可以作为测验的结构效度的证据。
比如编制语文能力测验时,对内容范围的界定描述为: ▪ ▪ ▪ 对词汇下定义 对语言作类比推理 在句子中正确运用文字的能力。
这实际上就是对“语文能力”的构想下了定义。
(2)考察测验的同质性 通过计算被试在每个题目上的反应与测验总分的相关
结果会怎样?
用一杆秤来秤一个人的高度 用成人智力量表来测儿童的智力
妈妈,我的脚现在几点钟?
一个稳定但无效的智力测验
1. 你出生在几月份? 2. 你母亲姓什么?
3. 1+1=?
4. 一个星期有几天? 5. 下面哪个是三角形? A. □ B. ○ C.▲
心理测量学第五章-效度
♪ 例如,在人格测验上有这样一些题目:“当事情不顺 我意时,我时常动怒。”“我总避免批评别人的言 行。”
(3)计算测验的同质性信度来检验结构效度:其一,求 取每个题目与测验总分之间的相关系数;其二,根据 测验总分将被试分为高分组和低分组,再比较这两组 被试在每个题目上的通过率。证明题目与总测验是测 量的同意结构。
(三)内容效度的适用范围及评价
♪ 内容效度主要用于学绩测验和职业测验(基于工作任务分 析),也就是测量知识或技能掌握程度的测验。
♪ 人格测验、能力倾向测验、智力测验不适合采用内容效度, 这类测验很难预先确定测试的内容范围。
♪ 内容效度不但是评价学绩测验的最适合的方法,而且编制 任何测验都要加以考虑的方面。
较高,而另一组被公认为是性格内向的人则在这 个维度上得分较低。 (2)根据测验得分把人分成高分组和低分组,考察这 两组人在所测特质方面是否确有差异。 ♪ 此处参照实证效度的区分法
4.多种特质——多种方法矩阵法
♪ 坎贝尔和费司克(1959) ♪ 实质上是相容效度法和区分效度法的综合运用 ♪ 原理是若用多种极不相同的方法测量同一种特质相
(三)搜集结构效度资料的方法
♪ 1.测验内部寻找证据法 ♪ 2.测验之间寻找证据法 ♪ 3.考察测验的实证效度法 ♪ 4.多种特质——多种方法矩阵 ♪ 5.因素分析法 ♪ 6.其他方法
1、测验内部寻找证据法
(1)确定内容效度作为结构效度的证据
♪ 例如,编制语文能力测验时,编制者将总体内容描述 为对词汇下定义、对语言做类比推理、以及在句子中 正确运用文字的能力,这在实际上就是给“语文能力” 的构想下了定义。
能力
积极的行为指标
1.同情心及敏感性 形成使病人安全的气氛;
信度和效度
② 复本信度(Parallel-forms Reliability)
复本是相对于原本而言的,它是原本的复制品,对一项调 查的问题,让被调查者接受问卷测量,并同时接受这份问 卷的复本的调查.然后根据调查结果计算其相关系数,就 得出了复本信度
2. 信度系数
大部分信度指标都以相关系数( r )来表示, 即用同一样本所得到的两组资料的相关系数作 为测量一致性的指标,称为信度系数,信度系数 可以解释为,在所测对象实得分数的差异中有多 大的比例是由测量对象本身的差别决定的.
3 .信度的类型
① 再测信度(Test-retest Reliability )
② 调查者是否按规定程序和标准,是否有 意或无意地对被调查者施加影响,纪录的认 真程度等.
③ 测量内容是否措辞含糊不清,不易理解.
④测量环境和时间如研究人员对被调查 者有较大的干扰,他人在场的影响,两次测 量的时间间隔太长等.
二.效度(Validity)
1. 效度的概念
效度是指正确性程度,即测量工具确 能测出其所要测量的特质的程度.效度越 高级表示测量结果越能显示出所要测量 对象的真正特征.
③ 折半信度( Split-half Reliability)
在无复本且不准备重测的情况下,通常采用折半法一估 计信度,折半法是将调查来的结果按题目的单
双分成两半计分,再根据各个人的这两部分的总分计算 其相关系数,就得到折半信度
4. 影响信度的因素
①被调查者:如是否耐心,认真,专注,不受 情绪波动影响,一般说来调查时间越,提出 的问题越多,越复杂,信度越低.
第5章效度
2 2 2 X T E
2 T 2 V
2 I
2 X 2 V
s r s
2 xy
2 v 2 X
r
2 xy
表示效度,
rxy
表示效度系数
信度与效度的区别举例
打靶
二、效度的性质
(一)效度具有相对性 任何测验的效度是对一定的目标来说的, 或者说测验只有用于与测验目标一致的目 的和场合才会有效。 没有任何一个测验都能测任何所有心理 特质,也没有任何一个测验“放之四海皆 准”,因此任何一个测验都有其局限性, 都是针对一定目的而言。
二、构想效度
(一)什么是构想效度 定义:是指测验能够测量到理论上的构 想或特质的程度,即测验的结果是否能 证实或解释某一理论的假设、术语或构 想,解释的程度如何。
建立构想效度的三步
• 第一步:提出理论结构(理论); • 第二步:设计和编制测验进行实际测量 (实践); • 第三步:验证理论与实践的符合程度(往 往采用因素分析或结构方程等模型来进行 验证)
做好以下几点
• • • • • (1)测验材料要有代表性; (2)避免引起误差的题型; (3)难度要适中; (4)测验长度恰当; (5)测验排列顺序。
二、测验实施中的干扰因素 (一)主试的影响因素 (二)被试的影响因素 三、样本团体的性质 (一)样本团体的异质性 (三)干涉变量 四、效标的性质
练习与思考
信度和效度的关系(重点)
一、信度是效度的必要而非充分条件(重点) 二、效度是受信度制约的
2 2 2 2 s S S S 2 v rxy 2 T 2 I rxx I2 sX sX sX
rxy rxx
• 一个测验的效度总是受它的信度所制约; • 信度系数的平方根是效度系数的最高限度; • 效度系数的最高限度是信度指数。
第五章 测量效度
效度的评估
内容效度
含义、应用范围、与表面效度相 区分、确定方法 重点
效标关联效度
含义、观念效标、效标测量、种 类、作用、确定步骤、估计方法
探索性因素分析(EFA) 验证性因素分析(CFA)
影响测量效度的因素
测验的长度
测验的实施过程
测量的信度
样本的代表性
效标的性质
影响效度的因素——测验的长度
测验的长度影响测验的效度。
测验长度与效度的关系:
rnxy
1 rxx n rxx
rxy
rxx为原测验信度,rxy为原测验效度系数 n为倍数,rnxy为新测验的效度系数
01
02 03 04
测验内部寻找证据法
测验之间寻找证据法
考察测验的实证效度法
多特质多方法矩阵法
05
因素分析法
构想效度的估计方法——测验内部寻找证据法
考察测验的内容效度。有些测验对所测内容或行
为范围的定义或解释类似于理论构想的解释。
分析被试的答题过程。 通过计算测验的同质性信度。测验同质只是结构
细目表对照。
③ 制定评定量表,考查题目对内容范围的覆盖率、判断
题目难度与能力要求之间的差异、各种题目数量和分 数比例以及题目形式的适当性。
双向细目表例
内容效度的确定方法——复本法
从同一内容中抽两套独立的平行测验对一批被试
施测。
两次相关高说明有较高的内容效度(除非两个测
验偏向同一个方面);相关低,则两个测验中至 少有一个缺乏内容效度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
观念效标和效标测量
同一个观念效标可有多个效标测量
①效标测量必须真实地反映观念效标的重要侧面;
②效标测量必须稳定可靠;
③效标测量必须客观,避免偏见; ④在保证有效性的前提下,效标测量必须尽可能简 单、省时、花费少。
“大学学习成功”?
实证效度的估计方法:
相关法 区分法 命中率
命中率:用某智力测验对1万名儿童进 行鉴定的结果 测验鉴定 为弱智 真正弱智 真正正常 合计 240 70 310 测验确定 为正常 60 9630 9690 合计 300 9700 10000
如何确定内容效度? ◆ 专家判断法:“逻辑效度” “双向细目表” ◆ 统计分析法:复本信度(等值性系数) ◆ 再测法
为什么编制问卷时需要双向细目表?
原因一:它是设计试卷的蓝图,使命题者明确测验的目标, 把握试题的比例与分量,提高命题的效率和质量。 原因二:它对于审查试题的效度也有重要的指导意义,包括 两个维度(双向)的表格,反映测验内容、测验目标。
第五章 测量效度
——你的测验准吗?
第一节 效度概述
一、效度的含义 效度——是指一个测验或量表实际能测 量出其所要测的心理特质的程度。 相对性 综合反映随机误差和系统误差 要从多方面收集证据
CTT理论假设:
SX2=SV2+SI2+SE2
效度的数学定义:
S r S
2 xy
2 v 2 x
补充: 信度与效度的关系 信度是测验和自己/严格平行的测验的相 关程度 效度是测验和某个效标测验之间的相关, 此效标不必是平行测验
各种效度策略的恰当使用:
内容效度最适于测量具体属性的测验
效标关联效度最适合于用来预期结果的
测验
构想效度最适于测量抽象构想的测验
研究者会尽量收集多种类型的效度证据。 每一种效度都提供了与测验有关的重要 信息。效度包含了对预定解释合理性的 总体评价。
被估计的行为是检验测验效度的标准,简称为 效标 实证效度更重视与测验独立的效标行为
一个测验是否有效,以实践效果为检验标准
预测效度和同时效度
1.同时效度(用于诊断现状)
同时效度的效标资料是与测验分数同时搜集的。例如大学入学考 试可以用中学成绩作效标。
2.预测效度(预测某个体将来的行为)
预测效度的效标资料需要过一段时间才可搜集到。此种效度对人 员的选拔和安置工作非常重要。常用的效标是专业训练的成绩、实 际工作的表现等。
语词
经因素分析发现,该测验主要反映了两个因素A和B,测验1与因 素A的相关值0.461,称作测验1在因素A上的因素负荷,因素负荷 指某一测验与某一因素的相关。因素负荷越大,测验与因素的相
关越高。
共同度代表每一测验的变异中能被各因素解释的部分,其数值为 每行因素负荷的平方和。如测验1的共同度等于测验1在两个公共
效标关联效度,评价该测验预测行为和 事件的能力,当测验分数与独立的行为、 态度或事件相关,我们就说测验分数具 有效标关联效度。 它提供了测验与一些独立于心理测验的 行为或事件的相关。 思考:此处“独立的”如何理解?
心理学家常使用一个求职测验(预测源) 来建立预测效度,公司基于其他标准雇 用员工,经过一段时间如3-6个月,让管 理者评价新雇用的员工的工作情况(效 标),将测验分数与等级评定分数求相 关,即为预测效度。 存在问题:全距限制 被试团体的异质性水平
结构效度是测验测量一个理论构想的程度。(APA定义)
建立测验的构想效度是一个逐步收集证据的过程,不 仅要找到一个测验是否与其他测验相关的证据,还提 到以测验内部结构为基础的证据。
构想效度包括收集信度和多种效度的证据,与内容效 标效度都有重叠。
确定步骤(构想说明):
提出理论
提出假设
检验假设 逻辑和实证 检验方法
(7)
工 作 成 功
工 作 成 绩
1
2 1 3 5 1 4 6 正确拒绝 5 2 (33)1 2 1
低
2 6 2 9 2
合格标准
工 作 失 败
高
低
临界分数
三、结构效度/构想效度
含义 一个测验实际测到所要测量的理论 结构和特质的程度,或者测验分数能够 说明心理学理论的某种结构或特质的程 度。
构想或结构是指心理学理论所涉及的抽 象、假设性的概念或特质
4、多种特质-多种方法矩阵法
信度 会聚效度 区别效度
会聚效度表明那些在理论上应该与测验 分数相关的构想真的与之相关。测验与 其他测量相同或相似构想的测验之间存 在高相关。 区别效度表明那些在理论上不应该与测 验分数相关的构想与之不相关。测验和 不相关的构想缺乏相关。
第三节 提高测量效度的方法
举例:心理测量标准测验双向细目表
第一章 第二章 第三章 第四章 合计 识记 了解 应用 分析 8 2 10 6 2 3 6 2 4 2 9 12 6 5 25 28 14 综合 评价 合计 10 28 22 40 100
10 7 5 22
6 6
双向细目表(two-way checklist)是一个测量的内容维度和
客观效标,主观效标,各自优缺点 效标污染 选择一个合适的效标很困难。 思考:选择什么效标来代表在大学的成 功?
《心理旋转测验的效标关联效度》 心理旋转是一种想象自我或客体旋转 的空间表征动力转换能力,以心理表象 为基础。心理旋转与顺逆时针地转无关, 心理学家把这种物体映像旋转的现象叫 做心理旋转。
行为技能所构成的表格,它能帮助成就测量工具的编制者决定应 该选择哪些方面的题目以及各类型题目应占的比例。
表面效度
何为表面效度? 表面效度有时可以取得被试的合作 职业兴趣测验、成就测验的题目应有较高 的表面效度; 人格测验不希望有较高的表面效度。
二、实证效度
含义 又称为效标关联效度、准则关联效度, 指一个测验对处于特定情境中的个体的行 为进行估计的有效性。
如,斯坦福-比奈量表和韦氏量表是公认的效度较高的智
力量表,后人编制的智力测验常计算与这些量表的测验分 数的相关,以提供相容效度的证据。
2)区分效度
含义
某一特定测验的分数与已知测量不同结构的 测验分数无关
说明新测验相对独立于某些无关因素,但并 不保证它一定有效 说明新测验的效度可疑
相关低
效标——衡量一个测验是否有效的外在标 准,它是独立于测验并可以从实践中直接 获得的我们所感兴趣的行为。
思考1:创造力测验可以选取哪些效标?
思考2:EQ测验可以选取哪些效标?
EQ包括抑制冲动、延迟满足的克制力,包含了 如何调适自己的情绪,如何设身处地地为别人着想、 感受别人的感受的能力,以及如何建立良好的人际 关系、培养自动自发的心灵动力。 对于工作成就而言,EQ的影响是IQ的两倍,而 且职位愈高,EQ对工作表现的影响就愈大。
职业兴趣测验和销售金额资料表
1 测验 30 分数X 销售 数Y 2 34 3 32 3 4 47 4 被试 5 6 20 0.7 24 1 7 27 2.2 8 25 3.5 9 22 2.8 10 16 1.2
2.5 3.8
10
9
1 1 2 1 2 1 2 4 1 3 2 1 1
工 作 成 功
相关高
3)因素分析
意义
找出变量间内在本质联系的一种多元统计方法。 用反映变量本质联系的少数几个共同因素来说明先前需 要用较多变量才能说明的特性,每个测验在共同因素上 的负荷量,即每个测验与共同因素的相关,称作测验的 因素效度。
基本原理
总变异=共同因素变异+特殊因素变异+误差
Cronbach对Loger-Thorndike 智力测验的因素分析结果 因 素 负 荷 分测验 A B 共同度(h²) 0.461 0.587 0.557 1.图形分类 0.383 0.705 0.644 2.数字序列 0.463 0.688 0.687 3.图形分析 4.句子填充 0.816 -0.050 0.668 0.843 0.097 0.720 5.词语分析 0.620 0.257 0.450 6.算术推理 0.870 -0.047 0.759 7.词 汇 3.091 1.394 4.485 特征值 44 20 64 非语词 总方差%
一、影响测量效度的因素 测验的构成 测验的实施过程 接受测验的被试 所选效标的性质 测量的信度
测验长度与效度的关系公式:
r ( Kx ) y
Krxy K (1 rxx Krxx )
二、提高测量效度的方法 精心编制量表,避免出现系统误差; 妥善组织测验,控制随机误差; 创设标准情境,让被试正常发挥; 选择恰当的效标测量,正确使用公式
因素A和B上因素负荷的平方和,这意味着测验1的变异量能被A和
B共同解释的部分是55.7%。
3、考查实证效度
测验效标,提供与结构效度有关的信息 根据效标分类,考察其得分的差异;
如,两组被试,神经症被试和正常人
情绪顺应测验 根据得分分类,考察实际表现的差异 如,手指灵巧度测验 需要精细动作的职业的成功
2)内部一致性法
目的
推断测验是否测量单一特质
方法(如K-R20、K-R21公式,以及系数等)
题目与总分的相关 分测验与总分的相关
3)分析被试答题过程
目的