第5章效度_PPT幻灯片
合集下载
第五章 效度与系统误差
100/6
100/1 100/4 88/12
94/8
50/3
33/4 22/5 4/2
85/10 48/7 63/16 31/13
4、命中率法
决策
结果
将会成功
接受
将会失败
关于个体 的信息 策略 可能成功 拒绝 可能失败
决策过程
真 正 的 表 现 水 平
成功
失误 (错误的消极)
命中 (正确的积极)
二者的一个重要差别 是进行测验(即预测源) 与进行效标测量之间的 时间 • 不同时间=预测效度 • 同一时间=同时效度
方法不同
• 预测效度
学生参加高考,有些人上了北师大 以后,将他们的平均学业成绩与高 考分数求相关 这个相关称为效度系数 如果二者相关很高,那么高考成绩 对预测大学平均学业成绩来说有高 效度
当测验用于提高工作或学习效率时,应重视正命 中率;当强调维护社会公平时,则应重视总命中 率。
5、功利率法
对使用测验的投入和产出进行比较,这种效度指标 叫功利率。
U=B(Ns)-C(Na)-S
U:效度 B:录用一个合格的人所产生的平均利润 C:录用一个不合格的人所造成的损失 Ns,Na:录用合格和不合格的人数 S:整个选拔过程的费用
多种特质-多种方法的矩阵说明:
实线三角形对角线上的相关系数是采用相同方法测量相同特 质,是两次测量的信度系数; 在虚线三角形对角线上的相关系数,是采用不同方法测量相 同特质(相容效度),它们的数值越大说明测量的效度越好; 实线三角形中的相关系数是采用相同方法测量不同特质的结 果(区分效度),它们的数值越小说明测量的效度越好; 虚线三角形中的相关系数,是采用不同方法测量不同特质的 结果。
100/1 100/4 88/12
94/8
50/3
33/4 22/5 4/2
85/10 48/7 63/16 31/13
4、命中率法
决策
结果
将会成功
接受
将会失败
关于个体 的信息 策略 可能成功 拒绝 可能失败
决策过程
真 正 的 表 现 水 平
成功
失误 (错误的消极)
命中 (正确的积极)
二者的一个重要差别 是进行测验(即预测源) 与进行效标测量之间的 时间 • 不同时间=预测效度 • 同一时间=同时效度
方法不同
• 预测效度
学生参加高考,有些人上了北师大 以后,将他们的平均学业成绩与高 考分数求相关 这个相关称为效度系数 如果二者相关很高,那么高考成绩 对预测大学平均学业成绩来说有高 效度
当测验用于提高工作或学习效率时,应重视正命 中率;当强调维护社会公平时,则应重视总命中 率。
5、功利率法
对使用测验的投入和产出进行比较,这种效度指标 叫功利率。
U=B(Ns)-C(Na)-S
U:效度 B:录用一个合格的人所产生的平均利润 C:录用一个不合格的人所造成的损失 Ns,Na:录用合格和不合格的人数 S:整个选拔过程的费用
多种特质-多种方法的矩阵说明:
实线三角形对角线上的相关系数是采用相同方法测量相同特 质,是两次测量的信度系数; 在虚线三角形对角线上的相关系数,是采用不同方法测量相 同特质(相容效度),它们的数值越大说明测量的效度越好; 实线三角形中的相关系数是采用相同方法测量不同特质的结 果(区分效度),它们的数值越小说明测量的效度越好; 虚线三角形中的相关系数,是采用不同方法测量不同特质的 结果。
第五章效度
3、效标和效标测量:
效标,即衡量测验有效性的参照标准,指的是 可以直接而且独立测量的我们感兴趣的行为。
效标可以分为两个层次,其一是理论水平的观 念效标,其二是操作定义水平的效标测量。
4、常用的效标
(1)学业成就; (2)实际工作表现 (3)特殊训练成绩 (4)精神病诊断 (5)等级评定 (6)效标团体的比较 (7)先前有效的测验
(二)构想效度(construct Validity)
1954年提出,有人翻译为构思效度,也有叫结 构效度。它是指测验能够测量到理论上的构想 和特质的程度,即测验的结果是否能证实或解 释某一理论的假设、术语或构想,解释的程度 如何。
(三)效标效度
1、定义:又称实证效度,反映的是测验预测个 体在某种情境下行为表现的有效性程度。
空间想象能力 67 1 2 4 6 4 6 1 2 2 3 1 35 23
测验成绩
00403106308
一年后几何测 65 7 6 5 4 6 7 3 6 5 4 6 70 62
验成绩
02588282088
1 110011010011 1
5、效标效度的表示方法 (1)相关法:
(2)命中率法
是当测验用来做取舍的依据时,用其正确决定 的比例作为效度指标的一种方法。命中率的计 算有两种方法,一是计算总命中率,另一种是 计算正命中率。
(3)命中率法
效标成绩 测验预测
成功(+)
失败(-) A(失误)
成功(+) B(命中)
失败(-) C(命中) D(失误)
总命中率:PCT
命中 命中 失误 100%
A
CB BC
100% D
正命中率 : PCP
心理测量学 第五章 效度(用)
b YX r XY
sY sX
0
0 . 923
a=57.5-0.923×69.4=-6.56 Yˆ =-6.56+0.923X
如果我们已知一组人的测验得分,我们可以 根据上式得到他们的效标成绩平均值的预测 值: X=76时, Yˆ =-6.56+0.923×76=63.6 X=55时, Yˆ =-6.56+0.923×88=74.7 预测值不是一个确定值,只是一个估计值, 可以被理解为所有获得某一测验分数者的平 均效标分数值。就是说,所有在测验上得76 分的人的效标分数的平均分为63.6,在例1 中,测验中实际得76分的人的效标平均分为 59.5,测验得88分的人的效标平均分为79.5。
三、影响效标关联效度的因素
(一)样本 这种影响来自两个方面:一是样本的含量,二是样 本的代表性。 (二)基础率 基础率是经选择的总体中具有某种与测验目的有关 的特质的人数比例。极高与极低的基础率,运用测 验都是得不偿失的。 (三)录取率 录取率是根据测验选拔出的人数与全体受测者的比 例。录取率越低,选拔的有效性越高。录取率越高, 错误选择的可能性越大。
2. 方差比例。根据效度定义,效度是有效 分数方差在所得分数方差中所占比例。这只 是一种理论概念,在实际的效度系数的计算 中,效度分数的平方可以解释为在效标分数 的方差中可以用测验分数来解释的百分比,
r XY
2
S YX SY
2
2
r XY =效度系数
S YX
2
SY
2
=由测验所决定的效标分数方差 =效标分数方差
例1 为了考察高等教育自学考试数学试卷的 效度,有关单位在自学高考的高等数学考试 之后,请30名考生参加了某重点大学的高等 数学结业考试。这些考生在两次考试上的成 绩如下表。 计算自学高考数学试卷成绩与普通大学数学 考试成绩之间的相关系数:见附件1
Chapter5效度
策 N 正确 错误
拒绝 拒绝
2020/8/13
决策的可能结果 32
泰勒-罗赛尔预期表
2020/8/13
33
2020/8/13
34
增益效度
增益效度(incremental validity):由于 应用测验而在决策中提高的效度。
2020/8/13
35
例子:
• 假设你是一家公司的人事部经理。有100 个人申请某一职位。根据以往公司招聘 员工的资料,你了解到申请该职位的平 均成功率为60%。现在你手头上有个针 对该职位的测验,效度为0.7,而因额度 限制,你只能招收30人。
• 或测验使用者的预定目的与实测结果相 吻合的程度。
–这个测验测什么? –测得有多准?
2020/8/13
5
效度的性质
• 效度是针对测验结果的 • 效度是针对某种特定的测验目的的
–尺子可以用来度量长度,但不能用来度量重 量,即便每次度量的结果都完全一样。
–16PF是用来测人格的,如果那来测智力的话, 就缺乏效度 。
• 3.命中率:当使用测验进行决策时,决策的正命中
率和总命中率可以作为效度的指标。
2020/8/13
26
总命中率=命中人数/总人数
正2020命/8/13中率=被录取的成功者/录取人数
27
2.2.5 效标关联效度的实际应用问题
• 1. 统计的显著性
样本量对相关系数显 著性的影响
2020/8/13
相关显著性与样本量之间 的关系(p < .05 水平)
2020/8/13
41
内部一致性方法
• 人格测验常用
–题目分数与总分相关 –分测验与总分相关
注:这种考察方法一般只能根据结果推论出测验是测单
心理测量学第五章-效度
.93 .50 .96 .53 .51 .92
方 A4 .58 .21 .11 法 B4 .18 .61 .09 4 C4 .20 .15 .71
.66 .11 .19 .30 .68 .18 .22 .18 .70
.70 .13 .14 .22 .68 .20 .23 .19 .71
.89 .51 .90 .52 .50 .91
(2)分析被试的答题过程
♪ 例如,在人格测验上有这样一些题目:“当事情不顺 我意时,我时常动怒。”“我总避免批评别人的言 行。”
(3)计算测验的同质性信度来检验结构效度:其一,求 取每个题目与测验总分之间的相关系数;其二,根据 测验总分将被试分为高分组和低分组,再比较这两组 被试在每个题目上的通过率。证明题目与总测验是测 量的同意结构。
(2)区分效度
含义:
♪ 新编测验的分数与已知测量不同结构的测验分数 的相关。如相关高则说明测验有问题。
方式:
♪ 求一个新编测验与另一已知结构测验间的相关。
♪ 例:例如新编一套道德感测验,用它与瑞文推理 测验作比较,如果相关高,便说明新编测验有问 题。
3.考查测验的实证效度法
(1)根据效标把人分成两类,考查其得分。 ♪ 例:一组公认为外向的人在测试中的外向性得分
(三)内容效度的适用范围及评价
♪ 内容效度主要用于学绩测验和职业测验(基于工作任务分 析),也就是测量知识或技能掌握程度的测验。
♪ 人格测验、能力倾向测验、智力测验不适合采用内容效度, 这类测验很难预先确定测试的内容范围。
♪ 内容效度不但是评价学绩测验的最适合的方法,而且编制 任何测验都要加以考虑的方面。
例:双向细目表
第一步、教学目标(以橫轴表示) ♪ 以Bloom所提的认知领域六个教学目标为依据:知识、
第五章 效度
观念效标和效标测量
同一个观念效标可有多个效标测量
①效标测量必须真实地反映观念效标的重要侧面;
②效标测量必须稳定可靠;
③效标测量必须客观,避免偏见; ④在保证有效性的前提下,效标测量必须尽可能简 单、省时、花费少。
“大学学习成功”?
实证效度的估计方法:
相关法 区分法 命中率
命中率:用某智力测验对1万名儿童进 行鉴定的结果 测验鉴定 为弱智 真正弱智 真正正常 合计 240 70 310 测验确定 为正常 60 9630 9690 合计 300 9700 10000
如何确定内容效度? ◆ 专家判断法:“逻辑效度” “双向细目表” ◆ 统计分析法:复本信度(等值性系数) ◆ 再测法
为什么编制问卷时需要双向细目表?
原因一:它是设计试卷的蓝图,使命题者明确测验的目标, 把握试题的比例与分量,提高命题的效率和质量。 原因二:它对于审查试题的效度也有重要的指导意义,包括 两个维度(双向)的表格,反映测验内容、测验目标。
第五章 测量效度
——你的测验准吗?
第一节 效度概述
一、效度的含义 效度——是指一个测验或量表实际能测 量出其所要测的心理特质的程度。 相对性 综合反映随机误差和系统误差 要从多方面收集证据
CTT理论假设:
SX2=SV2+SI2+SE2
效度的数学定义:
S r S
2 xy
2 v 2 x
补充: 信度与效度的关系 信度是测验和自己/严格平行的测验的相 关程度 效度是测验和某个效标测验之间的相关, 此效标不必是平行测验
各种效度策略的恰当使用:
内容效度最适于测量具体属性的测验
第五章 效度
ˆ 这里, Y 为预测的效标分数;
S X 和 SY 分别为效标分数与测验分数的标准差.
X为测验得分。
效标关联效度的关键是选择好效标。一个好的效标必 须具备以下几个条件:(1)可靠性,即效标测验必须具有 较高的信度,如果效标测验不稳定,就不能与本测验有恒 定的关系.相关系数也就不能科学地解释同时或预测效度; (2)有效性,即效标测验本身必须是有效的,如果效标测 验本身缺乏有效性,则无法准确确定本测验的同时效度或 预测效度;〔3)客观性,即效标测验必须尽量客观 标准化.力求排除主观偏见,特别是防止效标污染的影响; (4)实用性.即效标应尽量使其用法简单、省时、花费少、 讲究经济实用。
三、效标关联效度
效标关联效度是指测验分数与作为效标的另一独立测验结果之间 的一致性程度。一般是用本测验与效标测验去测同一组被试得到的 两组分数的相关系数表示。 所谓效标,是检验测验效度的参照标准。效标实际上是本测验 所想测量或要预测的特性或功能,这些特性和功能通常以另一独 立测验的结果来表示。因此,效标是估计效标关联效度的主要根 据,所以效标必须确实能反映某个方面的特性和功能,才能成为估 计测验效度的依据。在运用效标进行测验时.还要避免效标污染。 所谓效标污染,是指由于主试知道某个人(或某个集体)的原来测验 成绩,存有成见,凭印象给分.影响了在效标测验中对某个人(或 某个集体)的成绩评定。
第一节 效度的估算
效度的估算与效度的类型相关,对于测验效度 的类型,不同学者有不同的分类方法。美国心理 学会1974年发行的《教育和心理测验的标准》一 书,正式采用将效度分为内容效度、构想效度和 效标关联效度三大类的方法。目前在教育与心理 测量中,应用最广泛的就是这种效度分类方法。
一、内容效度
内容效度是指测验内容与预定要测的内容之间 的一致性程度。也可以说是指测验内容对所要测 验的全部内容的取样代表性程度。取样代表性是指 测验题目能最大限度地代表预测的内容范围。因 此,一个测验要具有较高的内容效度必须具备两个 条件,其一是测验内容范围明确,其二是取样具有 代表性。
第五章 测量效度_PPT幻灯片
第五章 测量效度
第二节 效度的估计
二、实证效度 (一)实证效度的含义、种类及作用 2 实证效度的种类和作用 预测效度表达的是测验与将来进行的效标之间的
效度关系。 预测效度用于预测某个个体将来的行为。
第五章 测量效度
第二节 效度的估计
二、实证效度 (一)实证效度的含义、种类及作用
2 实证效度的种类和作用 “某人具有这种能力吗?” “某人会有这种能
反映。 3 判断一个测量是否有效要从多方面收集证
据
第五章 测量效度
第一节 效度概述
(二) 效度的数学定义及其基本原理
回顾前面介绍的CTT的内容: 一组测验分数的总变异(S2X)包括三部分: 真实的(稳定的)、与测量目的有关的变
异(S2V) 真实的、但出自无关来源的变异(S2I) 随机误差的变异(S2E)
第二节 效度的估计
一、内容效度 (二)内容效度的确定方法 2 内容效度的统计分析方法: Cronbach提出,两测验的相关法 3再测法:
处理后的重测法
第五章 测量效度
第二节 效度的估计
二、实证效度 (一)实证效度的含义、种类及作用 1 含义:实证效度是指一个测验对处于特定情境
中的个体的行为进行估计的有效性。即以实践的 效果来作为检验标准,所以也叫效标关联效度。
联效度,是指一个测验实际测到的内容与所要测 量的内容之间的吻合程度,也即测验项目在多大 程度上表示了所要测定的特征范畴。
如,如果要从一批待业人员中挑选机床工,所用 的测验项目就应该能表明机床操作能力的范畴。
第五章 测量效度
第二节 效度的估计
一、内容效度
(一)含义及应用范围
2 内容效度通常包括欲测的知识范围,以及 该范围内各知识点所要求掌握的程度两个 方面。一般以双向细目表的形式呈现。
第五章 测量效度_PPT幻灯片
2.根据教育目标的要求,将测验目的具体化为不同层 次的测验目标。教育测验目标一般采用布鲁姆教育目 标分类学中的分类标准,将测验目标分成识记、理解、 应用、分析、综合、评价六个层次。按不同层次的测 验目标对知识点进行分类。
3.确定每一层次目标在整个测验项目中所占的
比重。
4.编制测验双向细目表。
验的效度的考察。
内容效度对各种用于人员选拔和安置的职
业测验也是适用的。职业测验关心的是被试是
否具有从事某项职业的知识、技能等,那么要
明确某项职业所需的全部知识和技能,再对这
些知识和技能进行取样,取出一个有代表性的
样本。
内容效度不适合用于能力倾向测验和人格
测验。
缺点:缺乏理想的数量指标,因而妨碍了信息 交流和各测验的相互比较。
一、内容效度
(一)含义
内容效度是指一个测验实际测到的内容与所要测
量的内容之间的吻合程度。
一个测验要有内容效度必须具备两个条件: 1.要有定义得完好的内容范围
20以内的加减法 中小学生的心理健康的特点和表现。 2.测验项目应是已界定的内容范围的代表性样本
如果把所有的内容视为一个总体,那么测验项目可 以视为一个样本,这个样本要具有代表性,这个样 本能够代表总体的程度就是内容效度。
最高行为测验要求有较高的表面效度,典型
行为测验却要ቤተ መጻሕፍቲ ባይዱ较低的表面效度。
(二)估计方法 1.专家判断法 2.统计法
复本法 (克龙巴赫法) 再测法 内容效度比
专家评定法
这是一种定性分析的方法,由专家对测验项目 与所涉及的内容范围进行符合性判断。
我们以教育测验为例来说明应遵循的程序。
1.确定所要测量的全部内容范围。比如要考察某一学 科测验是否有效度,就要根据教材和教学大纲列出这 门课程的全部知识点。
3.确定每一层次目标在整个测验项目中所占的
比重。
4.编制测验双向细目表。
验的效度的考察。
内容效度对各种用于人员选拔和安置的职
业测验也是适用的。职业测验关心的是被试是
否具有从事某项职业的知识、技能等,那么要
明确某项职业所需的全部知识和技能,再对这
些知识和技能进行取样,取出一个有代表性的
样本。
内容效度不适合用于能力倾向测验和人格
测验。
缺点:缺乏理想的数量指标,因而妨碍了信息 交流和各测验的相互比较。
一、内容效度
(一)含义
内容效度是指一个测验实际测到的内容与所要测
量的内容之间的吻合程度。
一个测验要有内容效度必须具备两个条件: 1.要有定义得完好的内容范围
20以内的加减法 中小学生的心理健康的特点和表现。 2.测验项目应是已界定的内容范围的代表性样本
如果把所有的内容视为一个总体,那么测验项目可 以视为一个样本,这个样本要具有代表性,这个样 本能够代表总体的程度就是内容效度。
最高行为测验要求有较高的表面效度,典型
行为测验却要ቤተ መጻሕፍቲ ባይዱ较低的表面效度。
(二)估计方法 1.专家判断法 2.统计法
复本法 (克龙巴赫法) 再测法 内容效度比
专家评定法
这是一种定性分析的方法,由专家对测验项目 与所涉及的内容范围进行符合性判断。
我们以教育测验为例来说明应遵循的程序。
1.确定所要测量的全部内容范围。比如要考察某一学 科测验是否有效度,就要根据教材和教学大纲列出这 门课程的全部知识点。
第五章 效度
3、选择效标测量必须满足以下要求: 1)有效性(关联性) 2)可靠性 3)客观性(抗偏性):产生效标测量中偏差 的主要原因在于效标污染 4)实用性(可得性)
效标污染(criterion contamination) 是指评定者知道被试测验的分数,而使其效 标分数受到影响的情况。如入学考试分数 与教师主观评定。
2、组的分类
根据被试的效标行为表现,将他们分为不同 的组别(团体),如果这些组在测验分数 上有显著性差异,则说明该测验的效度高。
3、预期表
预期表法是将预测源分数和效标分数制成双 维图表,并将每个变量按水平分成若干档 次,这个经验型的预期表可以不用计算相 关系数或其他统计数据,而只要有频数和 百分比。
2、内容效度通常是由那些对非常具体的领域 的测验决定的,如:课堂测验、学绩测验。
构想效度一般是由设计用于测量抽象属性的 测验决定的。如:攻击、诚实。
联系: 1、两者都代表了判定测量效度的方法——判 定一个测验是否测量了它声称要测量的东 西。 2、一个内容范围代表了一组相似测验项目, 从理论上可能抽取所有项目,但实践上, 也是内容范围上所处的位置或分数的抽象 物,与构想的概念非常相似。
当效标测量是评定等级时,如何防止效标 污染?
1.
评定者应综合评定,而不只是依据某个测验, 评定细节或规则细化,才能尽可能客观。 尽量不让评定者知道以前的测验结果,防止评 定时产生主观倾向。
2.
4、常用的效标 学业成就:学习成绩、学历、奖励 工作成就:实际工作表现 等级评定:以效标行为的主观评定作为效标测量 团体对照:选择效标行为表现有差异的团体 先前有效的测验
(三)搜集结构效度资料的方法
1、测验内法 这种方法主要是通过研究测验内部构造来分析测验的构想效 度 1)确定测验的内容效度 如语文能力测验 2)分析被试答题时的反应过程 如数学推理测验 3)考查测验的同质性
信度和效度 ppt课件
12
比如:我们为了探讨婚姻满意度与其他变量之间 的关系,建构了一个理论假设:婚姻满意度与婚 姻忠诚度有关,即婚姻满意度较高的人其婚姻忠 诚度也较高。如果我们用“你有没有欺骗对方的 情形”作为婚姻忠诚度的一个测量指标,而且测 量的结果与理论假设一致,即婚姻忠诚度与婚姻 满意度之间具有较强的逻辑联系,则婚姻忠诚度 这一测量指标就有较高的建构效度。但是,如果 研究显示,对婚姻满意的和对婚姻不满意的夫妻 都有欺骗对方的情形,那么,用婚姻忠诚度这一 指标来测量婚姻满意度的建构效度就有待商榷了。
9
(2)标准效度。也称小标度或标准关联效度。是指以某次测量的 结果为标准,来评价与之相关的另一测量的有效性。例如,评价 汽车驾校笔试成绩的效度,要看考生毕业后的实际驾车技术(如 事故发生率),如果这两个测量之间的相关性较高(比如,考生 在驾校的笔试成绩较高,其毕业后的驾车技术也较好),说明该 汽车驾校的笔试成绩是有效的,反之,就说明该驾校的笔试成绩 的有效性值得怀疑。这里,考生的实际驾车技术就是评价其笔试 成绩效度的标准。
关系数,就可以得出所调查问题的信度。
5
(3)折半信度。复本信度,复查信度的共同特点都是必 须进过两次调查才能检验其信度,在调查只实施一次的 情况下,通常采用折半法估计测量的信度。即将调查的 所有问题按性质、难度编好单双数,在单数题目的回答 结果与双数题目的回答结果之间求相关,这一相关系数 就叫做折半信度。这里必须注意的是,由于问卷是按折 半拟出的,因而问卷题目只是原来的一半。由于长度减 少会降低信度,因此,必须根据以下加以校正放大: r系=2数rn。/1比+r如n。,其应中用r是折修半正法后求的得信录度用,人r员n是时折进半行求考得试的的相成关 绩和录取后工作能力的相关系数为0.7,代入上述公式 r=2×0.7/1+0.7=0.82,这里求出的0.82就是根据公式放大 的相关系数。一般说来,社会调查的信度高达0.8以上, 才能认为调查是较为可靠的。
比如:我们为了探讨婚姻满意度与其他变量之间 的关系,建构了一个理论假设:婚姻满意度与婚 姻忠诚度有关,即婚姻满意度较高的人其婚姻忠 诚度也较高。如果我们用“你有没有欺骗对方的 情形”作为婚姻忠诚度的一个测量指标,而且测 量的结果与理论假设一致,即婚姻忠诚度与婚姻 满意度之间具有较强的逻辑联系,则婚姻忠诚度 这一测量指标就有较高的建构效度。但是,如果 研究显示,对婚姻满意的和对婚姻不满意的夫妻 都有欺骗对方的情形,那么,用婚姻忠诚度这一 指标来测量婚姻满意度的建构效度就有待商榷了。
9
(2)标准效度。也称小标度或标准关联效度。是指以某次测量的 结果为标准,来评价与之相关的另一测量的有效性。例如,评价 汽车驾校笔试成绩的效度,要看考生毕业后的实际驾车技术(如 事故发生率),如果这两个测量之间的相关性较高(比如,考生 在驾校的笔试成绩较高,其毕业后的驾车技术也较好),说明该 汽车驾校的笔试成绩是有效的,反之,就说明该驾校的笔试成绩 的有效性值得怀疑。这里,考生的实际驾车技术就是评价其笔试 成绩效度的标准。
关系数,就可以得出所调查问题的信度。
5
(3)折半信度。复本信度,复查信度的共同特点都是必 须进过两次调查才能检验其信度,在调查只实施一次的 情况下,通常采用折半法估计测量的信度。即将调查的 所有问题按性质、难度编好单双数,在单数题目的回答 结果与双数题目的回答结果之间求相关,这一相关系数 就叫做折半信度。这里必须注意的是,由于问卷是按折 半拟出的,因而问卷题目只是原来的一半。由于长度减 少会降低信度,因此,必须根据以下加以校正放大: r系=2数rn。/1比+r如n。,其应中用r是折修半正法后求的得信录度用,人r员n是时折进半行求考得试的的相成关 绩和录取后工作能力的相关系数为0.7,代入上述公式 r=2×0.7/1+0.7=0.82,这里求出的0.82就是根据公式放大 的相关系数。一般说来,社会调查的信度高达0.8以上, 才能认为调查是较为可靠的。
第五章 效度
• 用不同方法得到的效度指标是否一致? • 不同的效度之间是否有矛盾?
二、交叉效度分析
• 交叉效度分析是考察效度概化能力的一种方法,只涉及被 试样本的概化。这种方法是对两个独立取自同一总体的样 本分别建立预测源-效标关系,看从一个样本中得到的效度 资料是否适用于另一样本。
• 计算测验效度所依据的样本必须与选择项目所依据的被试 样本不同。如果使用同一样本,则会使效度系数假性偏高, 实质是循环论证。
测验偏倚(test bias)是指用不适用于被试的标准来解释被 试的测验得分,因而造成解释的偏差。
4.所选效标的性质 (1)测量行为与所选效标的相似性越高,效度越高。
(2)测验分数与效标行为之间是否是线性关系,如果不是线 性关系,求皮尔逊相关就会低估效度。
(3)效标本身的测量越可靠,效度就可能越高。 5.测量的信度
二、提高测量效度的方法
(1)精心编制测验量表,避免出现较大的系统误差 (2)妥善组织测验,控制随机误差 (3)创设标准的应试情境,让每个被试都能发挥正常的水 平 (4)选好正确的效标,定好恰当的效标测量,正确地使用 有关公式
第六节 效度资料的概化
➢ 概化:是指在一定条件下得出的结论能否适用于 其他情况。测验的效度和信度一样,都与特定 情境有关,只有在具体情境下的效度,而没有 笼统谈论某一测验的效度。
预测误差
➢效度系数的平方表示由测验分数能说明的 准则测量方差的比例。
➢预测误差的标准误
Sest SY 1rX2Y
2.人员的分类与安置
➢根据被试在效标上的预测结果而做出处理 或安排。
• 选拔(selection):拒绝或接受 • 安置(placement):根据被试在单一效标
上的预测结果而做出处理或安排。 • 分类(classification):使用两个或两个
二、交叉效度分析
• 交叉效度分析是考察效度概化能力的一种方法,只涉及被 试样本的概化。这种方法是对两个独立取自同一总体的样 本分别建立预测源-效标关系,看从一个样本中得到的效度 资料是否适用于另一样本。
• 计算测验效度所依据的样本必须与选择项目所依据的被试 样本不同。如果使用同一样本,则会使效度系数假性偏高, 实质是循环论证。
测验偏倚(test bias)是指用不适用于被试的标准来解释被 试的测验得分,因而造成解释的偏差。
4.所选效标的性质 (1)测量行为与所选效标的相似性越高,效度越高。
(2)测验分数与效标行为之间是否是线性关系,如果不是线 性关系,求皮尔逊相关就会低估效度。
(3)效标本身的测量越可靠,效度就可能越高。 5.测量的信度
二、提高测量效度的方法
(1)精心编制测验量表,避免出现较大的系统误差 (2)妥善组织测验,控制随机误差 (3)创设标准的应试情境,让每个被试都能发挥正常的水 平 (4)选好正确的效标,定好恰当的效标测量,正确地使用 有关公式
第六节 效度资料的概化
➢ 概化:是指在一定条件下得出的结论能否适用于 其他情况。测验的效度和信度一样,都与特定 情境有关,只有在具体情境下的效度,而没有 笼统谈论某一测验的效度。
预测误差
➢效度系数的平方表示由测验分数能说明的 准则测量方差的比例。
➢预测误差的标准误
Sest SY 1rX2Y
2.人员的分类与安置
➢根据被试在效标上的预测结果而做出处理 或安排。
• 选拔(selection):拒绝或接受 • 安置(placement):根据被试在单一效标
上的预测结果而做出处理或安排。 • 分类(classification):使用两个或两个
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、经验推测法
这种效度是通过实践来检验效度。如儿 童发展量表是否有效,需要经过实践调查。
(三)内容效度的特性 表面效度(重点):是由外行对测
验作表面上的检查确定的,它不反映 测验实际测量的东西,只是指测验表 面上看来好像是测量所要测的东西。
编制测验时,表面效度需要考虑。
最高行为测验,如智力测验、成 就测验,需要较高的表面效度。
第三节 影响效度的因素
一、测验本身的因素 二、测验实施中的干扰因素 (一)主试的影响因素 (二)被试的影响因素 三、样本团体的性质 (一)样本团体的异质性 (三)干涉变量 四、效标的性质
一、测验本身的因素
如词汇和句型不能过于太难,如低年级 小学生,要用拼音和图形来注解。测验取 材、测验长度、试题类型、难度、区分度 及编排方式等都会影响效度。
• 1、如果某测验的效度系数是0.70,则在测 验中无法作出正确预测的比例是( )。
• (A)0.30 • (B)0.51 • (C)0.49 • (D)0.70
• 2、一个测验所测量的与所要测量的心理特 点之间符合的程度,指的就是测验的( )。
(A)信度 (B)难度 (C)区分度 (D)效度
• 3、好的效标应具备的条件包括( )。 • (A)效标测量本身必须有效 • (B)效标必须具有较高的信度 • (C)效标可以客观地加以测量 • (D)效标测量的方法经济实用
典型行为测验却要求较低的表面效 度,如大多数人格测验,如UPI中的25 题“想轻生”。
二、构想效度
(一)什么是构想效度 定义:是指测验能够测量到理论上的构
想或特质的程度,即测验的结果是否能 证实或解释某一理论的假设、术语或构 想,解释的程度如何。
建立构想效度的三步
• 第一步:提出理论结构(理论); • 第二步:设计和编制(1)效标要有效(有效) (2)效标要有信度(可信) (3)效标可用数字或等级表示(操作) (4)效标测量简单、省时、经济。
(二)效标效度的评估方法 1、相关法:求测验与效标的相关。 2、区分法:比较测验与效标分数差异。 3、命中率法:测验与效标成绩比较。
总命中率 正命中率
为了确定一个测验是否有内容效度,最 常用的方法是请有关专家对测验题目与原 定内容的符合性做出判断,看测验题目是 否代表规定的内容。
专家判断,逻辑分析,“逻辑效度”。
内容效度的几个步骤: (1)确定测验内容; (2)编制双向细目表; (3)评定测验内容效度。
2、统计分析法 (1)相关法 (2)复本法 (3)再测法
做好以下几点
• (1)测验材料要有代表性; • (2)避免引起误差的题型; • (3)难度要适中; • (4)测验长度恰当; • (5)测验排列顺序。
二、测验实施中的干扰因素 (一)主试的影响因素 (二)被试的影响因素 三、样本团体的性质 (一)样本团体的异质性 (三)干涉变量 四、效标的性质
练习与思考
没有任何一个测验都能测任何所有心理 特质,也没有任何一个测验“放之四海皆 准”,因此任何一个测验都有其局限性, 都是针对一定目的而言。
(二)效度具有连续性
测验效度通常用相关系数表示,它 只有程度上的不同,而没有“全有” 或“全无”的区别。只是介于“全有” 或“全无”的连续统上中间的某个值, 如高效度、中效度和低效度。
第五章 测量效度
在教育与心理测量学上,有时候会出现 这样的情况:考试结果是可靠的(该考试 结果确实测出了学生的某种特质),但可 能并不准确(该特质并不是命题者想要测 试的特质)。所以要评价一个考试的质量, 除了信度以外,还需要考察它的效度。
第一节 效度的概念
一、效度的定义 在心理测验中,效度是指所测量的与要
(1)相容效度:相关法(与一个“权威的” 效度高的求相关)。
(2)区分效度:相异测验相关高,则区分低, 效度差。
(3)因素分析法:如EPQ分为四个分量表 (四个维度),即P、E、N和L。
效标关联效度 ——多特质多方法(MTMM)
3、效标效度的研究证明 (1)普通组与对照照(效标组)得分
比较;
(2)从发展变化来考察。 4、实验法和观察法证实 从观察或实验前后来比较差差异。
三、效标效度
(一)什么是效标效度 又称实证效度、统计效度、效标关联效 度。主要考虑:测验与效标预测的程度。 分同时效度和预测效度,如张厚粲修订 SPM(瑞文标准推理测验)时,既考虑 了同时效度又考虑了预测效度。
同时效度例子:飞行员(观察系统和 替代性测验);机械能力测验等招工 考试。
预测效度例子:MBA考试预测; TOEFL考试。
(实践); • 第三步:验证理论与实践的符合程度(往
往采用因素分析或结构方程等模型来进行 验证)
(二)构想效度的估计方法
1、对测验本身的分析
这类方法是通过研究测验内部结构来界 定理论构想,从而为构思效度提供证据。 (1)内容效度; (2)测验的同质性(单维性); (3)分析被试者对题目反应过程。
2、测验间的相互比较
测量的心理特点之间符合的程度,或者简 单地说是指一个心理测验的准确性或有效 性。
r
2 xy
s
2 v
s
2 X
r r
2 xy
表示效度,
xy
表示效度系数
信度与效度的区别举例
打靶
二、效度的性质
(一)效度具有相对性 任何测验的效度是对一定的目标来说的,
或者说测验只有用于与测验目标一致的目 的和场合才会有效。
(三)效度是针对测验结果的
效度是针对某种测验来说的,更是 对测验结果而言的。效度指向一定的 结果,是和测验结果相联系的。
信度和效度的关系(重点)
一、信度是效度的必要而非充分条件(重点) 二、效度是受信度制约的
rx2yssX 2 v2 ST2s X 2SI2rxxS sIX 22
rxy rxx
• 一个测验的效度总是受它的信度所制约; • 信度系数的平方根是效度系数的最高限度; • 效度系数的最高限度是信度指数。
第二单元 效度评估的方法
一、内容效度 (一)什么是内容效度
指的是测验题目对有关内容或行为 取样的适用性,从而确定测验是否是 所欲测量的行为领域的代表性取样。
想要编制较高内容效度的测验需要注意:
第一、明确概念; 第二、内容范围的代表性取样; 第三、并不一定要求同质测验。
(二)内容效度的评估方法
1、专家判断法