Chapter5效度
第五讲 心理学研究的信度和效度
第五讲心理学研究的信、效度长江大学教育科学系严磊研究设计的主要目标是特高整个研究的科学性水平,即保证研究结果、结论能真实的反映人的心理活动规律和教育规律。
信度与效度不但是研究设计应当遵循的标准,而且也是评价研究设计质量乃至整个研究结果科学水平。
信度、效度源于心理与教育测验领域,现在心理学者将诶用了测量领域的信度与效度概念,并把研究的信度和效度作为设计与评价各种研究的标准,以提高心理与教育科学中各类研究的客观性、可靠性和科学性。
如今,有关研究信度和效度的理论和方法已经为心理、教育研究者普遍接受,成为研究和实验设计的关键,也成为心理、教育研究方法发展的里程碑。
一心理测量的信度和效度射击打靶1.真分数假设假设一:在所讨论的问题范围内,真分数不变,亦即个体具有恒定的特质,其分量一定,取值是常数。
假设二:误差是完全随机的。
这里有二层意思,一是测量误差是平均数(期望值)为零的正态随机变量;二是测量误差跟被测心理特质即真分数间相互独立。
假设三:观察分数是真分数与误差分数的和。
2.测量的信度信度(reliability)是指测量结果的稳定性和可靠性程度。
重测信度、复本信度、分半信度、评分者一致性信度3.测量的效度一研究的信度二研究的信度1.研究信度的概念研究的信度指研究所的事实、数据的一致性和稳定性程度。
一向好的心理与教育研究,其结果必须稳定可靠,即重复研究的结果要保持稳定、一致,否则便可不信。
根据影响信度的误差来源,信度可分为两大类:稳定性和同质性。
稳定性指研究结果跨时间、跨情境的一致性。
同质性指研究工具本身各项目内容的一致性。
举例:用同一思维研究工具在前后相隔较短的时间内测查某一年级的儿童两次,结果发现两次测查结果不一致,第一次测查结果表明被试未达到逻辑思维水平,第二次结果发现他们已经达到逻辑思维水平。
2.判定研究信度的方法重复法运用重复测量、重复研究的方法,在相同条件下用相同方法进行两次以上的研究,然后考察它们是否取得相同结果。
第五章效度
二、内容效度
(一)内容效度及基本保证条件 1、定义 内容效度(content validity) 是指测验项目所涉及
的内容对欲测内容范围的代表性程度。或者说所 测内容对要测内容范围行为取样的代表性,又称 推理效度、逻辑效度。 2、内容效度的基本保证条件 要获得较高的内容效度,必须具备两个基本条件: 1)欲测的内容范围必须定义清楚,界限分明。
(2)二列相关系数 适用条件:测验分数和效标分数都是连续变量,其中一个变
量被人为分为两类
(3)四分相关系数 适用条件:当测验分数和效标分数都是连续变量,且每一个
变量的变化都被人为地分为两类
(4)φ相关系数 适用条件:当测验分数与效标分数都是真正的二分变量
(5)列联相关系数 适用条件:当测验分数与效标分数其中一个变量不止分为两
? 表面效度指被试或其他未受过专门训练的 人员对测量有效性程度的估计
? 表面效度不能算是一种效度,它不反映测 验实际测量的内容,但可取得被试的合作。
? 成就测验需较高的表面效度,而人格测验 则需较低的表面效度。
(五)内容效度的优缺点
? 优点:对测验内容的详细描述是编制任何测验都 应借鉴的
? 缺点:
四、效标关联效度
(一)定义、种类、运用 1、定义 是指测验对个体的效标行为表现进行估计的有效程度。 又称实证效度、经验效度、准则关联效度 2、分类(收集效标的时间)
? 同时效度:效标资料与测验资料同时获得,如机械能力倾向测验。 ? 预测效度:效标资料后于测验资料获得,如MBA考试。
3、应用(二者本质区别)
2. 尽量不让评定者知道以前的测验结果,防止评 定时产生主观倾向。
第五章效度
3、效标和效标测量:
效标,即衡量测验有效性的参照标准,指的是 可以直接而且独立测量的我们感兴趣的行为。
效标可以分为两个层次,其一是理论水平的观 念效标,其二是操作定义水平的效标测量。
4、常用的效标
(1)学业成就; (2)实际工作表现 (3)特殊训练成绩 (4)精神病诊断 (5)等级评定 (6)效标团体的比较 (7)先前有效的测验
(二)构想效度(construct Validity)
1954年提出,有人翻译为构思效度,也有叫结 构效度。它是指测验能够测量到理论上的构想 和特质的程度,即测验的结果是否能证实或解 释某一理论的假设、术语或构想,解释的程度 如何。
(三)效标效度
1、定义:又称实证效度,反映的是测验预测个 体在某种情境下行为表现的有效性程度。
空间想象能力 67 1 2 4 6 4 6 1 2 2 3 1 35 23
测验成绩
00403106308
一年后几何测 65 7 6 5 4 6 7 3 6 5 4 6 70 62
验成绩
02588282088
1 110011010011 1
5、效标效度的表示方法 (1)相关法:
(2)命中率法
是当测验用来做取舍的依据时,用其正确决定 的比例作为效度指标的一种方法。命中率的计 算有两种方法,一是计算总命中率,另一种是 计算正命中率。
(3)命中率法
效标成绩 测验预测
成功(+)
失败(-) A(失误)
成功(+) B(命中)
失败(-) C(命中) D(失误)
总命中率:PCT
命中 命中 失误 100%
A
CB BC
100% D
正命中率 : PCP
心理测量学 第五章 效度(用)
b YX r XY
sY sX
0
0 . 923
a=57.5-0.923×69.4=-6.56 Yˆ =-6.56+0.923X
如果我们已知一组人的测验得分,我们可以 根据上式得到他们的效标成绩平均值的预测 值: X=76时, Yˆ =-6.56+0.923×76=63.6 X=55时, Yˆ =-6.56+0.923×88=74.7 预测值不是一个确定值,只是一个估计值, 可以被理解为所有获得某一测验分数者的平 均效标分数值。就是说,所有在测验上得76 分的人的效标分数的平均分为63.6,在例1 中,测验中实际得76分的人的效标平均分为 59.5,测验得88分的人的效标平均分为79.5。
三、影响效标关联效度的因素
(一)样本 这种影响来自两个方面:一是样本的含量,二是样 本的代表性。 (二)基础率 基础率是经选择的总体中具有某种与测验目的有关 的特质的人数比例。极高与极低的基础率,运用测 验都是得不偿失的。 (三)录取率 录取率是根据测验选拔出的人数与全体受测者的比 例。录取率越低,选拔的有效性越高。录取率越高, 错误选择的可能性越大。
2. 方差比例。根据效度定义,效度是有效 分数方差在所得分数方差中所占比例。这只 是一种理论概念,在实际的效度系数的计算 中,效度分数的平方可以解释为在效标分数 的方差中可以用测验分数来解释的百分比,
r XY
2
S YX SY
2
2
r XY =效度系数
S YX
2
SY
2
=由测验所决定的效标分数方差 =效标分数方差
例1 为了考察高等教育自学考试数学试卷的 效度,有关单位在自学高考的高等数学考试 之后,请30名考生参加了某重点大学的高等 数学结业考试。这些考生在两次考试上的成 绩如下表。 计算自学高考数学试卷成绩与普通大学数学 考试成绩之间的相关系数:见附件1
ChapterFive学习课件
測驗效度概念的演進
• 建構效度被認定為涵蓋所有的基礎效度概 念,因為它指明了測驗所測量的內容。內 容和預測效度只是界定和了解建構的諸多 訊息來源之二。 • 前述三個測驗發展階段所重視的效度分別 稱為:內容效度、預測效度(效標關聯效度)、 建構效度
精选
描述內容的程序
• 性質 • 就本質上來看,描述內容效度程序就是: 有系統地檢驗測驗內容,以決定它是否涵 蓋了所欲測量之行為領域的代表性樣本。 • 我們必須有系統地分析所欲測試的行為領 域,以便確保所有主要層面都被涵蓋在測 驗題目中。
精选
描述內容的程序
• 表面效度 • 表面效度表示:對於受測者、使用測驗的 管理人員,以及其他未曾接受訓練的觀察 者而言,測驗是否「看起來有效」。 • 表面效度並不能取代客觀方法所決定的效 度。但可以增進受測者的在施測時的配合。
精选
效標預測程序
• 同時效度與預測效度 • 效標預測程序可以指出:測驗能夠預測個人在特 定活動之表現的有效性。根據取得效標和測驗分 數的時間關係,將之區分為同時效度和預測效度。 • 同時效度在某種層次上的涵義是現有分類的診斷, 而非未來結果的預測。 • 由於同時效度的效標總是在測驗當時就已經獲得, 在這種情況下,測驗的功能究竟是什麼?基本上, 這樣的測驗提供了比效標資料更簡單、迅速或者 便利的替代品。
精选
效標預測程序
• 效度指標 • 建立測驗效度所使用的效標就像它的用途ㄧ樣多。 • 智力測驗最常用的效標是學業成就的指標,因此 這類測驗通常被視為測量學業性向的工具。 • 各種學業成就的指標提供了所有教育層級的效標 資料。另一種學業成就效標的形式就是個人已經 完成的教育總數量。我們可以預期:一般而言, 智力越高的人持續接受教育的時間越長。但是教 育總數量和學業性向之間的關係並不是完美的。 尤其在較高的教育水準上,經濟、社會、動機和 其他非智力因素都可能影響個人是否持續接受教 育。
第五章 效度
ˆ 这里, Y 为预测的效标分数;
S X 和 SY 分别为效标分数与测验分数的标准差.
X为测验得分。
效标关联效度的关键是选择好效标。一个好的效标必 须具备以下几个条件:(1)可靠性,即效标测验必须具有 较高的信度,如果效标测验不稳定,就不能与本测验有恒 定的关系.相关系数也就不能科学地解释同时或预测效度; (2)有效性,即效标测验本身必须是有效的,如果效标测 验本身缺乏有效性,则无法准确确定本测验的同时效度或 预测效度;〔3)客观性,即效标测验必须尽量客观 标准化.力求排除主观偏见,特别是防止效标污染的影响; (4)实用性.即效标应尽量使其用法简单、省时、花费少、 讲究经济实用。
三、效标关联效度
效标关联效度是指测验分数与作为效标的另一独立测验结果之间 的一致性程度。一般是用本测验与效标测验去测同一组被试得到的 两组分数的相关系数表示。 所谓效标,是检验测验效度的参照标准。效标实际上是本测验 所想测量或要预测的特性或功能,这些特性和功能通常以另一独 立测验的结果来表示。因此,效标是估计效标关联效度的主要根 据,所以效标必须确实能反映某个方面的特性和功能,才能成为估 计测验效度的依据。在运用效标进行测验时.还要避免效标污染。 所谓效标污染,是指由于主试知道某个人(或某个集体)的原来测验 成绩,存有成见,凭印象给分.影响了在效标测验中对某个人(或 某个集体)的成绩评定。
第一节 效度的估算
效度的估算与效度的类型相关,对于测验效度 的类型,不同学者有不同的分类方法。美国心理 学会1974年发行的《教育和心理测验的标准》一 书,正式采用将效度分为内容效度、构想效度和 效标关联效度三大类的方法。目前在教育与心理 测量中,应用最广泛的就是这种效度分类方法。
一、内容效度
内容效度是指测验内容与预定要测的内容之间 的一致性程度。也可以说是指测验内容对所要测 验的全部内容的取样代表性程度。取样代表性是指 测验题目能最大限度地代表预测的内容范围。因 此,一个测验要具有较高的内容效度必须具备两个 条件,其一是测验内容范围明确,其二是取样具有 代表性。
chapter5-validity
正命中率(录取正确率):提高效率
基础率;录取率(错误拒绝和错误接受的人数比例与临
界分数位置)
2019/4/27
THY, CCNU
52 / 95
效标关联效度评估-预期表法
呈现实证效度的方法
2019/4/27
THY, CCNU
53 / 95
2019/4/27
THY, CCNU
54 / 95
解、知觉组织和记忆、注意集中三类因素。
2019/4/27
THY, CCNU
57 / 95
构想效度-资料收集方法
测验内法 测验间法 效标关联法 实验操作法 因素分析法
2019/4/27
THY, CCNU
58 / 95
构想效度资料收集-测验内法
主要是通过研究测验内部构造来分析测验 的结构效度。
效度类型-构想效度
construct validity 指测验对理论构想的测量程度,又称结构
效度。“是否测到要测的东西” 构想或结构是指心理学理论所涉及的抽象
而属假设性的概念或特质。 应用领域:智力、人格测验等
2019/4/27
THY, CCNU
55 / 95
构想效度-评估步骤
界定理论构想
11 / 95
测量效度种类及评估方法
内容效度 效标关联效度 结构效度
含义及基本保证条件 评估方法 应用
2019/4/27
THY, CCNU
12 / 95
内容效度-定义
内容效度
content validity
指测验项目所涉及的内容对欲测内容范围 的代表性程度。
或者说所测内容对要测内容范围取样的代 表性。
第五章 测量效度_PPT幻灯片
3.确定每一层次目标在整个测验项目中所占的
比重。
4.编制测验双向细目表。
验的效度的考察。
内容效度对各种用于人员选拔和安置的职
业测验也是适用的。职业测验关心的是被试是
否具有从事某项职业的知识、技能等,那么要
明确某项职业所需的全部知识和技能,再对这
些知识和技能进行取样,取出一个有代表性的
样本。
内容效度不适合用于能力倾向测验和人格
测验。
缺点:缺乏理想的数量指标,因而妨碍了信息 交流和各测验的相互比较。
一、内容效度
(一)含义
内容效度是指一个测验实际测到的内容与所要测
量的内容之间的吻合程度。
一个测验要有内容效度必须具备两个条件: 1.要有定义得完好的内容范围
20以内的加减法 中小学生的心理健康的特点和表现。 2.测验项目应是已界定的内容范围的代表性样本
如果把所有的内容视为一个总体,那么测验项目可 以视为一个样本,这个样本要具有代表性,这个样 本能够代表总体的程度就是内容效度。
最高行为测验要求有较高的表面效度,典型
行为测验却要ቤተ መጻሕፍቲ ባይዱ较低的表面效度。
(二)估计方法 1.专家判断法 2.统计法
复本法 (克龙巴赫法) 再测法 内容效度比
专家评定法
这是一种定性分析的方法,由专家对测验项目 与所涉及的内容范围进行符合性判断。
我们以教育测验为例来说明应遵循的程序。
1.确定所要测量的全部内容范围。比如要考察某一学 科测验是否有效度,就要根据教材和教学大纲列出这 门课程的全部知识点。
Chapter 5-3---质与量相关——点二列相关
H0: 0。。。。 H1: 0
t 0.5 6 2 1 0.52 1.157 t (n 1) 2.776
2
可见第5题和测验总分间的相关系数为0.766,相关程度较高, 即第5题的答对答错和测验总分一致性程度较高,表明该题的 区分度较高。
质与量相关--引言
1、适用于一列变量为等距或等比且总体服从正态分布( 实际只需单峰对称分布,如T分布),另一列变量是按事 物的性质或人为划分为两类的变量,欲求这两变量间的直 线相关。 2、这类相关包括点二列相关、二列相关、多系列相关。 本课程只介绍点二列相关。
相关系数的主要用途:测验的信度和效度以及题目区分度 的计算
相关系数的检验
1、提出假设:
H0: 0。。。。 H1: 0
2、检验统计量:
t
3、临界值为:
r
n2 1 r 2
t (n 1)
2
计算示例
假设根据6对样本观测数据计算出某公司的股票价格与气温的 样本相关系数r=0.50, 试问是否可以根据5%的显著性水平认为 该公司的股票与气温之间存在一定程度的线性相关关系? 将相关数据代入:
第四节 质与量相关——点二列相关
1、质与量相关--引言 2、点二列相关计算公式 点二列相关不用考虑二分变量的数据分 布是否为 正态
点二列相关计算公式
rpb
X p Xq st
pq
1、其中p, q为二分变量各所占的比例, p+q=1
2、St 指连续变量的标准差
3、Xp , Xq 指按二分变量分类,连续变量相应部分的平均 数及总的平均数。
(例题5-9)
解:已知N=20,第五题答对的10人,答错的10人,设p为答对第 五题的学生的比例,q为答错第五题的学生的比例,则有
心理测量学第五章-效度
♪ 例如,在人格测验上有这样一些题目:“当事情不顺 我意时,我时常动怒。”“我总避免批评别人的言 行。”
(3)计算测验的同质性信度来检验结构效度:其一,求 取每个题目与测验总分之间的相关系数;其二,根据 测验总分将被试分为高分组和低分组,再比较这两组 被试在每个题目上的通过率。证明题目与总测验是测 量的同意结构。
(三)内容效度的适用范围及评价
♪ 内容效度主要用于学绩测验和职业测验(基于工作任务分 析),也就是测量知识或技能掌握程度的测验。
♪ 人格测验、能力倾向测验、智力测验不适合采用内容效度, 这类测验很难预先确定测试的内容范围。
♪ 内容效度不但是评价学绩测验的最适合的方法,而且编制 任何测验都要加以考虑的方面。
较高,而另一组被公认为是性格内向的人则在这 个维度上得分较低。 (2)根据测验得分把人分成高分组和低分组,考察这 两组人在所测特质方面是否确有差异。 ♪ 此处参照实证效度的区分法
4.多种特质——多种方法矩阵法
♪ 坎贝尔和费司克(1959) ♪ 实质上是相容效度法和区分效度法的综合运用 ♪ 原理是若用多种极不相同的方法测量同一种特质相
(三)搜集结构效度资料的方法
♪ 1.测验内部寻找证据法 ♪ 2.测验之间寻找证据法 ♪ 3.考察测验的实证效度法 ♪ 4.多种特质——多种方法矩阵 ♪ 5.因素分析法 ♪ 6.其他方法
1、测验内部寻找证据法
(1)确定内容效度作为结构效度的证据
♪ 例如,编制语文能力测验时,编制者将总体内容描述 为对词汇下定义、对语言做类比推理、以及在句子中 正确运用文字的能力,这在实际上就是给“语文能力” 的构想下了定义。
能力
积极的行为指标
1.同情心及敏感性 形成使病人安全的气氛;
心理学《效度》课件
的东西,它在测量中占的比例大小即为效度。 Val= Sco2/ St2
2、效度性质
(1) 针对某种测验结果和目的的。是针对 测量的某种特殊的用途,不具普遍性。
(2)心理测验的效度只有程度差异,而不是 “全”或“无”的差别。因而只能用“高 效”“中等”“低效”来评价。
(3)效度指标特别是(SC02)不可能直接得 到的只能是一种间接的估计。
第四节 影响效度的因素
一、测验本身的因素 1、 测验中的词汇和句型不能太难 2、 题意应当清楚。 3、 测题应当适合要测量的结果。 4、 不能提供额外线索。 5、 测题的编制合理程度。 6、 选择题的答案不能有明显的组型。 7、 测量数量(能增加效度) 8、 测验的难度要适当。
二、测验实施方面和计分方面。 测验情景:如布置、材料的准备。 实施过程是否标准。 指导语是否将答题要求说清楚,是否按时限要
2、区分法(组的分类即T检验的差异) 根据被试在准则上的表现,将其分为不同的组别,
那么这些组在预测时也应该有显著差异。如果被证实 则说明这个预测的效度较高。 3、命中率法=录取成功人数/总录取人数。 4、败成比。 失败组超过成功组均数的得分人数与成功 组超成功组均数的人数比。败成比越小,则两组差异 越大。
好的效标的特点
有效性——能反应测验的目的 可靠性——效标必须有高的信度,稳定可靠 可操作——效标可客观测量 实用性——效标的测量简单、省时省力,经济实
用
第二节 内容效度和结构效度 。
1、验证和提高内容效度的方法 : (1)专家评定法,让一组都非常熟悉测量内容的专家,用
逻辑法判断对所研究的领域的取样(测验测题)是否具有 代表性。(这与评分者信度相同因而评分者信度可作为测 验的确良效度指标) (2)比较法:与权威测验比较,如果相关高,就具高效度。 缺点: (1) 是一种符合性判断,缺少量化指标。 (2) 专家对有关问题的不同看法和侧重点会影响内容效度 的判断。 2、编制双向细目表。 测验前要做的第一件事就是尽可能明确而详尽地规定应 测量的领域,编制双向细目表。(适用于教育测验)
心理测量 第5章 测量效度
21 同异性相处时感到害羞不自在 22 感到受骗,中了圈套或有人想抓住您 23 无缘无故地突然感到害怕 24 自己不能控制地大发脾气 25 怕单独出门 26 经常责怪自己 27 腰痛 28 感到难以完成任务 29 感到孤独 30 感到苦闷
31 过分担忧 32 对事物不感兴趣 33 感到害怕 34 您的感情容易受到伤害 35 旁人能知道您的私下想法 36 感到别人不理解您、不同情您 37 感到人们对您不友好,不喜欢您 38 做事必须做得很慢以保证做得正确 39 心跳得很厉害 40 恶心或胃部不舒服
比例,作出尽可能详细的描述 ➢ 确定每道题所测的知识与技能,将自己的分类与测
验编制者的纲目作比较 ➢ 制定评定量表,从各方面对测验作出评定
复本法
克伦巴赫认为,内容效度可由一组被试在 取自同样内容范围的两个测验复本上得分的相 关来做数量上的估计。如果相关低则说明两个 测验中至少有一个缺乏内容效度,但无法确定 究竟哪一个缺乏内容效度。当相关高时,一般 推论测验具有内容效度,但也可能出现两个测 验有相同偏差的情况。
内容效度的应用
作为一种方法,内容效度较为适合于评价教育 成就测验和职业选拔测验。在这种测验中,测 验内容是知识、技能和实际工作的代表性样本。 内容效度不仅是评价教育成就测验和职业选拔 测验的较好方法,而且也是编制任何测验都应 加以考虑的基本方面。内容效度对标准参照测 验更为重要,因为在标准参照测验中我们主要 关心的是被试对一定范围内的知识、技能掌握 得如何。
这说明,对于一个具体的测量目标来说, 有表面效度的题目不见得真正有效,没有表面 效度的题目也可能有效,因此,表面效度不是 确定内容效度的客观指标。尽管如此,表面效 度对被试的动机、态度和行为会产生影响,从 而影响到测验的效度,因此在编制测验题目时, 对表面效度要适当控制。
心理学专业英语总结(完整)【精选文档】
心理学专业英语总结——HXY随意传阅·顺颂试安注释:1.“*"在书上是黑体字,但感觉不重要背了也没什么卵用2.“"背景色项表示答案恰好有三项,可能出选择3. 人名已加黑,可能连线或选择4. 每章节的末尾有方便记忆的单词表(只包括这篇总结中出现的关键单词)5。
方便理解记忆,已在各项下方注明中文释义6.“,”大部分都是作为点之间的分割,类似于逗号,前后不连成句子Chapter 1——Perspectives in psychology 心理学纵览Section 1: Approaches to psychology 心理学入门●What is psychology? 心理学是什么Definitions: The scientific study of behaviour and mental processes。
定义:对行为和心理过程的科学研究Psychology come from:①philosophy,②biology ③physics。
心理学来源于:哲学、生物学和医学When:1879 as a separate scientific discipline.形成于:1879年,作为独立学科History (develop): structuralism, functionalism,psychoanalysis, behaviourism,cognitive psychology,humanistic approach,biological approach。
历史发展:结构主义,机能主义,精神分析,行为主义,认知,人本主义,生理.●The psychoanalytic approach to psychology 精神分析理论Origins &history: Sigmund Freud, unconscious mental causes, treat as the causes of mental disorders, built up an theory。
社会科学研究方法 (5)
定比测量(等比测量或比率测量)(Ratio Measurement):除 了具有上面三种测量的全部性质之外,还具有一个绝对的零点 (有实际意义的零点)。 测量的数据,即可以做加减运算,也可以做乘除运算。 - 收入、年龄、出生率、性别比、离婚率。 - 张三的收入为480元,李四的收入为240元,那么480/240=2, 所以张三的收入是李四的两倍。 是否有绝对零点,是定比与定距测量的唯一区别。
4、数字和符号:用来表示测量结果的工具,如何表示?
二、测量的层次
社会调查研究中所涉及的现象具有各种不同的性质 和特征,因而对它们的测量也就具有不同的层次和 标准。
史蒂文斯于1951年创立了测量层次(Levels of Me asurement)分类法,将测量层次分为四种,即定 类测量、定序测量、定距测量和定比测量。
1、问卷的编制过程中必须重视试测
(1)客观检验法: 回收率:低于60%不行(有效回收率:扣除废卷后的回收 率); 填写错误:填答内容的问题,答非所问;填答方式错误; 填答不完全:某几个问题普遍未回答;从某个问题开始后未 答; 被调查者的态度和建议。 (2)主观评价法 送交专家、研究人员、典型的被调查者阅读、分析、评论, 请他们提出具体意见。
1)列出概念的维度
一个抽象的概念往往对应一组复杂的现象,而不是一个单 纯的可直接观察到的现象。 比如:“妇女的社会地位” – 全国妇联曾于1990年在全国进行过一项大规模的“中 国妇女社会地位研究”,该概念分为:政治地位、经济地 位、法律地位、教育地位、家庭地位等几个维度。
2)建立测量指标
最常用的信度检验:Cronbach α信度係數
P.184
Chapter5 效度
• 同一时间=同时效度
24
2019/2/17
做法不同
• 理想的策略:预测效度
–学生参加高考,把所有的人 都录取 –一段时间以后,将他们的平 均学业成绩与高考分数求相 关 –这个相关称为效度系数
• 实践中的选择:同时效度
–已经上了大学的学生参加 高考,同时收集他们的平 均学业成绩 –计算高考分数与学业成绩 的相关 • 优势:可行性、易行性 • 二者的差别 –表面上:时间长短 –实质上:对样本代表性的 25 要求
• 客观——避免“效标污染”
2019/2/17 22
效标污染
• 效标污染(criterion contamination ) :一 般指由于评定者知道其预测源分数而使 效标“纯度”降低的情况(Anastasi, 1988)
–预测源的知识
–评定偏差 –团体特征偏差
• 好的效标应是适当的、可信的和无偏见 的(Thorndike, 1949)
• 1966《教育与心理测验的标准和指南》 (美国心理学会、美国教育研究学会) : 效标关联 (criterion-related or empirical)、构 想 、内容 2019/2/17 10 • 单一效度:测验结果的有效性
2. 传统的三种效度类型
2019/2/17
11
传统的效度的种类
• 证明一个测验是有效的(validation),必须 保证在以下三方面均是有效的:
–市井或通俗测验多有高的表面效度,但它不 能保证测量的正确性。
• 提高表面效度可以起到“包装”的作用 • 对表面效度的要求
–最高水平测验:高;典型行为测验:低
2019/2/17 18
内容效度的适用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
策 N 正确 错误
拒绝 拒绝
2020/8/13
决策的可能结果 32
泰勒-罗赛尔预期表
2020/8/13
33
2020/8/13
34
增益效度
增益效度(incremental validity):由于 应用测验而在决策中提高的效度。
2020/8/13
35
例子:
• 假设你是一家公司的人事部经理。有100 个人申请某一职位。根据以往公司招聘 员工的资料,你了解到申请该职位的平 均成功率为60%。现在你手头上有个针 对该职位的测验,效度为0.7,而因额度 限制,你只能招收30人。
• 或测验使用者的预定目的与实测结果相 吻合的程度。
–这个测验测什么? –测得有多准?
2020/8/13
5
效度的性质
• 效度是针对测验结果的 • 效度是针对某种特定的测验目的的
–尺子可以用来度量长度,但不能用来度量重 量,即便每次度量的结果都完全一样。
–16PF是用来测人格的,如果那来测智力的话, 就缺乏效度 。
• 3.命中率:当使用测验进行决策时,决策的正命中
率和总命中率可以作为效度的指标。
2020/8/13
26
总命中率=命中人数/总人数
正2020命/8/13中率=被录取的成功者/录取人数
27
2.2.5 效标关联效度的实际应用问题
• 1. 统计的显著性
样本量对相关系数显 著性的影响
2020/8/13
相关显著性与样本量之间 的关系(p < .05 水平)
2020/8/13
41
内部一致性方法
• 人格测验常用
–题目分数与总分相关 –分测验与总分相关
注:这种考察方法一般只能根据结果推论出测验是测单
一特质还是多种特质的,对于测验效度的贡献比较有限, 只是结构效度高的必要条件,需要作进一步的研究才能 确定测验所测构想。
2020/8/13
15
例:
1、 内容范围:10以内加减法运算
内容分类:A.运算类型 B.运算范围
1)加法
2)减法
运算结果≤10
各类的相对重要性
<10 =10 >10 加法 40% 10% 0
减法 50% 0 0
2、分析每一测验题的内容、结构。
2020/8/13
16
2.1.3 内容效度的估计方法
• 方法: –专家评判 问题:缺乏数量化指标 –经验方法 –前测-学习-再测
2.3.1 结构(构想)效度的概念
• 结构(构想):假设性的概念或特质
• 结构(构想)效度(Construct validation ):一个测验度量一个理论上 的构想或特质的程度
• 例如,
– 一个测验在多大程度上测量了“幸福感”(责任感、自主性等 等)?
– 这个面试(interview)测量了人际技能了吗?
2020/8/13
22
效标污染
• 效标污染(criterion contamination ) :一 般指由于评定者知道其预测源分数而使 效标“纯度”降低的情况(Anastasi, 1988)
–预测源的知识
–评定偏差
–团体特征偏差
• 好的效标应是适当的、可信的和无偏见
的(Thorndike, 1949)
的标准差
2020/8/13
29
估计的标准误的应用:估计真正效标分的变化范围
• 某能力倾向测验的效标的标准差是15,测验和效标
的相关是0.50,那么从该测验估计等级水平的标准
误是多少?如果某学生预测的效标得分是50,那么
实际获得的效标分数有68%的可能落在哪个区间范
围内?
2020/8/13
30
3. 效标关联效度在人事选拔中的应用: 预期表( empirical expectancy table)
–内容效度(content) –效标关联或实证效度(criterion-related or empirical) –构想或结构效度(construct)
• 不能只独立地保证一方面。
2020/8/13
12
2.1.1 什么是内容效度
• 内容效度(content validity):测验内容对 测验目的的适合程度。
• 效度只有程度上的差异
2020/8/13
6
1.2 效度的测量学定义
• 真分数理论回顾:
• 效度的测量学定义:
S S S 2
2
2
X
T
E
与测量目的有关的真 实变异(或有效变异)
• 系统误差(包含在真分 在总变异中的比例
数中):
S S S 2
2
2
T
V
I
• rxy=Sv2/Sx2
S S S S 2 2 2 2
• 假设验证与累积证据
2020/8/13
39
2.3.2 结构效度的验证步骤
• 第一步:对结构或特质进行界定(建立理论框 架),说明该结构的心理学意义、它与其他结构 或特质间的关系
• 第二步:根据理论定义,推论出一些可能的假设, 并验证假设。
• 例:焦虑测验的结构效度验证
– 当人面临危险时,焦虑度会升高;
• 基本前提:测验试题应为所欲测内容或行为 范围之代表性样本(representative sample)。
• 主要用于建构或评价成就测验或职业测验
2020/8/13
13
• 需要考虑的基本方面:
–测验内容范围:应能确切涵盖所界定对象之范围 –测验题目的代表性:每个试题应与所界定内容或
行为范围有适度相关;试题分配应能反映范围内 各种变项或成分所应占的比重
X
V
I
E
• Sv2 :有关(有效)变异
• S 2020/8I/213:无关变异(系统误差)
7
1.3 效度与信度的关系?
• rxy=Sv2/Sx2 • =(Sx2- SI2- SE2)/ Sx2 • =1- SI2/ Sx2- SE2/ Sx2 • = rXX - SI2/Sx2
• 信度:只考虑随机误差 (random error)对测量的 影响
2020/8/13
• 优势:可行性、易行性
• 二者的差别
–表面上:时间长短
–实质上:对样本代表性的
要求
25
2.2.4 效标关联效度的估计方法
• 1. 相关法: 计算测验分数与效标的相关系数。
• 2.区分法:根据效标上的成绩将被试分为好、坏两 组,那么,这些组在预测分数上应该有显著差异。 如果存在显著差异,说明测验的预测效度高。
2020/8/13
17
2.1.4 内容效度与表面效度
• 表面效度(Face validity): 表面看起来 测验内容与测验目的的一致性程度。
–市井或通俗测验多有高的表面效度,但它不 能保证测量的正确性。
• 提高表面效度可以起到“包装”的作用 • 对表面效度的要求
–最高水平测验:高;典型行为测验:低
• 效标(Criterion):希望做出推断的行为或被预测 的行为,是检验测验有效性的标准。
–测验=预测源
–行为=效标
• 效标关联效度是基于数据的( data based)
–一个选拔测验与工作绩效的相关
–一个成就测验与年级的相关
2020/8/1–3 一个诚实测验与偷窃的相关
20
2.2.1 常见的效标
相关系数r .997 .707 .514 .325 .195 .098
样本量n 3 8 15 37 102 402 28
• 2. 估计的标准误
• 估计的标准误 (standard error, SE):使 用测验分数预测效标分数时的误差大 小的估计值:
SE S y 1 rx2y
• rxy:测验的效度系数 sy:效标成绩
2020/8/13
23
2.2.3 两种效标关联效度
• 预测效度(predictive validity):
–预测未来 –他将来会患焦虑症吗?
• 同时效度(concurrent validity):
–诊断现状 –他患有焦虑症吗?
• 二者的重要差别:进 行测验(即预测源) 与进行效标测量之间 的时间
• 不同时间=预测效度
• 1966《教育与心理测验的标准和指南》 (美国心理学会、美国教育研究学会) : 效标关联 (criterion-related or empirical)、构 想 、内容
2020•/8/13单一效度:测验结果的有效性
10
2. 传统的三种效度类型
2020/8/13
11
传统的效度的种类
• 证明一个测验是有效的(validation),必须 保证在以下三方面均是有效的:
• 你将预期招到的人中有多少是成功的?
• 如果胜任该职位但未被录取的人提出质
2020/8/1疑3 ,你将如何给出合理的解释?
36
2020/8/13
37
决策
选择
拒绝
小计
绩 成功 27
33
60
失败
3
37
40
效
小计 30
70
100
根据泰勒-罗塞尔表,正命中率=.91。.91*30=27.3 2020/8/13在所有被拒绝的人中漏报的比率=33/70=.47 38
– 服用某种特殊药物,可以减轻焦虑;
– 患有某种精神病的人,他们的焦虑程度会比普通人高。
2020/8/13
40
2.3.3 结构效度的估计方法
(一)测验内方法:主要通过测验内部构造来分析测 验的结构效度
• 内容效度——可以作为结构效度的证据 • 被试解答测题时的反应过程——看是否测到要测
的结构 • 测验的同质性——内部一致性方法