第四章效度

合集下载

心理测量—效度

M3 攻击性 0.14 0.82 0.16 0.13 0.61 0.23 0.30 智力 0.21 0.01 0.72 0.06 0.19 0.52 0.49 0.36
相同特质不同测量方法之间的相关（会聚效度）相同方法测量不同特质的相关（区分效度）不同方法测量不同特质之间的相关
（3）因素分析
因素分析将为数众多的观测变量缩减为少数不可测的潜变量（因素），即用最少的因素概括和解释最大量的观测数据。
年龄差异只是效度的一个必要条件而不是充分条件。
教育与训练效应
有效的教育与训练会提高被试的某种特质水平，这种变化应在测验分数中体现出来。
4.对构想效度的评价
贡献
把着眼点放在提出假设、检验假设上，因此使心理测验不再只是做决定的辅助工具，同时还成为发展心理学理论的重要工具。
缺点
有些构想概念模糊，缺乏统一的定义。确定效度时没有明确的操作步骤与程序。没有单一的数量指标来描述有效的程度。
如果后测成绩有较大提高，说明测验确实测量了所教授的内容，测验的内容效度较好。
（4）经验法
检查项目分数和测验总分随年级升高的变化情况，一般而言，应保留从低年级到高年级学生通过的百分比增加最大的那些项目。
分析学生所使用的各种解答方法以及测验中常见的错误。
计算测验分数与阅读理解分数的相关，检查阅读指导语的能力对测验成绩可能产生的无关影响。
3.内容效度的特点
（1）内容效度的特定性测验的内容效度与测验的编制者所定义的
内容范围有关。
（2）内容效度常与表面效度混淆
表面效度（Face validity）是在受测者、没有受过训练的观察者看来这个测验是否有效。
注意：
表面效度会影响被试的测验动机，适当的表面效度会让被试觉得测验是有意义的，也会更加配合测验实施。

《心理测量学》复习思考题答案

(0076)《心理测量学》复习思考题答案第一章心理测量概述一、解释1．测量：按照一定法则给事物指派数字。

2．心理测验：实质上是行为样本的客观的和标准化的测量。

3．量表：具有参照点和单位的用以测量某种事物以确定其数量的连续体。

二、填空1．/2．无论是物理特性的测量，还是精神特性的测量，都必须具有（参照点）和（单位）两个要素。

3．量表可以分为（类别量表）、（等级量表）、（等距量表）和（比率量表）四级水平。

4．要求被试按平时的习惯作出反应而无正确答案的测验称为（典型行为测验）。

5．以预先确定的教学内容为标准，考查被试对于指定的教学目标中的内容或技能掌握程度的测验称为（目标参照测验）。

三、单项选择1．心理测量的参照点是（①）。

①人定零点②绝对零点③人定零点和绝对零点④不能确定2. 一般而言，心理测验的分数属于（②）。

①类别量表②等级量表③等距量表④比率量表3．狭义的心理测量是指以（②）为工具的测量。

]①调查②测验③实验④口试四、判断分析1．心理测量主要用于对人的精神特性的直接测量。

（×）分析：人的心理行为变化无法直接测出，只能通过个人在活动中（具体讲就是对测验题目）的反应来间接推断人的某种精神特性的状况。

2．由于心理测量属于等级量表，因而在应用中只能使用等级量表适用的统计方法。

（×）分析：虽然心理测量属于等级量表，但在应用时可以采取变通的方式：①假设量表上的单位是相等或近似相等，其前提是常态分布的假设；②把测验分数转换到一个有相等单位的量表上，即把原始分数转换成标准分数。

这样就可以使用等距量表的统计方法。

3，在对心理测验进行区分时，应主要看编制者的目的和测验的实际内容。

（√）分析：由于测验的编制者给要测量的特性所下的操作性定义不同，因而区分测验时不能只看测验的名称，而应主要看编制者的目的和测验的实际内容。

五、简答1．心理测量的特点是什么&答案要点：①心理测量没有绝对零点，只有人定零点。

第四章教育测量的质量指标-效度

– 评分一致性考查法（不同评分者之间评分的一致性程度，即考查评分者信度）
– 前后测对比法（根据前后两次测验的差异显著性，确定测验的内容效度）
（二）结构效度的验证方法
• 结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义，也就是说从心理学的理论观点就测验的结果加以解释和探讨。
二列相关
• 适用于两个变量就其实际含义而言是等距或等比数据，它们服从正态分布，
其中一列人为地划分为两类。
rb
Xp Xq St
pq y
公式 (2-5)
Xp或Xq是二分名称变1量 ”中或0“ ”相对应的连续平变均量数的
St是该例连续变量量全值部的变标准差。 p是二分称名量表的中次一数种占总次数比的， q百＝1分－p。
– 效标效度，也称为效标关联效度，也称为实证效度
– 验证方法是指一个测验对处于特定情境中的个体行为进行预测时的有效性
– 例：
• 高考成绩预测大学学习成绩 • 能力倾向测验预测工作成效
（三）效标关联效度的估计方法
– 分类：
• 同时效度：测验分数与效标资料的取得约在同一时间内连续完成，这两种资料的相关系数即为同时效度
所以可以将效度rxy定义为
潜在真分数方差（
V2）实得分数方差（
2）之比，
x
即：rxy
V2
2 x
2 x
(
2 I
2 E
)
2 x
1
2 I
2 E
( 公式2 3)
2 x
rxx
2 I 2 x
2、效度与信度的关系
根据公式（2-2）和（2-3），可将效度与信度的关系图解于后：

第4章测量的信度与效度

2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识，分析其是属于系统误差还是属于随机误差。系统误差会使调查结果有误，所以应尽量避免。随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是：真分数的方差在总体方差中所占的比重，即信度系数：
当题目间的相关系数越大时，α系数也会越大。当题目数目n越多时，S
2 H
n 值越大，越接近于0， 2 SH n 1
2 S i
越接近于1，故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的，即都是正面问法，反向问题需要做处理后才可以加入分析。
在计算α系数时，应该注意有些调查量表测量的内容包含几个领域，这时宜分别计算各个领域的α系数。克朗巴哈α系数适用于项目多重计分的测验数据或问卷数据，可以用该系数测量Likert量表的信度。在基础研究中，信度至少应达到0.8才可接受；在探索性研究中，信度只要达到0.7就可以接受；在旅游调查测量实践中，信度只要达到0.6即可接受。 α系数通常与量表题目数量有关，题目数量越多，α系数就越大。
理想（甚佳，信度佳（信度高）很高）非常理想（信度非非常理想（甚佳，常好）信度很高）
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例，8个题项均为正向题，受试样本数有6位，采用Likert 5点量表填答，获得调查结果如下表：
题号样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24

效度的名词解释

效度的名词解释
效度是指一个测试或测量工具的有效性和准确性。

在心理学、教育学、医学等领域中，效度是评估测量工具的重要指标之一。

它是指测量工具所测量的内容是否与被测量的现象相对应。

如果一个测量工具具有高效度，则说明它能够准确地测量出被测量的现象，从而可靠地评估人们的表现、能力、态度、情感等方面。

效度分为内部效度和外部效度两种。

内部效度是指测量工具的各项指标之间的相互关系，包括信度、稳定性、一致性等。

信度是指测量工具的稳定性和一致性，即测量结果的可靠性。

稳定性是指测量工具在不同时间、不同环境下所得到的结果是否一致。

一致性是指测量工具的各项指标之间是否相互协调和一致。

外部效度则是指测量工具与被测量现象之间的关系，包括相关效度、预测效度、构效度等。

相关效度是指测量工具所测量的内容与被测量现象之间的相关性。

预测效度是指测量工具能否准确地预测被测量现象的变化趋势。

构效度是指测量工具所测量的内容是否与被测量现象的内在结构相一致。

测量工具的效度是评估其是否具有正确性和准确性的重要指标。

一个测量工具的效度高，则说明它能够准确地测量出被测量的现象，从而可靠地评估人们的表现、能力、态度、情感等方面。

因此，在选择和使用测量工具时，必须考虑其效度，以保证测量结果的准确性和可靠性。

同时，在测量过程中，也应该注意对测量工具的效度进行监测和评估，以确保测量结果的正确性和准确性。

总之，效度是测量工具的一个重要指标，它关系到测量结果的准
确性和可靠性。

在选择和使用测量工具时，必须考虑其效度，并对其进行监测和评估，以确保测量结果的正确性和准确性。

第4章效度

二、内容效度的确定方法
（一）逻辑分析法：专家评定(p175) 根据自己的知识经验对量表的有效性（逻辑性）作出判断，也称逻辑效度。为使内容效度的判断过程更客观，一般采用下列步骤： ①确定测验内容的总体范围； ②编制双向细目表； ③编制评定量表，从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面，对测验作出总的评价。
因素分析案例
公因子 F1 Z1=代数1 0.896 公因子 F2 0.341 共同度 hi2
Z3=几何 Z4=三角
0.802
0.516 0.841
0.496
0.855 0.444
0.889
0.997 0.904
0.111
0.003 0.096
Z5=解析几何
第四章效度
第一节效度概述
一、什么是效度（一）定义 1、效度（validity）是指一个测验或量表实际能测出其所要测的心理特质的程度。（1）效度是一个相对的概念：每个测量工具都有自己的目的；内隐特质是通过外显行为间接测得的；（2）效度是测量的随机误差和系统误差的综合反映；（3）判断一个测量是否有效要从多方面收集证据。
第七节因素分析
• 1904，斯皮尔曼，《客观决定和测量一般智力》，用因素分析技术研究智力结构。标志着因素分析方法的诞生。 • 运用此方法，心理学家探索出多种智力理论。如：群因素论、三维结构智力模型。（探索性因素分析） • 20世纪60年代后期，统计学家波克等人在研究因素分析模型中参数的假设检验问题时，发展出验证性因素分析。 • 1973年，乔纳斯柯格创立了验证性因素分析，运用因素分析检验假设成为可能。
（二）区分法测验→工作→准则测量（工作成绩）按工作成绩分高低两组，如工作成绩高，测验得分也高；工作成绩低，测验得分也低，说明该测验是有一定效度的 1、差异性检验 2、重叠量的计算见P184

第四章_心理评估

人的心理活动是复杂多样的，要想客观、准确地了解人的心理特质，最科学的方法是心理评估。

心理评估可作为人的心理品质及行为健康与否的重要评价手段。

对评估出有心理健康问题的人群，根据心理问题的程度和临床表现，采取相应的心理咨询或者心理治疗。

同时，学会心理评估的方法有助于临床护士在护理患者的过程中为患者制订有效的心理护理措施。

第一节心理评估概述(一)心理评估的概念心理评估是依据心理学的理论和方法对人的心理品质及水平所作出的全面、系统、深入和客观的描述与鉴定。

所谓心理品质包括心理过程和人格特征等内容，如情绪状态、记忆、智力、性格等。

心理评估是心理咨询和心理治疗的重要前提和依据，也是对心理咨询及治疗效果进行判断的主要手段。

心理评估用于临床则称为临床心理评估。

(二)心理评估的基本程序依据心理评估的目的不同，心理评估的具体程序也有所不同。

但是，心理评估的基本程序是类似的。

(1)要确定评估的目的，明确评估所要达到的目标。

. (2)详细了解被评估者目前的心理问题，了解心理问题产生的原因及发展变化的状况、可能的影响因素。

主要生活经历、家庭背景等。

在这个过程中，主要应用调查法、晤谈法和观察法等. (3)要对被评估者的重要心理问题深入了解和评估。

这个过程通常要应用心理测验的方法。

最后要将评估获得的资料或者数据进行分析、处理、得出评估结论。

(三)心理评估的常用方法1．观察法观察法是心理学研究中最基本的方法，也是心理评估的基本方法之一。

观察法是指评估者通过对被评估者可观察的心理现象和行为表现，进行有目的、有计划的观察和记录而进行的评估。

观察的结果需要经过科学而正确的描述，并加以“量化”o在心理评估中观察的内容包括被评估者的仪表、面部表情、人际交往风格、言行举止、注意力、兴趣、爱好、各种情境下的应对行为等。

观察法的优点是观察所采集的资料比较客观真实、方法简便、易于操作，应用范围广泛。

其不足是观察指标不易定量，标准难以统一。

2．晤谈法晤谈法是通过与被评估者晤谈，了解其心理信息，同时观察其在晤谈时的行为反应，以补充和验证所获得的资料，进行描述或者等级记录，以供分析研究的心理评估方法。

第四章测量的信度与效度

（3）结构效度通过测量什么、不测量什么的证据积累起来给以确定的，因而不可能有单一的数量指标来描述结构效度。
结构效度主要应用于智力测验、人格测验等一些心理测验方面。
2.结构效度的确定确定结构效度的基本程序第一，对所研究的心理特质的结构进行界定第二，依据理论框架，提出可能的假设第三，收集数据，验证假设
③考察测验的同质性。
④因素分析的方法 ⑤结构方程的方法
（2）测验间法通过对几个测验的比较研究，找出它们所测的共同特质，
这样便可以确定这些测验是否具有结构效度。 ①相容效度：计算被试在新旧两个同类测验上的分数的
相关。如果相关高，则说明两个测验测的是相同的特质。 ②区分效度：一个有效的测验不仅与其它测量同一构想
（二）结构效度（construct validity） 1.结构效度的含义、特点与应用范围结构效度是指一个测验实际测到所要测量的理论结构和
特质的程度，或者说测验分数能够说明测量的理论结构和特质的程度。
结构效度有如下特点：
（1）结构效度首先取决于事先假定的心理特质的结构理论
（2）当实际测量的资料无法证实事先的理论假设时，并不一定就表明该测验结构效度不高。
测量随机误差大，测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一，测验的信度达
到多少才可以接受呢？一般来讲，能力与成就测验的信度应该在0.90以上，人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
➢ （二）解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲，一个人的真分数本来是用同一测验对他反复
向细目表对照 ③制订评定量表，考察题目对所定义的内容范围的覆盖
率、判断题目难度与能力要求之间的差异等。

第四章效度

结构效度
效标关联效度
效标：检验测验效度的参照标准。测验分数与作为效标的另一独立测验结果之间的一致性程度
第二节
效标关联效度
一、概念效标（效度标准）就是确能显示或反映所欲测量的属性的变量。即效标是考察一个测验的效度的参照标准。效标关联效度就是某一种测验分数与其效标分数之间的相关系数，又称统计效度。在效度的估计中，要尽可能选择信度高的测验成绩作为效标。效标测验与要估计效度的测验要是针对同一心理属性的测验。
rtt 1
6 D
2
n n 1
2

D表示两次测验所评等级的等级之差，n为被试总数。
5、φ相关法
当测验分数和效标分数都是二分变量或以二分变量表示时，测验的效标关联效度用φ相关系数来表示。在计算相关前，先编制一个22的列联表，其形式如下：
另一类数据合计 a+b c+d a+b+c+d=N
（4）联结：指能有效地、和谐地独立完成高难度技巧或一系列复杂的动作，或与其它动作联接，形成新的动作技能。如学生改良了某些实验操作步骤，使之更趋合理。总结：布鲁姆的教育目标从低到高排列，高级目标包含着低级目标，低级目标是高级目标的基础。在三大领域也存在这层次结构，即情感、动作技能以认知为基础，又对认知发生影响。
0 1
1 0
1
1 0
1
0
ห้องสมุดไป่ตู้
1
0
1
0
1
1
0
• • • •
预习者：p＝9/16=0.564;不预习者：q＝0.436 预习者的平均分：84.3;不预习者的平均分：77.3 16名学生的标准差： σt ＝13 由公式得rpb＝0.27

第四章教育测验的质量分析

形成题库，随机抽取
四是采用多种测试方法
多角度、多途径测量和评价学生
五是科学设置答题要点和评分细则六是严格挑选、培训评卷人员,多个评分者评分。
（二）测验的效度
1．含义：效度是指有效性程度。测验的效度，是指
测验实际测量出其所要测量的特质的程度。即测验在多大程度上测量到了所要测的东西。衡量测验有效性的主要依据：达到测验目的的程度。信度和效度的关系：
（二）测验项目的区分度

项目区分度是指测验题目对其学业水平不同的考生的区分程度或鉴别能力，即通过测试考出学生的不同水平，把优秀学生、一般学生和困难学生区别开来。区分度是试题区别被试水平能力的量度，区分度高的项目，能将不同水平的被试区分开来。如果一个项目，实际水平高的被试能顺利通过，而实际水平低的被试不能通过，该项目就具有较高的区分度。区分度是测验质量的一个重要指标，说明的是试题对于测验目的来说的有效性程度。项目区分度一般由被试在某项目的得分与实际能力水平（一般用测验总分表示）之间的相关系数来表示，相关程度越高，该项目区分度就越高。
杂程度等

第四，题目的变化动态。
题目的迷惑性、干扰性,题目设置的灵活程度,题目
隐含的已知条件等
测验难度水平的确定*
测验题目难度水平的适当与否，取决于测验的目的、
性质和题目的形成。
测验是为了了解被试在某方面知识技能的掌握情况，这时
难度高低不用过多考虑，只要认为是重要的内容就可以选用。但如果测验目的是为了选拔，测验的平均难度就应该和选拔率大致相同。
L另外，被试的主观态度、测验内容取样是否恰当、
施测情境是否良好、测验时间是否充裕等，也都会影响测验的信度。

效度评估的方法.pptx

观察测验前和测验后分数的差异做为验证构想效度的方法。
测验前分数——训练——测验后分数（提高）
（三）效标效度
定义效标估计方法
1、定义
效标效度是指一个测验对处于特定情境中的个体行为进行估计的有效性。
被预测的行为是检验效度的标准叫效标。由于这种效度是看测验对效标预测的如何，所
避免与表例面2：效当度你发（现领导）在讲混话淆时明显出现了错误时，你
一个测A当验场看指出上去B装适做不合知道欲C测会目后吿的知的程度，
而非实际适合欲测目的的程度。
测验在使用者或被试主观上感觉有效的程度。
编制测验应适当考虑表面效度。
最高作为测验表面效度可高些
（二）构想效度
()
定义确定步骤估计方法
二、效度的性质
效度是一个相对的概念。（目的和功能）效度具有连续性（程度上的不同；高效或低效；针对测验
结果）
三、信度与效度的关系
SX 2 SV 2SI2SE 2
2 信度高，给 S²V 增加提供可能能否提高效度，再看S²I大小信度高不一定效度高效度要高，S²V须占较大比重，S²T↑ 效度高，信度必高
取样：芝加哥校区被试：145名7～8年级学生内容：实施24个心理测验结果： 4个基本因素图词测验和数图测验的功能不明显。
24个心理测验的因素归类
词语
速度
推理
记忆
1.一般知识 5.加法 11.视知觉 15.数字游戏 19.词汇识别
段落理解 6.编码 12.体积 16.问题推理 20.数字识别
=（）/（）
正命中率=成功人数/选择人数
（）
第三单元效度的功能
一、预测误差效度系数的实际意义常以决定系数表示，

心理测量学教案(全)

心理测量学Psychological Testing一、说明（一）课程性质本课程适合于大学本科心理学、教育科学等专业的本科生及研究生教育。

本课程的学习将有助于实验设计、教育评价、心理与教育统计学等学科的学习，是培养学生科学研究及掌握研究方法的基础性学科。

（二）教学目的通过学习，要求学生掌握心理测量的基本知识、心理测量的编制和实施、以及良好测量所要求具备的基本条件。

更重要的是，通过本课程的学习要使学生熟练掌握不同心理测量的实际应用。

（三）教学内容本课程的主要教学内容有：心理测量的基本内涵及其评价和测量的一般步骤和方法两部分。

内容涉及一般测量解析，测量的要素及量表类型，测验信、效度、难度和区分度，测量的一般步骤和方法，智力测验、人格测验等心理测验，以及心理测量的综合应用和心理测量理论的新发展等内容。

（四）教学时数54个课时（五）教学方式课堂教学与实践应用相结合。

第一编心理测量的基本内涵及其评价第一章绪论教学要点：通过本章的学习，了解测量的基本性质及其要素，测量量表的四种水平，心里测量的本质、基本条件及功能，心里测量的发展以及心理测量的道德准则等内容，对心理测量有一个概括化的了解。

教学时数：[10学时]教学内容：一、一般测量解析1．测量(Measurement)概论2．测量的分类3．心理测量的种类（1）以测量对象来分，（2）以测量的目的来分，（3）以测量的方式来分类，（4）以项目结构或组成形式来分，（5）按评价参照的标准分类4．测量与测验（Test）、考试（Examination）、评价(Evaluation)联系与区别二、测量的要素及量表类型1．测量的要素识记：单位（Unit），参照点(Reference Point)，量表(Scale)2．量表类型（1）称名量表称名变量只说明某一事物与其他事物在名称、类别或属性上的不同，并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。

（2）顺序变量顺序变量是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量，具有等级性和次序性的特点。

效度

3）编制效度（construct validity）。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如，以结构主义语言理论为基础，认为系统的语言习惯是通过句型而获得的，那么，强调词汇和语法环境的测试题目就失去了编制效度。
4）经验效度（empirical validity）。经验效度是一种衡量测试有效性的量度，通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种：一是共时效度（concurrent validity），即将一次测试的结果同另一次时间相近的有效测试的结果相比较，或同教师的鉴定相比较而得出的系数；二是预测效度（predictive validity），即将一次测试的结果同后来的语言能力相比较，或是同教师后来对学生的鉴定相比较而得出的系数。
影响统计效度的因素
影响统计效度的因素主要有方面：统计功效低、违反统计方法的使用条件、测量信度低。
统计结论效度的条件
研究的统计结论效度主要取决于两个方面的条件：一是数据的质量，数据分析程序的效度是以数据的质量作为基础的，数据质量差的研究是谈不上统计结论效度的；二是统计检验方法，数据分析中所采用的各种统计方法，都有其明确的统计检验条件的要求，一项研究中统计检验条件不明确或者被违反，就会显著降低统计结论效度。
测试维度
测试维度
1）表面效度（face validity）。指测试应达到的卷面标准，即一套测试题从表面看来是否是合适的。例如，若一次阅读理解力的测试包括许多受试者没有学过的方言词汇，则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。
2）内容效度（content validity）。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程度。例如，如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该测试的内容效度就很低。

效度

结构效度的验证方法

因素分析法
相关分析法
因素分析法

因素分析的目的即在于找出量表潜在的结构，缩减題项数，使之变为一组数量较少而彼此相关较
大的变量。这种方法就是探索性因素分析法。
因素抽取方法：主成分分析

因素负荷量表示题项与因素(心理特质)关系的程度。题项在共同因素的因素负荷量愈高，表示题项与共
同因素(总量表)的关系愈密切，亦即其同质性愈高；
相反，题项在共同因素的因素负荷量愈低，表示题
项与共同因素(总量表)的关系愈不密切，亦即其同
质性愈低。
转轴法：最大变异法其主要目的在于重新安排题项在每个共同因素的
因素负荷量，转轴后使原先转轴前较大的因素负荷量变得更大，而使转轴前较小的因素负荷量变得更小。

效度与测验长度的关系长度越长，效度越高。

效度与测量误差的关系

效度与样本的关系样本容量的大小与效度系数的高低有关：样本容量越大，测量误差就会越小。而测量误差的减小，就会有助于测验和效标信度的提高，同时也有助于效度系数的提高。效度系数与样本的异质性有关：在其他条件不变的情况下，样本的测验分数和效标分数的全距越大，则分数分布的范围越广，效度系数就越高。在抽取样本的方式上，随机抽样比依一定标准选样效度系数要高。因为随机抽样可以保证样本中被试之间的差异性。在估计测验预测效度时，如果测验分数的样本范围受到了限制，则会由于测验分数全距的缩小而低估测验的效度。
效度的概念
效度的类别各类效度及其验证方法

测量的有效程度
◦ 一个测验或量表实际能测出其所要测量的特性或功能的
程度

任何测量都存在效度的问题效度是针对一定测量目的而言的效度是针对测量结果而言的效度只有程度上的差异

第四章效度

第四章效度信度解决的是测验分数是否可靠的问题，但即使一个测验分数有跨时间的稳定性和跨情境的一致性，却不能保证测验分数代表了被试的真实水平。

比如说，某测验的目的是测量能力，但测题却都是一些死记硬背的知识，测验分数是不能代表被试真实能力水平的。

这就涉及了测量的客观性和准确性问题，即测验的效度问题。

第一节效度概述一、效度的概念测验的效度（validity）指的是测验的有效性，即测验分数能够代表所要测量的心理特质的程度，或测验结果达到测验目的的程度。

任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。

一些编制得好的智力测验一般是效度较高的，但也免不了受智力之外的因素的影响。

因为测验的题目必然要从人们的生活实践中选材，来自不同生活背景的人对同一个测验题目的熟悉程度是不同的，即使智力相同，测验分数也会不同。

因此人们的知识经验就成了影响测验分数的无关因素之一。

研究表明，文化和种族因素会造成测验的不公平，因为与测验分数有关的并不完全是智力。

人格和成就测验同样存在无关因素影响测验分数的问题。

效度总是针对一定的测验目的而言的。

例如，用编制得好的人格测验测量人的个性，诊断心理障碍是有效的，即有一定效度，但若用来测量智力，测量结果就是无效的。

因为人格与智力无关，故分数的高低不能代表智力的高低。

以上讨论的是心理测量中的效度问题，在物理测量中，效度问题也是同样存在的。

如，用不标准的尺子量物体，用不准确的称去称物体，都会使测量的结果不准确。

可见，效度是由于测量工具（量尺）本身的问题造成的，在多次测量中都会恒定地出现而无法消除，因而称系统误差。

测量的效度问题是测验结果中包含了多大比例的系统误差的问题，系统误差可能是由以下几方面原因造成的：（1）所要测量的特质有多方面的含义，而量表本身未能全部包含这些方面；（2）测验题目中包含了与所测特质无关的题目；（3）记分方面的问题，如选择题的备选答案是不全面的，即没有完全体现被试情况的差异，因此答案就不是足够准确的，而且各题目得分是简单累加而未经加权处理，不同题目的重要性程度就没有得到区分。

效度的标准 -回复

效度的标准-回复效度的标准是评价一个测量工具是否能够准确地衡量所要测量的特质或概念的程度。

它是心理学研究中非常重要的概念，因为一个测量工具的效度决定了它的信用度和可靠性。

在本文中，我们将逐步回答关于效度的标准的问题，并解释如何评估一个测量工具的效度。

一、内容效度内容效度是指测量工具是否能够全面和准确地反映出所要测量的特质或概念。

它关注测量工具中包含的所有项目是否反映了所要测量的特质的各个方面。

评估内容效度的常用方法是专家评议法。

在这种方法中，专家们会对测量工具的项目进行评估，确定每个项目是否包含了特质的相关方面。

他们的意见和反馈将用于决定测量工具是否具有良好的内容效度。

二、构念效度构念效度是指测量工具是否能够衡量所要测量的特质或概念，以及与其他相关特质或概念之间的关系。

评估构念效度的方法之一是相关效度。

这种方法通过与测量工具所要测量的特质有关的其他已经被广泛研究的特质进行比较，来确定是否存在相关关系。

如果两个特质之间存在显著的正相关或负相关关系，那么可以认为测量工具具有良好的构念效度。

三、判准效度判准效度是指测量工具是否能够与其他已经被广泛接受的测量工具进行比较，以确定它们之间是否存在一致性。

这种效度可以通过与其他测量同一个特质的工具进行相关性研究，来评估测量工具的准确性和一致性。

如果测量工具与其他被认可的工具之间存在高度显著的相似性，那么可以认为它具有良好的判准效度。

四、预测效度预测效度是指测量工具是否能够预测未来的行为或结果。

它可以通过与所要预测的特质或概念相关的相关变量进行比较来评估。

如果测量工具能够准确地预测未来的行为或结果，那么可以说它具有良好的预测效度。

以上是关于效度的标准的简要介绍。

要评估一个测量工具的效度，需要考虑其内容效度、构念效度、判准效度和预测效度。

不同的效度标准在不同的研究领域有不同的重要性和适用性。

因此，在选择和使用测量工具时，研究者应根据研究目的和领域的需求，合理选择和评估测量工具的效度。

第四讲效度

• 效度是一个测验能够测量其所要测量的东西的程度(the extent or degree to which the test measures what it was designed to measure)。
• 或根据测验分数做出的推断的正确性
– 这个测验测什么？ – 测得有多准？
• 一个测验的效度不止一个，不存在一个一般的效度，因为一个测验可能测的是一个非常宽泛的概念，如智力，根据测验分数可以做出许多推断。
• 例如：假设你有一个包括四个部分的成就测验
– 阅读理解 – 词汇 – 数学计算 – 数学推理
• 你可能猜想，阅读理解和词汇都测量了言语技能，数学计算和数学推理都测量了数学技能。
• 要知道你的想法是否正确，你首先需要计算他们彼此之间的相关。
相关矩阵
阅读理解词汇数学计算数学推理
阅读理解 1.0
• rxymax=rxy/(rxx*ryy)1/2
• 1.0>=rxy/(rxx*ryy)1/2 • rxy<=(rxx*ryy)1/2 • rxy<=(rxx)1/2
• 信度的平方根为效度的最高限
本章要点
• 效度的概念 • 效度的类别及评估方法 • 效度的功能 • 影响效度的因素
效度的种类
• 证明一个测验是有效的(validation)，必须保证在以下三方面均是有效的
– 如，一个艺术能力测验与其他艺术能力测验、创造力测验以及去当地艺术博物馆的频率等有高相关
• 区分效度(discriminant validation)
– 如，一个艺术能力测验与耐力（力量）测验或与去体育馆的频率等没有相关
因素分析
(Factor analysis, FA)

第四讲效度2

可见，高信度才会有高校度。即可信的测验未必有效，而有效的测验必定可信。
第一节效度的概念
第四讲测验的效度
二、效度的性质
效度评估的相对性
测验效度受时空限制，且用于与测验目标一致的情况下才会有效。
效度评估的艰巨性
测验所测量的心理概念本身是否清晰，是测验效度高低的关键。
第二节效度评估的方法
第四讲测验的效度
一、内容效度
最常用
（一）什么是内容效度
指测验内容对于所要测量的心理概念的反映程度。由于这种测验的效度主要与测验内容有关，所以称内容效度。
第二节效度评估的方法
第四讲测验的效度
提高内容效度的工作思路
明确测验目的定义测验概念编制测验题库选择测验试题测验明确所测量的心理特征的概念，并划定出哪些行为与这种心理特征有关。测验题目应是界定的内容范围的代表性取样。
特质主要功能疑病hs反映身体功能不正常的关注33抑郁d反映抑郁倾向60癔症hy反映依赖天真幼稚自我中心等癔病人格60精神病性pd反映人格偏离蔑视社会习俗规范反社会行为50男女性化mf反映性别色彩60偏执pa反映多疑孤独过分敏感40精神衰弱pt反映紧张焦虑强迫内疚等神经症特征48分裂sc反映异乎寻常或分裂的生活方式78轻躁狂ma反映联想过快活动过多情绪高昂不稳46社会内向si反映内向胆小不善交际
第二节效度评估的方法
第四讲测验的效度
（三）校标的评价在检验一个测验的效标效度时，难点在于找到合适的效标。一个好的效标必须具备：效标必须能最有效地反映测验的目标，即效标测量本身必须有效；效标必须具有较高的信度，稳定可靠，不随时间等因素而变化；效标可以客观地加以测量，可用数据或等级来表示；效标测量方法简单，省时省力，经济实用。

第四章效度

乘法 0.10 0.70 0.30 0.85 0.01 0.49 0.09 0.26 0.15
3、考查测验的实证效度法
其一，根据效标把人分成两类，考查其得分。其二，根据测验得分把人分成高分组和低分
组，考察这两组人在所测特质方面是否确有差异。
（4）多种特质——多种方法矩阵法
坎贝尔和费司克（1959）
2、测验之间寻找证据法
（1）相容效度（2）区分效度（3）因素分析
此方法特点是同时考虑几个测验间的相互关联，考察这些测验是否在测量同一心理结构。
（1）相容效度
含义
– 测相同结构的各种测验间应有较高的相关。 – 求一个新编测验与另一已知结构测验间的相关。 – 斯坦福——比奈量表、韦氏智力测验是世人公认
1。寻找测验依据的理论定义：全美智力落后协会（AAMD）对适应行为的定义是：个体实现
人们所期待的与其年龄和文化群相适应的个人独立与社会职责的程度和功效。 2。根据理论定义提出假设：
比如，随着年龄增长，适应行为得分应逐步提高；弱智儿童和正常儿童相比，前者的适应行为显著弱于后者；儿童的适应行为表现与其所处的社会经济、文化背景有关。 3。搜集资料，验证假设
一个测验要有效必须具备以下几点：
1）效度系数显著地大于0，即同一特质的各种不同测量应有正相关；
2)以不同方法测量同一特质的相关必须高于不同的特质用同一方法来测的相关。也就是说，特质的差异必须比方法的差异更重要；
3)效度系数必须高于不同特质用不同方法测量所得之相关。
其他考察结构效度的方法
实质上是相容效度法和区分效度法的综合运用
原理是若用多种极不相同的方法测量同一种特质相关很高，则说明测量效度较高（相容效度即属此类）。

效度——精选推荐

第四章效度第一节效度概述一．定义1．操作定义：一个测验对欲测量的特性所能测量程度的估计。

2．统计定义：总变异中由所测量的特性造成的变异所占的百分比。

222S = S + S X T E2222S = S + S +S X V I E22S V X=效度二．效度的性质1．效度是针对测验结果的2．效度是针对某种特定的测验目的的3．效度只有程度上的差异4．效度是测量的随机误差和系统误差的综合反映。

∵2222S = S + S +S XV I E 22S S V X=效度∴2221S +S S I E X =-效度5．判断一个测量是否有效要从多方面收集证据22S V X=效度2S V是不可能得到的，只能根据已有的资料对效度进行推论效度验证：收集资料和证据来检验测验效度的工作过程三．效度与信度1．高信度是高效度的必要条件，而不是充分条件高信度高效度高信度低效度低信度低效度2．效度受信度制约信度系数平方根是效度系数的最高限度效标效度高低与测验及效标信度有关，若二者均低，则效度系数就会降低，从而低估真实效度，需要进行校正。

c r r =cr ：矫正后的真实的效度系数XY r ：实际测得的效度系数 XX r ：测验的信度系数 YYr ：效标信度系数∵1c r ≤∴XY r ≤取效标信度最大值，有rXY第二节效度的分类与估计方法一．分类1．1974年美国心理协会和美国教育研究会制定《教育与心理测验标准》，“标准”规定：效度就是由测验分数或其他评估形式所作出的推论的恰当性。

2．两种推论第一种推论是对测量之外的成绩的推测，这种预测的正确程度取决于效标效度；第二种推论是被测人的性质，即他的行为属于何种行为领域的推论，这种预测的正确程度取决于内容效度和结构效度。

二．内容效度1．定义：测验对有关内容或行为取样的适当程度2．验证方法专家评定：专家按测题和假设内容范围所作的符合性判断，又称逻辑效度。

程序：确定总体范围编制双向细目表制定评定量表缺点：没有数量指标描述此符合性程度不同专家对同一内容效度判断可能不一不同专家对内容范围会有不同理解经验法：检查不同年级被试总分与每题分数变化情况，若随年级增高总分和每题目通过率也升高，可推论该测验基本测量了教学内容和目标。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、测验内部寻找证据法
（1）确定内容效度作为结构效度的证据例如，编制语文能力测验时，编制者将总体内容
描述为对词汇下定义、对语言做类比推理、以及在句子中正确运用文字的能力，这在实际上就是给“语文能力”的构想下了定义。（2）分析被试的答题过程
例如，在人格测验上有这样一些题目：“当事情不顺我意时，我时常动怒。”“我总避免批评别人的言行。” （3）通过计算测验的同质性信度来检验结构效度
实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性
一、内容效度
定义：内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。
适用于成就测验、选拔和分类的职业测验，不适于能力倾向测验和人格测验。
注意与表面效度的区分
能力
积极的行为指标
1、同情形成使病人安全的气氛；
心及敏严肃地对待病人，对其医疗保密；
二、教材內容(以纵轴表示) 以出题的范围，表示出包含几个不同的单元。
以台湾学校教育文科为例
知识理应分综评总和解用析合价
唐诗 8 8 4 4 2 2 28 文言文 6 4 6 4 2 2 24
新诗 8 6 4 4 2 2 26 散文 6 4 6 2 2 2 22 总和 28 22 20 14 8 8 100
以相同方法测量不同特质所得的分数之间的相关应较低，
以不同方法测量不同特质所得的分数之间的相关应最低。
若合乎上述的情形，即表示这套测验同时兼有相容效应和区分效度，这是考验构想效度的新途径。
语文理解
数学推理
一般常识
言语测验
操作测验
教师评定
资料来自于Mosher（1968）的一项研究报告，他假设了三种不同结构，名为“性罪恶感”、“敌对罪恶感”和“道德良心”，使用了是非判断、迫选和完成句子多种测验方法对62名女性被试样本施测。
三、效度与信度的关系
根据公式S2X=S2V+S2I+S2E，可以得到信度与效度的关系如下： 1、信度高是效度高的必要而非充分条件 2、测验的效度受它的信度制约
信效度关系
S
2 X
SV2
S
2 I
S
2 E
ST2
S²E↓， S²T↑， rxx↑
信度高，给 S²V 增加提供可能 – 能否提高效度，再看S²I大小 – 信度高不一定效度高
感性
快速理解病人的情绪和心情；
医
……
生
2、沟通显示主动倾听的技能；
职
技巧
不是以恩人的态度出现；
业
在方法上有信心；
要求
……
3、临床相信你的临床判断；
专业技临床能力；
术
提供预想的照顾；
……
内容效度与表面效度的区别
（1）表面效度是由外行对测验做表面上的检查确定的，而内容效度是由够资格的判断者（专家）详尽地、系统地对测验评价而建立的。
（5）发展水平的变化许多智力量表的效度验证都使用了智力的年龄差异这一
特点。
（6）实验操作
根据不同测验具有不同的特性，我们可以预期经过某种实验处理之后将会发生哪些变化，以此推测测量某个心理结构的测验的结构效度。
比如说，我们可以预期，将某个人放在容易产生焦虑的环境中，其焦虑测验得分会有所变化。如果预期得到证实，就说明这个测验有结构效度。这种方法实际是要比较实验处理前后测验得分的差异。
一个测验要有效必须具备以下几点：
1）效度系数显著地大于0，即同一特质的各种不同测量应有正相关；
2)以不同方法测量同一特质的相关必须高于不同的特质用同一方法来测的相关。也就是说，特质的差异必须比方法的差异更重要；
3)效度系数必须高于不同特质用不同方法测量所得之相关。
其他考察结构效度的方法
1、逻辑分析法
含义
– 专家按测题和假设内容范围作出的符合度判断
作法与程序
– 明确欲测内容的范围 – 与双向细目表对比； – 制定评定量表；
局限
– 无良好的数量指标描述这种符合性的程度； – 不同专家对同一测验内容效度的判断可能不一致； – 不同专家对内容范围会有不同的理解
双向细目表（举例）
一、教学目标(以橫轴表示) 以Bloom所提的认知领域六个教学目标为依据：知识、理解、应用、分析、综合、评价。
1。寻找测验依据的理论定义：全美智力落后协会（AAMD）对适应行为的定义是：个体实现
人们所期待的与其年龄和文化群相适应的个人独立与社会职责的程度和功效。 2。根据理论定义提出假设：
比如，随着年龄增长，适应行为得分应逐步提高；弱智儿童和正常儿童相比，前者的适应行为显著弱于后者；儿童的适应行为表现与其所处的社会经济、文化背景有关。 3。搜集资料，验证假设
（三）搜集结构效度资料的方法
结构效度无单一的效度指标，要从多方面的资料来源，经过长期的、艰苦的搜集和积累证据资料的过程，才能逐步验证测验的结构效度。常用于搜集结构效度资料的方法有如下几种。
1、测验内部寻找证据法 2、测验之间寻找证据法 3、考察测验的实证效度法 4、多种特质——多种方法矩阵 5、发展水平的变化 6、实验操作
2、统计分析法
信度指标——复本信度
复本1
复本2
✓r高：内容效度 ✓r低：至少一个缺乏内容效度
被试团体
3、再测法
前测
后测
被试经过预测知识的教学
内容效度的评价
内容效度不但是评价学绩测验的最适合的方法，而且编制任何测验都要加以考虑的方面。
它的主要缺点是缺乏理想的数量指标，因而妨碍了信息交流和各测验间的相互比较。
1966年美国心理学会在《教育心理测验值标准》中将效度分为三大类： 1．内容效度（Content Validity）
内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。 2．结构效度(Construct Validity)
结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。 3．实证效度(Criterion related Validity)
例如，MMPI中有这样的题目：“我的喉咙里总好象有一块东西堵着似的。”
（2）表面效度不是效度的客观指标，但能对受测者的动机产生影响，因而也会影响到效度。
最高行为测验要求有较高的表面效度，典型行为测验却要求较低的表面效度。
1、逻辑分析法 2、统计分析法 3、再测法
内容效度的评估方法
内容效度的评估方法
对结构效度的评价着眼点放在提出假设、检验假设上，因此使心理测验不再只是作实际决定的辅助工具，同时还成为发展心理学理论的重要工具，从而使测验有了更广阔的发展前景。
缺点：有些构想概念模糊，缺乏一致的定义。确定效度时没有明确的操作步骤与程序。结构效度是通过对测验测量什么、不测量什么的证据加以积累确定的，因而没有单一的数量指标来描述有效的程度。
相容效度可看做是同时效度的一种
（二）效标
效标就是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得我们所感兴趣的行为。
需注意的知识点：
观念效标效标测量
在测验手册中报告实证效度时，不但要说明使用说明作为效标，还要说明这些效标来自说明团体。
乘法 0.10 0.70 0.30 0.85 0.01 0.49 0.09 0.26 0.15
3、考查测验的实证效度法
其一，根据效标把人分成两类，考查其得分。其二，根据测验得分把人分成高分组和低分
组，考察这两组人在所测特质方面是否确有差异。
（4）多种特质——多种方法矩阵法
坎贝尔和费司克（1959）
效度要高，S²V须占较大比重，S²T↑ – 效度高，信度必高
SV2
SI2
SE2
ST2 SX2
SV2
SI2
SE2
ST2
SX2
SV2
SI2
ST2
SE2
SX2
rx↑y rxx↑ rx↓y rxx↑ rxy↓ rx↓x
2.测验的效度受它的信度制约
信度系数的平方根是效度系数的最高界限根据效度和信度的定义（r2xy= S²V/ S²X， rxx=
三、实证效度
（一）实证效度的含义、种类及作用
定义：实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性。也称为效标关联效度。
被估计的行为是检验测验效度的标准，简称效标。
根据效标资料搜集的时间差异，实证效度可以分成同时效度和预测效度两种。有人把二种效度都称为预测效度，并把测验称作预测源。
S²T/S²X ）以及S²T= S²V + S²I
可得r2xy= （S²T - S²I ）/ S²X= rxx- S²I/S²X ） S²I>0 r2xy< rxx
第二节效度的估计
要确定测验在解决某方面问题时的效度，需要收集充分的客观事实材料和证据，这种收集大量资料和证据来检验测验效度的工作过程就叫做效度验证。
实质上是相容效度法和区分效度法的综合运用
原理是若用多种极不相同的方法测量同一种特质相关很高，则说明测量效度较高（相容效度即属此类）。
从理论上看，测验的结果应与其所要测的特质有显著相关而与其他不相干的特质无关。
以相同方法测量相同特质所得的分数之间应具有最大的相关，
以不同方法测量相同特质所得的分数之间应具有次大的相关，
– 通过缩减变量的方法，用反映变量本质联系的少数几个基本因素（或公共因素）来说明先前需要用较多变量才能说明的原因或特性。
100名学生在9个不同学科间的相关系数
两个假想测验的因素效度及其变异来源
测验共同因素负荷信
作用比例
度
系
言数字推数言数推理特误

第四章效度

心理测量—效度

《心理测量学》复习思考题答案

第四章 教育测量的质量指标-效度

第4章 测量的信度与效度

效度的名词解释

第4章效 度

第四章_心理评估

第四章测量的信度与效度

第四章 效度

第四章 教育测验的质量分析

效度评估的方法.pptx

心理测量学教案(全)

效度

效度

第四章 效度

效度的标准 -回复

第四讲 效度

第四讲 效度2

第四章效度

效度——精选推荐

第四章教育测量的质量指标-效度

第4章测量的信度与效度

第4章效度

第四章效度

第四章教育测验的质量分析

第四章效度

第四讲效度

第四讲效度2