测验的效度(新教材)

合集下载

测验的效度的名词解释

测验的效度的名词解释测验是一种常用的评估工具，用于评估个体在特定领域的能力、技能或知识水平。

然而，仅仅进行一场测验并不足以确定其有效性。

在评估中，一个重要的概念是测验的效度（validity），它涉及到测验是否能够准确地衡量我们想要评估的内容。

效度是一个相对复杂的概念，它包含多个维度，旨在提供测验结果的可靠性和准确性。

下面将对一些常见的效度类型进行解释，并探讨它们在测验设计和解释中的重要性。

1. 内容效度（Content validity）内容效度关注的是测验是否涵盖了完整的评估领域。

简而言之，内容效度涉及测验内容是否充分、全面地反映了目标领域的重要特征和要求。

在设计或选择测验时，我们需要确保测验项（如题目、任务）覆盖目标领域的各个方面，并区分不同水平的表现。

例如，一场针对学生数学能力的测验在内容效度方面，需要涵盖不同难度级别的数学题目，包括基础概念、运算技能和问题解决能力等。

如果测验只包含简单的计算问题，那么它的内容效度就会受到质疑，因为它没有涵盖数学能力的全面范围。

2. 结构效度（Construct validity）结构效度关注的是测验项目和测验整体结构与被评估领域的概念结构之间的联系。

简而言之，结构效度涉及测验能否正确地衡量和区分不同的能力或维度。

举个例子，假设我们设计了一场针对大学生英语能力的测验。

如果测验包含了不同维度的英语技能，如词汇、语法、听力和口语等，并通过测验结果得出一个综合的英语能力评分，那么这场测验就具备了良好的结构效度。

3. 预测效度（Predictive validity）预测效度关注的是测验是否能够准确地预测被评估领域的未来表现。

这对于许多评估来说是至关重要的，尤其是在教育和职业背景中。

例如，大学招生考试常用的高中学业水平考试（SAT）被广泛用作预测大学入学成功的指标。

如果考试结果与大学的学业成绩和毕业率之间存在着较强的关联，那么就可以说该考试具备了较高的预测效度。

心理测量学第五章效度(用)

b YX r XY
sY sX
0
0 . 923

a=57.5-0.923×69.4=-6.56 Yˆ =-6.56+0.923X
如果我们已知一组人的测验得分，我们可以根据上式得到他们的效标成绩平均值的预测值： X=76时， Yˆ =-6.56+0.923×76=63.6 X=55时， Yˆ =-6.56+0.923×88=74.7 预测值不是一个确定值，只是一个估计值，可以被理解为所有获得某一测验分数者的平均效标分数值。就是说，所有在测验上得76 分的人的效标分数的平均分为63.6，在例1 中，测验中实际得76分的人的效标平均分为 59.5，测验得88分的人的效标平均分为79.5。
三、影响效标关联效度的因素
（一）样本这种影响来自两个方面：一是样本的含量，二是样本的代表性。（二）基础率基础率是经选择的总体中具有某种与测验目的有关的特质的人数比例。极高与极低的基础率，运用测验都是得不偿失的。（三）录取率录取率是根据测验选拔出的人数与全体受测者的比例。录取率越低，选拔的有效性越高。录取率越高，错误选择的可能性越大。
2. 方差比例。根据效度定义，效度是有效分数方差在所得分数方差中所占比例。这只是一种理论概念，在实际的效度系数的计算中，效度分数的平方可以解释为在效标分数的方差中可以用测验分数来解释的百分比，
r XY
2

S YX SY
2
2

r XY =效度系数
S YX
2
SY
2
=由测验所决定的效标分数方差 =效标分数方差
例1 为了考察高等教育自学考试数学试卷的效度，有关单位在自学高考的高等数学考试之后，请30名考生参加了某重点大学的高等数学结业考试。这些考生在两次考试上的成绩如下表。计算自学高考数学试卷成绩与普通大学数学考试成绩之间的相关系数：见附件1

测验的效度(新教材)课件

综合多种方法进行评估
结构效度的评估需要综合考虑多种方法，包括内容效度、校标关联效度和因子分析等，以获得全面的评估结果。
04
验证效度
验证效度的定义
验证效度
指测验在特定目的下对测量目标的代表性和准确性进行的评估。它反映了测验结果与实际目标之间的关联程度。
定义解释
效度评估旨在确保测验真正测量了所需测量的内容，并且所得结果与实际情境相符合。
性和可靠性。
因子分析
通过因子分析等方法，对测验的结构进行统计检验，判断测验是
否符合预期的结构模型。
结构效度的注意事项
明确测量目标和概念定义
在评估结构效度之前，需要清晰地定义测量目标和所测量的概念，以确保测验内容与测量目标的一致性。
考虑测验的适用性
评估结构效度时，需要考虑测验的适用范围和适用人群，以确定测验是否适用于特定的测量目的。
测验的效度(新教材)课件
contents
目录
• 测验效度的基本概念 • 内容效度 • 结构效度 • 验证效度 • 应用与实例
01
测验效度的基本概念
定义与意义
定义
测验效度指的是测验在多大程度上准确地测量了所要测量的特性与功能。
意义
测验效度是衡量测验质量的重要指标，对于评估个体的能力、选拔人才、诊断问题等具有重要意义。
的一致性。
在编制测验时，应尽量选择具有代表性的题目，并确保题目难度适中，以提高测验的内容效度。
在评估内容效度时，应综合考虑专家的意见和统计分析的结果，以确保评估的准确性和可靠性。
03
结构效度
结构效度的定义
结构效度是指测验在多大程度上能够测量出所要测量的理论结构和特质的程度。它关注的是测验内容与测量目标之间的对应关系。

第三章效度

• 如，举行两场考试，使被试相信一场考试关系重大，另一场考试无关紧要，在考试前进行焦虑测验，看被试的焦虑测验分数是否存在显著的差异，分析原因。
4、对构想效度的评价构想效度的主要缺点是：
– （1）有些构想概念模糊，缺乏一致的定义。 – （2）确定效度时没有明确的操作步骤和程序。 – （3）构想效度是通过对测验测量了什么、没有测量什么的证据加以累积的，没有单一的数量指标来描述有效的程度。
内容效度与表面效度的区别
（1）表面效度是由外行对测验做表面上的检查确定的，即主观上认为测验是否测量了所要测量的某种特性。并不是一种真正的效度。表面效度即从题目表面是否容易看出出题人的意向和答案倾向。表面效度影响被试的测验动机。人格测验要求表面效度不宜过高。而内容效度是由够资格的判断者（专家）详尽地、系统地对测验评价而建立的。（2）表面效度不是效度的客观指标，但能对受测者的动机产生影响，因而也会影响到效度。最高行为测验（如能力测验）要求有较高的表面效度，让被试有较高的动机，尽最大努力完成；典型行为测验（如人格测验）却要求较低的表面效度，如果被试很容易看出测试目的，就可能做出假的反应。
28 24 26 22 100
唐诗文言文新诗散文总和
2、统计分析法
信度指标——复本信度
复本1
复本2
r高：内容效度
r低：至少一个缺乏内容效度
3、再测法前测后测
被试团体
被试经过预测知识的教学
内容效度的评价
内容效度不但是评价学绩测验的最适合的方法，而且编制任何测验都要加以考虑的方面。它的主要缺点是缺乏理想的数量指标，因而妨碍了信息交流和各测验间的相互比较。
效度
与测验目的有关的有效SV2和实得SX2 的比值

3.测验的效度

SV2
ST2
SX2 SI2
SE2
效度受信度的制约
第一单元效度的概念
效度的性质：
效度是针对测验结果的效度具有相对性
评鉴测验的效度时，必须考虑其目的与功能。
效度具有连续性
效度
效度的概念效度评估的方法效度的功能影响效度的因素
第二单元效度评估的方法
内容效度（逻辑效度）
（A）稳定性（B）准确性（C）可信度（D）区分性
在测量理论中，效度被定义为在一组测量中，与目标有关的真实方差与（）方差的比率。（A）误差（B）系统误差（C）随机误差（D）总
（）指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所预测量的行为领域的代表性取样。
编制测验时，效度是重要的要考虑的特性。如果是编制最高行为测验，除了内容效度，也要求有（）。
（A）较高的表面效度（B）较好的专家判断（C）较好的外行判断（D）主观性
计算两种测验之间得分的相关，其中一种测验是待研究效度的，另一种是已有效度证据的成熟测验，但两者测量的是同一特质，假如相关高，说明新测验所测量的特质确实是老测验所反映的特质或行为。这种方法叫（）。（A）区分效度（B）逻辑效度（C）相容效度（D）构想效度
可以作为构想效度证据的有（）。
（A）测验的内容效度（B）测验的内部一致性指标（C）分析几个测验间的相互关系（D）分析被试者对题目的反应特点
可以作为构想效度的测验间比较的有（）。
（A）内容效度（B）相容效度（C）区分效度（D）因素分析法
效标效度反映的是测验预测个体在某种情境下行为表现的有效性程度。它可以分为（）。（A）相容效度（B）区分效度（C）同时效度（D）预测效度

教育学出题的信度效度

教育学出题的信度效度一、效度(一)效度的涵义测验的效度指的是测验的正确性和有效性。

换言之，效度指的是测验能在多大程度上实现测验的目的。

效度是科学测验工具最重要的质量指标。

能测出来想测量东西的程度，则效度高;测不出来，则效度低。

例如：想要测量小明的身高，测量工具是秤，那么，测量不出想要测量的东西，则效度低。

(二)效度的类型根据测量的问题不同，可以分为三类，即内容效度、构想效度、预测效度。

1.内容效度内容效度指的是测验所选取的项目是否符合所要测量的东西，其代表性是否适当。

例如：要测量小学生现代文的阅读能力，就应该选取适合他们的现代文。

假如选取了文言文，则不能测出他们现代文的阅读能力，说明该试卷缺乏内容效度。

2.构想效度构想效度是指测验对某种理论的符合程度，其目的在于用心理学的理论观点对测验结果加以解释及探讨。

简而言之，构想效度就是从某一理论出发，根据理论构想有关的假设，据此设计和编制测验，然后由果溯因，审查结果是否符合心理学的相关理论。

例如：假设学生获得语言知识的能力会随着年龄的增长而不断提升。

测验后，发现确实是这样，那么，构想效度较高。

3.预测效度指的是一个测验能够预测学生将来某种特定行为或表现的程度。

预测得越准，效度就越高。

例如：李老师预测小明经过一个星期的学习后，数学成绩会有所提高。

事实确实是，那么构想效度较高。

二、信度(一)信度的涵义测验的信度又叫做测验的可靠性，指的是测验的一致性程度，即多次测验结果要保持一致。

信度指标通常以相关系数表示，即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标，成为信度系数。

例如：想要测量小明的性格是什么样的，测验结果发现，第一次测验是内向，第二次测验是外向，第三次测验是中性的，那么它的信度比较低。

(二)信度的类型1.再测信度用同一组被试对同一测验前后两次施测的测验得分的相关系数表示信度，它反应测验分数的稳定程度。

例如：用同一张智力测验试卷对同一组人去进行测验，前后两次测验后的结果一致，则表明这份智力测验信度高。

第二节教育测量的质量指标2(效度)

fxy 1(5 5) 3(6 5) 10(7 5) 5(8 5)
二列相关
• 适用于两个变量就其实际含义而言是等距或等比数据，它们服从正态分布，其中一列人为地划分为两类。
X p X q pq rb St y 公式(2 - 5)
X p或 X q是二分名称变量中“ 1”或“0”相对应的连续变量的平均数。 St 是该例连续变量全部变量值的标准差。 p是二分称名量表中一种的次数占总次数的百分比，q＝1－p。 y指的是在整个正态曲线中从左到右概率值为 p时的纵高。
St 是该例连续变量全部变量值的标准差。 p是二分称名量表中一种的次数占总次数的百分比，q＝1－p。
X p或 X q是二分名称变量中“ 1”或“0”相对应的连续变量的平均数。
• 例：有一位教师自编了一套测验题，用来预测学生一年后的某科成绩，自编测验按百分制评分，一年后考试评分只把学生分为及格者和不及格者。试就所获资料估计自编测验的预测效度。 • 解：1)把两次测验成绩成对排列：
二、效度的统计学原理及其与信度的关系 1、效度的统计学原理
在实际测量中，影响效度的主要因素是系统误差。因而在讨论效度时，还必须把真分数方差分解为两个部分，一是潜在真分数方差（σV2），另一部分是系统误差分数方差（σI2），它与由随机误差引起的变异（σE2）不同。
2 T2 V I2 (公式2 1) 2 2 2 2 因而， x V I E (公式2 2)
X p Xq St
pq
公式(2量中“ 1”或“0”相对应的连续变量的平均数。 67 10 ＋35＋23 ＝33.67 9 44 60 10 23 30 Xq 33.40 5 St 是该例连续变量全部变量值的标准差。 St＝18.125 Xp p是二分称名量表中一种的次数占总次数的百分比，q＝1－p。 9 p 0.64, q 1 p 0.36 14 3）代入公式计算得： 33.67－33.40 rpb 0.64 0.36 ＝0.007 18.125 相关系数极小，说明这个测验结果的预测效度极低，不能用来预测学生的成绩。

测验的效度

实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。也就是说，一个测验是否有效，应该以实践的效果作为检验标准。例如，当我们用机械能力倾向测验测查了一大批机械工人之后，若有证据表明测验高分组的实际工作成绩确实优于低分组的实际工作成绩，则可以认为该测验具有较高的实证效度。又如，在军队选拔汽车驾驶兵时，若用测验选出来的兵在学习驾驶技术，以及日后驾驶过程中的表现都大大好于以前未用测验随意指派的汽车兵，则表明该测验也具有较高的实证效度。在这里，被估计的行为是检验测验效度的标准，简称为效标。实证效度也称效标关联效度。根据效标资料搜集的时间差异，实证效度可以分成同时效度和预测效度两种。例如前文所说的机械能力倾向测验，其效标资料是与测验分数同时搜集的，所以它是同时效度。前文中所说的汽车兵选拔测验，其效标资料是在测验之后根据实际工作成绩来确定的，所以它叫预测效度。无论是同时效度还是预测效度，其目的都是想在一个有代表性的样本上，用实证的方法来证明测验有效，于是在今后就可以用简便的测验去预测类似于样本的其他团体或个体的行为。因此，有人把这两种效度都称作预测效度。
的评估在很大程度上取决于人们对测量目的的解释。目前，比较常见的解释角度主要有三种：一是用测量的内容来说明目的;二是用心理学上的某种理论结构来说明目的;三是用工作实效来说明目的。这就是传统上广为使用的内容效度、结构效度和实证效度的概念。
内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域。这里，所要测量的内容或行为领域是依据测量目的而定的，它通常包括欲测的知识范围和该范围内各知识点所要求掌握的程度两个方面。首先，在判断一个高中物理试卷是否有较高的内容效度时，我们必须首先分析考题是否有效地覆盖了中学物理所包括的力学、电学、光学、热学和原子物理五个方面。内容效度高的物理测验应当是由这五个方面最有代表性的试题样本组成的。

5 心理咨询师心理测量学知识精讲通关荀祖胜第四节测验的效度(1)

心理测量学知识第四节测验的效度第一单元效度的概念一、效度的定义。

效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说，是指一个心理测量的准确性。

在测量理论中，效度被定义为在一组测量中，与测量目标相关的真实方差与总方差的比率。

二、效度的性质。

（一）效度具有相对性在评鉴测验的效度时，必须考虑其目的与功能。

（二）效度具有连续性效度和信度的关系：1、信度是效度的必要而非充分条件2、效度是受信度制约的。

第二单元效度评估的方法美国心理学会在1974年所发行的《教育与心理测量之标准》一书中将效度分为三大类：1、内容效度2、构想效度3、效标效度一、内容效度（一）什么是内容效度。

内容效度指的是测验题目对有关内容或行为取向的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。

（二）内容效度的评估方法1、专家判断法请有关专家对测验题目与原定内容的符合性做出判断，看测验的题目是否代表规定的内容。

如果专家认为测验题目恰当地代表了所测内容，即测验具有内容效度。

内容效度又称逻辑效度。

为了使内容效度的确定过程更为客观，可采用如下步骤：（1）定义好测验内容的总体范围（2）编制双向细目表（3）制定评定量表来测量测验的整个效度。

2、统计分析法除了描述性语言外，内容效度的测验也可采用一些统计分析方法。

例如计算两个评分者之间评分的一致性。

再测法也可以用于内容效度的评估。

3、经验推测法：这种效度是通过实践来检验效度。

（三）内容效度的特性在编制测验时，表面效度是一个必须考虑的特性。

编制最高行为测验，除了内容效度，也要求有较高的表面效度。

二、构想效度（一）什么是构想效度构想效度的概念是1954年提出来的，也有人翻译成构思效度，还有人叫结构效度。

它主要涉及心理学的理论概念问题，是指测验能够测量到理论上的构想或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。

（二）构想效度的估计方法1、对测验本身的分析（1）测验的内容效度可以作为构思效度的证据。

第四章效度

第四章效度信度解决的是测验分数是否可靠的问题，但即使一个测验分数有跨时间的稳定性和跨情境的一致性，却不能保证测验分数代表了被试的真实水平。

比如说，某测验的目的是测量能力，但测题却都是一些死记硬背的知识，测验分数是不能代表被试真实能力水平的。

这就涉及了测量的客观性和准确性问题，即测验的效度问题。

第一节效度概述一、效度的概念测验的效度（validity）指的是测验的有效性，即测验分数能够代表所要测量的心理特质的程度，或测验结果达到测验目的的程度。

任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。

一些编制得好的智力测验一般是效度较高的，但也免不了受智力之外的因素的影响。

因为测验的题目必然要从人们的生活实践中选材，来自不同生活背景的人对同一个测验题目的熟悉程度是不同的，即使智力相同，测验分数也会不同。

因此人们的知识经验就成了影响测验分数的无关因素之一。

研究表明，文化和种族因素会造成测验的不公平，因为与测验分数有关的并不完全是智力。

人格和成就测验同样存在无关因素影响测验分数的问题。

效度总是针对一定的测验目的而言的。

例如，用编制得好的人格测验测量人的个性，诊断心理障碍是有效的，即有一定效度，但若用来测量智力，测量结果就是无效的。

因为人格与智力无关，故分数的高低不能代表智力的高低。

以上讨论的是心理测量中的效度问题，在物理测量中，效度问题也是同样存在的。

如，用不标准的尺子量物体，用不准确的称去称物体，都会使测量的结果不准确。

可见，效度是由于测量工具（量尺）本身的问题造成的，在多次测量中都会恒定地出现而无法消除，因而称系统误差。

测量的效度问题是测验结果中包含了多大比例的系统误差的问题，系统误差可能是由以下几方面原因造成的：（1）所要测量的特质有多方面的含义，而量表本身未能全部包含这些方面；（2）测验题目中包含了与所测特质无关的题目；（3）记分方面的问题，如选择题的备选答案是不全面的，即没有完全体现被试情况的差异，因此答案就不是足够准确的，而且各题目得分是简单累加而未经加权处理，不同题目的重要性程度就没有得到区分。

第七章效度

（二）效标关联效度的计算
4.命中取舍法总命中率=命中总数/总预测数目正命中率=实际成功人数/预测成功人数负命中率=实际失败人数/预测失败人数例：70人参加一个预测测验，预测结果：50人成功、20人失败。效标结果：预测成功50人中40人成功，预测失败的20人中8人失败。总命中率=（40+8）/70 正命中率=40/50，负命中率=8/20
一是测验内容范围明确，即必须明确界定所要测验的内容范围。二是取样具有代表性，即测验题目对所有测验内容的覆盖面要大。内容效度一般用于估算学业成就测验的效度，因为学科测验容易确定测验内容的范围。
（二）内容效度的估计方法
逻辑分析法：依靠有关专家对测验题目与应测内容范围的吻合程度作出判断统计分析法：克龙巴赫法；评分一致性考察法；前后测比较法
二、构想效度
构想：心理学或社会学理论等所涉及的抽象而属假设性的概念和特性。例如智力、能力倾向、焦虑、动机、创造力等。对它们只能下操作性定义。构想效度：测验能够说明理论上所定义的某种结构或特性的程度。或:实测分数与某种构想的对应程度。
构想效度的分析步骤:
第一，建立理论结构，据此编制测验题目。第二，根据理论结构，提出有关测验成绩的假设。
第二节
提高测验效度的方法
控制系统误差。（试题的内容结构、目标结构、题型结构、难度结构、分数结构、时限结构直接影响测验的效度，要处理好它们的相互关系。）精心编制测验量表。有效组织测量。扩大样本容量合理处理信度与效度的关系适当增加测验的长度。
（一）效标关联效度的概念
1.同时效度本测验的结果与另外一个大约同时获得的测验结果（效标）之间的一致性程度。 2.预测效度测验结果对未来的行为或者测验成绩（效标）能够准确预测的程度。效标是在本测验之后相当长一段时间后才能获得。

心理测量第六章测量效度

构想效度的概念是1954年提出的，是处理效度的一种新方法。
在心理学上，所谓构想是指用来解释人类行为的理论框架或心理特质，它是心理学中抽象的假设性的概念、特性或变量。如智力、焦虑、内向、动机、创造性等都可称为构想。
构想效度主要涉及的是心理学的理论概念问题，是指测验对某一理论上的构想或特质测量的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。
3．考察测验的同质性可以为评估构想效度提供证据。
这种方法以测验的内在一致性系数（比如库德—理查逊的K-R20、K-R21公式以及 α系数等）为指标，判断测验测的是单一性质还是多种性质，看它与所预期的结构的相符度，也就是测验的同质性问题，从测验的一致性就可以为构想效度提供证据。
（二）测验间方法
四、效度与信度的关系
（一）高信度是高效度的必要而非充分的条件
（二）测验的效度受它的信度制约
信度系数的平方根是效度系数的最高限度
第二节内容效度
一、内容效度的性质二、确定内容效度的方法三、内容效度的特点四、内容效度的应用与评价
一、内容效度的性质
内容效度指的是测验题目对欲测的有关内容或行为范围取样的适当性，从而确定测验是否是所欲测量的行为领域的代表性取样。即测验用的测题对整个测验内容范围的代表性程度。由于这种测验的效度主要与测验内容有关，所以称内容效度。
（一）测验内方法
这类方法主要是通过研究测验内部构造（如测验的内容、对题目作反应的过程、以及题目间或分测验间的关系）来分析测验的构想效度。
主要包括：
1．测验的内容效度可以作为构想效度的证据。
对测验所取样的内容或行为范围确定后，就可利用这些资料来定义测验所要测的构想效度的性质。即确定了测验的内容效度便提供了有关构想效度的证据。

测验信度效度

效度估计方法
（1）内容效度
表示测验所选的题目（测题）符合所欲测验内容的程度。是测验题目对有关内容或行为总体取样
的适当性程度。能力倾向和人格测验不适合作内容效度
确定内容效度的方法：
逻辑法：专家判断，专家对测验题目进行考核，看测验是否能够测出所要测的内容；经验法：经验判断，通过实践检查测验能否测出欲测的内容。
2个评分者用斯皮尔曼等级相关法，3人以上用肯德尔和谐系统。
影响信度的因素
1）样本特征：样本团体得分分布的影响，样本越分散信度越高；样本团体异质性的影响，异质性越高信度越高；样本团体平均能力水平的影响，平均能力越低信度越高 2）测验的长度：测验越长题目越多，测验的内容取样就越有代
表性；测验越长被试的猜测因素影响越小，信度就高。
3、项目分析（难度和鉴别力）
测验的好坏与项目（测题）的选择有很大的关系，好的测题是鉴别力高并且难度适宜的项目。项目分析三内容 2）难度分析：通过率：回答某个项目的样本中，正确回答该项目的人数P=R/N*100。 3）鉴别力分析：鉴别力是对于所测量的心理特性的区分能力。
1）诱答分析：每个项目只有一个正确答案其余均为诱答。
3）测验的难度：测验难度对信度有间接影响。对于人格测验、兴趣、态度、价值观等测验，不存在难度问题。从理论上说，只有难度水平为50%时，才能使测验分数分布范围最大，求得的信度也最高。
4）测量的时间间隔：时间间隔只对重测信度和不同时测量的复本有影响，时间越短信度值越高。
2、效度
它表示一个测验实际测量出所测特性或功能的真实性程度，或它指一个测ห้องสมุดไป่ตู้真正确实地测量到它所欲测量的东西的程度。
2

测量的效度

back

（一）测验内方法 1.测验的内容效度 2.分析被试解答测题时的反应过程 3.考察测验的同质性（二）测验间方法 1.相容效度（congruent validity） 2.区分效度（discriminant validity） 3.因素效度（factorial validity) （三）效标关联法（四）实验操作法 back

back

3.考察测验的同质性这种方法是以测验的内在一致性系数（如K－R20，K－R21，以及系数等）为指标，判断测验测的是单一特质还是多种特质，从而确定测验构想效度的高低。

back

1.相容效度（congruent validity）计算受测者在新测验上的分数与原有的已知效度较高的同类测验上的分数之间的相关。

（四）实验操作法通过控制某些实验条件，观察其对测验分数的影响，也可以获得构想效度的证据。
如，举行两场考试，使被试相信一场考试关系重大，另一场考试无关紧要，在考试前进行焦虑测验，看被

试的焦虑测验分数是否存在显著的差异，分析原因。

back

三、对构想效度的评价
构想效度的主要缺点是：
1.有些构想概念模糊，缺乏一致的定义。 2.确定效度时没有明确的操作步骤和程序。 3. 构想效度是通过对测验测量了什么、没有测量什么的证据加以累积的，没有单一的数量指标来描述有效的程度。
比如，效度等于多少，证明效度高，等于多少，证明效度低。

back

一、什么是效标关联效度？二、效标三、效标关联效度的估计方法（一）相关法

第五章-测量效度

第五章测量效度第一节效度概述一、什么是效度（一）效度的概念效度是指一个测验或量表实际能测出其所要测的心理特质的程度。

例如，一个小学生数学测验的成绩若同时受到其数学和语文能力的影响（如，有的人看不懂题意等）则认为实际测到其所要测的特质（数学能力）的程度不高，因而它是个效度不高的数学测验。

（二）对效度概念的理解1、效度是一个相对概念。

这种相对性表现在两个方面：（1）效度是相对于一定的测量目的而言的。

因为效度是指实测结果与所要测查的特质之间的吻合一致性程度，因此，一个测验或量表是否有效主要是看它是否达到了测量目的。

测量某一特质有效的量表，若用它来测量另一种特质，则必然会无效或效度极低。

例如，测量身高很有效的钢尺若用它来测量体重则必定无效。

又如，人的测量智力很有效的量表若是用来测量性格则必定是效度不高的。

（2）心理特质是较隐蔽的特性，只能通过他的行为表现来进行推测，因此，心理测量不可能达到百分之百的准确，而只能达到某种程度上的准确。

不过，由于任何一个量表的编制都有其目的，所以在正常情况下，一个量表的效度也不会为零。

例如，一个数学测验，无论其文字表达如何艰深，它总能测到一定的数学能力，即总会有一定的效度，而不会效度为零。

（3）判断一个测量是否有效要从多方面收集证据。

表面上看来，测量的效度就是实际测量的结果与我们所要测量的心理特性的吻合一致性程度，获取效度的办法也就是拿实测结果与心理特性来比较。

然而，心理特性是我们要测的东西，是未知的，通常也是比较抽象和隐蔽的。

因此，不能把它直接拿来与结果比较，而必须先从多种角度把这种特性描述清楚。

由于描述心理特性的角度可以是理论上的，也可以是实践上的，途径很多，因此，获取测量效度的途径也是多样的。

例如，智力测验是否测得了人的智力，我们就可以从理论上做逻辑分析，也可以从他在工作、学习中的实际表现等许多方面加以证实。

（4）效度和信度一样，也是指一列测量的特性，也是一个构想概念。

教育学第二章教育测验信度和效度

（1）常用于无法以客观方法记分的测验，如人格投射测验、创造力测验以及主观题等。
（2）记分方法：
• 对于定距量表：
1．两个评分者：积差相关系数
2．多个评分者：α系数
• 对于顺序量表：
1．两个评分者：二列等级相关
2．多个评分者：肯德尔（Kandall）和谐系数（又叫多列等级相关）
目标参照性测验的信度系数
前面提到的几个信度系数都用于常模参照性测验
（1）估计测题组的信度
测题组根据所考察的目标进行划分；然后，对每个测题组采取常模参照性测验的信度估计方法。
（2）阶段比较法
第一次测验
第二次测验
经过学习训练后，第一次测验中通过的学生在第二次测验中通过率较高，则说明信度高。
（3）复本信度估计法 rtt=(a+d)/n
（3）说明：
1．重测时间间隔的确定，应综合考虑练习效应、记忆效应、个体成长等因素；对于任何个体，重测的时间间隔一般不应超过6个月。
2．适用于速度测验，而不适用于难度测验
3．应注意提高被试对重测的积极性和兴趣。
积差相关系数的求法
◆对数据的要求： 1．成对数据 2．两列数据要呈正态分布 3．定距量表获得的数据 4．两列变量之间的关系的是线性的
例3：用6个论文题的测验对5个学生施测，结果如下，试估计其内部一致性信度。
1题 2题 3题 4题 5题 6题 X X2 1 343214 2 634546 3 131245 4 622153 5 531242 ∑xi ∑xi2
评分者信度（Scorer reliability）：是指
评分者所评分数之间的相关系数。
3．适用于速度测验，也适用于难度测验，是考察信度最可靠、使用最广泛的方法。

第七章--效度

教案课题：《第七章效度》课型：新授课课时：3学时教学目标：1．了解效度的意义。

2．掌握效度的类型及各种估算方法。

3．了解提高测验效度的方法教学重难点：教学重点：效度估算的各种类型，提高测验效度的六种方法。

教学难点：效度估算各种类型的计算方法。

教学方法：读书指导法、讲授法、练习法。

教学过程：一、导入：列举效度的意义，激发学生的学习动机。

二、感知：引导学生感知学习内容。

三、讲授：通过具体内容的讲授分析，促进学生进一步理解学习内容。

讲授主要内容如下：一、内容效度（一）内容效度的概念内容效度是指测验内容与预定要测的内容之间的一致性程度。

也可以说是测验题目所涉及的内容对所要测验的全部内容的取样代表性程度。

取样代表性是指测验题目能最大限度地代表欲测的内容范围。

因此，一个测验要具有较高的内容效度必须具备两个条件：其一是测验内容范围明确，即必须明确界定所要测验的内容范围；其二是取样具有代表性，即测验题目对所有测验内容的覆盖面要大。

在理解测验的内容效度时，不要与测验的表面效度相混淆。

表面效度是指从外表直观地看，测验题目与测验目标的一致性程度。

表面效度从严格意义上讲不能算作一种效度的，但在实际测验中却是不能忽视的。

（二）内容效度的估计方法1．逻辑分析法用逻辑分析法估计内容效度，主要是指依据教材内容、课程标准的范围以及教学目标分析测验内容，检查测验内容究竟在体现教材内容和教学目标方面达到多大的程度。

用逻辑分析法估计内容效度实际上是在进行定性分析。

这种方法的缺点主要表现在：没有数量指标来描述教材内容、教学目标与测验试题的一致性程度；内容效度一般采用专家主观性评判，因而很难做到客观、准确，不同判断者的判断标准不同，可能导致批评结果的不一致。

因而，对内容效度的估计必须谨慎，而且对内容效度的估计值也应当一分为二的看待。

2．统计分析法统计分析法主要是采取定量分析手段来描述测验的内容效度，其方法主要有以下几种：（1）克龙巴赫法克龙巴赫曾提出估计内容效度可以用同一教学内容范围的总体中抽取两套独立的测验试题，用这两套测验试题对相同的被试分别进行测验，测验之后求得两次得分的相关系数，如果相关系数大，就可推论内容效度高，若相关系数小，则说明这两套试题中至少有一套测验的内容效度比较低。

2.2效度

第二节效度在物理测量中，使用某种合适的测量工具测量物体所获得的数量资料(即数值与单位)可以对所要测量物体的属性给出明确的意义。

但在教学测量中，用分数描述行为反应的心理属性，它的意义就不那么明确了。

例如，学生的某次数学测验成绩是依赖他们掌握语文或物理的知识和能力所得到的，那么这次数学成绩在很大程度上并不能反映所要测量的逻辑思维、运算和空间想象等方面的心理属性。

因此，需要考察测验到底测量了哪些心理属性，对这些心理属性能够测量到什么程度，这就是测验的有效性。

为了估计测验的有效性，需要建立参照标准。

我们常常把反映某种属性的有效客观标准称作效标。

它可用一份测验卷来体现，用这份测验卷去测试学生称作效标测量，由此得到的分数称作效标分数。

一个测验的有效性，必须着眼于该测验本身所具有的独特的目的、功能和适用范围。

对于某种独特的目的、功能和适用范围是正确、有效的测验，对另一种目的，功能和适用范围可能就是不正确、无效的。

不存在对于任何目的、功能和适用范围都有效的测验。

此外，由于测验是通过行为样本，对特定的某种属性作间接测量，它只能达到某种程度的正确性，一般用两个测验分数之间的相关系数表示，这种相关程度越高，可称该测验的效度越好。

因此，只有程度上的不同而不存在全有或全无的差别，而且测验的有效性是相对的。

一、效度的概念1．效度的定义我们知道，个体的测验分数可以表示成真分数与误差分数之和。

根据真分数理论，可以进一步将真分数表示成与测验目的有关的有效分数V和与测验目的无关的系统误差分数SE之和：T＝V＋SE。

这样，个体的测验分数可表示成X＝V＋SE＋E。

对于团体的测验分数方差，相应地有以下关系：效度是测验有效性或准确性的指标，在理论上被定义为：有效分数方差与测验所得分数方差之比，即这里，Val表示效度系数。

由效度的理论定义可以知道，效度系数Val的范围是［0，1］。

由于效度分析可以针对各种要求和运用各种程序，而在特定的条件下，使用不同的分析方法可以得到不同的效度。

第五章效度

• 用不同方法得到的效度指标是否一致？ • 不同的效度之间是否有矛盾？
二、交叉效度分析
• 交叉效度分析是考察效度概化能力的一种方法，只涉及被试样本的概化。这种方法是对两个独立取自同一总体的样本分别建立预测源-效标关系，看从一个样本中得到的效度资料是否适用于另一样本。
• 计算测验效度所依据的样本必须与选择项目所依据的被试样本不同。如果使用同一样本，则会使效度系数假性偏高，实质是循环论证。
测验偏倚（test bias）是指用不适用于被试的标准来解释被试的测验得分，因而造成解释的偏差。
4．所选效标的性质 (1)测量行为与所选效标的相似性越高，效度越高。
(2)测验分数与效标行为之间是否是线性关系，如果不是线性关系，求皮尔逊相关就会低估效度。
(3)效标本身的测量越可靠，效度就可能越高。 5．测量的信度
二、提高测量效度的方法
（1）精心编制测验量表，避免出现较大的系统误差（2）妥善组织测验，控制随机误差（3）创设标准的应试情境，让每个被试都能发挥正常的水平（4）选好正确的效标，定好恰当的效标测量，正确地使用有关公式
第六节效度资料的概化
➢ 概化:是指在一定条件下得出的结论能否适用于其他情况。测验的效度和信度一样，都与特定情境有关，只有在具体情境下的效度，而没有笼统谈论某一测验的效度。
预测误差
➢效度系数的平方表示由测验分数能说明的准则测量方差的比例。
➢预测误差的标准误
Sest SY 1rX2Y
2．人员的分类与安置
➢根据被试在效标上的预测结果而做出处理或安排。
• 选拔（selection）：拒绝或接受 • 安置（placement）：根据被试在单一效标
上的预测结果而做出处理或安排。 • 分类（classification）：使用两个或两个

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

要求内容效度的测验，不一定要求测验为同质的。
• 测量单一心理特质的测验要求测验条目有高度的同质性 • 测量一组不同心理特质的成套量表，不要求各分测验之间具有同质性。
2018/11/27
6

（二）内容效度的评估方法
• 1、专家判断法
• 请有关专家对条目进行审定（逻辑效度） • 审定步骤
①定义测验总体范围，描述相关知识与技能及所用材料的来源。 ②编制双向细目表，确定各种内容所占比例，标出每个条目设计所测内容。（见表） ③制定一个相应的评定量表来评价效度，如测验包括的内容、技能、材料的重要程度、条目对内容的实用性等。请每位评定者对各方面进行评价，然后总合所有评定者的评价。
2
2018/11/27
测量的效度受随机误差和系统误差的影响

测验分数的总方差（SX2） =真实方差（ST2） +误差方差（ SE2 ）真实方差（ST2）=有关的方差（SV2有效方差） +无关但稳定方差（SI2系统误差） SX2 = SV2+ SI2+SE2 信度rxy2=有效方差SV2 /总方差SX22018/1 Nhomakorabea/27 9
（三）内容效度的特性

1、不是普遍适用，根据具体情况分析； 2、有时间上的特定性，适合过去总体的代表性测验，未必符合现在的总体。 3、不同类型的测验对表面效度的要求是不同的表面效度是由外行对测验做表面上的检查，不反映测验实际测量的东西，只是指测验表面上看来好象是测量所要测的东西。考虑题目与测量目的之间明显的、直接的关系。编制测验，表面效度是一个必须考虑的特性。
• 需要被试者在测验中尽最大努力的测验要求较高的表面效度 • 需要被试这尽可能按自己实际情况回答的测验要求较低的表面效度
2018/11/27 10

二、构想效度（construct–related validity）
• （一）什么是构想效度（结构效度）？ • 指测验能够测量理论上的构想或特质的程度，亦即测验的结果能否证实或解释某一理论的假设、术语或构想，解释的程度如何。 • 构想效度一般要回答以下几个问题：
• 测量了什么心理构想？ • 对这构想测量得有多好？ • 测验分数中有多少比例的变异来自测验所欲侧之构想？
• （二）构想效度估计方法
• 1、对测验本身的分析
• 测验的内容效度可以作为构想效度的证据 • 测验的内部一致性指标（同质性信度）指标，
2018/11/27
如分半相关、 α系数等 • 分析被试对条目的反应特点
2018/11/27
3

信度和效度的关系

信度和效度的差别在于所涉及的误差不同
• 信度考虑的是随机误差的影响 • 效度则还包括测验稳定的测量误差（系统误差）

信度是效度的必要条件而非充分条件
• 一个高效度的测验，其信度必然也高； • 一个高信度的测验，其效度不一定高。 • （可信的测验未必有效，而有效的测验必定可信。）
11
•2、测验间的相互比较
•与经典、成熟的同类测验相比较：计算新测验与经典测验之间分数
的相关。相关系数的平方即两测验分数共同解释的变异大小，又称为相容效度（congruent validity）。 •区分效度（discriminate validity）：一个有效的测验不仅应与其他测量同一构思的测验成绩有相关，还必须与测量不同构思的测验成绩无相关，后者就是区分效度。 •因素分析方法（factor analysis）：对一组测验进行因素分析，找出影响测验分数的共同因子，这种因素可能就是我们要测量的心理特征。
•3、用效标效度做证明
•根据效标选择不同的被试群体，比较不同组测验成绩的差异
•利用心理素质的变化关系，如儿童年龄增长与能力发展的关系。
•4、实验法和观察法
•观察实验前和实验后测验分数的差异
2018/11/27
12

三、效标效度（criterion–related validity）
• （一）什么是效标效度？ • 效标效度又称实证效度，反映的是测验预测个体在某种情景下行为表现的有效性程度。 • 被预测的行为是检验效度的标准，简称效标。 • 同时效度：测验所得分数与效标同时验证，与心理特征的评估及诊断有关 • 预测效度：效标资料需要一段时间后才可收集，用于选拔、分组的测验有关。

效度受信度的制约
• 效度与信度的关系式：rxy≤√rxx
• rxy效度系数 • rxx信度系数
2018/11/27
4
二、效度的性质
（一）效度具有相对性评价测验效度时，必须考虑其目的与功能（二）效度具有连续性测验效度只是程度上的不同，而没有“全” 或“无”的区别评价一个测验，不应该说“有效”或“无效”，而应该用效度较高或较低来评价测验有效性是针对测验结果而言
2018/11/27 7
高中化学标准测验双向细目表
识记第一章第二章第三章第四章合计 3 2 5 10 6 9 25 了解应用 8 6 2 12 28 分析 2 2 4 6 14 10 7 5 22 6 6 综合评估合计 10 28 22 40 100
8
2018/11/27
• 2、统计分析法 • 计算两个评分者之间一致性 • 克伦巴赫推荐的方法：先编出两个测验复本（取自同样内容范围），在同一组被试中实测，然后计算其相关。 • 再测法：学习前先测验一次，学习后在测试一次，计算两次相关。 • 3、经验推测法 • 通过实践来检验 • 如检验儿童发展量表的效度，观察不同年龄阶段儿童通过率是否随年龄的增长而增加。
测验的效度
2018/11/27
1
第一单元效度的概念

定义

效度（validity），在心理测验中是指所测量的与所要测量的心理特点之间吻合的程度。心理测验的准确性心理测验的有效性（龚耀先）

在编制或修订心理测验时，效度研究是必须的环节，效度资料是测验手册里必备的测量学指标。在使用心理测验时，没有效度资料的测验也不能使用。

2018/11/27 5
第二单元效度评估的方法

一、内容效度（content–related validity）

（一）什么是内容效度
• 指测验条目对有关内容或行为取样的实用性。换句话说，所选用的条目是否能测到想要测量的行为。

1、对所测量的心理特征有明确的概念 2、测验题目应是所界定的内容范围的代表性取样