人员测评的信度与效度

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（1）学术成就
（2）特殊训练成绩
（3）实际工作表现
（4）团体对照
（5）等级评定
（6）先前有效的测评
6.2 .2 .3构想效度
构想效度是指测评能够测评到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。
1．确定构想效度的步骤
·建立理论框架，以解释被试在测评上的表现；
题目上通过率的大小，如果通过率低，应淘汰或修改。
2）计算题目与总分的相关，如未达显著水准，应予淘汰。
3）求分测评与总分的相关。各分测评与总分有显著相关，如果不是，则应予删除。
（5）会聚效度和区分效度
会聚效度：测评与测评相同特质或构想等理论上有关的变量高相关；
区分效度：测评与测评不同特质或构想等理论上无关的变量低相关。
分半法中的斯皮尔曼一布朗修正公式为：
rxx

2rhh 1 rhh
其中，rhh为两半测评的相关系数，rxx为估计或修正后的信度。
当两半测评的方差不同时，应采用卢伦公式或弗拉纳根公式进行修正。
卢伦公式只要求将被试在两半测评的分数之差的方差（Sd2）和测评总分的方差(Sx2)代入如下公式即可直接计算分半信度：
2）“某人会成功吗？”
2．效标和效标测评
效标是衡量测评有效性的参照标准。
把效标转化为某种可以操作的测评指标，称为效标测评。
效标可以细分为观念效标（即效标的实质概念内容）和效标测评（即效标的具体度量方法）。例如，对于筛选销售人员的观念效标是 “销售工作的成功” ，而效标测评是“年销售量” 。
3．常用的效标
2．常见的确定构想效度的指标
（1）发展变化
（2）与其他测评的相关
（3）因素分析
因素分析是分析行为资料内部关系、结构特性的一种统计技术。
（4）内部一致性
如果测评的所有题目被验证为具有很高的内部一致性，说明它们都是关于同一内容的，属于同一种构想。
用来考察内部一致性的方法主要有三种：
1）考察总分数较高和较低两类人在各
4．用分半法求信度为什么通常要进行修正？
5．怎样检查评分者评定的可靠性？
6.信度和效度是什么关系？ 7．内容效度能用量化方法测评或表示吗？ 8．内容效度适用于能力倾向测评和人格测
评吗？为什么？ 9．主观评价能否用来做效标？为什么？ 10．什么是构想效度？对人员测评的启示
是什么？
在有些测评中，评分者的评判也是误差的来源之一。
评分者信度是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法。
如果评分者在三人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。其公式为：
N为两次测评结果数据配对总数；x被分析的测评结果；
y为重复测评得到的结果。在进行重测信度的评估时，还应注意以下两个重要问题：
1）重测信度一般只反映由随机因素导致的变化，而不反映被试行为的长久变化。
2）不同行为受随机误差的影响不同。
2.复本信度又称等值性系数。பைடு நூலகம்
它是以两个测评复本（功能等值但题目内容不同）来测评同一群体，然后求得应试者在这两个测评上得分的相关系数（积差相关）。复本信度的高低反映了这两个测评复本在内容上的等值性程度。两个等值的测评互为复本。
但是在测评中,往往会因为团体过于同质或过于异质而出现信度被低估或高估的情况。这种情况下，可以采用下面的公式对求出的信度进行修正：
r'xx rxSx'x/Sx 1r2xxS'x/Sx2
其中, r'xx 为估计的信度；rxx为取样的信度；SSXx
为取样团体的标准差；Sx ' 为估计团体（取样的
概念与思考题:
重测信度、复本信度、内部一致性、信度、分半信度、同质性信度、评分者信度、内容效度、效标关联效度、构想效度、效标效度、相容效度、预测效度、同时效度、会聚效度、观念效度、区分效度、效标测评
1．什么是测评的系统误差和随机误差？
2．重测信度和复本信度考察的内容有区别吗？
3．什么是内部一致性信度？它的意义是什么？
如果需要在一个测评中测评不同的内容，就应该将测评设计为几个分测评，每个分测评测评一种内容。例如，16PF人格测评就是包含 16个分量表的测评，每个分量表只对一种人格特质进行测评。
常用的同质性信度计算方法是库德—理查逊估计方法。计算公式有库德—理查逊20号公式（简称（KR20）和21号公式（KR21）。
S 1400842 / 6 224
W
224
0.80
1 42 63 6
12
6.1.5 影响信度的因素 1．样本团体的性质 1)样本团体的分数分布
分数分布越广，信度系数就相对越高，分数分布越窄，信度系数就会越低。
2)样本团体的异质性
一般来说，取样团体的异质性越大，信度系数就相对越高。
效度的性质
实际上效度指的是“测评结果的效度”，是指测评结果的准确性程度，而并不是指测评本身。也反映了测评结果对测评目标的体现程度。
6.2 .2如何评估人员测评的效度
6.2 .2 .1内容效度
1．内容效度的定义
内容效度是指测评内容取样是否反映测评的目标，适用于测评对象。
2．内容效度的评估方法 ·测评内容范围明确； ·测评内容的取样有代表性。
采用如下步骤： 1）确定总体范围； 2）编制双向细目表； 3）制定评定量表。还可采用经验的方法、统计分析方法。
3．内容效度的应用内容效度最适合于评估教育和职业成就测评。也适合于某些用于人员选拔和分类的测评。
6.2 .2 .2效标关联效度
效标关联效度，也称效标效度，它反映的是测评分数与外在标准（效标）的相关程度，即测评分数对个体的效标行为表现进行预测的有效性程度。
二是影响稳定性的原因：什么因素造成了这种差异；这些影响的相对作用有多大。
6.1.2 信度的作用
信度高低的指标通常以相关系数表示，称为信度系数。信度系数一般是同一样本所得的两组资料的相关，在理论上表示为实得分数与真实分数相关的平方。信度系数公式：
rxx
rxr2
ST2 SX2
其中： rxr
第七章人员测评的信度与效度
6.1人员测评的可靠性——信度 6.1.1信度的定义
信度主要是指测评结果的可靠性或一致性。
由测评工具否精确引起的误差叫系统误差。
由操作是否到位引起的误差叫随机误差。
信度考虑两方面的问题。
一是稳定性：不同时间、不同测评条件下所得分数之间的一致性有多大；一个人的所得分数与“真实分数”之间接近程度有多大；是否可以达到实际应用的程度等。
·依据理论框架，推演出各种有关测评成绩的假设；
·以逻辑和实证的方法来验证假设，根据累积材料决定这种理论是否能恰当地解释现有材料；如果不能做出恰当解释，则应该修正上述假设，直到能做出恰当的解释为止。
如：创造力测评构想效度。以测评分数与根据创造力的心理学理论观察被试行为所做出的判断做相关分析。
6.1.3 如何评估人员测评的信度
1.重测信度又称为稳定性系数
用同一测评，在不同时间对同一群体施测
两次，这两次测评分数的相关系数即为重测系数。一个测评的重测信度越高，说明测评的结果越一致、越可靠。积差相关公式：
r
N x y x• y
N • x2 x2•N • y2 y2
总体）的标准差。
3)不同团体间能力水平的差异
2.测评的长度
信度还会受测评长度（即题目的多少）的影响。一般来说，测评越长，信度值越高。
3.测评的难度
测评的难度也会对信度产生影响。如果一个测评的难度太低，出现天花板效应；如果难度太大，出现地板效应，
6.2人员测评的效度
测评的效度就是指测评的有效性，即能测评到所要测评目标的程度。效度是评价测评好坏、选择测评的重要标准之一。
N
2
W
S 1 K2 N3 N

N i1
Ri2

Ri
i1
N

1 K2 N3 N
12
12
其中，K为评分者人数，N为被评定的人数或答卷数；Ri为评分者给某人（或某一答卷）评分之和。
S

N i1
Ri2

1 N
N i1
Ri
2
为每一个对象被评等级。
例如，有4名评分者，对6份答卷进行评分，所评等级如下：
答卷编号
评分者一二三四五六
甲
4
3
1
2
5
6
乙
5
3
2
1
4
6
丙
4
1
2
3
5
6
丁
6
4
1
2
3
5
Ri
19 11
6
8 17 23
Ri 19116817 23 84 Ri 2 192 112 62 82 172 232 1400
效标是考察测评效用的外在参照标准。效标关联效度往往用于预测性测评。
1．预测效度和同时效度
预测效度的效标资料往往是测评结束后隔一段时间才获得，它反映被试行为表现的预测程度。
同时效度的效标材料可以和测评分数差不多同时搜集。
同时效度多用于诊断现在的状态，预测效度多预测未来的结果。
如：1）“某人成功了吗？”
rxx
1
Sd 2 Sx2
其中Sd2为两测评分数之差的方差；Sx2为测评总分的方差。
也可以采用弗拉纳根公式直接计算分半信
度：
rxx
21
Sa2 Sb2 Sx2

Sa2与Sb2为两个分测评分数的方差；Sx2为总分方差。
2）同质性信度
同质性是指所有测评题目测评的只是单一特质或内容，表现为所有测评题目得分的一致性。乐观情绪特质和外向特质、预测和决策、监督与控制等都是不太容易区分的。
在人员测评中，对信度系数进行确定通常有以下两方面的作用：
1．解释真实分数与实得分数的相关性
总的方差（即标准差的平方的缩略语）中有多少比例是由真实分数的方差决定的。
2．说明可以接受的信度水准
一般的能力与成就测评的信度系数在0．90 以上；人格、兴趣等测评的信度系数通常在 0．80－0.85之间。 rxx＜0．70时，不能用测评对个人作评价，也不能在团体间作比较；当rxx＞0．70时，可用于团体间比较；rxx＞0．85 时，可用于鉴别个人情况。
3．内部一致性信度
内部一致性信度主要反映的是测评内部题目之间的关系，考察测评的各个题目是否测评了相同的内容或特质。
1）分半信度
分半信度系数是通过将测评分成两半，计算这两半测评之间的相关性而获得的信度系数。
分半法经常会低估信度，必须进行修正。斯皮尔曼一布朗公式可以估计增长或缩短一个测评对其信度系数的影响，用这个公式进行修正的前提条件为：两半测评的方差相等。
下面是KR20公式：
rKR 20

n
n
1
1

n
Pi qi
i 1
Sx2

其中n为测评题目数，p i 为通过i 题的人数比例；
qi为未通过该题的人数比例；pi qi =1; n Pi q i i1
为所有题目答对与答错人数百分比乘积的总和。
6.1.4 评分者信度

ST SX
它是
真实分数标准差与实得分数标准差的比率。
其中，rxr 有时也称为信度指数，它是真实分数标准差与实得分数标准差的比率。
方差：即每个被测评者得分与其算术平均
数差的平方和与总个数之商。公式：
Sx2
2
xx N
标准差公式： Sx
2
xx N
还可通过分析个人分数再测时的变化（误差）来考察信度。两次测评分数的差异越大，信度就越低。
如，一个数学推理能力测评与数学课成绩的相关就是会聚效度；而该测评与阅读理解能力测评的相关显著低，就是区分效度。
6.2 .3影响效度的因素测评本身带来的影响因素
1．测评题目的质量 2．实施测评时的于扰因素 3．被试的影响因素 4．测评的长度样本团体的性质效标的性质
如果其他条件相同，所测评的行为或心理特质与效标行为或特质越相似，效度系数就越高。
效度的作用比信度的作用更为重要。强调测评目标、工具与测评对象的统一。
6.2 .1人员测评的有效性
效度的理论定义：与测评目标有关的真实分数方差与总分方差的比率。公式：
rxr

SV 2 SX2
其中，rxr 为测评效度；
S
为2 有效方差；
V
S
为2 总方差。
X
信度和效度的关系
信度考虑系统误差和随机误差；效度误差还包括对测评目的无关的变量所引起的系统误差。