人才测评的信度与效度

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
验信度 , 测验内容应尽量同质。 ( 4 )测验的时间要充分 : 对某一测验而 言 , 应保证绝大多数被试在规定时间内完成 测验 ; 否则 , 如果被试不能从容回答所有问 题 , 就不能反映被试的真实水平。
• ( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、回答问题的方式、分收试卷的方法、测 验时间等都要统一。
0 .4 8
面试
0.14 评 价 中 心
0 .4 3
培训和实际工作成绩
0 .1 3
学术成果
0 .1 1
教育背景
0 .1 0
兴趣
0 .1 0
年龄
0 .0 1
资 料 来 源 : W ayne F. C asio, M anaging H um an R esources, (M cG raw -H ill, 1986)中 文 版 第 173 页 。
• (3) 严格按照测验程序进行测量 , 防止测量 误差 : 要严格按照测验手册进行测量 , 不能 作过多的解释 , 按标准评分 , 两次测验间隔 要适当。
• (4) 样本容量要适当 : 当样本容量增大时 , 样本对总体的代表性提高 , 样本大 , 被试的 内部差异增大 , 扩大了真分数的方差 , 使效 度提高。样本容量一般不应低于 30 。另外 , 抽样方法也很重要 , 一般用随机抽样 , 当群 体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随之增大。
• 根据影响测验信度的因素 , 可从以下几方面来提高测验的 信度 : 一是从测验本身考虑 , 如测验的长度、难度、区分 度、速度、程序、环境条件与计分方法等 ; 一是从被试自 身考虑 , 如被试在被测心理特征上的差异大小 , 参加测验 的动机水平 , 对测验的态度和积极性等。在此主要介绍如 下几种提高测验信度的方法 : ( 1 )适当延长测验的长度 : 测验的长度主要指量表所包含的题目多少。对一个测 验来说 , 测验的题目越少 , 得分越容易受偶然因素的影响 , 故测验的信度越低。反之如果测验题目较多 , 即测验长度 延长 , 扩大了被试得分范围 , 可在一定程度上排除偶然因 素的影响 , 从而提高测验信度。但是测验信度的增加并不 是等比例提高信度系数。当信度系数较小时 , 延长测验长 度信度系数增加较大 ; 当信度系数已经较大时 , 延长测验 长度对信度系数的影响就较小了。而且 , 在延长测验长度 时 , 还需考虑其他因素的影响 , 如被试在回答问题时是否 疲倦或产生厌烦情绪 , 是否节省时间、物力和财力 , 测题 是否附合测验目的等。

• (三)内部一致性信度,主要反映的是测验内部题目之 间的关系,考察测验的各个题目是否测量了相同的内容或
特质。内部一致性信度又分为分半信度和同质性信度。

分半信度系数是通过将测验分成两半,计算这两半测
验之间的相关性而获得的信度系数。测验愈长,信度系数
愈高。
• 同质性信度是指测验内部的各题目在多大程度上考察了同 一内容。同质性信度低时,即使各个测试题看起来似乎是
测量同一特质,但测验实际上是异质的,即测验测量了不
止一种特质。同质性分析与项目分析中的内部一致性分析 相类似。

• (四)评分者信度,是指不同评分者对 同样对象进行评定时的一致性。最简单的 估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个 评判分数的相关系数。这种相关系数的计 算可以用积差相关方法,也可以采用斯皮 尔曼等级相关方法。
第十章、人才测评的信度与效度
人才测评的核心价值在于预测的有效性
错误接受
预测好
正确接受
实际不好
正确拒绝
错误拒绝
实际好
预测不好
• 在进行测量时,误差是难免的,这就使得 真实值和测量值之间是不可能完全一致。 我们可以这样来表示真实值和测量值之间 的关系。
• (5) 正确处理好信度与效度的关系 : 信度是效度的 必要条件 , 但信度高的测验 , 效度不一定高 ; 而效 度高的测验 , 信度却比较高。但是 , 既要有高效 度 , 又要有高信度是不容易做到的。“最大可靠 度(信度)要求测验项目之间有高度的组间相关; 最大预测有效度却要求低度的组间相关。最大可 靠度(信度)要求项目等同的难度;最大预测有 效度却要求项目的难度有所区别。中等程度的组 间相关( 0.10 ─ 0.60), 通常可产生良好的效度 (0.30 ─ 0.80), 并且产生满意的信度 (0.90) 。”
• (6) 适当增加测验的长度 : 增加测验的长度 可提高测验的信度 , 也可以提高效度 , 但增 加测验的长度对信度的影响大于对效度的 影响。
三、测评手段有效度
切忌以点代面,比如:韩复榘的选任方法
过分依赖一个情景也会降低面试效度 比如:某商场老总招聘员工的方法
员工未来工作绩效预测方法的有效性系数
招聘新雇员并进行培训时的预测方法 根据当前绩效预测未来绩效时的方法
智力测验
0.53 工 作 实 例 测 试
0 .5 4
工作试用
0.44 智 力 测 验
0 .5 3
个人简历
0.37 同 事 评 价
0 .4 9
背景调查
0.26 以 往 工 作 绩 效 评 价
0 .4 9
实际工作
0.18 专 业 知 识 测 验
各种方法的预测效度比较(工作绩效)
评估方法 评价中心 行为面谈 工作样本测验 能力测验 现代人格测验 个人履历 非行为性面谈
R .65 .48-.61 .54 .53 .39 .38 .05-.19

提高测验效度的方法
• ( 1)控制系统误差 : 系统误差是影响测验 效度的主要因素。它主要包括仪器不准 , 题 目和指导语有暗示性 , 答案按排不当 ( 被试 可以猜测 ) 等 , 控制这些因素可以降低系统 误差 , 提高效度。
• (2) 精心编制测题和测验量表 : 首先测题内 容要适合测验目的 , 如知识性测题就不能全 面反映被试的智力水平 , 它主要测量其知识 水平。其次 , 测题要清楚明了 , 用语要让被 试理解 , 排列由易到难。第三 , 测题的难度 和区分度要合适。
( 6 )评分要客观 : 评分是否客观对测验信度有 直接的影响。对于客观性题目 , 评分标准明确 , 评 分容易做到客观 ; 但对于主观性题目 , 受评分者影 响较大 , 不易做到客观。为了尽可能客观评分 , 应 制定明确而易掌握的评分标准 , 尽量做到一卷多 评 , 或一人只评一题等。
二、效度
• 效度(Validity)即有效性,它是指测量工 具或手段能够准确测出所需测量的事物的 程度。效度是指所测量到的结果反映所想 要考察内容的程度,测量结果与要考察的 内容越吻合,则效度越高;反之,则效度 越低。效度分为三种类型:内容效度、准 则效度和结构效度。
目取样或内容取样是否等值。复本信度也考虑两个复本实
施的时间间隔。

复本信度的主要优点在于:⑴能够避免重测信度的一
些问题,如记忆效果、练习效应等;⑵适用于进行长期追
踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅
导或作弊的可能性。
• ☆复本信度的局限性在于:⑴如果测量的行为易受练习的 影响,则复本信度只能减少而不能消除这种影响;⑵有些 测验的性质会由于重复而发生改变;⑶有些测验很难找到 合适的复本。
• X=T+B+E
• T表示真实值,B表示偏差即系统误差,E表 示测量误差即随机误差。
• (二)复本信度,是以两个测验复本来测量同一群体,然 后求得应试者在这两个测验上得分的相关系数。复本信度 的高低反映了这两个测验复本在内容上的等值性程度。两 个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题
• 从内容效度﹐到准则效度﹐再到构念效度 ﹐可视为一种累进﹐即构念效度需要比准 则效度更多的信息﹐准则效度需要比内容 效度更多的信息。

效度比信度有更高的要求﹐信度是效
度的必要条件﹐没有信度的测量工具就谈
不上具有效度﹐但信度高的测量工具未必
具有高的效度。
• 测试维度
• 1)表面效度(face validity)。指测试 应达到的卷面标准,即一套测试题从表面 看来是否是合适的。例如,若一次阅读理 解力的测试包括许多受试者没有学过的方 言词汇,则可认为这次测试缺乏表面效度。 表面效度是测试出受试者正常水平的一种 保证因素。
• ( 2 )测验的难度要适中 : 难度即测验的难 易程度 , 当测验难度太大时 , 被试得分普遍 太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分普遍较高 , 呈正偏态分布。太难太 易的测验都使被试得分差异减小 , 使实得分 数方差减小 , 从而降低测验信度。
• ( 3 )测验的内容尽量同质 : 性质相同的测 验内容 , 对被试也要求相同的能力、知识和 技能 ; 而内容不同质的测验 , 则要求被试不 同的能力、 知识和技能。因而为了提高测

提高测验信度的方法
• 影响测验信度的误差归纳起来主要有 : (1) 抽样误差 : 简单说 , 这是在抽样过程中由于被试间的差 异所造成的误差。被试间的差异可以用全距和方差大小来 表示。全距是指某一心理量最大值与最小值之差。全距大 说明被试间差异大 , 全距小说明被试间差异小。被试间在 某一心理量上参差不齐 , 差别悬殊 , 则该心理量的方差大 ; 反之 , 方差小。对于方差小的样本 , 被试间在某一心理特 征上相差较小 , 则前后两次测验结果的一致性较低 , 即降 低了信度。 因为被试之间的差别越小其同质性越高 , 被试 的分数只要发生小的变化 , 其名次就可能改变 , 从而降低 信度。 (2) 随机误差 : 由于各种偶然因素的影响而产生的误差 , 表 现为用同一方法多次测量同一对象时结果上不一致。随机 误差是由许多因素造成的 , 如量标的质量 , 测量的程序 , 被试的身心状态 , 测量的环境等。
•Байду номын сангаас
• 2)内容效度(content validity)。指一套测试 题是否测试了应该测试的内容或者说所测试的内 容是否反映了测试的要求,即测试的代表性和覆 盖面的程度。例如,如果某一套发音技能测试题 仅仅考查发音所必须具备的某些技能,如只考单 一音素的发音,而不考查重读、语调或音素在词 语中的发音,那么,该测试的内容效度就很低。

• 3)编制效度(construct validity)。指一 套测试题的诸项目对编制该测试所依据的 理论的各个基本方面的反映程度。例如, 以结构主义语言理论为基础,认为系统的 语言习惯是通过句型而获得的,那么,强 调词汇和语法环境的测试题目就失去了编 制效度。

• 4)经验效度(empirical validity)。经验效度 是一种衡量测试有效性的量度,通过把一次测试 与一个或多个标准尺度相对照而得出。经验效度 可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相 近的有效测试的结果相比较,或同教师的鉴定相 比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能 力相比较,或是同教师后来对学生的鉴定相比较 而得出的系数。
相关文档
最新文档