第九章 人员测评理论与方法(萧鸣政)测评质量检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
r=
N∑xy-∑x٠∑y [N∑x2-(∑x)2] [N∑y2-(∑y)2]
√
式中:N表示两次测评结果数据配对总数; x表示被分析的测评结果(分数); y表示重复测评得到的测评结果(分数)。 r 越接近1,则说明测评结果(x)越准确可靠,否则就说明
测评结果越不准确、不可信。
2、复本信度(alternative-form reliability)
一是从内容性质方面分析其内容效度;
二是从实证方面分析其结构效度; 三是从校标相关性方面分析其关联效度。
1、内容效度content validity
效度即测评结果的有效性程度。
内容效度是指实际测评到的内容与我们所想 测评内容的一致性程度。 当实际测评到的内容与我们事先所相测评的 内容越一致时,则说明测评结果的内容效度越高, 测评结果就越有效。 比如,要测验学生的学习能力,学习能力包 括识记、理解、应用、分析、综合以及评价等方 面的能力。检测内容效度就可以看测验内容是否 反映了这些方面的能力。
适用范围:适用于智力测验、人格测验等。
3、关联效度criterion-related validity
关联效度是指测评结果与某种标准结果的一致性 程度。反映的是测验分数与外在标准(效标)的相关 程度,即测验分数对个体的效标行为表现进行预测的 有效性程度。(效标是用来衡量测评有效性的参照标 准。) 例如一个机械能力倾向测验,其标准(效标)可 以是成为机械师之后的表现; 对于一个管理能力测验而言,其效标可以是将来 从事管理工作的绩效。 效标关联效度往往用于预测性测验。
3、一致性信度Consistency Reliability
一致性信度是指相同素质测评项目分数间的一致性 程度。 如果被测者在第一个项目上比其他人分数高,在第 二个项目上又比其他人高,在第三个项目上也比其 他人高……相反另一个人在第一个项目上比其他人 分数低,在第二个项目上又比其他人分数低,在第 三个项目上也比其他人分数低……那么毫无疑问, 我们会认为测评结果比较可靠。
一致性信度的作用
再测信度和复本信度分别注重考虑测量跨时间的 一致性(稳定性)和跨形式的一致性(等值性), 而内部一致性信度用内部一致性系数表示,主要 反映的是测验内部题目之间的关系,考察测验的 各个题目是否测量了相同的内容或特质。
一致性信度应用实例
例如:在人格测评中,乐观情绪特质和外向特质 是两个容易混淆的内容,这就要求测评设计时能 够找到相应的题目把二者区分开来。
究生入学考试英语试卷结构框架
专家比较判断法:C=(n-N÷2)/N÷2(N
为专家总数,n为肯定人数)
2、结构效度construct validity
结构效度也称构想效度、建构效度,是指实际所测评的结果 与我们所想测评素质的同构程度,是测验能够测量到理论上的构 想或特质的程度,它表明了在多大程度上,实际的测评结果能够 被看作是所要测评的素质在结构上的替代物
第三节 项目分析
项目适合度 在素质测评中,项目不仅仅是试题,更多的是 一些咨询问题或观察评定点(指标),它们无难 易之分。因此提出“适合度”一词。 适合度指的是被测者行为符合项目测评标准的程度。
当项目为试题时,适合度即难度; 当项目是问卷中的问题时,适合度即所有选对的 被测者人数与总人数之比; 当项目为观察评定量表中的指标时,适合度即所 有被测得分平均值与指标满分值之比。
复本信度考虑的是内容取样误差的影响问题,计 算复本信度的主要目的在于考察两个测验复本的 题目取样或内容取样是否等值。
例如同样是测量数学运算能力的测验,如果一个 测验复本侧重于考核加减法的运算,而另一个复 本侧重乘除法的运算,两者之间的相关必定不会 太高,即复本信度低,说明必定有一项测验复本 的取样有问题。
信度的度量是以后者作为依据,测评者及其测 评的无关差异越小,说明测评结果就越可靠。
如何提高测评结果的可靠性?
一、要选择高质量的测评工具 二、要控制测评过程及其组织的误差 三、要训练与提高测评者的操作水平
信度小结:
各种信度评估的适用情景:
再测信度评估侧重考察测评跨时间的一致性和稳定性; 复本信度评估侧重考察测评跨形式的一致性和等值性; 内部一致性信度评估主要反映的是一个测评内部题目之间 的关系,揭示测评的各个题目是否测量了相同的内容或特 质。 评分者信度评估主要是考察评分者的主观误差。
信度系数类型
再测信度 复本信度(连续施测) 重测复本信度 分半信度 同质性信度 评分者信度
误差来源
时间取样 内容取样 时间和内容取样 内容取样 内容的异质性 评分者间差异
1、再测信度(test-retest reliability)
是指测评结果以同样的测评工具、测评方式与测 评对象再次获得的变异程度。 也即是同一测验在不同时间对同一对象施测两次, 两次测量分数的相关系数即为再测系数。
4、评分者信度(raters reliability)
在有些测量情形中,评分者的评判也是误差的 来源之一。例如百度文库射测验、创造力测验、无领导小 组讨论、管理者情境模拟等,都依赖于评分者的判 断,这种判断的主观性往往造成不同评分者的评分 很不一致,因此有必要考虑评分者信度。
评分者信度是指不同评分者对同一对象进行评 定时的一致性。
误差
误差是指通过测评结果的定性定量分析, 判断测评结果是否受到心理效应的严重影 响。分析的主要内容是心理误差、标准误 差以及单个测评结果的致信区间。
误差
心理误差
式中:n表示测评项目数;
rt =
n-1 ·
n
St2-∑vi2
St2
st2表示测评结果的方差; vi2表示第i个项目得分的方差。
信度可以接受的水平
一般的能力测验和成就测验的信度系数在 0.90以上,有时可以达到0.95; 人格测验、兴趣、态度、价值观等测验的 信度一般在0.80-0.85或更高些; 一般信度系数rt<0.70,测验因不可靠而不能 用; 0.70<rt<0.85,可以用于团体比较 rt>0.85时,才可以用来鉴别或预测个人成 绩
1、信度的概念
信度(reliability)是指是指测评结果反映所测素质的 准确性。 通常任何测验都存在某种程度的不一致性(同一受试 者在不同时间或在不同的测验条件下做同一测验) 因为误差的存在,我们永远不可能完全揭示人的心理 特点,只能无限接近真实分数。
信度的评估方法
针对不同的误差来源,信度可以有不同的确定方法。
内容效度主要是分析被包括在测评范 围之内的所有被测行为样本是否具有代表, 代表程度如何。其分析具体为两个方面的 检查: 1.是否包括了欲测素质中的各种成分; 2.包括在测评范围内的行为样本的比例结构 是否与工作分析的结果相一致。
确定内容效度的方法(定性方法)
蓝图对照分析法:× × × ×年全国硕士研
第二节 信度
信度是标准化素质测评的基本要求之一, 如果测评工具的信度不理想,测量结果就 无法被认为能代表应试者的一致、稳定和 可靠的行为表现,就可能误导对应试者的 评价。
信度及其影响因素
如果我们用一个游标卡尺来测量一个钢管的外直径,每次测量 时都难免会有一定的误差。 首先,游标卡尺作为一种测量工具是有一定精度限制的,也就 是说,测量工具本身存在误差。当然这种误差是必然存在的, 而且误差是在一定范围中有规律的变动的,这种误差在测量工 作中被称之为系统误差(systematic error)。 其次,我们每一次测量都可能出现操作上的差异,或者由于不 可预见的外界因素的影响,产生测量误差。这些误差是很难控 制的,而且无规律可循,有时大有时小,这种误差被称为随机 误差(random error)。 前者在一定程度上可以控制,而后者很难控制,一个好的测量 工具应该不仅要有尽可能高的精确度(与系统误差相关),还 能够把误差控制在一个有规律的范围以内,这样才能够得到稳 定可信的测量结果。信度实际上就是对随机误差的一种度量。
2、结构效度construct validity
构想,通常指一些抽象的、假设性的概念或特质,如智力、 创造力、能力倾向、行为习惯、焦虑等。这些构想无法直接测量, 具有抽象性。但是每个构想都有其心理上的理论基础和客观现实 性,都和具体的可观察的事件相联系,可以通过各种可观察的材 料加以确定。 例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量 等可观察的指标进行确定。
测评质量检验
一项测评是否可靠、可信?
一项测评是否准确、有用?
一项测评是否公正、公平? 一项测评是否经济、合理?
测评质量检验
测评质量的检测,其内容主要有两个方面: 一是分项素质测评结果分析; 二是各项素质的综合结果分析。 分析的指标主要有效度、信度、区分度、 独立性
第一节 效度
所谓的效度是指测评结果对所测素质反映的真实程度。 考评人员素质测评的效度的方法有三种:
在设计测评题目时,所有测评题目都要保证只测 量一种特质或内容,如果需要在一个测评中测量 不同内容,就应该将测评设计为几个分测评进行 分别测评。例如16PF人格测评就包括16个分测评, 每个分测评量表只对一种人格特质进行测评。
一致性信度的计算方法
分半信度——项目折半分析,是通过将测验分成两半,计 算这两半测验之间的相关性而获得的信度系数。通常的方 法是在测验实施后将测验分为等值的两半,并分别计算每 位被测者在两半测验上的得分,再求出这两个分数的相关 系数。这个相关系数就代表了两半侧眼内容取样的一致性 程度。 式中:r表示两半项目分数相关系数; r t = 2r 1+r rt越大,则说明测评结果越可靠。 同质性信度——α系数分析,是指测验内部的各题目在多大 程度上考察了同一内容,即所有测验题目测量的只是单一 特质或内容,表现为所有测验题目得分的一致性。
项目独立性
在能力测评中,常常需要项目之间有 一定的独立性。所谓独立性即非相关性或 低相关性。独立性的分析一般采用项目间 分数的相关系数揭示,根据实际得分分布 是否均匀,可以分别采用rφ系数法和列联 表χ²检验法。
第四节 其他指标的分析
客观性
测评的客观性由测评方法的客观性 与测评者的客观性两方面构成 测评方法的客观性指它对测评者主观影 响的控制程度。如检核表就比一般评定 量表更客观一些
常见效标种类
学术成就——前提是“智力高的人,学术成就应该越 大” 。如:在校成绩、学历、研究成果等。 特殊训练成绩——能力倾向测验成绩常用某种特殊训练中 取得的成绩做效标。如:言语智商用语文成绩做效标;机 械能力用技术培训成绩做效标等。 实际工作表现与成绩。如产品量、晋升速度、劳模表扬情 况等。 团体特征——用两个在效标表现上有差别的团体比较他们 在预测源分数上的差别。如:一个音乐倾向测验的效度, 可以由比较音乐学院学生的分数与一般大学生分数获得。 等级评定结果——必须是由权威的专家或主管人员作出的, 或者是广大群众作出的。 先前被证明是有效的测评结果。如用明尼苏打机械性向测 验得到的结果。
复本信度是指测评结果相对另一个非常相同的测评结 果的变异程度。它是以两个测验复本(功能等值但题 目内容不同)来测量同一对象,然后求得被测者在这 两个测验上得分的相关系数。复本信度反映了两个测 验复本在内容上的等值性程度。
2 6∑D r =1 N(N2-1) 式中:N表示测评结果的总个数(被测人数); D表示对应同一个被测两次评定等级(名 次)的差,一般以被检验的测评结果为被减数。
当项目为试题时,适合度即难度 计算公式为: 难度的计算: 二分法计分项目的难度计算(只有答对或 答错两种情况)
项目区分度
又称鉴别力,指项目得分对被试实际能力 或心理特质水平的区分能力或鉴别力,也 即项目得分的高低与被试实际能力或心理 特质水平高低的一致性程度。 在项目分析中,项目得分与总分的相 关系数揭示了项目区分度的大小,相关系 数越大则说明项目区分度越高