第4章 测量的信度与效度
心理测量—效度
相同特质不同测量方法之间的相关(会聚效度) 相同方法测量不同特质的相关(区分效度) 不同方法测量不同特质之间的相关
(3)因素分析
因素分析将为数众多的观测变量缩减为少数不 可测的潜变量(因素),即用最少的因素概括 和解释最大量的观测数据。
年龄差异只是效度的一个必要条件而不是充分条件。
教育与训练效应
有效的教育与训练会提高被试的某种特质水平,这 种变化应在测验分数中体现出来。
4.对构想效度的评价
贡献
把着眼点放在提出假设、检验假设上,因此 使心理测验不再只是做决定的辅助工具,同 时还成为发展心理学理论的重要工具。
缺点
有些构想概念模糊,缺乏统一的定义。 确定效度时没有明确的操作步骤与程序。 没有单一的数量指标来描述有效的程度。
如果后测成绩有较大提高,说明测验确实测 量了所教授的内容,测验的内容效度较好。
(4)经验法
检查项目分数和测验总分随年级升高的变化情 况,一般而言,应保留从低年级到高年级学生 通过的百分比增加最大的那些项目。
分析学生所使用的各种解答方法以及测验中常 见的错误。
计算测验分数与阅读理解分数的相关,检查阅 读指导语的能力对测验成绩可能产生的无关影 响。
3.内容效度的特点
(1)内容效度的特定性 测验的内容效度与测验的编制者所定义的
内容范围有关。
(2)内容效度常与表面效度混淆
表面效度(Face validity)是在受测者、没 有受过训练的观察者看来这个测验是否有效。
注意:
表面效度会影响被试的测验动机,适当的表面 效度会让被试觉得测验是有意义的,也会更加 配合测验实施。
信度与效度
一、信度1.定义信度主要是指测量结果的可靠性或一致性。
信度只受随机误差的影响,随机误差越大,信度越低。
因此,信度可以视为测试结果受随机误差影响的程度。
系统误差产生恒定效应,不影响信度。
每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下:X=T+E如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式:S^2(x)=S^2(t)+S^2(e)公式中,S^2(x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。
即:r(xx)=S^2(t)/S^2(x)2.信度的指标大部分情况下,信度是以信度系数为指标,它是一种相关系数。
常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:r(xx)=r^2(xt)=S^2(t)/S^2(x)3.信度信度评估的方法(见具体例子)(一)重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。
重测信度所考察的误差来源是时间的变化所带来的随机影响。
在评估重测信度时,必须注意重测间隔的时间。
对于人格测验,重测间隔在两周到6个月之间比较合适。
在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。
⑵不同的行为受随机误差影响不同。
(二)复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。
复本信度的高低反映了这两个测验复本在内容上的等值性程度。
两个等值的测验互为复本。
计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。
复本信度也考虑两个复本实施的时间间隔。
复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。
教育测量中的信度和效度
估计同质性信度的三种方法
分半信度 计算分半信度的方法并不难,南难就难在如何将测验分成相等的两半。分半分方法
很多,如按题号的奇偶分半、按题目的难度分半、按题目的内容分半等等。 在实际的应用中,由于题目一般都是依据难度大小排列,采用奇偶分半可使两半测
验的题目在难度上基本相等,因此常常被采用。
估计同质性信度的三种方法
分类,形成实际的“题目双向分类表”,然后与事先制订的“题目双向细目表”进行对照 分析,了解实际命题在多大程度上偏离了原命题计划。
结构效度及其验证方法
结构效度的含义
结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一 种理论构想或特质)的程度。
结构效度及其验证方法
结构效度的验证一般步骤
复本信度
实施复本测验的方式:一是在同一个时间连续施测(此时所得的复本信度叫等值性 系数),二是间隔一段时间后施测(此时所得复本信度叫等值稳定性系数)。
使用复本信度首先要构造出两份或两份以上的真正的平行测验。这是一个很难达到 的条件。另外,重测信度的一些不足,在复本信度中仍然存在,需要加以克服。
K K
1
1
si2
s
2 x
标准测验的信度分析
标准参照测验的概念
标准参照测验是以预定的标准为参考,来衡量个体被试是否达到标准的一种测验。 所谓标准就是有测样所参考的行为领域和或教学目标所确定的被试在测验上应当达 到的行为表现。
标准测验的信度分析
标准测验信度分析的两种方法
百分比一致性指标
百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的 分类结果一致的比例。其计算公式为:
复本信度不仅适用于难度测验,也是适用于速度测验。
社会调查研究方法教案第4章 测量与操作化
第4章测量与操作化(9学时)作为一种认识社会现象的活动,社会研究必然会涉及对社会现象进行测量的问题。
社会研究的资料以及社会研究成果的质量,都直接与测量的质量紧密相连。
因此,社会研究者必须高度重视测量的工作。
在本章中,我们将对测量的概念与特征、概念的操作化过程、指数与量表、测量的层次、测量的信度与效度等内容进行介绍。
第一节测量的概念与层次一、什么是测量美国学者史蒂文斯认为:测量就是依据某种法则给物体安排数字。
这一定义被许多社会科学研究人员所采用。
在此基础上我们采用下述定义来进一步解释测量的含义:所谓测量,就是根据一定的法则,将某种物体或现象所具有的属性或特征用数字或符手表示出来的过程。
测量的主要作用,在于确定一个特定分析单位的特定属性的类别或水平。
它不仅可以对事物的同性做定量的说明(即确定特定属性的水平),同时,它也能对事物的属性做定性的说明(即确定特定属性的类别)。
而在社会研究中,研究者所进行的大部分测量往往都是这种定性的测量。
二、测量的四个要秦为了更好地理解测量的概念,有必要对构成上述测量定义的四个必不可少的要素进行专门的说明。
这四个要素是:测量的客体、测量的内容、测量的法则、数字或符号。
(1)测量客体,即测量的对象。
它是客观世界中所存在的事物或现象,是我们要用数字或符号来进行表达、解释和说明的对象。
(2)测量内容,即测量客体的某种属性或特征。
实际上,在任何一种测量中,我们所测量的对象虽然是某一客体,但所测量的内容却并不是客体本身,而是这一客体的特征或属性。
(3)测量法则,即用数字和符号表达事物各种属性或特征的操作规则。
也可以说,它是某种具体的操作程序和区分不同特征或属性的标难。
(4)数字和符号,即用来表示测量结果的工具。
比如,120厘米、110厘米等等就是测量桌子高度所得的结果;350元、400元等等就是测量人们收入的结果。
在社会研究中,研究者进行测量的结果中,许多是用数字来表示的。
三、社会现象的测量我们知道,测量在自然科学的研究中应用十分广泛,十分普遍,也十分成熟。
第4章 测量的信度与效度
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
测量量表的信度和效度
信度和效度的概念
内容效度
效度
指测量量表的准确性,即量表是否真实 反映所要测量的内容或特质。效度分为 内容效度、结构效度和验证效度。
专家对量表内容的评价,确保量 表内容与测量目的相符合。
信度
指测量量表的可靠性,即多次测量结果 的一致性程度。信度高的量表在相同条 件下重复测量,其结果具有一致性。
结构效度
通过因子分析、相关分析等方法 检验量表的结构是否符检验其一致性程度。
02 信度分析
重测信度法
定义
重测信度法是指在不同时间对同一组被试者进行重复测量,通过 比较两次测量的结果来评估量表的稳定性。
适用范围
适用于评估短期内量表的稳定性,但不适合评估长期内的稳定性。
根据测量目的和范围, 设计量表的框架和题目。
预测 试和 修订
在小范围内预测试量表, 根据反馈进行修订和完
善。
大规 模施 测和 数据 分析
THANKS FOR WATCHING
感谢您的观看
测量量表的信度和效度
contents
目录
• 引言 • 信度分析 • 效度分析 • 信度和效度的关系 • 信度和效度在实践中的应用
01 引言
测量量表的意义
测量量表是评估个体或群体特征的重 要工具,广泛应用于心理学、社会学 、经济学等领域。
通过测量量表,可以对个体的心理状 态、行为特征、能力水平等进行量化 评估,为研究和实践提供客观、准确 的依据。
Cronbach's Alpha系数
定义
适用范围
计算方法
Cronbach's Alpha系数是一种评估量 表内部一致性的方法,通过计算量表 中各项目之间的相关性来评估量表的 可靠性。
测量的信度与效度
信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量,计算 两次测量结果的相关系数,以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量,计算各 测量工具之间的相关系数,以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性,计 算内部一致性系数(如Cronbach's Alpha系 数),以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的 不确定性。
特点
随机误差的大小和符号都是随机的,无法预测和 控制。
示例
测量时环境的微小变化、测量仪器的微小波动等 都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求 而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用,也会对效度产 生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性,即多次测量结果之间的相符程度。 如果一个测量工具缺乏信度,那么它的测量结果会不稳定, 无法为决策提供可靠依据。因此,信度是效度的必要条件, 没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等,通过这些方法可以评估测量工具的一致性 和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性,即测量结果是否真实反映所需测量的内容。如果一个测量工具具有 效度,那么它的测量结果是准确的、有意义的,能够为决策提供可靠依据。因此,效度是信度的充分 条件,有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等,通过这些方法可以评估测量工具的准 确性和有效性。
第4章效 度
二、内容效度的确定方法
(一)逻辑分析法:专家评定(p175) 根据自己的知识经验对量表的有效性(逻辑性)作出判断, 也称逻辑效度。 为使内容效度的判断过程更客观,一般采用下列步骤: ①确定测验内容的总体范围; ②编制双向细目表; ③编制评定量表,从测验内容所测的技能、题目对所定义的 范围的覆盖率、各种题目数量和分数的比例以及题目形式 的适当性等方面,对测验作出总的评价。
因素分析案例
公因子 F1 Z1=代数1 0.896 公因子 F2 0.341 共同度 hi2
Z3=几何 Z4=三角
0.802
0.516 0.841
0.496
0.855 0.444
0.889
0.997 0.904
0.111
0.003 0.096
Z5=解析几何
第四章 效 度
第一节 效度概述
一、什么是效度 (一)定义 1、效度(validity)是指一个测验或量表实际能测出 其所要测的心理特质的程度。 (1)效度是一个相对的概念:每个测量工具都有自 己的目的;内隐特质是通过外显行为间接测得的; (2)效度是测量的随机误差和系统误差的综合反映; (3)判断一个测量是否有效要从多方面收集证据。
第七节 因素分析
• 1904,斯皮尔曼,《客观决定和测量一般智力》, 用因素分析技术研究智力结构。标志着因素分析方 法的诞生。 • 运用此方法,心理学家探索出多种智力理论。如: 群因素论、三维结构智力模型。(探索性因素分析) • 20世纪60年代后期,统计学家波克等人在研究因素 分析模型中参数的假设检验问题时,发展出验证性 因素分析。 • 1973年,乔纳斯柯格创立了验证性因素分析,运用 因素分析检验假设成为可能。
(二)区分法 测验→工作→准则测量(工作成绩) 按工作成绩分高低两组,如工作成绩高,测 验得分也高;工作成绩低,测验得分也低, 说明该测验是有一定效度的 1、差异性检验 2、重叠量的计算 见P184
第四章 测量
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
三、语义差异量表
语义差异量表(semantic differential)也称为语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。 语义差异量表的形式由处于两端的两组意义相反的形容词 构成,每一对反义形容词间又分为7~11个等级区间,我们对观 念、事物或人的感觉可以通过我们所选择的两个相反形容词之 间的区间反映出来。记分方法有两种(以7个等级为例),一 种是将每一等级的分数从左至右分别记为7、6、5、4、3、2、 1,另一种则是记为+3、+2、+1、0、-1、-2、-3。
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
一、总加量表
总加量表(summated rating scales)也称为总和量表或总 全评量,它由一组反映人们对事物态度或行为的陈述项目构 成,回答者分别对这些陈述发表意见,根据他们的答案(同 意或不同意、是或不是)分别计分,然后将回答者在全部项 目上的得分加起来,以此表示回答者对这一现象的态度或行 为得分。这个分数是其态度、行为的数量化结果,它的高低 代表了个人在态度、行为量表上的位置。
社会调查方法
21世纪思想政治教育专业系列教材
第一节 测量的概念和特征
测量的四个要素 用来表示测量结果的工 具 客观世界中存在的事物或现象, 是我们要用数字或符号来进行 表达、解释和说明的对象
测量客体
数字或符号 Company LOGO
测量内容
用数字或符号表达事物 各种属性或特征的统一 标准.
测量法则
社会调查方法
21世纪思想政治教育专业系列教材
第五节 信度和效度
信度:简单地说,信度就是指测量数据和结论的可靠性程 度,也就是说测量工具能稳定地测量到它要测量的事项的 程度。
测量的信度和效度
一、效度 效度是指问卷正确衡量研究者所要了解属性的程度。 效度有两个基本要求:一是测量手段确实是在测量所要 测量对象的属性,而非其它属性。二是测量手段能准确 测量该属性,当某一测量手段符合上述要求,它就是有 效的。
态度ห้องสมุดไป่ตู้量设计
2
二、信度
信度是指问卷调查结果的稳定性和一致 性,如果研究单位的属性不变,测量结 果也不变,则这种测量是可信的,否则 就是不可信的。
信度评价的方法主要有:重复检验法、 交错法和折半法。
态度测量设计
3
三、效度与信度之间的关系
效度与信度是优良测量工具所必备的两项主要条件。效度与信 度之间存在的关系,可以用一句话来概括:信度是效度的必要 条件而非充分条件。
信度是效度的必要条件,就是说,一个指标要有效度就必须有 信度,不可信就不可能正确。但是,信度不是效度的充分条件, 即是说,有了信度,不一定有效度。
态度测量设计
4
一般来说,影响信度和效度的因素有以下几个方面: 1、调查者。 2、测量工具。 3、调查对象。 4、环境因素及其他偶然因素。
态度测量设计
5
第四章测量的信度与效度
结构效度主要应用于智力测验、人格测验等一些心理测 验方面。
2.结构效度的确定 确定结构效度的基本程序 第一,对所研究的心理特质的结构进行界定 第二,依据理论框架,提出可能的假设 第三,收集数据,验证假设
③考察测验的同质性。
④因素分析的方法 ⑤结构方程的方法
(2)测验间法 通过对几个测验的比较研究,找出它们所测的共同特质,
这样便可以确定这些测验是否具有结构效度。 ①相容效度:计算被试在新旧两个同类测验上的分数的
相关。如果相关高,则说明两个测验测的是相同的特质。 ②区分效度:一个有效的测验不仅与其它测量同一构想
(二)结构效度(construct validity) 1.结构效度的含义、特点与应用范围 结构效度是指一个测验实际测到所要测量的理论结构和
特质的程度,或者说测验分数能够说明测量的理论结构 和特质的程度。
结构效度有如下特点:
(1)结构效度首先取决于事先假定的心理特质的结构理 论
(2)当实际测量的资料无法证实事先的理论假设时,并 不一定就表明该测验结构效度不高。
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
向细目表对照 ③制订评定量表,考察题目对所定义的内容范围的覆盖
率、判断题目难度与能力要求之间的差异等。
第四章 效度
第四章效度信度解决的是测验分数是否可靠的问题,但即使一个测验分数有跨时间的稳定性和跨情境的一致性,却不能保证测验分数代表了被试的真实水平。
比如说,某测验的目的是测量能力,但测题却都是一些死记硬背的知识,测验分数是不能代表被试真实能力水平的。
这就涉及了测量的客观性和准确性问题,即测验的效度问题。
第一节效度概述一、效度的概念测验的效度(validity)指的是测验的有效性,即测验分数能够代表所要测量的心理特质的程度,或测验结果达到测验目的的程度。
任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。
一些编制得好的智力测验一般是效度较高的,但也免不了受智力之外的因素的影响。
因为测验的题目必然要从人们的生活实践中选材,来自不同生活背景的人对同一个测验题目的熟悉程度是不同的,即使智力相同,测验分数也会不同。
因此人们的知识经验就成了影响测验分数的无关因素之一。
研究表明,文化和种族因素会造成测验的不公平,因为与测验分数有关的并不完全是智力。
人格和成就测验同样存在无关因素影响测验分数的问题。
效度总是针对一定的测验目的而言的。
例如,用编制得好的人格测验测量人的个性,诊断心理障碍是有效的,即有一定效度,但若用来测量智力,测量结果就是无效的。
因为人格与智力无关,故分数的高低不能代表智力的高低。
以上讨论的是心理测量中的效度问题,在物理测量中,效度问题也是同样存在的。
如,用不标准的尺子量物体,用不准确的称去称物体,都会使测量的结果不准确。
可见,效度是由于测量工具(量尺)本身的问题造成的,在多次测量中都会恒定地出现而无法消除,因而称系统误差。
测量的效度问题是测验结果中包含了多大比例的系统误差的问题,系统误差可能是由以下几方面原因造成的:(1)所要测量的特质有多方面的含义,而量表本身未能全部包含这些方面;(2)测验题目中包含了与所测特质无关的题目;(3)记分方面的问题,如选择题的备选答案是不全面的,即没有完全体现被试情况的差异,因此答案就不是足够准确的,而且各题目得分是简单累加而未经加权处理,不同题目的重要性程度就没有得到区分。
戴海崎《心理与教育测量》(第4版)笔记和课后习题考研真题详解
戴海崎《心理与教育测量》(第4版)笔记和课后习题(含考研真题)详解完整版>精研学习网>无偿试用20%资料全国547所院校视频及题库资料考研全套>视频资料>课后答案>往年真题>职称考试第1章心理与教育测量概论1.1复习笔记1.2课后习题详解1.3典型题(含考研真题)详解第2章心理与教育测量简史2.1复习笔记2.2课后习题详解2.3典型题(含考研真题)详解第3章经典测验理论的基本假设3.1复习笔记3.2课后习题详解3.3典型题(含考研真题)详解第4章测量信度4.1复习笔记4.2课后习题详解4.3典型题(含考研真题)详解第5章测量效度5.1复习笔记5.2课后习题详解5.3典型题(含考研真题)详解第6章测验的项目分析6.1复习笔记6.2课后习题详解6.3典型题(含考研真题)详解第7章心理与教育测验的编制与实施7.1复习笔记7.2课后习题详解7.3典型题(含考研真题)详解第8章常模参照测验8.1复习笔记8.2课后习题详解8.3典型题(含考研真题)详解第9章目标参照测验9.1复习笔记9.2课后习题详解9.3典型题(含考研真题)详解第10章测验等值10.1复习笔记10.2课后习题详解10.3典型题(含考研真题)详解第11章学绩测验11.1复习笔记11.2课后习题详解11.3典型题(含考研真题)详解第12章能力测验(上)12.1复习笔记12.2课后习题详解12.3典型题(含考研真题)详解第13章能力测验(下)13.1复习笔记13.2课后习题详解13.3典型题(含考研真题)详解第14章人格测量14.1复习笔记14.2课后习题详解14.3典型题(含考研真题)详解第15章其他心理与教育测验15.1复习笔记15.2课后习题详解15.3典型题(含考研真题)详解第16章测量应用实务16.1复习笔记16.2课后习题详解16.3典型题(含考研真题)详解第17章测量理论与应用的新发展17.1复习笔记17.2课后习题详解17.3典型题(含考研真题)详解。
信度和效度名词解释
信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。
一般多以内部一致性来加以表示该测验信度的高低。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
例如,用同一个量表对同一组被试在不同时间进行测量,如果每次测量结果都很相近,就说明这个量表的信度较高。
2. 信度的类型- 重测信度:用同一种测验,对同一组被试者,前后施测两次,再根据被试者两次测验分数计算其相关系数,即得重测信度。
它反映了测验跨时间的稳定性。
例如,在一个月内,对同一批学生使用相同的智力测验进行两次测试,两次测试结果的相关性就是重测信度。
- 复本信度:复本是内容、形式、难度等方面与原测验相似的测验。
复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。
有A、B两套英语水平测试题,它们在题型、难度等方面相似,对同一组学生先进行A卷测试,过一段时间再进行B卷测试,然后计算两次成绩的相关系数就是复本信度。
- 内部一致性信度:主要反映的是测验内部题目之间的关系,表示测验能够测量相同内容或特质的程度。
例如,在一个包含多个项目的人格测验中,内部一致性信度高意味着各个项目之间测量的是人格的同一个方面,常用的计算方法有克伦巴赫α系数等。
- 评分者信度:用于衡量不同评分者对同一组被试评分的一致性程度。
在一些主观性较强的测验中,如作文评分、面试评分等,评分者信度就非常重要。
如果不同评分者对同一篇作文或同一个面试者的评分比较接近,那么评分者信度就较高。
3. 影响信度的因素- 被试样本:被试样本的同质性(相似性)程度会影响信度。
如果被试样本的同质性高,信度可能会较低,因为他们在测验所测特质上的差异较小;反之,异质性高的被试样本可能会使信度较高。
例如,在一个只针对高智商学生的智力测验中,由于学生的智商都比较高且接近,可能会导致信度系数较低。
- 测验长度:一般来说,测验的题目数量越多,信度越高。
因为较长的测验能够更全面地测量被试的特质,减少随机误差的影响。
信度与效度的关系
研究信度与效度的关系一、信度与效度的定义信度即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,或者说,信度是指测量结果的一致性或稳定性。
效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度。
二、信度与效度的关系(一)教育科学研究中信度与效度的关系信度是研究结果所显示的一致性、稳定性程度,也是对研究结果一致性和稳定性的评价标准。
一个具有信度的研究程序,不论其过程是由谁操作,或进行多少次同样的操作,其结果总是非常一致的。
效度是一个研究程序的性质和功能,也是对研究结果正确性的评价标准,一个有效度的研究程序,不仅能够明确地回答研究的问题和解释研究结果,而且能够保证研究结果在一定规模的领域中推广。
把两者的作用结合起来看,信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。
研究的信度是研究的效度的一个必要的前提,没有信度,效度不可能单独存在,也就是说,一项研究不可能没有信度却具有效度。
(二)人力资源招聘信度与效度的关系影响测评信度的因素有很多,主要是系统误差和随机误差。
包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、环境的稳定性等都会影响测评的可信度。
影响测评的效度因素也有很多,如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。
在实际招聘与录用评估过程中要把握各相关方面,不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。
信度和效度是人才侧评与选拔质量的重要指标。
图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式,如图8-l .图8-2和图8-3所示。
所以,:高信度是高效度的必要条件,但非充分条件。
即信度高不一定其效度就高,但要想获得较高的测评效度,其信度必定要高,(三)用结构式问卷来测量家长“溺爱孩子”的行为中信度与效度的关系当我们用结构式问卷来测量家长“溺爱孩子”的行为时,可以得到相对较高一些的测量信度,用同样的问题反复询问同样的对象时,所得到的结果的一致性程度会比较高,但是,这种测量方法的效度往往会比较低,因为家长们在培养孩子方面的认识、态度和具体做法远比问卷中的五个问题丰富多彩,我们在问卷中所能够测量的只是其中的很少、很表面、很有限的一部分,反之,如果我们用深入到每一个家庭、实地去考察、与家长仔细交谈的方法来进行测量,那么,所得到的资料的效度会比较高,我们实实在在地看到和感受到家长们是如何培养孩子的,但是,此时,我们却降低了观察的一致性程度。
信度与效度
分半信度实际上反映的只是两半测验项目之间 的相关系数,由于在其他条件相同的情况下, 测验越长,信度越高,因而分半法经常会低估 信度,必须通过一些公式去加以修正,借以估 计整个测验的信度。
同质性信度
同质性主要代表测验内部所有题目间的一致性。 当各个测题的得分有较高的正相关时,不论题
目的内容和形式如何,其测验为同质的。 相反,即使所有题目看起来好像测量同一特质,
所谓真分数就是一个测量工具在测量没有误差时,所 得到的纯正值。
这实际上是个循环定义,因为一个量具若测得真值, 便没有误差。
真分数的操作定义是,经过无数次测量所得的 平均值。
可见,真分数是一个在理论上构想出来的概念,在 实际测量中是得不到的,因为一个测量工具无论多 么精确,也会有误差,我们只能通过改进量具来接 近真值,而不能完全得到它。
但相关很低或为负相关时,其测验为异质的。
此外,对于一些复杂的、异质的心理学变量, 采用单一的同质性测验是不行的,因而常常采 用若干个相对异质的分测验,并使每个分测验 内部具有同质性,这样每个分测验就能用来预 测异质效标的某一方面。
评分者信度
评分者信度用于测量不同评分者之间所产生的 误差。为了衡量评分者之间的信度高低,可随 机抽取若干份测验卷,由两位评分者按评分标 准分别给分,然后再根据每份测验卷的两个分 数计算相关,即得评分者信度。
把任何一个测验成绩都看做是真分数和测量误差 的和,这是经典测量理论的基本思想 X=T+E
这里X为实得分数或观测分数,T是假设的真分 数,E是测量误差。
关于测量误差(E)有以下假设:
1)如果对一个人测量无数次,其平均误差为0,即 E=0
2)真分数和测量误差是相互独立的,即rTE=0 3)误差分数和实得分数的相关为0,即rEX=0
第四章 测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件
要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
(3)结构效度(Construct Validity) 结构效度也称建构效度。 它是指一个测验实际测到所要测量的理论结构和特质的 程度,是指实验与理论之间的一致性,即实验是否真正测量 到假设(构造)的理论。 结构效度分析所采用的方法是因素分析(因子分析)。 在因素分析的结果中,用于评价结构效度的主要指标有累计 贡献率、共同度和因子载荷。 结构效度的体现首先必须作KMO和Bartlett球形检验, 如果这两个检验合格的话,说明数据是适合做因素分析的。 通常KMO的值小于0.5时较不适合做因素分析,一般以大于 0.7为好。 然后提取因子,主因子解释总变异一般若大于60%的和 因子载荷大于0.6的话,说明结构效度很好。
tests. Psychometrika, 16(3),297-334.
设一份量表包括n个项目(x1,x2, …,xn), 假设这n个项目的分数都 与真实分数T有关,即每一个项目xi除与T有关外,也有独立的 误差项Ei,即令量表总和为H=x1+x2+…+xn.
n Var ( H ) Var ( xi ) n i 1 RH n 1 Var ( H ) 2 Si n 1 2 n 1 SH
第1节 信度分析
§1.信度分析原理 §2.在SPSS上实现信度分析 第2节 效度分析 §1.效度分析原理 §2.在SPSS上实现效度分析 第3节 信度与效度的关系
第1节 信度分析
一、信度分析原理
1、信度的概念 信度是指对测度一致性程度的估计。信度分析就是要探 究调查的可靠性,就是指被调查者表达其意见的准确性。 信度也称为可靠度,指的是一份量表所测得的分数的一 致性(consistency)与稳定性(stability)。 2、信度的估计方法 测量的误差总是难免的,真实值与测量值的关系可以表 达为:
01 02 03 04 5 1 2 5 5 1 2 4 5 2 2 5 5 1 2 5 5 1 2 5 4 1 1 5 4.833333 1.166667 1.833333 4.833333 0.408248 0.408248 0.408248 0.408248 0.166667 0.166667 0.166667 0.166667 05 06 07 08 2 5 4 3 3 5 5 2 3 5 5 2 3 5 5 3 3 5 5 2 3 4 4 2 2.833333 4.833333 4.666667 2.333333 0.408248 0.408248 0.516398 0.516398 0.166667 0.166667 0.266667 0.266667 总分 27 27 29 29 28 24 27.33333 1.861899 3.466667
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
(4)克朗巴哈α系数(Cronbach α) 美国教育心理学家Lee Joseph Cronbach于1951年提出 了一种计算问卷或测验的测量工具的信度,称为Cronbach α系数。 当一个研究任务项由很多题目组成,每个问项都与研究 任务项相关,若以总分的方差与问项的方差作为测量信度的 指标,即为α系数。
5、效度的类型 (1)内容效度(Content Validity) 也称为表面效度(Face Validity)、逻辑效度。 它是指问卷的内容是否具有代表性,即是否包括被测量 构成所有层面的项目。 若问卷内容是以理论为基础,并参考以往学者类似研究 的问卷内容加以修订,并与实践或学术专家讨论过,且进行 过预测,即可以认为具有相当的内容效度。 内容效度反映设计的观测变量是否代表了所要测量的内 容或主题,可通过计算观测变量单项与得分总和之间相关系 数来测量,相关系数越大,量表的内容效度越高。一般要求 所测单项与总和之间的相关系数 在0.3以上。 考察内容效度旨在系统地检查测量内容的适当性,并根 据我们对所研究概念的了解去鉴别测量内容是否反映了这一 概念的基本内容。
A B C D E F
计算获得描述性统计量如下表:
描述性统计量
题号 A1 个数 6 最小值 最大值 4 5 平均数 4.833 标准差 0.408 方差 0.167
A2
A3 A4 A5 A6 A7 A 6
1
1 4 2 4 4 2 24
2
2 5 3 5 5 3 29
如果每个题目都是测量相同的理论维度,则总和的方差 会大于每个题目的方差之和。 每个理论维度下,必须至少有两题以上才能计算信度, 若只有一个题目,则信度值为1。
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of
由于旅游者流动性太强,因而不适宜使用再测信度分 析。
(2)复本信度(Alternative-Form Reliability) 当某一套量表有两种以上版本时,可以替换使用,根据 一组被调查者接受两个复本测量的数值来计算相关系数,以 避免再测信度的缺陷。 复本是指内容相似、难易度相当的两份量表,对同一受 测群体,第一次使用A份测试,第二次使用B份测试,两次 分数的相关系数即为复本信度。 复本得分的差异是由量表的内容造成的,而非时间造成 的。
三、在SPSS上实现克朗巴哈α系数的计算
第一步:按Analyze-Scale-Reliability打开主对话框。 第二步:在左侧的源变量框中选择变量进入Items框,作 为分析变量。 第三步:在源变量框的Model选项框中,选择Alpha (α)信度系数。 第四步:在主对话框,单击OK按钮,提交运行。 第五步:判断计算结果是否可以接受。
Cronbachα系数的计算公式为:
2 S i
n (1 2 ) n 1 S
已知:题项n=8,
8题加总后量表总分的方差S2=3.467,
2 S 8 个题项的方差总和 i =1.533
8 1.5333 8 (1 ) (0.558 ) 0.637 8 1 3.467 7
1.167
1.833 4.833 2.833 4.833 4.667 2.333 27.333
0.408
0.408 0.408 0.408 0.408 0.516 0.516 1.862
0.167
0.167 0.167 0.167 0.167 0.267 0.267 1.533 3.467
可以利用Excel软件进行有关计算: 第8行计算均值, 第9行计算标准差, 第10行计算方差。
2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
(2)准则效度(Criterion Validity) 准则效度又称为效标关联效度(criterion-related validity)、 预测效度(predictive validity)。 它是指量表所得到的数据和其他被选择的变量(准则变 量)的值相比是否有意义,被访问者的答案看起来是否在设 计时所考虑的度量范围之内。 调研人员对问卷一般都可以客观地判断它的表面有效 性。因此,设计每一个问题时都应该有表面有效性的假定。 符合这种标准的测量工具是可以作为测量某一特定现象或概 念的效标。 当我们对同一现象或概念进行测量时,我们可以使用多 种测量工具,每种测量方式与效标的一致性就成为准则效 度。 评价准则效度的方法是相关分析或差异显著性检验。 但选择一个合适的准则往往十分困难。
α系数的判断标准:
内部一致性信度系数值 α系数<.50 .50≤ α系数<.60 .60 ≤ α系数<.70 .70 ≤ α系数<.80 .80 ≤ α系数<.90 α系数≥.90 层面或构念 整个量表
不理想,舍弃不用 非常不理想,舍弃 不用 可以接受,增列题 不理想,重新编制 项或修改词句 或修订 尚佳 佳(信度高) 勉强接受,最好增 列题项或修改词句 可以接受
X T BE
式中,T为真实值,B为偏差即系统误差,E为测量误差即随 机误差。
由于系统误差很难分解,因而有时将系统误差包含在真实值 中,上式可以简化为:
X T E
对于测量误差E,一般假定它的期望值是0,与真实值相独 立,在此假定下,可以证明:
E ( x) E (T )
实得分数和真分数的总体均值相等。