第4章 测量的信度与效度分解
信度和效度
信度和效度社会学系02研王丽云当我们建构和评估测量时,我们通常使用信度和效度这两个技术性指标。
简单地说信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度。
我们可以举例说明信度的问题:如果想知道某人的体重,我们可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人来估计体重是非常不可信的方法。
如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信。
我们可以用信度系数来表示信度的大小。
我们知道在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。
我们可以这样来表示真实值和测量值之间的关系。
X=T+B+ET表示真实值,B表示偏差即系统误差,E表示测量误差即随机误差。
由于系统误差很难分解,因而有些书中的分解式将系统误差包括在真实值之中,因而X可以简单地概括为X=T+E对于测量误差E,一般假定他的期望值是0,却与真实值相独立,在此假定下,可以证明:E(x)=E(T)实得分数和真分数的总体均值相等。
σ2x=σ2T+σ2E实得分的方差等于真分数的方差与误差方差之和。
信度一般规定是真分数的方差在总体方差中所占的比例,即:信度系数Rxx=σ2T/σ2X=1-(σ2E/σ2X)信度系数越大,表明测量的可信程度越大。
在实际应用中,信度主要有以下几种类型:(一) 重测信度这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。
假如我们第一次测量时的观测值是X,第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。
但重复测量时,我们要注意两次测量的时间间隔要恰当。
如果时间间隔太久,可能会发生一些变故,影响到被调查者的态度,那么前后的测量就会有很大的差异。
(二)复本信度复本是针对原本而言的,它使原本的复制品。
对一项调查的问题,让被调查者接受问卷测量,并同时接受调查问卷的副本的调查,然后根据结果计算原本和复本的相关系数,就得到复本信度。
第四章 心理测验的信度与效度
27
2、确定信度可以接受的水平
SE Sx 1 rxx
(公式5-4)
式中SE表示测量的标准误,即误差分布的标准差; Sx表示一次测量分数的标准差;rxx表示信度系数。
32
我们可以用测量的标准误来估计个人测验的真分数 的大小。
如果选用95%的可靠性水平(置信水平),即显著 性水平(a值)为.05,Z ,2 真分数有95%的可能落入 X ±1.96SE ,即X ±1.96 SE的范围之内,也可以 写成X-1.96SE T X+1.96 SE,SE则用公式5 -4代入。或有5%的可能落入这范围之外。这实际 上也表明了再测时分数改变的可能范围。
被试有条件接受两个测验。
17
(三)内部一致性信度
1、定义:
反映的是题目之间的关系,表示测验能够测量相同内容 或特质的程度。
2、方法:
(1)分半信度: 通常是先把一份测验按题目的奇偶顺序或其它方法分 成两个尽可能平行的半份测验,然后计算两半之间的 相关,即得到分半信度系数。
18
ABCDE FGH I J X1 16 15 13 13 11 10 10 9 8 7 X2 15 16 14 12 10 9 11 8 6 7
2、注意事项: 所测量的心理特性必须是稳定的。 遗忘和练习的效果基本上是相互抵消的。 在两次施测的间隔时期内,被试在所要测验的心理特 质方面没有获得的更多的学习和训练。 易受练习和记忆的影响,两次测试的时间间隔要适当, 一般是2~4周较宜,间隔时间最好不超过6个月。
社会学研究方法___5测量及操作化
第十一页,共33页。
测量层次的数字特性总结
定类测量 定序测量 定距测量 定比测量
类别区分
有
有
有
有
(=、=)
次序区分 (>、<)
有
有
有
距离区分 (+、-)
有
有
比例区分
有
(×、÷)
第十二页,共33页。
测量
特征
数字特征 平均量度值 统计检验
教学目标:教学生如何做社会研究(step by step ) Step1:让学生知道什么是社会研究? Step2:教学生选择什么研究? Step3:教学生如何做研究计划? Step4:教学生如何从理论研究走向经验调查? Step5:教学生选择谁开展调查? Step6:教学生如何调查(如何收集问卷资料)? Step7:教学生如何调查(如何收集实地资料)? Step8:教学生如何调查(如何收集文献资料)? Step9:教学生如何调查(如何收集实验资料)? Step10:教学生如何分析收集的资料? Step11:教学学生如何报告研究成果?
第二十四页,共33页。
四、语义差异量表
是用一组意义相反 的陈述或形容词构 成一份评价量表, 以用来测量人们对 某一特定概念或事 物的不同意识和感 受。
第二十五页,共33页。
测验
测验是以间接的方式收集个人的态度、人格结构和心理行 为等方面资料的方法。它是一种标准化了的程序,在这个 程序里,受测人对一组预先设计好了的刺激做出反应,这 些反应能够使得测验者能够以一个数或一组数来描写受测 者,并有这个数或一组数推论受测者拥有这个测验所想测 量的心理行为的状况。
第二十九页,共33页。
第4章 测量的信度与效度
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
《信度和效度测量》课件
外部信度是指 测量工具或方 法与其他测量 工具或方法的 相关性,如重 测信度、复本 信度等
效度是指测 量工具能够 准确地测量 出被测对象 的真实水平 的程度
效度包括内 容效度、结 构效度和信 度效度
内容效度是 指测量工具 的内容是否 符合被测对 象的实际需 求
结构效度是 指测量工具 的结构是否 符合被测对 象的实际需 求
目标
市场调研:通 过信度和效度 测量,提高调 研结果的准确
性和可靠性
应用场景:产 品定位、市场 细分、消费者
行为分析等
招聘与选拔:通 过信度和效度的 测量,可以更准 确地评估应聘者 的能力和素质, 提高招聘和选拔
的准确性。
绩效评估:通过 信度和效度的测 量,可以更准确 地评估员工的工 作表现,为绩效 评估提供科学依
预测效度:测量结果是否能预测未来行 为
区分效度:测量结果是否能区分不同群 体
概念:衡量预测变量与实际结 果之间的相关性
优点:简单易行,易于理解
缺点:可能存在偏差,不能完 全反映实际情况
应用:常用于预测市场趋势、 消费者行为等
PART FIVE
信度:测量工具 的稳定性和可靠 性,确保测量结
果的一致性
应用:广泛应用于 社会科学、教育学 等领域
优点:简单易用, 结果直观
PART FOUR
内容效度法是一种测量 效度的方法,用于评估 测量工具的内容是否与 理论或概念相符合。
内容效度法通常通 过专家评审、问卷 调查等方式进行评 估。
内容效度法可以评 估测量工具的覆盖 范围、准确性和代 表性。
内容效度法可以帮 助研究者确定测量 工具是否适合用于 特定的研究目的。
PART THREE
重测信度法的定义:通过在不同时 间对同一组受试者进行相同的测量, 比较测量结果的一致性来评估信度。
测量的信效度
评分者信度(Scorer Reliability)
最简单的估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个评判分数 的相关系数。这种相关系数的计算可以用积差相关 方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时, 就需要用肯德尔和谐系数来求评分者信度。
评分者信度scorerreliability信度系数的类型误差变异的来源计算公式次数所需复本数目重测信度时间取样积差相关系数复本信度连续施测内容取样积差相关系数复本信度间隔施测时间取样内容取样积差相关系数分半信度内容取样积差相关系数需校正常用斯布公式同质性信度内容的异质性系数非二分法评分者信度评分者间的差积差相关系数斯皮尔曼等级相关系数肯德尔和谐系数在一般情况下间隔施测的复本信度最低因为很多因素有机会影响到分数
分半信度的估计
斯皮尔曼-布朗校正公式
rXX 2rx1x 2 1 rx1x 2
rx1x2 表示两半测验分数的相关系数
如果两半测验不等值,亦即两半测验分数没 有相同的平均数和标准差
弗朗那根公式:
r 2(1
S a Sb
2
2
Sx
2
)
Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分 的变异数。
SX2 = SV2 + SI2 + SE2
SX2 SV2 SI2 SE2
ST2
系统误差的影响
系统误差可能是由以下几方面原因造成的:
1)所要测量的特质有多方面的含义,而量表本身未能
测量工具的信度和效度分析
测量工具的信度和效度分析常用的测量工具主要有调查问卷和量表,它们都是对个人行为和态度的一种测量技术,是测量答卷者对问卷题目主观认识的个体差异的工具,也是研究者用来搜集资料的一种技术。
一般情况下,编制一份量表必须做效度和信度评价,而调查问卷则不是必须的。
对于有些调查问卷,其包含了类似量表性质对答卷者客观指标测量的题目,对这部分题目需要进行效度和信度的评价。
第一节信度分析概述一、信度的概念信度是指测量工具的可靠性和稳定性的程度,或是指使用某测量工具所获得结果的一致程度或准确程度。
测量工具的信度包含2层含义:一是相同的个体在不同时间,以相同的测量工具测验或以复本测验,或在不同的情景下测验,是否能得到相同的结果,即测量工具的测验结果是否随时间和地点等因素而变化;二是能否减少随机误差对测量工具测验结果的影响,从而反映测量工具所要测量的真实情况,即测量工具是否具有稳定性、可靠性和可预测性。
信度的三个特征是:稳定性、内部一致性和等同性。
一个好的测量工具必须是稳定可靠,且多次测验结果应前后一致。
信度本质上是一个统计学概念,是用于估计测量误差大小的尺度,主要说明测量工具测验结果中测量误差所占的比例。
实际应用中主要通过构建平行测验来计算测量工具的信度。
二、信度的评价方法信度研究的是测量工具测验结果的可靠性与稳定性,这种可靠性与稳定性可以从4个不同的角度来评价:①在相同条件下所得测量工具测验结果一致程度;②不同研究者用同一种测量工具同时测验所得结果的一致程度;③同一研究者用同一种测量工具在不同时间内测验所得结果的一致程度;④同一答卷者在不同时间内对同一种测量工具测验的稳定程度。
根据研究角度不同,信度分为外在信度(external reliability)与内在信度(internal reliability)两大类。
外在信度是指不同时间测量时测量工具测量的一致性程度。
内在信度是指测量工具是否测量的是单一概念,同时也表明测量工具各项目之间的内在一致性程度。
第四章 测量
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
三、语义差异量表
语义差异量表(semantic differential)也称为语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。 语义差异量表的形式由处于两端的两组意义相反的形容词 构成,每一对反义形容词间又分为7~11个等级区间,我们对观 念、事物或人的感觉可以通过我们所选择的两个相反形容词之 间的区间反映出来。记分方法有两种(以7个等级为例),一 种是将每一等级的分数从左至右分别记为7、6、5、4、3、2、 1,另一种则是记为+3、+2、+1、0、-1、-2、-3。
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
一、总加量表
总加量表(summated rating scales)也称为总和量表或总 全评量,它由一组反映人们对事物态度或行为的陈述项目构 成,回答者分别对这些陈述发表意见,根据他们的答案(同 意或不同意、是或不是)分别计分,然后将回答者在全部项 目上的得分加起来,以此表示回答者对这一现象的态度或行 为得分。这个分数是其态度、行为的数量化结果,它的高低 代表了个人在态度、行为量表上的位置。
社会调查方法
21世纪思想政治教育专业系列教材
第一节 测量的概念和特征
测量的四个要素 用来表示测量结果的工 具 客观世界中存在的事物或现象, 是我们要用数字或符号来进行 表达、解释和说明的对象
测量客体
数字或符号 Company LOGO
测量内容
用数字或符号表达事物 各种属性或特征的统一 标准.
测量法则
社会调查方法
21世纪思想政治教育专业系列教材
第五节 信度和效度
信度:简单地说,信度就是指测量数据和结论的可靠性程 度,也就是说测量工具能稳定地测量到它要测量的事项的 程度。
4第四章社会测量及指标
4.定比尺度
定比尺度也称比例尺度、等比尺度。定比尺度除具有 上述三种尺度的全部性质之外,还具有一个共同的基准— —有实际意义的零点(绝对零点)。 所以它所测得的数据,既能作加减运算,又能作乘除 运算。 例如身高、年龄、出生率、工资等都是定比尺度。 如张三的工资是180元,李四的工资是90元,便可说张三
下面是一个包括4项用来测量堕胎态度陈述的哥特曼量表。 (1)任何孕妇均可要求堕胎: 同意 反对 (2)孕妇在其身心健康受影响的情况下可以堕胎: 同意 反对 (3)孕妇在生命有危险时方可堕胎: 同意 反对 (4)孕妇在胎儿有残废和死亡倾向时可以堕胎: 同意 反对 依据对堕胎的保守程度,这4项陈述是依次排列的,对 此做出的回答有下列5种模式。 思想开放的回答者(类别A)同意全部回答项目,最保守 的回答者(类别E)反对全部项目。
字、符号分别来代表人、事物、事件属性的过程和方法。
社会测量与自然科学测量相比,社会测量
有两个特点:
(1)对社会现象的测量其标准化和精确化程度均
较低
(2)这种测量不完全是数量化的,它也可以是类 别化的。
(二)社会测量的尺度
作为社会研究与社会统计中可以取二个或以上值的变
量,它有质的差异和量的不同,有间断和连续的区别;同
X1=5十1十4十3=13(分) 这里X1代表某人在变量A上的得分。 倘若我们发了500份问卷,其中300份是工人填的,200 份是农民填的。 统计结果,300个工人的平均得分为12分,200个农民的 平均得分为14分。我们就可以从总体上进行比较,农民平 均得分高于工人,说明农民在重男轻女问题上受封建思想 影响比工人深。
2、定序尺度
定序尺度也称等级尺度、顺序尺度。定序尺度的取值 可以按照某种逻辑顺序将调查对象排列出高低或大小,确 定其等级及次序。所得变量可用数学符号 “>”或“<”来表 示。 例如:文化程度: (1)不识字或识字很少, (2)小学, (3)初中, (4)高 中, (5)大专, (6)大学, (7)大学以上
第四章 效度
第四章效度信度解决的是测验分数是否可靠的问题,但即使一个测验分数有跨时间的稳定性和跨情境的一致性,却不能保证测验分数代表了被试的真实水平。
比如说,某测验的目的是测量能力,但测题却都是一些死记硬背的知识,测验分数是不能代表被试真实能力水平的。
这就涉及了测量的客观性和准确性问题,即测验的效度问题。
第一节效度概述一、效度的概念测验的效度(validity)指的是测验的有效性,即测验分数能够代表所要测量的心理特质的程度,或测验结果达到测验目的的程度。
任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。
一些编制得好的智力测验一般是效度较高的,但也免不了受智力之外的因素的影响。
因为测验的题目必然要从人们的生活实践中选材,来自不同生活背景的人对同一个测验题目的熟悉程度是不同的,即使智力相同,测验分数也会不同。
因此人们的知识经验就成了影响测验分数的无关因素之一。
研究表明,文化和种族因素会造成测验的不公平,因为与测验分数有关的并不完全是智力。
人格和成就测验同样存在无关因素影响测验分数的问题。
效度总是针对一定的测验目的而言的。
例如,用编制得好的人格测验测量人的个性,诊断心理障碍是有效的,即有一定效度,但若用来测量智力,测量结果就是无效的。
因为人格与智力无关,故分数的高低不能代表智力的高低。
以上讨论的是心理测量中的效度问题,在物理测量中,效度问题也是同样存在的。
如,用不标准的尺子量物体,用不准确的称去称物体,都会使测量的结果不准确。
可见,效度是由于测量工具(量尺)本身的问题造成的,在多次测量中都会恒定地出现而无法消除,因而称系统误差。
测量的效度问题是测验结果中包含了多大比例的系统误差的问题,系统误差可能是由以下几方面原因造成的:(1)所要测量的特质有多方面的含义,而量表本身未能全部包含这些方面;(2)测验题目中包含了与所测特质无关的题目;(3)记分方面的问题,如选择题的备选答案是不全面的,即没有完全体现被试情况的差异,因此答案就不是足够准确的,而且各题目得分是简单累加而未经加权处理,不同题目的重要性程度就没有得到区分。
第四章测量的信度与效度ppt课件
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
致程度,其大小等于同一组被试在两个复本测验 上所得分数的积差相关系数。计算公式同重测信 度。
2. 信度的测量学定义(操作性定义)
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
3. 误差方差与信度的关系
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
信度和效度 ppt课件
比如:我们为了探讨婚姻满意度与其他变量之间 的关系,建构了一个理论假设:婚姻满意度与婚 姻忠诚度有关,即婚姻满意度较高的人其婚姻忠 诚度也较高。如果我们用“你有没有欺骗对方的 情形”作为婚姻忠诚度的一个测量指标,而且测 量的结果与理论假设一致,即婚姻忠诚度与婚姻 满意度之间具有较强的逻辑联系,则婚姻忠诚度 这一测量指标就有较高的建构效度。但是,如果 研究显示,对婚姻满意的和对婚姻不满意的夫妻 都有欺骗对方的情形,那么,用婚姻忠诚度这一 指标来测量婚姻满意度的建构效度就有待商榷了。
9
(2)标准效度。也称小标度或标准关联效度。是指以某次测量的 结果为标准,来评价与之相关的另一测量的有效性。例如,评价 汽车驾校笔试成绩的效度,要看考生毕业后的实际驾车技术(如 事故发生率),如果这两个测量之间的相关性较高(比如,考生 在驾校的笔试成绩较高,其毕业后的驾车技术也较好),说明该 汽车驾校的笔试成绩是有效的,反之,就说明该驾校的笔试成绩 的有效性值得怀疑。这里,考生的实际驾车技术就是评价其笔试 成绩效度的标准。
关系数,就可以得出所调查问题的信度。
5
(3)折半信度。复本信度,复查信度的共同特点都是必 须进过两次调查才能检验其信度,在调查只实施一次的 情况下,通常采用折半法估计测量的信度。即将调查的 所有问题按性质、难度编好单双数,在单数题目的回答 结果与双数题目的回答结果之间求相关,这一相关系数 就叫做折半信度。这里必须注意的是,由于问卷是按折 半拟出的,因而问卷题目只是原来的一半。由于长度减 少会降低信度,因此,必须根据以下加以校正放大: r系=2数rn。/1比+r如n。,其应中用r是折修半正法后求的得信录度用,人r员n是时折进半行求考得试的的相成关 绩和录取后工作能力的相关系数为0.7,代入上述公式 r=2×0.7/1+0.7=0.82,这里求出的0.82就是根据公式放大 的相关系数。一般说来,社会调查的信度高达0.8以上, 才能认为调查是较为可靠的。
量表的信度和效度分析计算
2、效标效度旳举例
• 用高考旳成绩,作为预测学生大学期间学业成绩旳效标
(是否有研究成果表白,这两者之间是有亲密有关关系旳)
• 设计测量人们当代化观念旳量表时,媒介接触行为可 能是主要旳效标之一
(极难设想不看报、不听广播旳人会具有当代化旳观念)
可考虑以媒介接触频度、时间、内容等为详细旳效标
2、效标效度旳举例
• 信度高时效度不一定高 • 但效度高时信度一定高
三、信度评价
从三个方面来分析测量旳信度
• 稳定性 (stability) • 内在一致性 (internal consistency) • 等价性 (equivalency)
1、稳定性分析 也叫做测验--再测验法
目旳: 考察对于一样旳问答题(或测试) 对同一组被访者或受测试者 前后两次测量旳成果是否基本一致
0.81387 0.71011 0.68234 0.64671 0.74905 0.77368 0.56495 0.36928 0.57227 0.51867 0.84701
0.79518
有效 累计有 程度 效程度
25.9% 25.9%
16.0% 41.9% 11.7% 53.6%
3、构造效度---项目分析法 (难易度) 量表中各个题项旳“难易度”和“鉴别度”
量表旳信度与效度计算分析
一、信度(reliability)定义
若反复进行测量,产生相同成果旳精确程度 测量旳可靠性、稳定性和预测性 测量旳精确度
• 反复测量成果旳稳定性或一致性可能很高 • 但却可能是不精确旳
用零点没有调整在中心旳秤来测量重量 采用有明显导向性旳问答题构成旳量表测量态度
二、效度(validity)定义
Байду номын сангаас
第四章 效度
(4)选好正确的效标,定好恰当的效标测量,正确地使用 有关公式
第四节 效度资料的概化
所谓概化,是指在一定条件下得出的结论能否适用于其他 情况。测验的效度和信度一样,都与特定情境有关,只有 在具体情境下的效度,而没有笼统谈论某一测验的效度。 一、效度概化的几个方面 1 预测源的概化 •使用同一测验的不同复本是否同样有效? •同一测验对不同分数水平的人的预测是否同样有效?
(3)考察测验的实证效度法 l 根据效标把被试分组,考察其得分差异。
l 根据测验得分差异把被试分组,考察其所测特质(行为 表现)的差异。
(4)多种特质-多种方法矩阵法
方法:1、2、3 特质:A、B、C
A1
B1
C1
A2
B2
C2
A3
B3
C3
A1
B1 C1 A2
0.90
0.50 0.89 0.35 0.41 0.81 0.58 0.25 0.10 0.95
2.结构效度的确定方法 结构效度确立的一般步骤: (1)提出理论框架; (2)依据理论框架推演出有关测验成绩的假设; (3)用逻辑或实证的方法来证明假设。
具体方法: (1)测验内部寻找证据法 l分析测验的内容效度:若内容效度高,说明其结构效度也 高;
l分析被试对题目反应的特点:
有无社会称许性的题目,如“当事情不顺我意时,我时常动 怒。”对该题的回答,也许反映不了要测的性格。
第四章 测量效度
第一节 效度概述
一、什么是效度
效度( validity )是指一个测验或量表实际能测出其所要测 的心理特质的程度。
(1)效度是一个相对的概念:每个测量工具都有自己的目 的;内隐特质是通过外显行为间接测得的。
第四章测量信度.ppt
第一节 信度概述
信度:测验结果一致性的判断 (一个测验可靠性和稳定性的指标)
一个好的测验在多次测量同一个人的 时候结果应该是基本一致的.
一、信度与测量误差
1.经典测量理论的假设
X T E T V I X V I E
式中,X为观察分数,T为一般真分数, E为随机误差分数,V为目标真分数,I为 非目标真分数(系统误差)。
分半信度?使用时需注意的问题?在估计测验的分半信度时虽然要求把一个测验的所有题目随机地划分成对半的两个部分但是在实践中对测验分半时为了尽量减少无关因素的影响通常需要考虑题型题分题目测试先后顺序等因素的平衡问题比如按照题目顺序奇偶分半就是一个经常选择的方法
第四章 测量信度
本章提要
测量信度的概念及作用 信度的估计方法 影响信度的主要因素 提高信度的常用方法
项目同质性 当被试在同一测验里表现出跨项 目的一致性时,就称测验具有项目同质性。 也就是测验里各测题得分为正相关时,即为 同质,反之测题间相关为零则为异质。
三、内部一致性信度(同质性信度)P56
1.含义 ➢内部一致性信度主要评价了测验各随 机组成部分之间是否测量了相同的心 理特质,因此,它反映的是题目内容 的抽样一致性程度。
测量标准误差(standard error of measurement)是测量误差的假设分布的标准 差。用下列公式能够容易地计算测量标准误差:
SEM SDt 1 rXX
式中,SDt表示测验分数的标准差,rXX表示信 度系数。
四、信度的标准与作用P51
1.信度是评价测验质量的重要指标之一。
测验类型
4.使用重测信度时需要注意的问题 ➢两次施测时间间隔的长短会影响重测信度 系数估计值的大小,因此,在报告重测信 度系数时应该报告间隔的时间长度。 ➢应该根据已有的相关研究结论考虑所测心 理特质本身的稳定性程度,以确定前后两 次施测时间的间隔究竟应该多长比较合适 时,不应该随便选择间隔时间的长短。
第四章 测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件
要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。
第三、四节 测验的信度与效度
第三四节第三、四节测验的信度与效度测量心理学>>测验的信度与效度测验的信度与效度⏹本节要点●信度的概念●信度的评估方法●信度与测验分数的解释●影响信度的因素●效度的概念●效度的评估方法效度评估方法●效度的功能●影响效度的因素⏹本节小结⏹试题解析2012年8月12日主讲人:董一胜2第单元第一单元信度的概念测量心理学>>测验的信度与效度>>信度的概念第单元第一单元信度的概念信度的定义信度的指标信度的定义⏹同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度⏹信度只受随机误差的影响⏹CTT●X=T+E 222x T eS S S =+⏹信度的定义2012年8月12日主讲人:董一胜5第单元第一单元信度的概念信度的定义信度的指标第二单元信度评估的方法测量心理学>>测验的信度与效度>>信度评估的方法信度的评估方法⏹重测信度●间隔时间一般在两周到四周,最好不要超过6个月⏹复本信度●以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数⏹内部一致性信度●反映的是题目之间的关系,表示测验能够测量相同内容或特质的程度反映是题目间关,表测能够测相同内容或特质程度⏹评分者信度●测量不同评分者之间所产生的误差,常用的是肯德尔W系数(肯德尔和谐系数)、Kappa法2012年8月12日主讲人:董一胜9第三单元信度与测验分数的解释测量心理学>>测验的信度与效度>>信度与测验分数的解释第三单元信度与测验分数的解释 解释真实分数与实得分数的相关确定信度可以接受的水平解释个人分数的意义比较不同测验分数的差异解释真实分数与实得分数的相关真分数变异占测验的总变异的比例2012年8月12日主讲人:董一胜12第三单元信度与测验分数的解释解释真实分数与实得分数的相关确定信度可以接受的水平解释个人分数的意义比较不同测验分数的差异确定信度可以接受的水平<0 70时测验不能用于对个人作出评价或预测⏹当r xx <0 .70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;⏹当0.70≤ r xx <0.85时,可用于团体比较;⏹当r xx ≥ 0.85时,才能用来鉴别或预测个人成就或作为。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)折半信度(Split-Half Reliability) 将同一量表施测后的题目分成两半,分别计算这两半的 总分及其相关系数,此一相关系数即为折半信度。
由于实际上折半信度系数会比全部题目放在一起计算获 得的信度低,所以求得的折半信度需要进一步修正。 折半信度的优点在于只需要施测一次,因而可以节省人 力、物力和时间。 但由于折半信度需将一份量表分成两半,分法不同,所 获信度就会不同。 如可以将测量结果按题目的单双号分成两部分。
2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
(3)结构效度(Construct Validity) 结构效度也称建构效度。 它是指一个测验实际测到所要测量的理论结构和特质的 程度,是指实验与理论之间的一致性,即实验是否真正测量 到假设(构造)的理论。 结构效度分析所采用的方法是因素分析(因子分析)。 在因素分析的结果中,用于评价结构效度的主要指标有累计 贡献率、共同度和因子载荷。 结构效度的体现首先必须作KMO和Bartlett球形检验, 如果这两个检验合格的话,说明数据是适合做因素分析的。 通常KMO的值小于0.5时较不适合做因素分析,一般以大于 0.7为好。 然后提取因子,主因子解释总变异一般若大于60%的和 因子载荷大于0.6的话,说明结构效度很好。
(4)克朗巴哈α系数(Cronbach α) 美国教育心理学家Lee Joseph Cronbach于1951年提出 了一种计算问卷或测验的测量工具的信度,称为Cronbach α系数。 当一个研究任务项由很多题目组成,每个问项都与研究 任务项相关,若以总分的方差与问项的方差作为测量信度的 指标,即为α系数。
Cronbachα系数的计算公式为:
2 S i
n (1 2 ) n 1 S
已知:题项n=8,
8题加总后量表总分的方差S2=3.467,
2 S 8 个题项的方差总和 i =1.533
8 1.5333 8 (1 ) (0.558 ) 0.637 8 1 3.467 7
X T BE
式中,T为真实值,B为偏差即系统误差,E为测量误差即随 机误差。
由于系统误差很难分解,因而有时将系统误差包含在真实值 中,上式可以简化为:
X T E
对于测量误差E,一般假定它的期望值是0,与真实值相独 立,在此假定下,可以证明:
E ( x) E (T )
实得分数和真分数的总体均值相等。
A B C ቤተ መጻሕፍቲ ባይዱ E F
计算获得描述性统计量如下表:
描述性统计量
题号 A1 个数 6 最小值 最大值 4 5 平均数 4.833 标准差 0.408 方差 0.167
A2
A3 A4 A5 A6 A7 A8 ∑Si2 总分
6
6 6 6 6 6 6 6
1
1 4 2 4 4 2 24
2
2 5 3 5 5 3 29
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
2 co 效度 2 o
2 式中, co 为个体在与属性有关的共同特征上所造成的变异 2 量, o 为在某测量上所得数值的总变异量。
3、影响效度的因素 调查提纲的科学与否; 调查程序选择是否得当; 调查项目的设计是否合理; 调查方法的选择是否得当。 其中,调查项目的设计最为重要。 4、效度的量化 虽然效度可分为内容效度、准则效度和结构效度,但每 一种效度都很难测量。没有方法可以真正保证研究者可以测 量到要测量的理论构想。 在学术研究中,经常只能通过强调量表设计程序的过程 严谨,或经过专家的修正及经过预测,以此来强化其具有的 效度。但这只是内容效度,准则效度和结构效度仍难测量。
三、在SPSS上实现克朗巴哈α系数的计算
第一步:按Analyze-Scale-Reliability打开主对话框。 第二步:在左侧的源变量框中选择变量进入Items框,作 为分析变量。 第三步:在源变量框的Model选项框中,选择Alpha (α)信度系数。 第四步:在主对话框,单击OK按钮,提交运行。 第五步:判断计算结果是否可以接受。
由于旅游者流动性太强,因而不适宜使用再测信度分 析。
(2)复本信度(Alternative-Form Reliability) 当某一套量表有两种以上版本时,可以替换使用,根据 一组被调查者接受两个复本测量的数值来计算相关系数,以 避免再测信度的缺陷。 复本是指内容相似、难易度相当的两份量表,对同一受 测群体,第一次使用A份测试,第二次使用B份测试,两次 分数的相关系数即为复本信度。 复本得分的差异是由量表的内容造成的,而非时间造成 的。
(2)准则效度(Criterion Validity) 准则效度又称为效标关联效度(criterion-related validity)、 预测效度(predictive validity)。 它是指量表所得到的数据和其他被选择的变量(准则变 量)的值相比是否有意义,被访问者的答案看起来是否在设 计时所考虑的度量范围之内。 调研人员对问卷一般都可以客观地判断它的表面有效 性。因此,设计每一个问题时都应该有表面有效性的假定。 符合这种标准的测量工具是可以作为测量某一特定现象或概 念的效标。 当我们对同一现象或概念进行测量时,我们可以使用多 种测量工具,每种测量方式与效标的一致性就成为准则效 度。 评价准则效度的方法是相关分析或差异显著性检验。 但选择一个合适的准则往往十分困难。
2 2 2 Rxx T2 / X 1 ( E /X )
信度系数越大,表明测量的可信程度越大。 信度的估计方法有许多,比较易于使用的是相关系数的方 法。 一般采用同一问卷进行两次调查,再计算其相关系数。
3、信度的类型 (1)再测信度(Retest Reliability) 再测是指在不同时间的相同测验。 使用同一测量量表,对同一受测群体,在不同的时间前 后测试两次,再计算两次测试结果的相关系数,该系数即为 再测信度。 重复测量时,要注意时间间隔的合理控制。如果时间间 隔太短,受测者可能还记忆犹新,容易造成信度偏高。 如果时间间隔太久,可能环境条件的改变、或者受测者 心智成长会影响再测结果,从而造成信度偏低。 因而时间间隔应随测验的目的与性质而定。
α系数的判断标准:
内部一致性信度系数值 α系数<.50 .50≤ α系数<.60 .60 ≤ α系数<.70 .70 ≤ α系数<.80 .80 ≤ α系数<.90 α系数≥.90 层面或构念 整个量表
不理想,舍弃不用 非常不理想,舍弃 不用 可以接受,增列题 不理想,重新编制 项或修改词句 或修订 尚佳 佳(信度高) 勉强接受,最好增 列题项或修改词句 可以接受
tests. Psychometrika, 16(3),297-334.
设一份量表包括n个项目(x1,x2, …,xn), 假设这n个项目的分数都 与真实分数T有关,即每一个项目xi除与T有关外,也有独立的 误差项Ei,即令量表总和为H=x1+x2+…+xn.
n Var ( H ) Var ( xi ) n i 1 RH n 1 Var ( H ) 2 Si n 1 2 n 1 SH
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
01 02 03 04 5 1 2 5 5 1 2 4 5 2 2 5 5 1 2 5 5 1 2 5 4 1 1 5 4.833333 1.166667 1.833333 4.833333 0.408248 0.408248 0.408248 0.408248 0.166667 0.166667 0.166667 0.166667 05 06 07 08 2 5 4 3 3 5 5 2 3 5 5 2 3 5 5 3 3 5 5 2 3 4 4 2 2.833333 4.833333 4.666667 2.333333 0.408248 0.408248 0.516398 0.516398 0.166667 0.166667 0.266667 0.266667 总分 27 27 29 29 28 24 27.33333 1.861899 3.466667
5、效度的类型 (1)内容效度(Content Validity) 也称为表面效度(Face Validity)、逻辑效度。 它是指问卷的内容是否具有代表性,即是否包括被测量 构成所有层面的项目。 若问卷内容是以理论为基础,并参考以往学者类似研究 的问卷内容加以修订,并与实践或学术专家讨论过,且进行 过预测,即可以认为具有相当的内容效度。 内容效度反映设计的观测变量是否代表了所要测量的内 容或主题,可通过计算观测变量单项与得分总和之间相关系 数来测量,相关系数越大,量表的内容效度越高。一般要求 所测单项与总和之间的相关系数 在0.3以上。 考察内容效度旨在系统地检查测量内容的适当性,并根 据我们对所研究概念的了解去鉴别测量内容是否反映了这一 概念的基本内容。