第四章测量的信度与效度
心理测量—效度
相同特质不同测量方法之间的相关(会聚效度) 相同方法测量不同特质的相关(区分效度) 不同方法测量不同特质之间的相关
(3)因素分析
因素分析将为数众多的观测变量缩减为少数不 可测的潜变量(因素),即用最少的因素概括 和解释最大量的观测数据。
年龄差异只是效度的一个必要条件而不是充分条件。
教育与训练效应
有效的教育与训练会提高被试的某种特质水平,这 种变化应在测验分数中体现出来。
4.对构想效度的评价
贡献
把着眼点放在提出假设、检验假设上,因此 使心理测验不再只是做决定的辅助工具,同 时还成为发展心理学理论的重要工具。
缺点
有些构想概念模糊,缺乏统一的定义。 确定效度时没有明确的操作步骤与程序。 没有单一的数量指标来描述有效的程度。
如果后测成绩有较大提高,说明测验确实测 量了所教授的内容,测验的内容效度较好。
(4)经验法
检查项目分数和测验总分随年级升高的变化情 况,一般而言,应保留从低年级到高年级学生 通过的百分比增加最大的那些项目。
分析学生所使用的各种解答方法以及测验中常 见的错误。
计算测验分数与阅读理解分数的相关,检查阅 读指导语的能力对测验成绩可能产生的无关影 响。
3.内容效度的特点
(1)内容效度的特定性 测验的内容效度与测验的编制者所定义的
内容范围有关。
(2)内容效度常与表面效度混淆
表面效度(Face validity)是在受测者、没 有受过训练的观察者看来这个测验是否有效。
注意:
表面效度会影响被试的测验动机,适当的表面 效度会让被试觉得测验是有意义的,也会更加 配合测验实施。
第四章、社会测量
2.量表scale:
是在经验层次上对社会事实进行主观评价的具有 度加序的测量工具。 度加序的测量工具。量表是由一组带有测量功能的问 题,反映不同选项变量程度的强弱。
政治参与程度量表
是的 1.你进行过选民登记吗? 2.你参加过投票吗? 3.你为政治运动捐过款吗? 4.你为政治运动工作过吗? 5.你自己参加过竞选议员吗? 不是的
• C、折半信度: 、折半信度: 分单双数记分、比较。类似分组测验。折 分单双数记分、比较。类似分组测验。 半需进行校正 r=2* rn/(1+rn) , rn 为折半求得 的相关系数。 的相关系数。
第四节 社会测量的信度和效度
二、社会测量的效度 1、效度定义 、 是指在社会测量活动中, 是指在社会测量活动中,测量主体运用某 一确定的测量手段所获得的测量结果的恰当、 一确定的测量手段所获得的测量结果的恰当、 准确、有效的程度。 准确、有效的程度。效度的高低取决于测量 结果与真实情况的一致程度。 结果与真实情况的一致程度。是反映实际的 程度。 程度。
分辨系数: 先根据受测对象全体的总分排序,然后取出总 分最高的25%的人和总分最低的25%的人,并计算 这两部分人在每一条陈述上的平均分,次这两个平 均分相减,所得出的就是这一条陈述的分辨力系数。 (见例)
• 2、鲍格达斯社会距离量表(积累量表) • 产生于20世纪20年代,某一群体所持的态度及所保持的距离。
(二)测量的四要素
• 1.客体:研究对象 (各类分析单位,如:个、 家庭、组织等社会群体。) • 2.内容:测量客体的某种属性或特征 (人的 年龄、性别、态度、职业、收入、社会地 位、家庭状况等)
• 3.法则:在测量过程中,对具体的测量内容 和测为行规范的操作规则, 如:1、年初人口数加年末人口数乘以1÷2, 就是该年的平均人口数”。 2、测量人们对某一事物的态度的规则, 常用数字和符号表达事物属性或特征的操 作规则。用1代表“非常意”;用2代表 “比较满意”;用3代表“无所谓”;用4 代表“不太满意”;用5代表“非常不满 意” 。
高等教育社会科学研究方法社会测量ppt课件
例3 “现代化的生存环境”
李银河博士在研究浪漫爱情时,试图检验这样一个假 设:人们的生存环境越接近现代化,则他们越会看重 浪漫爱情
为此,她需要对“现代化的生存环境”进行操作化
“现代化生存环境”的操作化
概念
现代化的 生存环境
维度
指标
时间维度——————年 龄 空间维度——————城乡社区 社会经济地位维度——教育程度
社会科学研究方法
1
第四章 测量与操作化
测量的概念与层次 概念的具体化与操作化
测量的信度和效度
§1 测量的概念与层次
一、所谓测量(Measurement)
定义:根据一定的法则,将某种物体或现象所具有 的属性或特征用数字或符号表示出来的过程。
作用:确定一个特定分析单位的特定属性的类别或 水平。
二、测量的四个要素
0
0
测量层次小结
类别区分(=、=)
定类变量 定序变量 定距变量 定比变量
有
有
有
有
次序区分(>、<)
有
有
有
距离区分(+、-)
有
有
比例区分(×、 ÷ )
有
测量层次的比较
层次
特征
定类层次 相互排斥且可辨
别的类别
定序层次 定类层次
等 级 顺 序大 于或小于
层次上的单位具 有相等的意义
定比层次 有一个真正意义
消费态度 对尊严的评价 效能 家庭大小 意见的增多 与国家的认同
信息 大众传播媒介 亲属义务 社会阶级分层 新经验 妇女权力
宗教 专门技能 对时间的评价 计划 工作信念 了解生产
每一个维度下面,又分解成若干个更为具 体的指标
第4章 测量的信度与效度
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
测量的信效度
评分者信度(Scorer Reliability)
最简单的估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个评判分数 的相关系数。这种相关系数的计算可以用积差相关 方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时, 就需要用肯德尔和谐系数来求评分者信度。
评分者信度scorerreliability信度系数的类型误差变异的来源计算公式次数所需复本数目重测信度时间取样积差相关系数复本信度连续施测内容取样积差相关系数复本信度间隔施测时间取样内容取样积差相关系数分半信度内容取样积差相关系数需校正常用斯布公式同质性信度内容的异质性系数非二分法评分者信度评分者间的差积差相关系数斯皮尔曼等级相关系数肯德尔和谐系数在一般情况下间隔施测的复本信度最低因为很多因素有机会影响到分数
分半信度的估计
斯皮尔曼-布朗校正公式
rXX 2rx1x 2 1 rx1x 2
rx1x2 表示两半测验分数的相关系数
如果两半测验不等值,亦即两半测验分数没 有相同的平均数和标准差
弗朗那根公式:
r 2(1
S a Sb
2
2
Sx
2
)
Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分 的变异数。
SX2 = SV2 + SI2 + SE2
SX2 SV2 SI2 SE2
ST2
系统误差的影响
系统误差可能是由以下几方面原因造成的:
1)所要测量的特质有多方面的含义,而量表本身未能
测量量表的信度和效度
信度和效度的概念
内容效度
效度
指测量量表的准确性,即量表是否真实 反映所要测量的内容或特质。效度分为 内容效度、结构效度和验证效度。
专家对量表内容的评价,确保量 表内容与测量目的相符合。
信度
指测量量表的可靠性,即多次测量结果 的一致性程度。信度高的量表在相同条 件下重复测量,其结果具有一致性。
结构效度
通过因子分析、相关分析等方法 检验量表的结构是否符检验其一致性程度。
02 信度分析
重测信度法
定义
重测信度法是指在不同时间对同一组被试者进行重复测量,通过 比较两次测量的结果来评估量表的稳定性。
适用范围
适用于评估短期内量表的稳定性,但不适合评估长期内的稳定性。
根据测量目的和范围, 设计量表的框架和题目。
预测 试和 修订
在小范围内预测试量表, 根据反馈进行修订和完
善。
大规 模施 测和 数据 分析
THANKS FOR WATCHING
感谢您的观看
测量量表的信度和效度
contents
目录
• 引言 • 信度分析 • 效度分析 • 信度和效度的关系 • 信度和效度在实践中的应用
01 引言
测量量表的意义
测量量表是评估个体或群体特征的重 要工具,广泛应用于心理学、社会学 、经济学等领域。
通过测量量表,可以对个体的心理状 态、行为特征、能力水平等进行量化 评估,为研究和实践提供客观、准确 的依据。
Cronbach's Alpha系数
定义
适用范围
计算方法
Cronbach's Alpha系数是一种评估量 表内部一致性的方法,通过计算量表 中各项目之间的相关性来评估量表的 可靠性。
测量的信度与效度
信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量,计算 两次测量结果的相关系数,以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量,计算各 测量工具之间的相关系数,以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性,计 算内部一致性系数(如Cronbach's Alpha系 数),以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的 不确定性。
特点
随机误差的大小和符号都是随机的,无法预测和 控制。
示例
测量时环境的微小变化、测量仪器的微小波动等 都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求 而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用,也会对效度产 生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性,即多次测量结果之间的相符程度。 如果一个测量工具缺乏信度,那么它的测量结果会不稳定, 无法为决策提供可靠依据。因此,信度是效度的必要条件, 没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等,通过这些方法可以评估测量工具的一致性 和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性,即测量结果是否真实反映所需测量的内容。如果一个测量工具具有 效度,那么它的测量结果是准确的、有意义的,能够为决策提供可靠依据。因此,效度是信度的充分 条件,有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等,通过这些方法可以评估测量工具的准 确性和有效性。
第四章 测量
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
三、语义差异量表
语义差异量表(semantic differential)也称为语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。 语义差异量表的形式由处于两端的两组意义相反的形容词 构成,每一对反义形容词间又分为7~11个等级区间,我们对观 念、事物或人的感觉可以通过我们所选择的两个相反形容词之 间的区间反映出来。记分方法有两种(以7个等级为例),一 种是将每一等级的分数从左至右分别记为7、6、5、4、3、2、 1,另一种则是记为+3、+2、+1、0、-1、-2、-3。
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
一、总加量表
总加量表(summated rating scales)也称为总和量表或总 全评量,它由一组反映人们对事物态度或行为的陈述项目构 成,回答者分别对这些陈述发表意见,根据他们的答案(同 意或不同意、是或不是)分别计分,然后将回答者在全部项 目上的得分加起来,以此表示回答者对这一现象的态度或行 为得分。这个分数是其态度、行为的数量化结果,它的高低 代表了个人在态度、行为量表上的位置。
社会调查方法
21世纪思想政治教育专业系列教材
第一节 测量的概念和特征
测量的四个要素 用来表示测量结果的工 具 客观世界中存在的事物或现象, 是我们要用数字或符号来进行 表达、解释和说明的对象
测量客体
数字或符号 Company LOGO
测量内容
用数字或符号表达事物 各种属性或特征的统一 标准.
测量法则
社会调查方法
21世纪思想政治教育专业系列教材
第五节 信度和效度
信度:简单地说,信度就是指测量数据和结论的可靠性程 度,也就是说测量工具能稳定地测量到它要测量的事项的 程度。
4第四章社会测量及指标
4.定比尺度
定比尺度也称比例尺度、等比尺度。定比尺度除具有 上述三种尺度的全部性质之外,还具有一个共同的基准— —有实际意义的零点(绝对零点)。 所以它所测得的数据,既能作加减运算,又能作乘除 运算。 例如身高、年龄、出生率、工资等都是定比尺度。 如张三的工资是180元,李四的工资是90元,便可说张三
下面是一个包括4项用来测量堕胎态度陈述的哥特曼量表。 (1)任何孕妇均可要求堕胎: 同意 反对 (2)孕妇在其身心健康受影响的情况下可以堕胎: 同意 反对 (3)孕妇在生命有危险时方可堕胎: 同意 反对 (4)孕妇在胎儿有残废和死亡倾向时可以堕胎: 同意 反对 依据对堕胎的保守程度,这4项陈述是依次排列的,对 此做出的回答有下列5种模式。 思想开放的回答者(类别A)同意全部回答项目,最保守 的回答者(类别E)反对全部项目。
字、符号分别来代表人、事物、事件属性的过程和方法。
社会测量与自然科学测量相比,社会测量
有两个特点:
(1)对社会现象的测量其标准化和精确化程度均
较低
(2)这种测量不完全是数量化的,它也可以是类 别化的。
(二)社会测量的尺度
作为社会研究与社会统计中可以取二个或以上值的变
量,它有质的差异和量的不同,有间断和连续的区别;同
X1=5十1十4十3=13(分) 这里X1代表某人在变量A上的得分。 倘若我们发了500份问卷,其中300份是工人填的,200 份是农民填的。 统计结果,300个工人的平均得分为12分,200个农民的 平均得分为14分。我们就可以从总体上进行比较,农民平 均得分高于工人,说明农民在重男轻女问题上受封建思想 影响比工人深。
2、定序尺度
定序尺度也称等级尺度、顺序尺度。定序尺度的取值 可以按照某种逻辑顺序将调查对象排列出高低或大小,确 定其等级及次序。所得变量可用数学符号 “>”或“<”来表 示。 例如:文化程度: (1)不识字或识字很少, (2)小学, (3)初中, (4)高 中, (5)大专, (6)大学, (7)大学以上
第四章 效度
第四章效度信度解决的是测验分数是否可靠的问题,但即使一个测验分数有跨时间的稳定性和跨情境的一致性,却不能保证测验分数代表了被试的真实水平。
比如说,某测验的目的是测量能力,但测题却都是一些死记硬背的知识,测验分数是不能代表被试真实能力水平的。
这就涉及了测量的客观性和准确性问题,即测验的效度问题。
第一节效度概述一、效度的概念测验的效度(validity)指的是测验的有效性,即测验分数能够代表所要测量的心理特质的程度,或测验结果达到测验目的的程度。
任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。
一些编制得好的智力测验一般是效度较高的,但也免不了受智力之外的因素的影响。
因为测验的题目必然要从人们的生活实践中选材,来自不同生活背景的人对同一个测验题目的熟悉程度是不同的,即使智力相同,测验分数也会不同。
因此人们的知识经验就成了影响测验分数的无关因素之一。
研究表明,文化和种族因素会造成测验的不公平,因为与测验分数有关的并不完全是智力。
人格和成就测验同样存在无关因素影响测验分数的问题。
效度总是针对一定的测验目的而言的。
例如,用编制得好的人格测验测量人的个性,诊断心理障碍是有效的,即有一定效度,但若用来测量智力,测量结果就是无效的。
因为人格与智力无关,故分数的高低不能代表智力的高低。
以上讨论的是心理测量中的效度问题,在物理测量中,效度问题也是同样存在的。
如,用不标准的尺子量物体,用不准确的称去称物体,都会使测量的结果不准确。
可见,效度是由于测量工具(量尺)本身的问题造成的,在多次测量中都会恒定地出现而无法消除,因而称系统误差。
测量的效度问题是测验结果中包含了多大比例的系统误差的问题,系统误差可能是由以下几方面原因造成的:(1)所要测量的特质有多方面的含义,而量表本身未能全部包含这些方面;(2)测验题目中包含了与所测特质无关的题目;(3)记分方面的问题,如选择题的备选答案是不全面的,即没有完全体现被试情况的差异,因此答案就不是足够准确的,而且各题目得分是简单累加而未经加权处理,不同题目的重要性程度就没有得到区分。
第四章测量的信度与效度ppt课件
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
致程度,其大小等于同一组被试在两个复本测验 上所得分数的积差相关系数。计算公式同重测信 度。
2. 信度的测量学定义(操作性定义)
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
3. 误差方差与信度的关系
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
第四章 信度
一
分半信度 同质性信度 评分者信度
复本信度 连续施测) (连续施测)
二
再测信度
复本信度 间隔施测) (间隔施测)
在一般情况下,间隔施测的复本信度最低,因 为很多因素有机会影响到分数.相反,校正过 的分半相关,因为影响的因素少,所得的信度 估计为最高.
各种信度系数相应误差变异的来源
信度系数的类型 再测信度 复本信度(连续施测) 复本信度(连续施测) 复本信度(间隔施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
时间间隔的把握
间隔时间越长,稳定性系数越低. 间隔时间越长,稳定性系数越低.适宜时间间隔依照测验 目的,性质及被试特点而定.几分钟至几年. 目的,性质及被试特点而定.几分钟至几年. 年幼儿童,间隔要小;年长群体,间隔可大. 年幼儿童,间隔要小;年长群体,间隔可大.智力测验的 间隔不能太短,成就测验的间隔不能太长. 间隔不能太短,成就测验的间隔不能太长. 一般间隔时间不超过六个月. 一般间隔时间不超过六个月.(即不能让被试记住上一次 测验的内容,又不能让其特质发生变化, 测验的内容,又不能让其特质发生变化,或对所学知识产 生遗忘) 生遗忘)
★注意排除施测顺序的影响
在报告结果时,应报告两次施测的间隔,及在此间隔内被试的有关经历.
稳定性与等值性(Stability 稳定性与等值性(Stability and Equivalent)信度 Equivalent)信度 1,定义: 如果两个复本测验是相距较长一段时间分两次施测的, 如果两个复本测验是相距较长一段时间分两次施测的,同 一组被试施测结果的一致性程度. 一组被试施测结果的一致性程度. 是一种最为严格的信度指标 时间间隔施测, 时间间隔施测,内容变异+重测信度误差 2,形式:复本A—适当时间—复本B 形式:复本A 适当时间—复本B
第四章 教育测验的质量分析
四是采用多种测试方法
多角度、多途径测量和评价学生
五是科学设置答题要点和评分细则 六是严格挑选、培训评卷人员,多个评分者评分。
(二)测验的效度
1.含义:效度是指有效性程度。测验的效度,是指
测验实际测量出其所要测量的特质的程度。即测验在 多大程度上测量到了所要测的东西。 衡量测验有效性的主要依据:达到测验目的的程度。 信度和效度的关系:
(二)测验项目的区分度
项目区分度是指测验题目对其学业水平不同的考生的区分程度 或鉴别能力,即通过测试考出学生的不同水平,把优秀学生、 一般学生和困难学生区别开来。 区分度是试题区别被试水平能力的量度,区分度高的项目,能 将不同水平的被试区分开来。 如果一个项目,实际水平高的被试能顺利通过,而实际水平低 的被试不能通过,该项目就具有较高的区分度。 区分度是测验质量的一个重要指标,说明的是试题对于测验目 的来说的有效性程度。 项目区分度一般由被试在某项目的得分与实际能力水平(一般 用测验总分表示)之间的相关系数来表示,相关程度越高,该 项目区分度就越高。
杂程度等
第四,题目的变化动态。
题目的迷惑性、干扰性,题目设置的灵活程度,题目
隐含的已知条件等
测验难度水平的确定*
测验题目难度水平的适当与否,取决于测验的目的、
性质和题目的形成。
测验是为了了解被试在某方面知识技能的掌握情况,这时
难度高低不用过多考虑,只要认为是重要的内容就可以选 用。但如果测验目的是为了选拔,测验的平均难度就应该 和选拔率大致相同。
L另外,被试的主观态度、测验内容取样是否恰当、
施测情境是否良好、测验时间是否充裕等,也都会影 响测验的信度。
第四章 效度
(4)选好正确的效标,定好恰当的效标测量,正确地使用 有关公式
第四节 效度资料的概化
所谓概化,是指在一定条件下得出的结论能否适用于其他 情况。测验的效度和信度一样,都与特定情境有关,只有 在具体情境下的效度,而没有笼统谈论某一测验的效度。 一、效度概化的几个方面 1 预测源的概化 •使用同一测验的不同复本是否同样有效? •同一测验对不同分数水平的人的预测是否同样有效?
(3)考察测验的实证效度法 l 根据效标把被试分组,考察其得分差异。
l 根据测验得分差异把被试分组,考察其所测特质(行为 表现)的差异。
(4)多种特质-多种方法矩阵法
方法:1、2、3 特质:A、B、C
A1
B1
C1
A2
B2
C2
A3
B3
C3
A1
B1 C1 A2
0.90
0.50 0.89 0.35 0.41 0.81 0.58 0.25 0.10 0.95
2.结构效度的确定方法 结构效度确立的一般步骤: (1)提出理论框架; (2)依据理论框架推演出有关测验成绩的假设; (3)用逻辑或实证的方法来证明假设。
具体方法: (1)测验内部寻找证据法 l分析测验的内容效度:若内容效度高,说明其结构效度也 高;
l分析被试对题目反应的特点:
有无社会称许性的题目,如“当事情不顺我意时,我时常动 怒。”对该题的回答,也许反映不了要测的性格。
第四章 测量效度
第一节 效度概述
一、什么是效度
效度( validity )是指一个测验或量表实际能测出其所要测 的心理特质的程度。
(1)效度是一个相对的概念:每个测量工具都有自己的目 的;内隐特质是通过外显行为间接测得的。
第四章 测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件
要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 两个复本测验实施的时间不同,复本信度所表达 的含义略有不同。
➢ (1)等值性系数 ➢ 如果两个复本测验是同时连续测试的,则称这种
复本信度为等值性系数。等值性系数的大小主要 反映着两个复本测验的题目差别带来的变异情况。
心理特质方面没有其他的学习和练习
➢ 3.计算重测信度应注意的问题 ➢ (1)两次测验时间间隔要适当 ➢ (2)应提高被试的积极性 ➢ (3)适宜于人格测验与速度测验,不适合于智
力等难度测验
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
➢ 实际上α系数是所有可能分半信度的平均值, 但它是测验信度的一个下界值,即α系数值大, 测量信度必然高,但α系数值小,却不能判断 测量信度不高。
➢ 例题:某态度量表共7道题目,100个被试在各 题上得分的方差分别是0.81, 0.82, 0.80, 0.86, 0.88, 0.79, 0.89,测验总分的方差是26.00,计算该测量的 信度。
➢ (三)分半信度(Split-half reliability) ➢ 1.含义与计算 ➢ 是指将一个测验分成对等的两半后,所有被试在这两半上
得分的一致性。 ➢ 分半信度信度与等值性系数的解释一样,即可以把对等的
两半测验看成是最短时距内施测的两个平行测验。分半信 度描述的是两半题目间的一致性,所以也叫内部一致性系 数。
➢ 三、信度的作用 ➢ (一)评价测验 ➢ 信度是测量过程中所存在的随机误差大小的反映。信度低,
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
第四章 测量的信度与效度
➢ 本章提要: ➢ 信度的概念与估计方法 ➢ 提高信度的方法 ➢ 效度及其与信度的关系 ➢ 效度的种类与估计方法 ➢ 提高效度的方法
第一节 测量信度
➢ 一、什么是信度 ➢ 1. 信度的描述定义 ➢ 信度(reliability)是指测量结果的稳定性和
可靠性程度。
2. 信度的测量学定义(操作性定义)
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
施测所得的平均值,其误差则是这些实测值的标准差。但 实际上,这是做不到的。实际的做法是用一个团体(人数 足够多)两次施测得结果来代替对同一个人的反复施测, 以估计测量误差的变异数。
➢ 此时每个人两次测量的分数之差构成一个新的分 布,这个分布的标准差就是测量的标准误,它是 此次测量中误差大小的客观指标,有了这一指标, 就可以对团体中任何一个人的测验成绩做出恰当 的解释。
注意水平、作答态度等会影响测量信度。
➢ 就团体而言,团体的异质程度与分数的分布密切 相关,一个团体越是异质,其分数分布范围越大, 计算出来的信度系数值越高,这样会高估真正的 信度值。当团体内部水平相差不大(同质)时, 其得分分布必然会狭窄,以相关为基础计算出来 的信度值必然小,可能会低估真正的信度值。此 外若团体的平均数太高或太低,同样使测验的总 分分布变窄,低估测验的真正信度。
➢ (五)评分者信度(Scorer reliability) ➢ 1.含义与计算 ➢ 评分者信度指的是多个评分者给同一批人的答
卷进行评分的一致性程度。对于主观试题,不 同的评分者给出的分数是不等的,这样会造成 误差,如何降低评分者信度是心理测量的重要 任务之一。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
➢ 注意题目分半的方法:按题号奇偶性分半、按 题目难度分半、按题目内容分半等。
➢ 计算方法与复本信度类似,但被试在两半测验 上得分的相关系数只是半个测验的信度,所以 必须用斯皮尔曼—布朗公式加以校正:
➢ 2.使用的前提条件和范围 ➢ 分半信度通常是在只能施测一次或没有复本的情
况下使用。其中使用斯皮尔曼—布朗公式时要求 全体被试在两半测验分数的变异数相等。当测验 无法分成对等的两半时,无法使用。
3. 误差方差与信度的关系
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
➢ 2.重测信度使用的条件 ➢ (1)所测量的心理特质必须是稳定的 ➢ (2)遗忘和练习的效果基本上相互抵消 ➢ (3)在两次测试时间间隔内,被试在所要测查的
➢ (2)稳定性与等值性系数 ➢ 如果两个复本测验是相距一段时间分两次测试,
则称这种复本信度为稳定性与等值性系数。此 时两个题目间的差别、两次施测情境、被试特 质水平等方面的差别都会成为测验结果不一致 的原因。
➢ 2. 复本信度使用的条件 ➢ (1)两个测验必须在项目的内容、形式、数量、难易、
时限、指导语等方面相同或相似。 ➢ (2)两次测验的时间间隔要适当。 ➢ 局限: ➢ (1)复本法只能减少而不能排除练习和记忆效应。 ➢ (2)对于许多测验来说要建立复本是非常困难的。
2.不同测验分数的比较
➢ 四、影响测量信度的主要因素 ➢ 测量信度是测量过程中随机误差大小的反映,随
机误差大,信度就低,随机误差小,信度就高。 因此,在测量过程中凡是能引起测量随机误差的 因素都会影响测量信度。影响信度的几种主要因 素为:
➢ (一)被试方面 ➢ 就单个被试而言,其身心健康状况、应试动机、
➢ (四)同质性信度(Homogeneity reliability) ➢ 1.含义 ➢ 同质性信度也叫内部一致性系数,它是测验内部所有题
目间的一致性程度。这里的一致性有两种含义:一是所 有题目都测的是同一种心理特质,二是所有题目得分之 间都具有较高的正相关。同质性信度就是一个测验所测 内容或特质的相同程度。