第四章测量的信度与效度
合集下载
心理测量—效度

M3 攻击性 0.14 0.82 0.16 0.13 0.61 0.23 0.30 智力 0.21 0.01 0.72 0.06 0.19 0.52 0.49 0.36
相同特质不同测量方法之间的相关(会聚效度) 相同方法测量不同特质的相关(区分效度) 不同方法测量不同特质之间的相关
(3)因素分析
因素分析将为数众多的观测变量缩减为少数不 可测的潜变量(因素),即用最少的因素概括 和解释最大量的观测数据。
年龄差异只是效度的一个必要条件而不是充分条件。
教育与训练效应
有效的教育与训练会提高被试的某种特质水平,这 种变化应在测验分数中体现出来。
4.对构想效度的评价
贡献
把着眼点放在提出假设、检验假设上,因此 使心理测验不再只是做决定的辅助工具,同 时还成为发展心理学理论的重要工具。
缺点
有些构想概念模糊,缺乏统一的定义。 确定效度时没有明确的操作步骤与程序。 没有单一的数量指标来描述有效的程度。
如果后测成绩有较大提高,说明测验确实测 量了所教授的内容,测验的内容效度较好。
(4)经验法
检查项目分数和测验总分随年级升高的变化情 况,一般而言,应保留从低年级到高年级学生 通过的百分比增加最大的那些项目。
分析学生所使用的各种解答方法以及测验中常 见的错误。
计算测验分数与阅读理解分数的相关,检查阅 读指导语的能力对测验成绩可能产生的无关影 响。
3.内容效度的特点
(1)内容效度的特定性 测验的内容效度与测验的编制者所定义的
内容范围有关。
(2)内容效度常与表面效度混淆
表面效度(Face validity)是在受测者、没 有受过训练的观察者看来这个测验是否有效。
注意:
表面效度会影响被试的测验动机,适当的表面 效度会让被试觉得测验是有意义的,也会更加 配合测验实施。
相同特质不同测量方法之间的相关(会聚效度) 相同方法测量不同特质的相关(区分效度) 不同方法测量不同特质之间的相关
(3)因素分析
因素分析将为数众多的观测变量缩减为少数不 可测的潜变量(因素),即用最少的因素概括 和解释最大量的观测数据。
年龄差异只是效度的一个必要条件而不是充分条件。
教育与训练效应
有效的教育与训练会提高被试的某种特质水平,这 种变化应在测验分数中体现出来。
4.对构想效度的评价
贡献
把着眼点放在提出假设、检验假设上,因此 使心理测验不再只是做决定的辅助工具,同 时还成为发展心理学理论的重要工具。
缺点
有些构想概念模糊,缺乏统一的定义。 确定效度时没有明确的操作步骤与程序。 没有单一的数量指标来描述有效的程度。
如果后测成绩有较大提高,说明测验确实测 量了所教授的内容,测验的内容效度较好。
(4)经验法
检查项目分数和测验总分随年级升高的变化情 况,一般而言,应保留从低年级到高年级学生 通过的百分比增加最大的那些项目。
分析学生所使用的各种解答方法以及测验中常 见的错误。
计算测验分数与阅读理解分数的相关,检查阅 读指导语的能力对测验成绩可能产生的无关影 响。
3.内容效度的特点
(1)内容效度的特定性 测验的内容效度与测验的编制者所定义的
内容范围有关。
(2)内容效度常与表面效度混淆
表面效度(Face validity)是在受测者、没 有受过训练的观察者看来这个测验是否有效。
注意:
表面效度会影响被试的测验动机,适当的表面 效度会让被试觉得测验是有意义的,也会更加 配合测验实施。
第四章、社会测量

2.量表scale:
是在经验层次上对社会事实进行主观评价的具有 度加序的测量工具。 度加序的测量工具。量表是由一组带有测量功能的问 题,反映不同选项变量程度的强弱。
政治参与程度量表
是的 1.你进行过选民登记吗? 2.你参加过投票吗? 3.你为政治运动捐过款吗? 4.你为政治运动工作过吗? 5.你自己参加过竞选议员吗? 不是的
• C、折半信度: 、折半信度: 分单双数记分、比较。类似分组测验。折 分单双数记分、比较。类似分组测验。 半需进行校正 r=2* rn/(1+rn) , rn 为折半求得 的相关系数。 的相关系数。
第四节 社会测量的信度和效度
二、社会测量的效度 1、效度定义 、 是指在社会测量活动中, 是指在社会测量活动中,测量主体运用某 一确定的测量手段所获得的测量结果的恰当、 一确定的测量手段所获得的测量结果的恰当、 准确、有效的程度。 准确、有效的程度。效度的高低取决于测量 结果与真实情况的一致程度。 结果与真实情况的一致程度。是反映实际的 程度。 程度。
分辨系数: 先根据受测对象全体的总分排序,然后取出总 分最高的25%的人和总分最低的25%的人,并计算 这两部分人在每一条陈述上的平均分,次这两个平 均分相减,所得出的就是这一条陈述的分辨力系数。 (见例)
• 2、鲍格达斯社会距离量表(积累量表) • 产生于20世纪20年代,某一群体所持的态度及所保持的距离。
(二)测量的四要素
• 1.客体:研究对象 (各类分析单位,如:个、 家庭、组织等社会群体。) • 2.内容:测量客体的某种属性或特征 (人的 年龄、性别、态度、职业、收入、社会地 位、家庭状况等)
• 3.法则:在测量过程中,对具体的测量内容 和测为行规范的操作规则, 如:1、年初人口数加年末人口数乘以1÷2, 就是该年的平均人口数”。 2、测量人们对某一事物的态度的规则, 常用数字和符号表达事物属性或特征的操 作规则。用1代表“非常意”;用2代表 “比较满意”;用3代表“无所谓”;用4 代表“不太满意”;用5代表“非常不满 意” 。
高等教育社会科学研究方法社会测量ppt课件

例3 “现代化的生存环境”
李银河博士在研究浪漫爱情时,试图检验这样一个假 设:人们的生存环境越接近现代化,则他们越会看重 浪漫爱情
为此,她需要对“现代化的生存环境”进行操作化
“现代化生存环境”的操作化
概念
现代化的 生存环境
维度
指标
时间维度——————年 龄 空间维度——————城乡社区 社会经济地位维度——教育程度
社会科学研究方法
1
第四章 测量与操作化
测量的概念与层次 概念的具体化与操作化
测量的信度和效度
§1 测量的概念与层次
一、所谓测量(Measurement)
定义:根据一定的法则,将某种物体或现象所具有 的属性或特征用数字或符号表示出来的过程。
作用:确定一个特定分析单位的特定属性的类别或 水平。
二、测量的四个要素
0
0
测量层次小结
类别区分(=、=)
定类变量 定序变量 定距变量 定比变量
有
有
有
有
次序区分(>、<)
有
有
有
距离区分(+、-)
有
有
比例区分(×、 ÷ )
有
测量层次的比较
层次
特征
定类层次 相互排斥且可辨
别的类别
定序层次 定类层次
等 级 顺 序大 于或小于
层次上的单位具 有相等的意义
定比层次 有一个真正意义
消费态度 对尊严的评价 效能 家庭大小 意见的增多 与国家的认同
信息 大众传播媒介 亲属义务 社会阶级分层 新经验 妇女权力
宗教 专门技能 对时间的评价 计划 工作信念 了解生产
每一个维度下面,又分解成若干个更为具 体的指标
第4章 测量的信度与效度

2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
测量的信效度

取若干份试卷,由至少两位受过训练的评分者按计 分规则分别判分,然后计算它们的相关。几个评分 者 的 评 分 越 一 致 , 评 分 者 信 度 越 高 。
评分者信度(Scorer Reliability)
最简单的估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个评判分数 的相关系数。这种相关系数的计算可以用积差相关 方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时, 就需要用肯德尔和谐系数来求评分者信度。
评分者信度scorerreliability信度系数的类型误差变异的来源计算公式次数所需复本数目重测信度时间取样积差相关系数复本信度连续施测内容取样积差相关系数复本信度间隔施测时间取样内容取样积差相关系数分半信度内容取样积差相关系数需校正常用斯布公式同质性信度内容的异质性系数非二分法评分者信度评分者间的差积差相关系数斯皮尔曼等级相关系数肯德尔和谐系数在一般情况下间隔施测的复本信度最低因为很多因素有机会影响到分数
分半信度的估计
斯皮尔曼-布朗校正公式
rXX 2rx1x 2 1 rx1x 2
rx1x2 表示两半测验分数的相关系数
如果两半测验不等值,亦即两半测验分数没 有相同的平均数和标准差
弗朗那根公式:
r 2(1
S a Sb
2
2
Sx
2
)
Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分 的变异数。
SX2 = SV2 + SI2 + SE2
SX2 SV2 SI2 SE2
ST2
系统误差的影响
系统误差可能是由以下几方面原因造成的:
1)所要测量的特质有多方面的含义,而量表本身未能
评分者信度(Scorer Reliability)
最简单的估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个评判分数 的相关系数。这种相关系数的计算可以用积差相关 方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时, 就需要用肯德尔和谐系数来求评分者信度。
评分者信度scorerreliability信度系数的类型误差变异的来源计算公式次数所需复本数目重测信度时间取样积差相关系数复本信度连续施测内容取样积差相关系数复本信度间隔施测时间取样内容取样积差相关系数分半信度内容取样积差相关系数需校正常用斯布公式同质性信度内容的异质性系数非二分法评分者信度评分者间的差积差相关系数斯皮尔曼等级相关系数肯德尔和谐系数在一般情况下间隔施测的复本信度最低因为很多因素有机会影响到分数
分半信度的估计
斯皮尔曼-布朗校正公式
rXX 2rx1x 2 1 rx1x 2
rx1x2 表示两半测验分数的相关系数
如果两半测验不等值,亦即两半测验分数没 有相同的平均数和标准差
弗朗那根公式:
r 2(1
S a Sb
2
2
Sx
2
)
Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分 的变异数。
SX2 = SV2 + SI2 + SE2
SX2 SV2 SI2 SE2
ST2
系统误差的影响
系统误差可能是由以下几方面原因造成的:
1)所要测量的特质有多方面的含义,而量表本身未能
测量量表的信度和效度

信度和效度的概念
内容效度
效度
指测量量表的准确性,即量表是否真实 反映所要测量的内容或特质。效度分为 内容效度、结构效度和验证效度。
专家对量表内容的评价,确保量 表内容与测量目的相符合。
信度
指测量量表的可靠性,即多次测量结果 的一致性程度。信度高的量表在相同条 件下重复测量,其结果具有一致性。
结构效度
通过因子分析、相关分析等方法 检验量表的结构是否符检验其一致性程度。
02 信度分析
重测信度法
定义
重测信度法是指在不同时间对同一组被试者进行重复测量,通过 比较两次测量的结果来评估量表的稳定性。
适用范围
适用于评估短期内量表的稳定性,但不适合评估长期内的稳定性。
根据测量目的和范围, 设计量表的框架和题目。
预测 试和 修订
在小范围内预测试量表, 根据反馈进行修订和完
善。
大规 模施 测和 数据 分析
THANKS FOR WATCHING
感谢您的观看
测量量表的信度和效度
contents
目录
• 引言 • 信度分析 • 效度分析 • 信度和效度的关系 • 信度和效度在实践中的应用
01 引言
测量量表的意义
测量量表是评估个体或群体特征的重 要工具,广泛应用于心理学、社会学 、经济学等领域。
通过测量量表,可以对个体的心理状 态、行为特征、能力水平等进行量化 评估,为研究和实践提供客观、准确 的依据。
Cronbach's Alpha系数
定义
适用范围
计算方法
Cronbach's Alpha系数是一种评估量 表内部一致性的方法,通过计算量表 中各项目之间的相关性来评估量表的 可靠性。
测量的信度与效度

信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量,计算 两次测量结果的相关系数,以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量,计算各 测量工具之间的相关系数,以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性,计 算内部一致性系数(如Cronbach's Alpha系 数),以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的 不确定性。
特点
随机误差的大小和符号都是随机的,无法预测和 控制。
示例
测量时环境的微小变化、测量仪器的微小波动等 都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求 而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用,也会对效度产 生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性,即多次测量结果之间的相符程度。 如果一个测量工具缺乏信度,那么它的测量结果会不稳定, 无法为决策提供可靠依据。因此,信度是效度的必要条件, 没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等,通过这些方法可以评估测量工具的一致性 和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性,即测量结果是否真实反映所需测量的内容。如果一个测量工具具有 效度,那么它的测量结果是准确的、有意义的,能够为决策提供可靠依据。因此,效度是信度的充分 条件,有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等,通过这些方法可以评估测量工具的准 确性和有效性。
第四章 测量

社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
三、语义差异量表
语义差异量表(semantic differential)也称为语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。 语义差异量表的形式由处于两端的两组意义相反的形容词 构成,每一对反义形容词间又分为7~11个等级区间,我们对观 念、事物或人的感觉可以通过我们所选择的两个相反形容词之 间的区间反映出来。记分方法有两种(以7个等级为例),一 种是将每一等级的分数从左至右分别记为7、6、5、4、3、2、 1,另一种则是记为+3、+2、+1、0、-1、-2、-3。
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
一、总加量表
总加量表(summated rating scales)也称为总和量表或总 全评量,它由一组反映人们对事物态度或行为的陈述项目构 成,回答者分别对这些陈述发表意见,根据他们的答案(同 意或不同意、是或不是)分别计分,然后将回答者在全部项 目上的得分加起来,以此表示回答者对这一现象的态度或行 为得分。这个分数是其态度、行为的数量化结果,它的高低 代表了个人在态度、行为量表上的位置。
社会调查方法
21世纪思想政治教育专业系列教材
第一节 测量的概念和特征
测量的四个要素 用来表示测量结果的工 具 客观世界中存在的事物或现象, 是我们要用数字或符号来进行 表达、解释和说明的对象
测量客体
数字或符号 Company LOGO
测量内容
用数字或符号表达事物 各种属性或特征的统一 标准.
测量法则
社会调查方法
21世纪思想政治教育专业系列教材
第五节 信度和效度
信度:简单地说,信度就是指测量数据和结论的可靠性程 度,也就是说测量工具能稳定地测量到它要测量的事项的 程度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
致程度,其大小等于同一组被试在两个复本测验 上所得分数的积差相关系ቤተ መጻሕፍቲ ባይዱ。计算公式同重测信 度。
➢ 两个复本测验实施的时间不同,复本信度所表达 的含义略有不同。
➢ (1)等值性系数 ➢ 如果两个复本测验是同时连续测试的,则称这种
复本信度为等值性系数。等值性系数的大小主要 反映着两个复本测验的题目差别带来的变异情况。
心理特质方面没有其他的学习和练习
➢ 3.计算重测信度应注意的问题 ➢ (1)两次测验时间间隔要适当 ➢ (2)应提高被试的积极性 ➢ (3)适宜于人格测验与速度测验,不适合于智
力等难度测验
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
➢ 实际上α系数是所有可能分半信度的平均值, 但它是测验信度的一个下界值,即α系数值大, 测量信度必然高,但α系数值小,却不能判断 测量信度不高。
➢ 例题:某态度量表共7道题目,100个被试在各 题上得分的方差分别是0.81, 0.82, 0.80, 0.86, 0.88, 0.79, 0.89,测验总分的方差是26.00,计算该测量的 信度。
➢ (三)分半信度(Split-half reliability) ➢ 1.含义与计算 ➢ 是指将一个测验分成对等的两半后,所有被试在这两半上
得分的一致性。 ➢ 分半信度信度与等值性系数的解释一样,即可以把对等的
两半测验看成是最短时距内施测的两个平行测验。分半信 度描述的是两半题目间的一致性,所以也叫内部一致性系 数。
➢ 三、信度的作用 ➢ (一)评价测验 ➢ 信度是测量过程中所存在的随机误差大小的反映。信度低,
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
第四章 测量的信度与效度
➢ 本章提要: ➢ 信度的概念与估计方法 ➢ 提高信度的方法 ➢ 效度及其与信度的关系 ➢ 效度的种类与估计方法 ➢ 提高效度的方法
第一节 测量信度
➢ 一、什么是信度 ➢ 1. 信度的描述定义 ➢ 信度(reliability)是指测量结果的稳定性和
可靠性程度。
2. 信度的测量学定义(操作性定义)
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
施测所得的平均值,其误差则是这些实测值的标准差。但 实际上,这是做不到的。实际的做法是用一个团体(人数 足够多)两次施测得结果来代替对同一个人的反复施测, 以估计测量误差的变异数。
➢ 此时每个人两次测量的分数之差构成一个新的分 布,这个分布的标准差就是测量的标准误,它是 此次测量中误差大小的客观指标,有了这一指标, 就可以对团体中任何一个人的测验成绩做出恰当 的解释。
注意水平、作答态度等会影响测量信度。
➢ 就团体而言,团体的异质程度与分数的分布密切 相关,一个团体越是异质,其分数分布范围越大, 计算出来的信度系数值越高,这样会高估真正的 信度值。当团体内部水平相差不大(同质)时, 其得分分布必然会狭窄,以相关为基础计算出来 的信度值必然小,可能会低估真正的信度值。此 外若团体的平均数太高或太低,同样使测验的总 分分布变窄,低估测验的真正信度。
➢ (五)评分者信度(Scorer reliability) ➢ 1.含义与计算 ➢ 评分者信度指的是多个评分者给同一批人的答
卷进行评分的一致性程度。对于主观试题,不 同的评分者给出的分数是不等的,这样会造成 误差,如何降低评分者信度是心理测量的重要 任务之一。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
➢ 注意题目分半的方法:按题号奇偶性分半、按 题目难度分半、按题目内容分半等。
➢ 计算方法与复本信度类似,但被试在两半测验 上得分的相关系数只是半个测验的信度,所以 必须用斯皮尔曼—布朗公式加以校正:
➢ 2.使用的前提条件和范围 ➢ 分半信度通常是在只能施测一次或没有复本的情
况下使用。其中使用斯皮尔曼—布朗公式时要求 全体被试在两半测验分数的变异数相等。当测验 无法分成对等的两半时,无法使用。
3. 误差方差与信度的关系
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
➢ 2.重测信度使用的条件 ➢ (1)所测量的心理特质必须是稳定的 ➢ (2)遗忘和练习的效果基本上相互抵消 ➢ (3)在两次测试时间间隔内,被试在所要测查的
➢ (2)稳定性与等值性系数 ➢ 如果两个复本测验是相距一段时间分两次测试,
则称这种复本信度为稳定性与等值性系数。此 时两个题目间的差别、两次施测情境、被试特 质水平等方面的差别都会成为测验结果不一致 的原因。
➢ 2. 复本信度使用的条件 ➢ (1)两个测验必须在项目的内容、形式、数量、难易、
时限、指导语等方面相同或相似。 ➢ (2)两次测验的时间间隔要适当。 ➢ 局限: ➢ (1)复本法只能减少而不能排除练习和记忆效应。 ➢ (2)对于许多测验来说要建立复本是非常困难的。
2.不同测验分数的比较
➢ 四、影响测量信度的主要因素 ➢ 测量信度是测量过程中随机误差大小的反映,随
机误差大,信度就低,随机误差小,信度就高。 因此,在测量过程中凡是能引起测量随机误差的 因素都会影响测量信度。影响信度的几种主要因 素为:
➢ (一)被试方面 ➢ 就单个被试而言,其身心健康状况、应试动机、
➢ (四)同质性信度(Homogeneity reliability) ➢ 1.含义 ➢ 同质性信度也叫内部一致性系数,它是测验内部所有题
目间的一致性程度。这里的一致性有两种含义:一是所 有题目都测的是同一种心理特质,二是所有题目得分之 间都具有较高的正相关。同质性信度就是一个测验所测 内容或特质的相同程度。
➢ 两个复本测验实施的时间不同,复本信度所表达 的含义略有不同。
➢ (1)等值性系数 ➢ 如果两个复本测验是同时连续测试的,则称这种
复本信度为等值性系数。等值性系数的大小主要 反映着两个复本测验的题目差别带来的变异情况。
心理特质方面没有其他的学习和练习
➢ 3.计算重测信度应注意的问题 ➢ (1)两次测验时间间隔要适当 ➢ (2)应提高被试的积极性 ➢ (3)适宜于人格测验与速度测验,不适合于智
力等难度测验
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
➢ 实际上α系数是所有可能分半信度的平均值, 但它是测验信度的一个下界值,即α系数值大, 测量信度必然高,但α系数值小,却不能判断 测量信度不高。
➢ 例题:某态度量表共7道题目,100个被试在各 题上得分的方差分别是0.81, 0.82, 0.80, 0.86, 0.88, 0.79, 0.89,测验总分的方差是26.00,计算该测量的 信度。
➢ (三)分半信度(Split-half reliability) ➢ 1.含义与计算 ➢ 是指将一个测验分成对等的两半后,所有被试在这两半上
得分的一致性。 ➢ 分半信度信度与等值性系数的解释一样,即可以把对等的
两半测验看成是最短时距内施测的两个平行测验。分半信 度描述的是两半题目间的一致性,所以也叫内部一致性系 数。
➢ 三、信度的作用 ➢ (一)评价测验 ➢ 信度是测量过程中所存在的随机误差大小的反映。信度低,
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
第四章 测量的信度与效度
➢ 本章提要: ➢ 信度的概念与估计方法 ➢ 提高信度的方法 ➢ 效度及其与信度的关系 ➢ 效度的种类与估计方法 ➢ 提高效度的方法
第一节 测量信度
➢ 一、什么是信度 ➢ 1. 信度的描述定义 ➢ 信度(reliability)是指测量结果的稳定性和
可靠性程度。
2. 信度的测量学定义(操作性定义)
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
施测所得的平均值,其误差则是这些实测值的标准差。但 实际上,这是做不到的。实际的做法是用一个团体(人数 足够多)两次施测得结果来代替对同一个人的反复施测, 以估计测量误差的变异数。
➢ 此时每个人两次测量的分数之差构成一个新的分 布,这个分布的标准差就是测量的标准误,它是 此次测量中误差大小的客观指标,有了这一指标, 就可以对团体中任何一个人的测验成绩做出恰当 的解释。
注意水平、作答态度等会影响测量信度。
➢ 就团体而言,团体的异质程度与分数的分布密切 相关,一个团体越是异质,其分数分布范围越大, 计算出来的信度系数值越高,这样会高估真正的 信度值。当团体内部水平相差不大(同质)时, 其得分分布必然会狭窄,以相关为基础计算出来 的信度值必然小,可能会低估真正的信度值。此 外若团体的平均数太高或太低,同样使测验的总 分分布变窄,低估测验的真正信度。
➢ (五)评分者信度(Scorer reliability) ➢ 1.含义与计算 ➢ 评分者信度指的是多个评分者给同一批人的答
卷进行评分的一致性程度。对于主观试题,不 同的评分者给出的分数是不等的,这样会造成 误差,如何降低评分者信度是心理测量的重要 任务之一。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
➢ 注意题目分半的方法:按题号奇偶性分半、按 题目难度分半、按题目内容分半等。
➢ 计算方法与复本信度类似,但被试在两半测验 上得分的相关系数只是半个测验的信度,所以 必须用斯皮尔曼—布朗公式加以校正:
➢ 2.使用的前提条件和范围 ➢ 分半信度通常是在只能施测一次或没有复本的情
况下使用。其中使用斯皮尔曼—布朗公式时要求 全体被试在两半测验分数的变异数相等。当测验 无法分成对等的两半时,无法使用。
3. 误差方差与信度的关系
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
➢ 2.重测信度使用的条件 ➢ (1)所测量的心理特质必须是稳定的 ➢ (2)遗忘和练习的效果基本上相互抵消 ➢ (3)在两次测试时间间隔内,被试在所要测查的
➢ (2)稳定性与等值性系数 ➢ 如果两个复本测验是相距一段时间分两次测试,
则称这种复本信度为稳定性与等值性系数。此 时两个题目间的差别、两次施测情境、被试特 质水平等方面的差别都会成为测验结果不一致 的原因。
➢ 2. 复本信度使用的条件 ➢ (1)两个测验必须在项目的内容、形式、数量、难易、
时限、指导语等方面相同或相似。 ➢ (2)两次测验的时间间隔要适当。 ➢ 局限: ➢ (1)复本法只能减少而不能排除练习和记忆效应。 ➢ (2)对于许多测验来说要建立复本是非常困难的。
2.不同测验分数的比较
➢ 四、影响测量信度的主要因素 ➢ 测量信度是测量过程中随机误差大小的反映,随
机误差大,信度就低,随机误差小,信度就高。 因此,在测量过程中凡是能引起测量随机误差的 因素都会影响测量信度。影响信度的几种主要因 素为:
➢ (一)被试方面 ➢ 就单个被试而言,其身心健康状况、应试动机、
➢ (四)同质性信度(Homogeneity reliability) ➢ 1.含义 ➢ 同质性信度也叫内部一致性系数,它是测验内部所有题
目间的一致性程度。这里的一致性有两种含义:一是所 有题目都测的是同一种心理特质,二是所有题目得分之 间都具有较高的正相关。同质性信度就是一个测验所测 内容或特质的相同程度。