信度的指标
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 测验的信度
测量的误差及其来源 测量的信度
补:
测量的误差
1、误差的定义
测量 因素 测量 结果 与测量目的无关 不准确 或不一致
误差:与测验目的无关的因素所导致的测验结果不一致或不准确的现象.
2、误差的种类
系统误差
随机误差
随机误差与系统误差的比较
二、信度的指标 1、信度系数与信度指数
信度系数是一种相关系数。 信度指数的平方是信度系数。
2、测量的标准误
SE S X 1 RXX
信度越高,标准误越小;反之成立。
第二单元 信度评估的方法
重测信度 信度 复本信度 内部一致性 信度 分半信度 同质性信度
评分者信度
(一)重测信度(Test-retest reliability)
评价
优点 省力、省时 测量属性相同 提供随时间变化的资料 不足
时间间隔长短
★ ★ 时间间隔视测验目的、性质、被试 特点而定;
★ 年幼儿童,间隔要小;年长成人,间隔可长; ★ 智力测验间隔不能太短,成就测验不能太长;
★ 一般以2-4周为宜,智力测验的间隔时间一般在6个月左 右。
(二)复本信度(Alternate-form raliability)
例:某受测者在WAIS上言语智商为102,操作智商为110。假设 言语智商和操作智商的分半信度分别为了0.78和平利用0.88, 问其操作智商是否显著高于言语智商呢?
3、两种测验分数的比较(差异的标准误)
2 SEd SE12 SE2
SEd S 2 rxx ryy
所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著.
几种典型测验的信度系数
测验类型 成套成就测验 学术能力测验 成套倾向性测验 客观人格测验 兴趣问卷 态度量表 低 .66 .56 .26 .46 .42 .47 中 .92 .90 .88 .85 .84 .79 高 .98 .97 .96 .97 .93 .98
友情提示
实际上,有多少种误差的来源,就有多少 种信度估计的方法。一般来说,一个测验 哪种误差大,就应该用哪种误差估计。有 时一个测验需要几种信度估计。
不足
触类旁通 编制复本难
重测信度与复本信度有何异同?
小结与问题
跨时间 一致性 试题之间 有何关系?
跨形式 一致性
(三)内部一致性信度
含义 测验 各题间 一致性
题目 一致 性
同质性 信度
类型
分半 信度
1、分半信度(Split-half raliablity)
奇偶题 分半
难易:低高 两半相似: M、S 项目组间相关 分布常态
含义 程序 两等值测验 最短时间内 对同组对象 施测结果r
等值 性
误差 内容 取样
A卷
最 短 时 距
B卷
使用条件
第一,前提是有复本测验。 第二,被试有条件接受两个测验(时间和经费等)。 第三,报告结果时要报告两次测验的间隔及有关经历 .
评价
优点
代表性增强,信度更准 一定程度避免练习、记忆效应
时间取样 内容取样 时间与内容取样 内容取样 内容的一致性 评分者间的差异
第三单元
信度与测验分数的解释
1、解释真实分数与实得分数的相关
如:RXX=0.8(1;0)是什么意思?
2、解释个人分数的意义(范围或变化情形)
SE S X 1 RXX
(X-1.96SE)﹤T≤(X+1.96SE)(95%的概率水平)
一个假想测验的变异数分析
信度类型 误差变异数 误差变异来源 时间和内容取样
复本信度(间隔) 1-0.70=0.30
分半信度 上述两者差异 评分者信度
误差变异总和 真实变异
1-0.80=0.20
内容取样
0.30-0.20=0.10 时间取样 1-0.92=0.08 评分者差异
0.20+0.10+0.08=0.38 1-0.38=0.62
两半相关:rhh 校 正:rnn
使用条件
测验只能施测一次或没有复本的情况下使用. 当一个测验无法分成对等的两半时不宜使用.
2、同质信度(Homogeneity raliability)
同质性 测验内部所有题目间的一致性
当测题的得分有较高的正相关时,其测验为同质;
相反 当测题间相关很低或负相关时,其测验为异质.
(四)评分者信度(Scorer raliability)
含义 评分者评分的一致性
一般要求在成对的受过训练的评分者之 间平均一致性达到0.90以上方可。
各种信度系数相应误差变异的来源
信度系数的类型
再测信度 复本信度(连续施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
误差变异的来源
(四)时间间隔
智力的时间变化
间隔期 同日或次日 1年 信度系数 0.90~0.95 0.85
可见,用再测 法和复本法求信 度,两次测验间 隔时间越短,其 信度系数越大.
2~2.5年
5年 9年
0.80
0.75~0.80 0.78
年龄的时间变化
年龄越低,信度越低
间隔六年,rXX的变化 第一次 4 9 11 第二次 10 15 17 rXX 0.73 0.87 0.92
信度的特殊问题
1、对于速度测验不存在评分者信度,也无 法计算同质性信度。 2、当一个测验有几个分测验时,分测验的 分数不如合成分数可靠。
思考
如何提高测量的信度?
适当增加测验的长度; 使测验项目的难度分布接近正态; 努力提高试题的区分度; 选取适当的被试团体; 主试严格执行测验规程; ……
几点说明
1.有多少种误差,就有多少种估计信度的方法. 2.上面介绍的各种计算方法仅适用于常模参照测验. 3.标准参照测验的信度问题必须以概化理论为依据. 4.不同类型的测验,信度的要求是不一样的. 5.用不同方法估计的信度也会有所差异.
2、样本团体平均能力水平的影响
特点:
团体平均水平太高或太低,分布变窄,可能低估信度.
选择测验时应注意
取样团体的变异性和能力水平 建立信度的团体与欲测团体是否一致
(三)测验难度
难度对信度的影响只存在于某些测验中。
难度与信度间没有简单的对应关系。
一般趋势:测验太难或太易,分数范围缩小,降低 信度.
第四单元 影响信度的因素
测验长度
样本特征
测验难度
时间间隔
(一)测验长度
含义
测验试题的数量
特点
测验越长,试题取样越具有代来自性。 测验越长,猜测因素影响就越小。 增加测验长度的效果应遵循报酬递减率原则。
(二)样本特征
1、样本团体异质性的影响
特点
样本越异质,分数分布越广,有可能高估信度。 样本团体不同,信度就有可能不同 。
请给下面的作文评分:
热 夏天来临,总会伴随着一些炎热,我生在北方,却住在南方。 对这南方北方的热,我可是深有体会。 南方的热是闷热,而北方的热多少有一些凉爽。处在南方,这 热除了呆在家中,否则你是无法躲藏的。热不仅隐藏在太阳光中, 而仿佛是一种弥漫在空气中的颗粒,古人说心静自然凉,我看恐怕 无法适用于此,即使你在树荫中盘坐,豆大的汗珠还是会源源不断 的流下来,就连风也是热的,在这种环境中学习和工作,心也难免 有些浮躁了。在北方,天更蓝,太阳光感觉也更烈,但这并没有什 么可担心的,走路走累了,就可以在树荫下歇一会,很快汗就消了, 偶尔还会有几丝凉风吹来,使人难免有些惬意,也就可以忘记之前 的辛苦,继续向下一个目的地进发。 南方的热就像是一场旷日持久的战争,而北方的热却并不赶尽 杀绝,仍给人留有余地。在南方,白天和晚上几乎没有什么差别, 昼夜温差很小,人们也自然严阵以待,丝毫不敢松懈,在三十几度 的高温中坚持整个夏天。在北方,可就不一样,清晨和晚上是一天 中最凉快的时候,几乎是只要没有阳光时就一点也不热。正常情况 下,最高温度也就在30度左右,超过30度是很少的事,所以,人们 也就不用紧张,可以放心的,踏踏实实的度过整个夏天。 。。。。
4、确定信度的可接受水平
典型测验的一般标准
测验类型 最低标准
能力测验
人格测验
0.90-0.95
0.80-0.85
非标准化测验
0.60-0.85
信度评价的一般原则 RXX ﹤0.70:不可靠,不能用; 0.70≦RXX ﹤0.85:可用于团体; RXX≧0.85:可用于鉴别个人.
类型 产生原因 特点 方向和大小上 完全随机 效能
影响 一致 性 不影 响一 致性
指 标
信 度 效 度
随机 不易控制的 误差 偶然因素
影 响 准 系统 恒定、有规 稳定地存在于每 确 性 次测量中 误差 律的因素
第一单元 信度的概念
一、信度的定义
信度指的是测量结果的稳定性程度(或一致性程度)。
信度是反映测量中随机误差大小的指标。 随机误差越大,信度越低。
操作演练
假设对100个六年级学生以两个月的时间间隔先 后施测一个创造力测验的A/B两个复本,所得的 等值与稳定性系数为0.70。 我们还根据被试对每个复本的反应计算出分半信 度为0.80. 同时,我们将另一个评分者随机抽取50份卷子另 外评分,得到评分者信度为0.92。 然后,我们对这这三种方法所产生的误差变异进 行分析。
含义 同一测验 同组对象 前后测2次 相关系数 程序 误差
A卷
一 定 时 距 太短 练习效应 记忆效应
时间
太长 身心变化
稳定 性
A卷
使用条件
第一,所测的心理特性必须是稳定的。 第二,遗忘和练习的效果基本上相互抵消。 第三,所测心理特质在两次施测的间隔时间内 没有获得更多的学习和训练。 第四,报告结果时要报告两次测验的间隔及有 关经历.
测量的误差及其来源 测量的信度
补:
测量的误差
1、误差的定义
测量 因素 测量 结果 与测量目的无关 不准确 或不一致
误差:与测验目的无关的因素所导致的测验结果不一致或不准确的现象.
2、误差的种类
系统误差
随机误差
随机误差与系统误差的比较
二、信度的指标 1、信度系数与信度指数
信度系数是一种相关系数。 信度指数的平方是信度系数。
2、测量的标准误
SE S X 1 RXX
信度越高,标准误越小;反之成立。
第二单元 信度评估的方法
重测信度 信度 复本信度 内部一致性 信度 分半信度 同质性信度
评分者信度
(一)重测信度(Test-retest reliability)
评价
优点 省力、省时 测量属性相同 提供随时间变化的资料 不足
时间间隔长短
★ ★ 时间间隔视测验目的、性质、被试 特点而定;
★ 年幼儿童,间隔要小;年长成人,间隔可长; ★ 智力测验间隔不能太短,成就测验不能太长;
★ 一般以2-4周为宜,智力测验的间隔时间一般在6个月左 右。
(二)复本信度(Alternate-form raliability)
例:某受测者在WAIS上言语智商为102,操作智商为110。假设 言语智商和操作智商的分半信度分别为了0.78和平利用0.88, 问其操作智商是否显著高于言语智商呢?
3、两种测验分数的比较(差异的标准误)
2 SEd SE12 SE2
SEd S 2 rxx ryy
所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著.
几种典型测验的信度系数
测验类型 成套成就测验 学术能力测验 成套倾向性测验 客观人格测验 兴趣问卷 态度量表 低 .66 .56 .26 .46 .42 .47 中 .92 .90 .88 .85 .84 .79 高 .98 .97 .96 .97 .93 .98
友情提示
实际上,有多少种误差的来源,就有多少 种信度估计的方法。一般来说,一个测验 哪种误差大,就应该用哪种误差估计。有 时一个测验需要几种信度估计。
不足
触类旁通 编制复本难
重测信度与复本信度有何异同?
小结与问题
跨时间 一致性 试题之间 有何关系?
跨形式 一致性
(三)内部一致性信度
含义 测验 各题间 一致性
题目 一致 性
同质性 信度
类型
分半 信度
1、分半信度(Split-half raliablity)
奇偶题 分半
难易:低高 两半相似: M、S 项目组间相关 分布常态
含义 程序 两等值测验 最短时间内 对同组对象 施测结果r
等值 性
误差 内容 取样
A卷
最 短 时 距
B卷
使用条件
第一,前提是有复本测验。 第二,被试有条件接受两个测验(时间和经费等)。 第三,报告结果时要报告两次测验的间隔及有关经历 .
评价
优点
代表性增强,信度更准 一定程度避免练习、记忆效应
时间取样 内容取样 时间与内容取样 内容取样 内容的一致性 评分者间的差异
第三单元
信度与测验分数的解释
1、解释真实分数与实得分数的相关
如:RXX=0.8(1;0)是什么意思?
2、解释个人分数的意义(范围或变化情形)
SE S X 1 RXX
(X-1.96SE)﹤T≤(X+1.96SE)(95%的概率水平)
一个假想测验的变异数分析
信度类型 误差变异数 误差变异来源 时间和内容取样
复本信度(间隔) 1-0.70=0.30
分半信度 上述两者差异 评分者信度
误差变异总和 真实变异
1-0.80=0.20
内容取样
0.30-0.20=0.10 时间取样 1-0.92=0.08 评分者差异
0.20+0.10+0.08=0.38 1-0.38=0.62
两半相关:rhh 校 正:rnn
使用条件
测验只能施测一次或没有复本的情况下使用. 当一个测验无法分成对等的两半时不宜使用.
2、同质信度(Homogeneity raliability)
同质性 测验内部所有题目间的一致性
当测题的得分有较高的正相关时,其测验为同质;
相反 当测题间相关很低或负相关时,其测验为异质.
(四)评分者信度(Scorer raliability)
含义 评分者评分的一致性
一般要求在成对的受过训练的评分者之 间平均一致性达到0.90以上方可。
各种信度系数相应误差变异的来源
信度系数的类型
再测信度 复本信度(连续施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
误差变异的来源
(四)时间间隔
智力的时间变化
间隔期 同日或次日 1年 信度系数 0.90~0.95 0.85
可见,用再测 法和复本法求信 度,两次测验间 隔时间越短,其 信度系数越大.
2~2.5年
5年 9年
0.80
0.75~0.80 0.78
年龄的时间变化
年龄越低,信度越低
间隔六年,rXX的变化 第一次 4 9 11 第二次 10 15 17 rXX 0.73 0.87 0.92
信度的特殊问题
1、对于速度测验不存在评分者信度,也无 法计算同质性信度。 2、当一个测验有几个分测验时,分测验的 分数不如合成分数可靠。
思考
如何提高测量的信度?
适当增加测验的长度; 使测验项目的难度分布接近正态; 努力提高试题的区分度; 选取适当的被试团体; 主试严格执行测验规程; ……
几点说明
1.有多少种误差,就有多少种估计信度的方法. 2.上面介绍的各种计算方法仅适用于常模参照测验. 3.标准参照测验的信度问题必须以概化理论为依据. 4.不同类型的测验,信度的要求是不一样的. 5.用不同方法估计的信度也会有所差异.
2、样本团体平均能力水平的影响
特点:
团体平均水平太高或太低,分布变窄,可能低估信度.
选择测验时应注意
取样团体的变异性和能力水平 建立信度的团体与欲测团体是否一致
(三)测验难度
难度对信度的影响只存在于某些测验中。
难度与信度间没有简单的对应关系。
一般趋势:测验太难或太易,分数范围缩小,降低 信度.
第四单元 影响信度的因素
测验长度
样本特征
测验难度
时间间隔
(一)测验长度
含义
测验试题的数量
特点
测验越长,试题取样越具有代来自性。 测验越长,猜测因素影响就越小。 增加测验长度的效果应遵循报酬递减率原则。
(二)样本特征
1、样本团体异质性的影响
特点
样本越异质,分数分布越广,有可能高估信度。 样本团体不同,信度就有可能不同 。
请给下面的作文评分:
热 夏天来临,总会伴随着一些炎热,我生在北方,却住在南方。 对这南方北方的热,我可是深有体会。 南方的热是闷热,而北方的热多少有一些凉爽。处在南方,这 热除了呆在家中,否则你是无法躲藏的。热不仅隐藏在太阳光中, 而仿佛是一种弥漫在空气中的颗粒,古人说心静自然凉,我看恐怕 无法适用于此,即使你在树荫中盘坐,豆大的汗珠还是会源源不断 的流下来,就连风也是热的,在这种环境中学习和工作,心也难免 有些浮躁了。在北方,天更蓝,太阳光感觉也更烈,但这并没有什 么可担心的,走路走累了,就可以在树荫下歇一会,很快汗就消了, 偶尔还会有几丝凉风吹来,使人难免有些惬意,也就可以忘记之前 的辛苦,继续向下一个目的地进发。 南方的热就像是一场旷日持久的战争,而北方的热却并不赶尽 杀绝,仍给人留有余地。在南方,白天和晚上几乎没有什么差别, 昼夜温差很小,人们也自然严阵以待,丝毫不敢松懈,在三十几度 的高温中坚持整个夏天。在北方,可就不一样,清晨和晚上是一天 中最凉快的时候,几乎是只要没有阳光时就一点也不热。正常情况 下,最高温度也就在30度左右,超过30度是很少的事,所以,人们 也就不用紧张,可以放心的,踏踏实实的度过整个夏天。 。。。。
4、确定信度的可接受水平
典型测验的一般标准
测验类型 最低标准
能力测验
人格测验
0.90-0.95
0.80-0.85
非标准化测验
0.60-0.85
信度评价的一般原则 RXX ﹤0.70:不可靠,不能用; 0.70≦RXX ﹤0.85:可用于团体; RXX≧0.85:可用于鉴别个人.
类型 产生原因 特点 方向和大小上 完全随机 效能
影响 一致 性 不影 响一 致性
指 标
信 度 效 度
随机 不易控制的 误差 偶然因素
影 响 准 系统 恒定、有规 稳定地存在于每 确 性 次测量中 误差 律的因素
第一单元 信度的概念
一、信度的定义
信度指的是测量结果的稳定性程度(或一致性程度)。
信度是反映测量中随机误差大小的指标。 随机误差越大,信度越低。
操作演练
假设对100个六年级学生以两个月的时间间隔先 后施测一个创造力测验的A/B两个复本,所得的 等值与稳定性系数为0.70。 我们还根据被试对每个复本的反应计算出分半信 度为0.80. 同时,我们将另一个评分者随机抽取50份卷子另 外评分,得到评分者信度为0.92。 然后,我们对这这三种方法所产生的误差变异进 行分析。
含义 同一测验 同组对象 前后测2次 相关系数 程序 误差
A卷
一 定 时 距 太短 练习效应 记忆效应
时间
太长 身心变化
稳定 性
A卷
使用条件
第一,所测的心理特性必须是稳定的。 第二,遗忘和练习的效果基本上相互抵消。 第三,所测心理特质在两次施测的间隔时间内 没有获得更多的学习和训练。 第四,报告结果时要报告两次测验的间隔及有 关经历.