第四章测量的信度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.一个包含10个题目的测验,信度为0.50,若增至 50个题目,其信度将是多少?
4.书本P57-58第2、3题
25
Measurement Reliability
第二节 信度的评估方法
一、重测信度 二、复本信度 三、内部一致性信度 四、评分者信度
26
Measurement Reliability
19
Measurement Reliability
例:在一个智力测验中,某个被试的IQ为100,这是否 反映了他的真实水平?如果再测一次,他的分数将改变 多少?
已知该智力测验的标准差为15,信度系数为.84,则其 IQ的测量标准误和可能范围为:
SE 15 1 0.84 6.0 IQ 100 1.96SE=100 11.76
一、重测信度(Test-Retest Reliability)
(一)含义
也叫再测信度 1.重复测验:同一量表,同一被试群体,在不同时间,
两次施测。 2.重测信度:用同一测验,对同一组被试前后两次施测,
两次测验分数之间的相关程度(用相关系数来表示)就 是再测信度。 3.重测信度实质:主要考察了一个测量工具是否能够保 证在不同时间测量结果的一致性,表示测验结果的稳定 性。故称之为稳定性系数(Coefficient of Stability) 4.形式:施测A1—适当时间—再施测A2
14
Measurement Reliability
三、信度的作用(信度与测验分数的解释)
1.信度是测量过程中所存在的随机误差大小的反映
(解释真实分数与实得分数的相关) 信度系数可以解释为:总的方差中有多少比例是由真实
分数的方差决定的,也就是测验的总变异中真分数造成 的变异占百分之几。 例如,r=0.9时,实得分数90%的变异来自真分数,10% 来自误差。r=1呢?r=0呢? 信度系数从0.00~1.00,代表了从缺乏信度到完全可信 的所有状况 信度系数也告诉我们误差有多大
11
Measurement Reliability
测验类型
信度系数
低
中
高
学业成就测验
0.66
0.92
0.98
学术能力测验
0.56
0.90
0.97
特殊能力倾向测验 0.26
0.88
0.96
人格测验
0.46
0.85
0.97
兴趣测验
0.42
0.84
0.93
态度测验
0.47
0.79
0.98
注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.
13
Measurement Reliability
此时,个人在两次测验中的分数差异就是测量误差。 据此可制成误差分数的分布。这个分布的标准差(误 差分布的标准差)我们称之为测量的标准误,是表示 测量误差的大小的指标,其计算公式为:
SE S x 1 rxx
SE表示测量的标准误,即误差分布的标准差;Sx表示实 得分数的标准差;rxx表示信度系数。
23
Measurement Reliability
课堂练习
1.某个被试的测验IQ=100,再测的分数可能是多少? (已知测验的标准差为15,信度系数为0.90).
95%的可能在90.6~109.4之间
2.被试在韦氏智力测验中言语智商为102,操作智商 为110。两个分测验都是以100为平均数,15为标准 差的标准分数。假设言语测验和操作测验的分半信度 分别为0.93和0.94.问其操作智商是否显著高于言语 智商?
SEd为差异的标准误,S代表两个测验使用的标准差,这 个标准差要相同,因为只有在两个分数具有相同的单位 时才可以比较。rxx、ryy分别为两个测验的信度系数。
22
Measurement Reliability
例;某被试在韦氏成人智力测验中言语智商为102,操作智 商为110。已知两个分数都是以100为平均数,15为标准 差的标准分数。假设言语测验和操作测验的分半信度分别为 0.87和0.88。问其操作智商是否显著高于言语智商呢?
2.信度系数只是对测量分数不一致程度的估计, 并没有指出不一致的原因。
3.获得较高的信度系数并不是心理测量追求的 最终目的,它只是迈向目标的一步,是使测量 有效的一个必要条件。
10
Measurement Reliability
信度系数要达到多高才可以接受呢?
最理想的是rxx =1.00,但办不到 研究结果显示,能力,成就测验都在0.90以上,有的还
27
Measurement Reliability
一般来说,重测的时间间隔越短,那么各种施测情 境的变化就越小,重测信度系数就会越大。
重测信度系数较大时,说明该测量工具前、后两次 的测量结果比较一致。结果具有较好的跨时间上的 稳定性。
rxx代表测量的信度,S2T代 表真分数的变异数, S2x代 表是实得分数的变异数,即 总变异数。
定义2:信度是被试团体真分数与实得分数相关系数的平方
rXX
2 TX
定义3:信度是一个测验X(A卷)与它的任意一个平行测验
(B卷)的相关系数
rXX XX
4
Measurement Reliability
88~112
20
Measurement Reliability
注意几点: (1)SE对真分数做的是区间估计,不可能由此得到一
个确切的点。这就是说,测验分数不是一个定点,而 是具有一定的分布范围。因此,两次测验分数之间存 在差异是很正常的。 (2)置信水平确定后,估计的精度主要取决于SE,SE 越小,范围越小,估计就越精确,反之也然。 (3)真分数不能等同于真正能力或心理特质,真分数 中包括了系统误差。
可以达到0.95以上;人格测验、兴趣、态度、价值观等都 在0.80~0.85。 一般原则: ⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测, 而且不能做团体比较; ⑵当0.70≤rxx <0.85时,可用于团体比较; ⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。 另一原则:新编的测验信度应该高于原有的同类测验或 相似测量
2
Measurement Reliability
第一节 信度概述
一、什么是信度 1.信度的理论定义
信度即测量结果的稳定性、一致性或可靠性。是 用同一测量工具反复测量某人的同一种心理特质, 所得结果的一致性程度。
3
Measurement Reliability
2.信度的统计定义
定义1:信度是被试团体真分数方差与实得分数方差之比
Measurement Reliability 信度只受随机误差的影响。随机误差越大,信
度越低。 信度不受系统误差的影响。
6
Measurement Reliability
二、信度指标
1.信度系数与信度指数 大部分情况下,信度是以信度系数为指标,信度系数 又以相关系数表示,即用同一被试样本所得的两组资 料的相关系数作为测量一致性的指标,称作信度系数 ( rxx)信度系数是表示测量结果的稳定性程度的指 标。 rxx =r2XT=s2T/s2x rXT信度指数,它的平方就是信度系数
由于真分数的方差无法统计,可转化为: rxx=(S2x-S2E)/S2x =1- S2E/S2x
该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,而
不是个人分数的特性; 第二 、真分数的变异数是不能直接测量的,因此信度是
一个理论上构想的概念,只能根据一组实得分数做出 估计。
5
我们可以用测量的标准误来估计个人测验的真分数的大小。 如果选用95%的可靠性水平(置信水平),即显著性水
平(a值)为.05,,真分数有95%的可能落入X ± SE , 即X ±1.96 SE的范围之内,也可以写成X-1.96SE T X+1.96 SE,SE则用公式代入。或有5%的可能落入 这范围之外。这实际上也表明了再测时分数改变的可能范 围。 X―1.96SE<T≤X+1.96SE
15
Measurement Reliability
2.确定信度ቤተ መጻሕፍቲ ባይዱ以接受的水平
最理想的是rxx =1.00,但办不到 研究结果显示,能力,成就测验都在0.90以上,有的
还可以达到0.95以上;人格测验、兴趣、态度、价值观 等都在0.80~0.85。 一般原则: ⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预 测,而且不能做团体比较; ⑵当0.70≤rxx <0.85时,可用于团体比较; ⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作 为。 另一原则:新编的测验信度应该高于缘由的同类测验 或相似测量
Measurement Reliability
第四章测量的信度
1
Measurement Reliability
导学
信度是评价测验优劣的重要指标,了解信度的相关知识是 编制优质高效测验的前提。通过本章的学习我们可解 决三个问题: 一、明确信度的理论定义及操作定义;(难点) 二、掌握几种常模参照测验的信度估计方法;(重点) 三、了解影响信度的因素,在信度估计时尽量避免由此 造成的误差;提高信度的方法。
24
Measurement Reliability
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1-=.95的置信区间
2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
16
Measurement Reliability
3.解释个人分数的意义
作用:其一是估计真实分数的范围;其二是了解实 得分数再测时可能的变化情形。 这就是测量标准误 的应用。
SE Sx 1 rxx
真分数的估计区间为:
X-1.96SE T X+1.96 SE
17
Measurement Reliability
12
Measurement Reliability
2.标准误
信度系数仅表示一组测量的实得分数与真分数的符合 程度,但并没有直接指出个人测验分数的变异量。由 于误差存在,一个人所得分数有时比真分数高,有时 比真分数低,有时二者相等。理论上我们可以对一个 人施测无数次测验,然后求得分数的平均数和标准差。 这个平均数就是这个人的真分数,而标准差就是测量 误差大小的指标。但在实际上是行不通的。然后,我 们可以用一组被试两次测量结果来代替对同一人的反 复施测,以估计测量误差的变异数。
7
Measurement Reliability
r 信度系数是表示测量结果的稳定性程度的指标。记为: XX
信度系数的值域:?[0,1]
相关系数的值域是[-1,+1] ,信度系数的值域:[0,1], 为什么?
没有百分之百可靠的测量,因此,rXX=1只是理 论上的值,实际当中是不会存在的。
8
Measurement Reliability
首先计算出差异分数的标准误: 在统计上,经常要求两个分数的差异程度达到0.05的显著
水平,才能承认不是误差的影响。因此,将差异标准误 (7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验 两半得分的差异高于大约15分,才能达到0.05显著水平。 上述被试的差异分数110-102=8是不显著的。
21
Measurement Reliability
4.比较不同测验分数的差异
来自不同测验的原始分数是无法直接进行比较的,只有 将它们转换成相同尺度的标准分数才能进行比较。
这种比较包括两个人不同分数的差别和同一被试在两个 测验上的差别。
SEd SE12 SE22 S 2 rxx ryy
经典测量理论的信度系数
重测信度——稳定性系数 复本信度——等值性系数、等值性与稳定性系
数 内部一致性系数——分半信度、同质性信度 评分者信度——肯德尔和谐系数
9
Measurement Reliability
对信度系数要注意的几点:
1.在不同情况下,对不同样本,采用不同方法 会得到不同的信度系数,因此一个测验可能不 只一个信度系数。
4.书本P57-58第2、3题
25
Measurement Reliability
第二节 信度的评估方法
一、重测信度 二、复本信度 三、内部一致性信度 四、评分者信度
26
Measurement Reliability
19
Measurement Reliability
例:在一个智力测验中,某个被试的IQ为100,这是否 反映了他的真实水平?如果再测一次,他的分数将改变 多少?
已知该智力测验的标准差为15,信度系数为.84,则其 IQ的测量标准误和可能范围为:
SE 15 1 0.84 6.0 IQ 100 1.96SE=100 11.76
一、重测信度(Test-Retest Reliability)
(一)含义
也叫再测信度 1.重复测验:同一量表,同一被试群体,在不同时间,
两次施测。 2.重测信度:用同一测验,对同一组被试前后两次施测,
两次测验分数之间的相关程度(用相关系数来表示)就 是再测信度。 3.重测信度实质:主要考察了一个测量工具是否能够保 证在不同时间测量结果的一致性,表示测验结果的稳定 性。故称之为稳定性系数(Coefficient of Stability) 4.形式:施测A1—适当时间—再施测A2
14
Measurement Reliability
三、信度的作用(信度与测验分数的解释)
1.信度是测量过程中所存在的随机误差大小的反映
(解释真实分数与实得分数的相关) 信度系数可以解释为:总的方差中有多少比例是由真实
分数的方差决定的,也就是测验的总变异中真分数造成 的变异占百分之几。 例如,r=0.9时,实得分数90%的变异来自真分数,10% 来自误差。r=1呢?r=0呢? 信度系数从0.00~1.00,代表了从缺乏信度到完全可信 的所有状况 信度系数也告诉我们误差有多大
11
Measurement Reliability
测验类型
信度系数
低
中
高
学业成就测验
0.66
0.92
0.98
学术能力测验
0.56
0.90
0.97
特殊能力倾向测验 0.26
0.88
0.96
人格测验
0.46
0.85
0.97
兴趣测验
0.42
0.84
0.93
态度测验
0.47
0.79
0.98
注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.
13
Measurement Reliability
此时,个人在两次测验中的分数差异就是测量误差。 据此可制成误差分数的分布。这个分布的标准差(误 差分布的标准差)我们称之为测量的标准误,是表示 测量误差的大小的指标,其计算公式为:
SE S x 1 rxx
SE表示测量的标准误,即误差分布的标准差;Sx表示实 得分数的标准差;rxx表示信度系数。
23
Measurement Reliability
课堂练习
1.某个被试的测验IQ=100,再测的分数可能是多少? (已知测验的标准差为15,信度系数为0.90).
95%的可能在90.6~109.4之间
2.被试在韦氏智力测验中言语智商为102,操作智商 为110。两个分测验都是以100为平均数,15为标准 差的标准分数。假设言语测验和操作测验的分半信度 分别为0.93和0.94.问其操作智商是否显著高于言语 智商?
SEd为差异的标准误,S代表两个测验使用的标准差,这 个标准差要相同,因为只有在两个分数具有相同的单位 时才可以比较。rxx、ryy分别为两个测验的信度系数。
22
Measurement Reliability
例;某被试在韦氏成人智力测验中言语智商为102,操作智 商为110。已知两个分数都是以100为平均数,15为标准 差的标准分数。假设言语测验和操作测验的分半信度分别为 0.87和0.88。问其操作智商是否显著高于言语智商呢?
2.信度系数只是对测量分数不一致程度的估计, 并没有指出不一致的原因。
3.获得较高的信度系数并不是心理测量追求的 最终目的,它只是迈向目标的一步,是使测量 有效的一个必要条件。
10
Measurement Reliability
信度系数要达到多高才可以接受呢?
最理想的是rxx =1.00,但办不到 研究结果显示,能力,成就测验都在0.90以上,有的还
27
Measurement Reliability
一般来说,重测的时间间隔越短,那么各种施测情 境的变化就越小,重测信度系数就会越大。
重测信度系数较大时,说明该测量工具前、后两次 的测量结果比较一致。结果具有较好的跨时间上的 稳定性。
rxx代表测量的信度,S2T代 表真分数的变异数, S2x代 表是实得分数的变异数,即 总变异数。
定义2:信度是被试团体真分数与实得分数相关系数的平方
rXX
2 TX
定义3:信度是一个测验X(A卷)与它的任意一个平行测验
(B卷)的相关系数
rXX XX
4
Measurement Reliability
88~112
20
Measurement Reliability
注意几点: (1)SE对真分数做的是区间估计,不可能由此得到一
个确切的点。这就是说,测验分数不是一个定点,而 是具有一定的分布范围。因此,两次测验分数之间存 在差异是很正常的。 (2)置信水平确定后,估计的精度主要取决于SE,SE 越小,范围越小,估计就越精确,反之也然。 (3)真分数不能等同于真正能力或心理特质,真分数 中包括了系统误差。
可以达到0.95以上;人格测验、兴趣、态度、价值观等都 在0.80~0.85。 一般原则: ⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测, 而且不能做团体比较; ⑵当0.70≤rxx <0.85时,可用于团体比较; ⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。 另一原则:新编的测验信度应该高于原有的同类测验或 相似测量
2
Measurement Reliability
第一节 信度概述
一、什么是信度 1.信度的理论定义
信度即测量结果的稳定性、一致性或可靠性。是 用同一测量工具反复测量某人的同一种心理特质, 所得结果的一致性程度。
3
Measurement Reliability
2.信度的统计定义
定义1:信度是被试团体真分数方差与实得分数方差之比
Measurement Reliability 信度只受随机误差的影响。随机误差越大,信
度越低。 信度不受系统误差的影响。
6
Measurement Reliability
二、信度指标
1.信度系数与信度指数 大部分情况下,信度是以信度系数为指标,信度系数 又以相关系数表示,即用同一被试样本所得的两组资 料的相关系数作为测量一致性的指标,称作信度系数 ( rxx)信度系数是表示测量结果的稳定性程度的指 标。 rxx =r2XT=s2T/s2x rXT信度指数,它的平方就是信度系数
由于真分数的方差无法统计,可转化为: rxx=(S2x-S2E)/S2x =1- S2E/S2x
该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,而
不是个人分数的特性; 第二 、真分数的变异数是不能直接测量的,因此信度是
一个理论上构想的概念,只能根据一组实得分数做出 估计。
5
我们可以用测量的标准误来估计个人测验的真分数的大小。 如果选用95%的可靠性水平(置信水平),即显著性水
平(a值)为.05,,真分数有95%的可能落入X ± SE , 即X ±1.96 SE的范围之内,也可以写成X-1.96SE T X+1.96 SE,SE则用公式代入。或有5%的可能落入 这范围之外。这实际上也表明了再测时分数改变的可能范 围。 X―1.96SE<T≤X+1.96SE
15
Measurement Reliability
2.确定信度ቤተ መጻሕፍቲ ባይዱ以接受的水平
最理想的是rxx =1.00,但办不到 研究结果显示,能力,成就测验都在0.90以上,有的
还可以达到0.95以上;人格测验、兴趣、态度、价值观 等都在0.80~0.85。 一般原则: ⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预 测,而且不能做团体比较; ⑵当0.70≤rxx <0.85时,可用于团体比较; ⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作 为。 另一原则:新编的测验信度应该高于缘由的同类测验 或相似测量
Measurement Reliability
第四章测量的信度
1
Measurement Reliability
导学
信度是评价测验优劣的重要指标,了解信度的相关知识是 编制优质高效测验的前提。通过本章的学习我们可解 决三个问题: 一、明确信度的理论定义及操作定义;(难点) 二、掌握几种常模参照测验的信度估计方法;(重点) 三、了解影响信度的因素,在信度估计时尽量避免由此 造成的误差;提高信度的方法。
24
Measurement Reliability
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1-=.95的置信区间
2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
16
Measurement Reliability
3.解释个人分数的意义
作用:其一是估计真实分数的范围;其二是了解实 得分数再测时可能的变化情形。 这就是测量标准误 的应用。
SE Sx 1 rxx
真分数的估计区间为:
X-1.96SE T X+1.96 SE
17
Measurement Reliability
12
Measurement Reliability
2.标准误
信度系数仅表示一组测量的实得分数与真分数的符合 程度,但并没有直接指出个人测验分数的变异量。由 于误差存在,一个人所得分数有时比真分数高,有时 比真分数低,有时二者相等。理论上我们可以对一个 人施测无数次测验,然后求得分数的平均数和标准差。 这个平均数就是这个人的真分数,而标准差就是测量 误差大小的指标。但在实际上是行不通的。然后,我 们可以用一组被试两次测量结果来代替对同一人的反 复施测,以估计测量误差的变异数。
7
Measurement Reliability
r 信度系数是表示测量结果的稳定性程度的指标。记为: XX
信度系数的值域:?[0,1]
相关系数的值域是[-1,+1] ,信度系数的值域:[0,1], 为什么?
没有百分之百可靠的测量,因此,rXX=1只是理 论上的值,实际当中是不会存在的。
8
Measurement Reliability
首先计算出差异分数的标准误: 在统计上,经常要求两个分数的差异程度达到0.05的显著
水平,才能承认不是误差的影响。因此,将差异标准误 (7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验 两半得分的差异高于大约15分,才能达到0.05显著水平。 上述被试的差异分数110-102=8是不显著的。
21
Measurement Reliability
4.比较不同测验分数的差异
来自不同测验的原始分数是无法直接进行比较的,只有 将它们转换成相同尺度的标准分数才能进行比较。
这种比较包括两个人不同分数的差别和同一被试在两个 测验上的差别。
SEd SE12 SE22 S 2 rxx ryy
经典测量理论的信度系数
重测信度——稳定性系数 复本信度——等值性系数、等值性与稳定性系
数 内部一致性系数——分半信度、同质性信度 评分者信度——肯德尔和谐系数
9
Measurement Reliability
对信度系数要注意的几点:
1.在不同情况下,对不同样本,采用不同方法 会得到不同的信度系数,因此一个测验可能不 只一个信度系数。