第四章 信度
第四章__测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
如有A、B、C三位专家给6位应聘者的面试评分,结 果如下,试求评分者信度。
A 1 75 B 66 C 45
5、测量时间把握不恰当
6、评分不客观
(三)被试方面的可能影响
1、动机作用 2、测验经验 3、测验焦虑
4、生理变因(身心健康、疲劳等)
5、被试团体的异质性程度
同质性信度——内部一致性系数;
评分者信度——评分者之间的一致性。
第三节 影响信度的因素与提高方法 一、影响测量信度的主要因素
(一)测量工具的可能影响
1、题目样本的选择不当
题目样本不具代表性(偏题怪题),题目涵盖面过于
狭窄等。
2、题目含义及表达的模棱两可
题目含义不明确,语言表达模棱两可,会造成被试的
弗朗那根公式:rxx = 2 [ 1-( S2a + S2b )/ S2x ]
卢仑公式: rxx = 1- S2d / S2x
其中rxx是测验的分半信度, S2a 、 S2b表示被试
在两半测验上得分的方差,S2x表示被试在整个测验
上得分的方差, S2d表示被试在两半测验上得分之差 的方差。
四、同质性信度
5、测验长度偏短
测验长度偏短,难以全面考察被试的心理特质, 增加回答问题的随机性,从而降低信度。
6、特殊题型中靠猜测答题的可能性较大
猜测性将增加测验得分的随机性,从而降低测 验信度。
(二)施测过程的可能影响
第四章 心理测验的信度与效度
(公式5-5)
y
❖
SE
为差异的标准误
d
,S为相同尺度的标
准分数
的标准差
,
r r Z分数为1,T分数为10。 、 分别为两个测验的信度系 xx yy
数。
❖ 先将原始分数化成标准分数,然后将两个标准分数的差异
与1.96SEd(0.05显著性水平)进行比较,如果其绝对值
大于此值,则差异显著,否则差异不显著。
信度乃是一个被试群体的真分数与实得分数的相关系数 的平方。
信度乃是一个测验X与它的任意一个平行测验Y的相关系 数。
信度只受随机误差影响,系统误差不影响信度
5
二、信度的指标
信度以信度系数为指标,常用相关系数表示,表示实得 分数的变异数中有多少比例是由真分数的变异决定的,
❖信度系数以相关系数为指标,rxx=rxT2=ST2/SX2 ❖信度的平方根就是信度指数,rxT=ST/SX
27
❖ 2、确定信度可以接受的水平
一个测验究竟信度多高才合适,才让人满意呢?当然,最理想的情 况是rxx=1.00,但实际上是办不到的。根据多年的研究结果,一般 的能力测验和成就测验的信度系数都在0.90以上,有的可以达0.95; 而人格测验、兴趣、态度、价值观等测验的信度一般在0.80~0.85或 更高些。一般原则是:当rxx<0.70时,测验不能用于对个人做出评 价或预测,而且不能作团体比较;当0.70≤rxx<0.85时,可用于团 体比较;当rxx≥0.85时,才能用来鉴别或预测个人成绩或作为。
❖
41
五、影响信度的因素
❖ 样本的影响
样本团体的异质性高,信度就高 样本团体平均能力水平的影响
❖ 测验长度的影响
可以通过增加测验长度的方式提高信度值。 ❖ 新增项目必须与试卷中的原有项目同质。 ❖ 新增项目的数量必须适度。
第四章测量信度
第四章 测量信度一、填空题1、 根据一组被试在 两个平行或两个复本 测验上的得分计算的相关系数即为复本信度。
2、各种估计信度的方法都是对测验的一致性进行估计,但由于误差来源不同,它们研究的侧面各不相同,说明的是信度的不同方面。
其中,再测信度可用来估计________________________,复本信度可用来估计_________________,等值稳定性系数可用来估计_______________________,内部一致性系数可用来估计测验跨项目或两个分测验之间的一致性,评分者信度可用来估计测验跨评分者的一致性。
3、用同一个测验,对同一组被试前后施测两次,对两次测验分数求相关,其相关系数就叫 重测信度 。
4、一般认为经过训练的成对评分者之间的一致性达 0.90 以上,评分才是客观的。
5、再测信度又叫__________。
6、增加测验长度对信度产生的效果可用XXXX KK r K Kr r )1(1-+=公式来计算。
7、利用两平行形式测验测查同一批被试所得的两批观察分数,求其间的相关系数,跟____一样,也可求得测验的信度系数。
这种用平行形式相关求得的信度系数,因为特别强调两测验形式的____,所以又叫____。
8、复本信度又叫( )系数。
二、单项选择题信度的定义1、如果某测验的信度系数为0.80,那么该测验中真分数造成的变异占( A )A 80%B 20%C 64%D 36%2、信度之于效度正如(B )。
A 准确性之于一致性B 一致性之于准确性C 偏差数之于常模D 常模之于偏差数3、在能力测验中,代表测验量表的稳定性和一致性的指标是( C )。
(华南师大2001研) A 效度B 区分度C 信度D 难度4、信度指的是测量的( C )。
A 正确性B 针对性C 一致性D 有效性5、信度指数的( B )就是信度系数。
7、关于信度的指标正确的是( C )。
A 信度系数,即实得分数方差与真分数的方差的比值B 信度指数即是信度系数C 测量标准误与信度呈负相关D 测量标准误与信度呈正相关(相似题目)关于信度的指标,说法错误的是( D )。
心理测量 第四章 测量的信度
什么样的测量要考虑重测信度?
• 人的多数心理特质如智力、性格等,具有 相对的稳定性,因此对这些心理特质的测 量,应该前后一致。因此,我们希望得到 测验稳定性的证据。 • 另外,我们还经常要用测验分数对人做预 测,此时测验分数的跨时间的稳定性更加 重要。
• 重测信度的优点在于提供有关测验结果是否随时 间而变异的资料,作为预测受试者将来行为表现 的依据。其缺点是易受学习和记忆的影响。 • 如果相隔时间太短,则记忆犹在,练习的影响很 大,往往造成假性的高相关;如果相隔时间太长, 那么身心特质的发展与学习经验的累积等均足以 改变测验分数的意义,使相关降低。 • 一般来说,最适宜的相隔时间随测验的目的和性 质而异,少者两周,多者半年。
2.信度可以帮助进行不同测验分数 的比较
• 来自不同测验的原始分数是无法直接比较 的,而必须将它们转换成相同尺度的标准 分数才能进行比较。 • 例:某班期末考试,张生语文、数学的成 绩转换成T分数(平均数为50、标准差为10) 分别为65和70,由此我们可以知道张生的 数学比语文考得稍好些,但二者差异是否 有意义,仍不清楚。
再测信度(稳定性) 复本信度,分半信度(等值性) , Alpha系数(同质性) 先后施测两个复本
评分者信度
一、重测信度
• 1.含义和计算 • 重测信度(test-retest reliability)指的是用同一个量表对 同一组被试施测两次所得结果的一致性程度。 • 重测信度能表示两次测验结果有无变动,反映测验分数的 稳定程度,所以又叫稳定性系数。 • 其计算公式即皮尔逊积差相关公式: • XX = [ (X X ) (YY )] / √ (X X )2. (YY )2 • 公式中,XX是重测信度,X及X是第一次测量的实得分数 及实得分数的平均值,Y及Y是第二次测量的实得分数及 实得分数的平均值。
4第四章+测量的信度
2
Measurement Reliability
第一节
信度概述
一、什么是信度 1.信度的理论定义
信度即测量结果的稳定性、一致性或可靠性。是
用同一测量工具反复测量某人的同一种心理特质,
所得结果的一致性程度。
3
Measurement Reliability
2.信度的统计定义
定义1:信度是被试团体真分数方差与实得分数方差之比
23
Measurement Reliability
课堂练习
1.某个被试的测验IQ=100,再测的分数可能是多少? (已知测验的标准差为15,信度系数为0.90). 95%的可能在90.6~109.4之间 2.被试在韦氏智力测验中言语智商为102,操作智商
为110。两个分测验都是以100为平均数,15为标准 差的标准分数。假设言语测验和操作测验的分半信度 分别为0.93和0.94.问其操作智商是否显著高于言语 智商?
13
Measurement Reliability
此时,个人在两次测验中的分数差异就是测量误差。 据此可制成误差分数的分布。这个分布的标准差(误 差分布的标准差)我们称之为测量的标准误,是表示 测量误差的大小的指标,其计算公式为:
SE S x
1 rxx
SE表示测量的标准误,即误差分布的标准差;Sx表示实
24
Measurement Reliability
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1-=.95的置信区间 2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
心理测量 第4章 心理与教育测量的信度
两个测验必须在项目的内容、形式、数量、难易、 时限、指导语等方面相同或相似; 两次测验的时间间隔要适当;
尽管复本信度的估计方法避免了再测法的 缺点,应用范围较广,但它本身也有一定的局 限性:
复本法只能减少而不能完全排除练习和记忆的影响; 对于许多测验来说,建立复本是相当困难的; 由于第二个测验只改变了题目的内容,已经掌握解 题原则,可以很容易迁移到同类问题中去。
2 K为测验题目数,Si2 为某一题目分数的变异数,Sx 为测验 总分的变异数
采用SPSS计算信度
数 据 库
同 质 性 信 度 计 算 方 式
结果
输入40题
结果
评分者信度
标准化测验一般都有较为严格的评分程序。
对于客观性试题来讲,评分所引起的误差是可 以忽略不计的,但是对于一些主观题来讲,评 分者之间的变异是产生误差的重要原因之一。
测验的信度。
根据统计学里讲的区间估计的方法,
我们可以得知:个人在每次测量中所得分
数X有95%的可能性在真分数加减1.96个
标准误的范围内,即
X 1.96SE T X 1.96SE
两种测验分数的比较 来自不同测验的原始分数是无法直接 比较的,只有参照统一团体的平均分数, 将它们转换成相同尺度的标准分数(如T分 数或Z分数),才能进行比较。为了说明个 人在两种测验上的差异,我们可以用差异 标准误来检验其差异的显著性,其公式:
信度是测量过程中随机误差大小的反应 信度可以用来解释个体测验分数的意义 信度可以帮助不同测验分数之间进行比较
一个测验有多个信度估计值,因而误差估计值也有 多个,我们在实际工作中要注意选择最适合某一特 殊情况的信度估计来解决问题。
4. 信度
rxx=ST2 / Sx2 式中,rxx代表测量的信度,ST2代表真分数的变异数, Sx2
代表是实得分数的变异数,即总变异数。
该定义有两点需要注意:
第一、信度指的是一组测验分数或一列测量的 特性,而不是个人分数的特性;
2. 假设用A、B两型创造力复本测验对初中一年 级10个学生施测。结果如表所示,X1 ,X2 分别代表A、 B两型测验。求该测验的复本信度。
测
被试
验 1 2 3 4 5 6 7 8 9 10
X1 20 19 19 18 17 16 14 13 12 10 X2 20 20 18 16 15 17 12 11 13 9
(一)定义与计算
1.定义 用同一种测验,对同一组受试者,前后施测两次, 再根据受试者两次测验分数计算其相关系数,即得重 测信度。
即 测验 时距(几分-几年) 再测验
此种信度能表示两次测验结果有无变动,反映测 验分数的稳定程度,故又称稳定性系数。
2.计算方法
计算使用皮尔逊积差相关公式的变式: ∑ X1X2- ∑X1 ∑X2 /N
2. 两次测验的时间间隔要适当,若太短,由于测 验太相似被试可能厌倦,若太长可能又会因新的学习 而产生干扰。
(五)使用复本信度的局限
1. 只能减少但不能完全消除练习和记忆的影响; 2. 由于第二个测验只改变了题目的具体内容, 已经掌握的解题原则可以很容易地迁移到同类问题。 3. 对许多测验来说,建立复本是十分困难的。
rxx NS1S2
式中X1、X2为同一被试的两个分数,S1 、S2为 两次测验的标准差,N为被试人数。
(二)误差来源
1. 测验本身:测验所测的特性本身就不稳定,例 如情绪。
第四章 测量信度
主
要
测量工具
因
素
施测间隔的时间
现在您浏览到是十五页,共十七页。
二、提高测验信度的常用方法
适当增加测验的长度
提
控制试题的难度分布
高 测
努力提高每道题的区分度
验 信
维持测验的同质性
度 的
规范施测程度、统一施测环境
常 用
保证被试有充裕的作答时间
方 法
严格控制评分误差
努力提高测验在被试中各个 同质亚团体上的信度
现在您浏览到是九页,共十七页。
• 2、复本信度:
• ①定义:两个平行测验测量同一批被试所得结果 的一致性程度。
• ②计算方法:其大小等于同一批被试在两个复本 测验上所得分数的皮尔逊积差相关系数。
• ③使用的前提条件
现在您浏览到是十页,共十七页。
3、分半信度:
①定义:将一个测验分成对等两半后,所有被试在这两半 上所得分数的一致性程度。
③使用的前提条件 第一:所测量的心理特征必须是稳定的 第二:遗忘和练习的效果基本上相互抵消 第三:在两次施测的间隔时期内被试在所要 测查的心理特质方面没有获得更多的学习和 训练。
现在您浏览到是八页,共十七页。
内容总结
第四章 测量信度。信度是一个测验X(A卷)与它的任意一个平行。1、评价测验—衡量 测验好坏的重要指标之一。3、信度可以用来解释个人测验分数的意义——测量标准误。第 二节 信度的估计方法。②计算方法:分半,如奇偶分半,题目分半等。斯皮尔曼——布朗 公式校正。①定义:指测验内部所有题目间的一致性程度,也叫内部一致性系数。②计算方法 肯德尔和谐系数W系数。第三节 提高测验信度的方法。规范施测程度、统一施测环境。见 P57
现在您浏览到是十六页,共十七页。
第四章测量的信度与效度
结构效度主要应用于智力测验、人格测验等一些心理测 验方面。
2.结构效度的确定 确定结构效度的基本程序 第一,对所研究的心理特质的结构进行界定 第二,依据理论框架,提出可能的假设 第三,收集数据,验证假设
③考察测验的同质性。
④因素分析的方法 ⑤结构方程的方法
(2)测验间法 通过对几个测验的比较研究,找出它们所测的共同特质,
这样便可以确定这些测验是否具有结构效度。 ①相容效度:计算被试在新旧两个同类测验上的分数的
相关。如果相关高,则说明两个测验测的是相同的特质。 ②区分效度:一个有效的测验不仅与其它测量同一构想
(二)结构效度(construct validity) 1.结构效度的含义、特点与应用范围 结构效度是指一个测验实际测到所要测量的理论结构和
特质的程度,或者说测验分数能够说明测量的理论结构 和特质的程度。
结构效度有如下特点:
(1)结构效度首先取决于事先假定的心理特质的结构理 论
(2)当实际测量的资料无法证实事先的理论假设时,并 不一定就表明该测验结构效度不高。
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
向细目表对照 ③制订评定量表,考察题目对所定义的内容范围的覆盖
率、判断题目难度与能力要求之间的差异等。
第四章 信度
一
分半信度 同质性信度 评分者信度
复本信度 连续施测) (连续施测)
二
再测信度
复本信度 间隔施测) (间隔施测)
在一般情况下,间隔施测的复本信度最低,因 为很多因素有机会影响到分数.相反,校正过 的分半相关,因为影响的因素少,所得的信度 估计为最高.
各种信度系数相应误差变异的来源
信度系数的类型 再测信度 复本信度(连续施测) 复本信度(连续施测) 复本信度(间隔施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
时间间隔的把握
间隔时间越长,稳定性系数越低. 间隔时间越长,稳定性系数越低.适宜时间间隔依照测验 目的,性质及被试特点而定.几分钟至几年. 目的,性质及被试特点而定.几分钟至几年. 年幼儿童,间隔要小;年长群体,间隔可大. 年幼儿童,间隔要小;年长群体,间隔可大.智力测验的 间隔不能太短,成就测验的间隔不能太长. 间隔不能太短,成就测验的间隔不能太长. 一般间隔时间不超过六个月. 一般间隔时间不超过六个月.(即不能让被试记住上一次 测验的内容,又不能让其特质发生变化, 测验的内容,又不能让其特质发生变化,或对所学知识产 生遗忘) 生遗忘)
★注意排除施测顺序的影响
在报告结果时,应报告两次施测的间隔,及在此间隔内被试的有关经历.
稳定性与等值性(Stability 稳定性与等值性(Stability and Equivalent)信度 Equivalent)信度 1,定义: 如果两个复本测验是相距较长一段时间分两次施测的, 如果两个复本测验是相距较长一段时间分两次施测的,同 一组被试施测结果的一致性程度. 一组被试施测结果的一致性程度. 是一种最为严格的信度指标 时间间隔施测, 时间间隔施测,内容变异+重测信度误差 2,形式:复本A—适当时间—复本B 形式:复本A 适当时间—复本B
第四章 信度理论
信度与误差的关系 三种误差
抽样误差:抽样产生的误差
测量误差:偶然因素引起的不易控制的误差
系统误差:由与测量无关的因素引起的具有一定系
统性和规律性的误差
误差对信度的影响 抽样误差:不影响信度
测量误差:是影响信度的主要因素
系统误差:不影响信度
信度的理论定义
误差是随机的,即误差的平均数等于0,且呈正态分布
误差分数与真分数之间无相关
则获得分数、真分数和误差分数之间具有如下关系
2 t 2
2 e
2 t
2 t 2 t 2 2 t
2 e 2 t
测验的长度:测验所包含的测题的数量。
测验的长度越大,信度越高。
nrll rnn 1 n 1rll
对于预期信度的测验长度调整
rnn 1 rll n rll 1 rnn
被试的能力全距
1 r rnn 1 2 n
2 0
真分数模型 提出者:Charles Spearman(相关研究) 历史: 1904 逻辑性 测量分数易犯错误 1913 数学性
1904 Spearman:测验分数之间的相关低 于“真正客观值”之间的相关 1907 Spearman:易犯错误的度量 1913 Spearman:真正客观值
经典真分数 模型
信度的理论定义
从逻辑上讲,信度是一组测验分数中真分数方差 与获得分数方差的比率。 测验分数的含义
Xt X Xe
真分数的意义
无限次重复同一测验所得分数的平均数 真分数的获得完全依赖于所采用的测量过程
第四章测量信度.ppt
第一节 信度概述
信度:测验结果一致性的判断 (一个测验可靠性和稳定性的指标)
一个好的测验在多次测量同一个人的 时候结果应该是基本一致的.
一、信度与测量误差
1.经典测量理论的假设
X T E T V I X V I E
式中,X为观察分数,T为一般真分数, E为随机误差分数,V为目标真分数,I为 非目标真分数(系统误差)。
分半信度?使用时需注意的问题?在估计测验的分半信度时虽然要求把一个测验的所有题目随机地划分成对半的两个部分但是在实践中对测验分半时为了尽量减少无关因素的影响通常需要考虑题型题分题目测试先后顺序等因素的平衡问题比如按照题目顺序奇偶分半就是一个经常选择的方法
第四章 测量信度
本章提要
测量信度的概念及作用 信度的估计方法 影响信度的主要因素 提高信度的常用方法
项目同质性 当被试在同一测验里表现出跨项 目的一致性时,就称测验具有项目同质性。 也就是测验里各测题得分为正相关时,即为 同质,反之测题间相关为零则为异质。
三、内部一致性信度(同质性信度)P56
1.含义 ➢内部一致性信度主要评价了测验各随 机组成部分之间是否测量了相同的心 理特质,因此,它反映的是题目内容 的抽样一致性程度。
测量标准误差(standard error of measurement)是测量误差的假设分布的标准 差。用下列公式能够容易地计算测量标准误差:
SEM SDt 1 rXX
式中,SDt表示测验分数的标准差,rXX表示信 度系数。
四、信度的标准与作用P51
1.信度是评价测验质量的重要指标之一。
测验类型
4.使用重测信度时需要注意的问题 ➢两次施测时间间隔的长短会影响重测信度 系数估计值的大小,因此,在报告重测信 度系数时应该报告间隔的时间长度。 ➢应该根据已有的相关研究结论考虑所测心 理特质本身的稳定性程度,以确定前后两 次施测时间的间隔究竟应该多长比较合适 时,不应该随便选择间隔时间的长短。
第4章 测量的信度与效度
信度系数越大,表明测量的可信程度越大。 信度的估计方法有许多,比较易于使用的是相关系数的方 法。 一般采用同一问卷进行两次调查,再计算其相关系数。
3、信度的类型 (1)再测信度(Retest Reliability) 再测是指在不同时间的相同测验。 使用同一测量量表,对同一受测群体,在不同的时间前 后测试两次,再计算两次测试结果的相关系数,该系数即为 再测信度。 重复测量时,要注意时间间隔的合理控制。如果时间间 隔太短,受测者可能还记忆犹新,容易造成信度偏高。 如果时间间隔太久,可能环境条件的改变、或者受测者 心智成长会影响再测结果,从而造成信度偏低。 因而时间间隔应随测验的目的与性质而定。
5、效度的类型 (1)内容效度(Content Validity) 也称为表面效度(Face Validity)、逻辑效度。 它是指问卷的内容是否具有代表性,即是否包括被测量 构成所有层面的项目。 若问卷内容是以理论为基础,并参考以往学者类似研究 的问卷内容加以修订,并与实践或学术专家讨论过,且进行 过预测,即可以认为具有相当的内容效度。 内容效度反映设计的观测变量是否代表了所要测量的内 容或主题,可通过计算观测变量单项与得分总和之间相关系 数来测量,相关系数越大,量表的内容效度越高。一般要求 所测单项与总和之间的相关系数 在0.3以上。 考察内容效度旨在系统地检查测量内容的适当性,并根 据我们对所研究概念的了解去鉴别测量内容是否反映了这一 概念的基本内容。
(3)结构效度(Construct Validity) 结构效度也称建构效度。 它是指一个测验实际测到所要测量的理论结构和特质的 程度,是指实验与理论之间的一致性,即实验是否真正测量 到假设(构造)的理论。 结构效度分析所采用的方法是因素分析(因子分析)。 在因素分析的结果中,用于评价结构效度的主要指标有累计 贡献率、共同度和因子载荷。 结构效度的体现首先必须作KMO和Bartlett球形检验, 如果这两个检验合格的话,说明数据是适合做因素分析的。 通常KMO的值小于0.5时较不适合做因素分析,一般以大于 0.7为好。 然后提取因子,主因子解释总变异一般若大于60%的和 因子载荷大于0.6的话,说明结构效度很好。
第四章 测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件
要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。
第四章 信度和效度1
第二节 信度的评估方法
一、重测信度 二、复本信度
一、重测信度的概念及间隔时间
• (一)重测信度的概念及理解 • 又称稳定性信度,指同一测验在不同的时间上对 同一群体先后施测两次的测验结果的一致性。这 两次测验结果的相关系数即为重测信度系数。 • (二)重测的间隔时间 • 重测信度所考察的误差来源主要是时间的变化所 带来的随机影响,因此,必须注意间隔时间的长 短。间隔时间的长短要根据测验的性质和目的来 确定。如果希望测验成绩能够预测较长时间的变 化,则间隔时间应该较长。 • (三)重测信度的评估(见下页)
(四)复本信度的优缺点
• 复本信度的主要优点在于: • 1.能够避免重测信度的关于记忆、练习等方 面的问题; • 2.减少了辅导、练习和作弊的可能性。 • 然而,它也存在其局限性 • 1.不能完全消除练习的影响; • 2.有些测验较难找到完全等值的复本。
第三节 效度的概念、性质以及与信 度的关系
(三)重测信度的评估
• • • • • • • • • • • 1.在进行重测信度评估时要注意: (1)重测信度一般只反映由随机因素导致的 变化,而不反映被试行为的长久变化; (2)不同行为受随机误差的影响不同。 2.重测信度的假设前提 (1)每一被试对前一次测验的遗忘程度相同; (2)每一被试在重测的间隔期内没有学习与 测验有关的其他材料。 3.注意:解决问题型的测验不适合采 用重测的方式来考察其信度;而感觉-运动 型测验或人格测验较适合采用重测的方式 来考察其信度。
第四章 心理与教育测量的信度
仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分,且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数:适用于任何计分方式的测验。
概化理论的发展 测验情景关系说 测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法: 假定X=T+E,有σ
X 2=σ T 2+σ E 2,
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔,被试要测的特质没有学习和训练
重测信度练习
例3:10名学生接受了某测验,分数记为X,为考察该测
验的信度,一星期后,对这10个学生重新测了一次,分数
记为Y,根据两次测验结果,求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数,
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20):
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数,pi为通过第i题的人数比例,qi为未通过 第i题的人数比例,SX2为测验总分的变异数。
平行测验A
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章信度
[内容提示]
一、信度的定义
二、信度估计的方法
一、什么是信度
含义:指的是测量结果的稳定性程度(或叫可靠性)。
也指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。
1、理论定义:测验实测值和真值的相差程度。
2、操作定义:
定义1:一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。
计算公式:
r xx=S T2/S X2
定义2:信度乃是一个被试团体的真分数与实得分数的相关系数的平方。
即
r xx=ρTx2
2、操作定义:
定义3:信度乃是一个测验X(A卷)与它的任意一个“平行测验”X’(B卷)的相关系数。
即r xx=ρxx’
二、信度的类型及估计方法
(一)重测信度
1、含义与计算
又称稳定性系数。
他的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的相关系数。
三、信度的类型及估计方法
(一)重测信度(再测信度)
例:15名同学在1个月间隔内,先后2次重复施测某测验,测验结果如表中所列,请根据这些数据对该测验的重测信度进行计算。
三、信度的类型及估计方法
(一)重测信度
三、信度的类型及估计方法
(一)重测信度
2、使用的前提条件
(1)所测量的心理特性必须是稳定的。
(2)遗忘和练习的效果基本上相互抵消。
(3)在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。
3、优缺点:
优点:
(1)它最符合重复测验的涵义,是重复测验最简单最明确的方式。
(2)首测和再测只需要一套测验题目,省时、省力。
(3)同一套题目无论施测几次,所测的属性是完全相同的。
缺点:
(1)同一组被试对同一个测验先后两次作答相互之间是不独立的。
(2)如果两次施测时间间隔较长,在此期间被试的身心发展,新知识的获得,都会使两次测验结果不相同。
(3)同一个被试对现一个测验先后两次作答,对测验的兴趣不同,影响测验结果。
(4)两次施测的环境不同,也是产生测量误差的因素。
(二)复本信度
1、含义与计算:
含义:
又称等值性系数。
它是以两个平行或复本的测验(等值但题目不同)来测量同一群体,然后求得被试在两个测验上得分的相关系数,这个相关系数就代表了复本信度的高低。
复本信度反映的是测验在内容上的等值性,故称等值性系数。
2、使用的前提条件:
(1)要两份或两份以上真正平行的测验。
(2)被试要有条件接受两个测验。
主要取决于时间、经费等几方面。
3、优缺点:
优点:
(1)一个测验的复本使得测验数目的增加,对于所欲测量的属性相联系的行为总体代表性强,因此,一个测验的两个复本在两三天至一周对同一组被试施测时,获得的复本信度系数是相当准确的。
(2)测验的两个复本,如果在不同时间使用,其信度不仅可以反映在不同时间的稳定性,而且还可以反映对于不同测题的一致性。
(3)两个复本在同时使用时,可以避免再测验信度的缺点。
缺点:
(1)编制两个完全相等的测验是很困难的。
(2)复本法只能减少而不能完全排除练习和记忆的影响。
(3)被试同时接受性质相似的两个测验可能减少完成测验的积极性。
(三)分半信度
1、含义
指采用分半法估计所得的信度系数。
这种方法估计信度系数只需一种测验形式,实施一次测验。
通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。
2、计算
(1)两半测验分数的变异数相等(方差齐性)
先计算两半测验的积差相关系数,再进行校正。
常用的修正公式是:斯皮尔曼-布朗公式:
(2)两半测验分数的变异数不等(方差不齐),可采用:弗朗那根公式或卢伦公式中的任意一个。
问题:对初一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分.得分如表所示,试估计该测验的分半信度。
3、使用条件及范围
分半信度通常是在只能施测一次或没有复本的情况下使用。
当一个测验无法分成对等的两半时,分半信度不宜使用。
(四)同质性信度
1、含义:指测验内部所有题目间的一致性。
题目的一致性有两层含义:其一是指所有题目都测的是同一种心理特质;其二是指所有题目之间都具有较高的正相关。
总之,同质性信度就是一个测验所测内容或特质的相同程度。
2、测量同质性信度的基本公式:
3、库德-理查逊公式:适用于客观性试题(0、1记分)
3、克伦巴赫系数
例题:某态度量表共7题,100个被试在各题上的得分方差分别是
0.81,0.82,0.79,0.83,0.85,0.76,0.77。
测验总分的方差为14.00
求此测验的信度(α=0.70)
(五)评分者信度
1、含义与计算:指的是多个评分者给同一批人的答卷进行评分的一致性程度。
是用于测量不同评分者之间所产生的误差。
(五)评分者信度
式中W为和谐系数,K为评分者的人数,N为被评对象数,Ri为每一对象被评的等级总和。
例子:假设有三位专家给六篇论文评等级,结果如表所示,试计算此次评分者的评分者信度。
学1 学2 学3 学4 学5 学6
专1 2 4 1 5 6 3
专2 3 4 1 5 6 2
专3 3 5 1 4 6 2
Ri 8 13 3 14 18 7
2、注意的问题:
为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验的两个分数计算相关,即得评分者信度。
一般要求在两位受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。
当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。
思考题:
1.请思考评分者信度的含义,是否脱离了信度
的理论定义?
2.如何对于“焦虑自评量表”的信度进行评价?。