第四章测量的信度
测量的信度
信度的估计方法
• 重测信度 • 计算重测信度应当符合以下条件: 计算重测信度应当符合以下条件:
– 所测量的心理特性必须是稳定的。例如,成人的性格特点一般是稳定的, 所测量的心理特性必须是稳定的。例如,成人的性格特点一般是稳定的, 所以许多人格测验常使用重测信度。但是, 所以许多人格测验常使用重测信度。但是,刚入学儿童的识字量是极不 稳定的,只要两次施测的间隔时间稍长,儿童的识字量就会有很大变化。 稳定的,只要两次施测的间隔时间稍长,儿童的识字量就会有很大变化。 因此,重测信度不能用于这种情况, 因此,重测信度不能用于这种情况,因为测量结果的不一致很可能是被 试水平的变化所致,而不能说明测量工具是否稳定。 试水平的变化所致,而不能说明测量工具是否稳定。 – 遗忘和练习的效果基本上相互抵消。在做第一次测验时,被试可能会获 遗忘和练习的效果基本上相互抵消。在做第一次测验时, 得某种技巧,但只要间隔的时间适度, 得某种技巧,但只要间隔的时间适度,这种练习效果会基本上被遗忘掉 至于两次测验的间隔时间,这要根据问题的性质和测量目的而定。 的。至于两次测验的间隔时间,这要根据问题的性质和测量目的而定。 通常,智力测验的间隔时间一般在6个月左右。 通常,智力测验的间隔时间一般在6个月左右。 – 在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更 在两次施测的间隔时期内, 多的学习和训练。这一点,也实际上是要保证被试具有稳定的心理特质。 多的学习和训练。这一点,也实际上是要保证被试具有稳定的心理特质。
信度的估计方法
• 同质性信度
– 同质性信度也叫内部一致性系数,它是指测验内部所有题目间的一致 同质性信度也叫内部一致性系数, 性程度。题目间的一致性含有两层意思: 性程度。题目间的一致性含有两层意思:一是指所有题目测的都是同 一种心理特质;二是指所有题目得分之间都具有较高的正相关。 一种心理特质;二是指所有题目得分之间都具有较高的正相关。值得 注意的是,这里讲的题目间的一致性是分数的一致, 注意的是,这里讲的题目间的一致性是分数的一致,而不是题目内容 或形式的一致。因此,若测验的各个题目得分有较高的正相关时, 或形式的一致。因此,若测验的各个题目得分有较高的正相关时,不 论题目内容和形式如何,测验为同质的。相反,既使所有题目看来都 论题目内容和形式如何,测验为同质的。相反, 好像测同一特质,但相关为零或负值时,这测验还是异质的。 好像测同一特质,但相关为零或负值时,这测验还是异质的。 – 题目内部的一致性主要受两方面变异的影响:一是内容的同质性。二 题目内部的一致性主要受两方面变异的影响:一是内容的同质性。 是所研究的行为的同质性。所要测量的内容或行为同质性程度越高, 是所研究的行为的同质性。所要测量的内容或行为同质性程度越高, 题目的内部一致性越高。 题目的内部一致性越高。 – 当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个 当一个测验具有较高的同质性信度时, 心理特质,实测结果就是该特质水平的反映。 心理特质,实测结果就是该特质水平的反映。如果一个测验同质性信 度不高,则说明测验结果可能是几种心理特质的综合反映,这时, 度不高,则说明测验结果可能是几种心理特质的综合反映,这时,测 验结果不好解释。 验结果不好解释。一种好的办法是把一个异质的测验分解成多个具有 同质性的分测验,再根据被试在分测验上的得分分别作出解释。值得 同质性的分测验,再根据被试在分测验上的得分分别作出解释。 注意的是,一些表面上看起来是测量同一种心理特质的题目, 注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其 题目间不具有较高的正相关,则不能认为它们具有同质性。 题目间不具有较高的正相关,则不能认为它们具有同质性。
第四章__测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
如有A、B、C三位专家给6位应聘者的面试评分,结 果如下,试求评分者信度。
A 1 75 B 66 C 45
5、测量时间把握不恰当
6、评分不客观
(三)被试方面的可能影响
1、动机作用 2、测验经验 3、测验焦虑
4、生理变因(身心健康、疲劳等)
5、被试团体的异质性程度
同质性信度——内部一致性系数;
评分者信度——评分者之间的一致性。
第三节 影响信度的因素与提高方法 一、影响测量信度的主要因素
(一)测量工具的可能影响
1、题目样本的选择不当
题目样本不具代表性(偏题怪题),题目涵盖面过于
狭窄等。
2、题目含义及表达的模棱两可
题目含义不明确,语言表达模棱两可,会造成被试的
弗朗那根公式:rxx = 2 [ 1-( S2a + S2b )/ S2x ]
卢仑公式: rxx = 1- S2d / S2x
其中rxx是测验的分半信度, S2a 、 S2b表示被试
在两半测验上得分的方差,S2x表示被试在整个测验
上得分的方差, S2d表示被试在两半测验上得分之差 的方差。
四、同质性信度
5、测验长度偏短
测验长度偏短,难以全面考察被试的心理特质, 增加回答问题的随机性,从而降低信度。
6、特殊题型中靠猜测答题的可能性较大
猜测性将增加测验得分的随机性,从而降低测 验信度。
(二)施测过程的可能影响
第四章测量信度
第四章 测量信度一、填空题1、 根据一组被试在 两个平行或两个复本 测验上的得分计算的相关系数即为复本信度。
2、各种估计信度的方法都是对测验的一致性进行估计,但由于误差来源不同,它们研究的侧面各不相同,说明的是信度的不同方面。
其中,再测信度可用来估计________________________,复本信度可用来估计_________________,等值稳定性系数可用来估计_______________________,内部一致性系数可用来估计测验跨项目或两个分测验之间的一致性,评分者信度可用来估计测验跨评分者的一致性。
3、用同一个测验,对同一组被试前后施测两次,对两次测验分数求相关,其相关系数就叫 重测信度 。
4、一般认为经过训练的成对评分者之间的一致性达 0.90 以上,评分才是客观的。
5、再测信度又叫__________。
6、增加测验长度对信度产生的效果可用XXXX KK r K Kr r )1(1-+=公式来计算。
7、利用两平行形式测验测查同一批被试所得的两批观察分数,求其间的相关系数,跟____一样,也可求得测验的信度系数。
这种用平行形式相关求得的信度系数,因为特别强调两测验形式的____,所以又叫____。
8、复本信度又叫( )系数。
二、单项选择题信度的定义1、如果某测验的信度系数为0.80,那么该测验中真分数造成的变异占( A )A 80%B 20%C 64%D 36%2、信度之于效度正如(B )。
A 准确性之于一致性B 一致性之于准确性C 偏差数之于常模D 常模之于偏差数3、在能力测验中,代表测验量表的稳定性和一致性的指标是( C )。
(华南师大2001研) A 效度B 区分度C 信度D 难度4、信度指的是测量的( C )。
A 正确性B 针对性C 一致性D 有效性5、信度指数的( B )就是信度系数。
7、关于信度的指标正确的是( C )。
A 信度系数,即实得分数方差与真分数的方差的比值B 信度指数即是信度系数C 测量标准误与信度呈负相关D 测量标准误与信度呈正相关(相似题目)关于信度的指标,说法错误的是( D )。
心理测量 第四章 测量的信度
什么样的测量要考虑重测信度?
• 人的多数心理特质如智力、性格等,具有 相对的稳定性,因此对这些心理特质的测 量,应该前后一致。因此,我们希望得到 测验稳定性的证据。 • 另外,我们还经常要用测验分数对人做预 测,此时测验分数的跨时间的稳定性更加 重要。
• 重测信度的优点在于提供有关测验结果是否随时 间而变异的资料,作为预测受试者将来行为表现 的依据。其缺点是易受学习和记忆的影响。 • 如果相隔时间太短,则记忆犹在,练习的影响很 大,往往造成假性的高相关;如果相隔时间太长, 那么身心特质的发展与学习经验的累积等均足以 改变测验分数的意义,使相关降低。 • 一般来说,最适宜的相隔时间随测验的目的和性 质而异,少者两周,多者半年。
2.信度可以帮助进行不同测验分数 的比较
• 来自不同测验的原始分数是无法直接比较 的,而必须将它们转换成相同尺度的标准 分数才能进行比较。 • 例:某班期末考试,张生语文、数学的成 绩转换成T分数(平均数为50、标准差为10) 分别为65和70,由此我们可以知道张生的 数学比语文考得稍好些,但二者差异是否 有意义,仍不清楚。
再测信度(稳定性) 复本信度,分半信度(等值性) , Alpha系数(同质性) 先后施测两个复本
评分者信度
一、重测信度
• 1.含义和计算 • 重测信度(test-retest reliability)指的是用同一个量表对 同一组被试施测两次所得结果的一致性程度。 • 重测信度能表示两次测验结果有无变动,反映测验分数的 稳定程度,所以又叫稳定性系数。 • 其计算公式即皮尔逊积差相关公式: • XX = [ (X X ) (YY )] / √ (X X )2. (YY )2 • 公式中,XX是重测信度,X及X是第一次测量的实得分数 及实得分数的平均值,Y及Y是第二次测量的实得分数及 实得分数的平均值。
测量的概念层次与信度
定序测量(ordinal measurement )
特征:
◦ 不仅能将事物区分为不同的类别,而且还能反映事物或现象在高低 、大小、先后、强弱等序列上的差异。
◦ 数学特征是大于或小于 ◦ 所得到的信息比定类测量多一个或几个特征变量的信息 ◦ 对称性特征:区分同类与不同类 ◦ 不对称性特征:甲对乙有某种关系时,乙对甲并不一定具有同样的
语义差异量表
语义差异量表(semantic differential),也叫语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。
在社会学、社会心理学和心理学研究中,语义差异量表主要用 于文化的比较研究、个人及群体间差异的比较研究,以及人们 对周围环境或事物的态度、看法的研究等等。
语义差异量表
研究者通过对这些记号所代表的分数的统计和计算,来研究人 们对某一概念或事物的看法或态度,或者进行个人或团体间的 比较分析。
女同学
1
2
3
4
5
6
7
热情的
冷漠的
主动的
被动的
大方的
拘谨的
强的
弱的
快的
慢的
善的
恶的
概念的操作化
概念、变量和指标
概念(concept):
◦ 概念是对现象的抽象,是事物属性在人们主观上的反映。概念抽象 程度有高低之分,描述特征的明确程度也有差别。
指标选择的多样性
有些概念往往很难甚至不可能在具体现象中 找到其所对应的指标。
一个操作性定义往往也不能够完全代表一个 概念。
对抽象概念进行操作化时,往往在具体方法 和测量指标方面,存在多种不同的选择。
关于“夫妻权力”的案例
心理测量 第4章 心理与教育测量的信度
两个测验必须在项目的内容、形式、数量、难易、 时限、指导语等方面相同或相似; 两次测验的时间间隔要适当;
尽管复本信度的估计方法避免了再测法的 缺点,应用范围较广,但它本身也有一定的局 限性:
复本法只能减少而不能完全排除练习和记忆的影响; 对于许多测验来说,建立复本是相当困难的; 由于第二个测验只改变了题目的内容,已经掌握解 题原则,可以很容易迁移到同类问题中去。
2 K为测验题目数,Si2 为某一题目分数的变异数,Sx 为测验 总分的变异数
采用SPSS计算信度
数 据 库
同 质 性 信 度 计 算 方 式
结果
输入40题
结果
评分者信度
标准化测验一般都有较为严格的评分程序。
对于客观性试题来讲,评分所引起的误差是可 以忽略不计的,但是对于一些主观题来讲,评 分者之间的变异是产生误差的重要原因之一。
测验的信度。
根据统计学里讲的区间估计的方法,
我们可以得知:个人在每次测量中所得分
数X有95%的可能性在真分数加减1.96个
标准误的范围内,即
X 1.96SE T X 1.96SE
两种测验分数的比较 来自不同测验的原始分数是无法直接 比较的,只有参照统一团体的平均分数, 将它们转换成相同尺度的标准分数(如T分 数或Z分数),才能进行比较。为了说明个 人在两种测验上的差异,我们可以用差异 标准误来检验其差异的显著性,其公式:
信度是测量过程中随机误差大小的反应 信度可以用来解释个体测验分数的意义 信度可以帮助不同测验分数之间进行比较
一个测验有多个信度估计值,因而误差估计值也有 多个,我们在实际工作中要注意选择最适合某一特 殊情况的信度估计来解决问题。
第四章 测验信度作业
第四章测量信度一、单选题1.速度测验的信度应以( c )取得。
dA.奇偶法 B.筛选法 C.反应时法 D.重测法2.在其他条件均等的情况下,测验长度和信度之间的关系是( d )。
bA.测验越长,信度越低B.测验越长,信度越高C.没有关系D.上述说法都不正确3.计算一项测验的分半信度最常用的方法是比较( b )。
A.测验的前半部分与后半部分的得分。
B.奇数项目与偶数项目的得分。
C.将测验随机分为两部分,比较这两部分的得分。
.D.上述方法都可以。
4.一个40道题目的测验其奇偶分半后的信度为0.50,那么该测验的信度接近多少?( b )A. 0.50B. 0.67C. 0.80D. 1.05.当测验的信度减少(接近0)时,测量的标准误将会怎样变化(c )?A.减小,趋向于零。
B.只要趋向于1.0,它就会要么增大,要么减小。
C.增大,趋向于测验的标准差。
D.增大,逼近无限大。
6.再测信度所考虑的误差来源是(d )所带来的随机影响。
A.形式的不同B.题目的不同C.考生的不同D.时间的不同7.在考查评分者信度时,如果三人以上评阅数份试卷,则需计算( a )。
A.肯德尔和谐系数B.等级相关系数C.皮尔逊积差相关系数D.克伦巴赫α系数8.(a )是指在不同时间内用同一测验(或用另一套相等的测验)重复测量同一被试者,所得结果的一致程度。
A.信度B.效度C.难度D.区分度9.信度只受(d )的影响。
bA .系统误差 B.随机误差 C.恒定效应 D.概化理论10.复本信度又称等值性系数。
它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系效。
复本信度反映的是测验在( c )上的等值性。
dA.时间B.题目C.评分D.内容11.分半信度通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试者在两半测验上的得分,求出这两半分数的相关系效。
这个相关系数就代表了( d )内容取样的一致程度。
第4章 测量的信度与效度
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
测量的信效度
评分者信度(Scorer Reliability)
最简单的估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个评判分数 的相关系数。这种相关系数的计算可以用积差相关 方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时, 就需要用肯德尔和谐系数来求评分者信度。
评分者信度scorerreliability信度系数的类型误差变异的来源计算公式次数所需复本数目重测信度时间取样积差相关系数复本信度连续施测内容取样积差相关系数复本信度间隔施测时间取样内容取样积差相关系数分半信度内容取样积差相关系数需校正常用斯布公式同质性信度内容的异质性系数非二分法评分者信度评分者间的差积差相关系数斯皮尔曼等级相关系数肯德尔和谐系数在一般情况下间隔施测的复本信度最低因为很多因素有机会影响到分数
分半信度的估计
斯皮尔曼-布朗校正公式
rXX 2rx1x 2 1 rx1x 2
rx1x2 表示两半测验分数的相关系数
如果两半测验不等值,亦即两半测验分数没 有相同的平均数和标准差
弗朗那根公式:
r 2(1
S a Sb
2
2
Sx
2
)
Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分 的变异数。
SX2 = SV2 + SI2 + SE2
SX2 SV2 SI2 SE2
ST2
系统误差的影响
系统误差可能是由以下几方面原因造成的:
1)所要测量的特质有多方面的含义,而量表本身未能
第四章 测量信度
方差相等时
rxxLeabharlann 2rhh 1 rhh弗拉南根公式 卢尤公式
方差不等时
(二)同质信度
同质性 题目间的内部一致性
克龙巴赫 系数
各类 题型
类型 库-理信度
0、1 题型
K-R20 难度不同
k-R21 难度相近
四、评分者信度
含义 评分者评分的一致性
2评分者
rXY
rρ
方法
2个以上者 肯德尔和谐系数
真分数与实得分数相关的解释 信度系数和指数
②复本信度:两个平行测验测量同一批被试 所得结果的一致性程度。
③分半信度:将一个测验分成对等两半后, 所有被试在这两半上所得分数的一致性程度。
④同质性信度:指测验内部所有题目间的一
致性程度,也叫内部一致性系数。
KR20
⑤评分者信度
KR21
系数
一、重测信度
含义
程序
误差
同一测验
同组对象
前后测2次 相关系数
二、信度的作用
信度是测量过程中所存在的随机误 差大小的反映(评价测验好坏)
标准化学绩或能力测验 0.9以上 人格测验 0.8以上 教师自编学绩测验 0.6以上
信度可以用来解释个人测验分数的意义——测 量标准误(用区间估计来表示真分数的范围)
理论上:用一个测验对一个人测无数次,实测值的标 准差即为标准误
试问: 1)真分数的方差是多少? 2)各种信度的误差是多少?
分析结果
信度类型 重测复本
rXX 0.70
分半信度 0.80
两者之差
误差源 时间、内容
内容取样
时间取样
误差的方差
1-0.70=0.3 1-0.80=0.2 0.3-0.2=0.1
第四章 测量
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
三、语义差异量表
语义差异量表(semantic differential)也称为语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。 语义差异量表的形式由处于两端的两组意义相反的形容词 构成,每一对反义形容词间又分为7~11个等级区间,我们对观 念、事物或人的感觉可以通过我们所选择的两个相反形容词之 间的区间反映出来。记分方法有两种(以7个等级为例),一 种是将每一等级的分数从左至右分别记为7、6、5、4、3、2、 1,另一种则是记为+3、+2、+1、0、-1、-2、-3。
社会调查方法
21世纪思想政治教育专业系列教材
第四节 量表
一、总加量表
总加量表(summated rating scales)也称为总和量表或总 全评量,它由一组反映人们对事物态度或行为的陈述项目构 成,回答者分别对这些陈述发表意见,根据他们的答案(同 意或不同意、是或不是)分别计分,然后将回答者在全部项 目上的得分加起来,以此表示回答者对这一现象的态度或行 为得分。这个分数是其态度、行为的数量化结果,它的高低 代表了个人在态度、行为量表上的位置。
社会调查方法
21世纪思想政治教育专业系列教材
第一节 测量的概念和特征
测量的四个要素 用来表示测量结果的工 具 客观世界中存在的事物或现象, 是我们要用数字或符号来进行 表达、解释和说明的对象
测量客体
数字或符号 Company LOGO
测量内容
用数字或符号表达事物 各种属性或特征的统一 标准.
测量法则
社会调查方法
21世纪思想政治教育专业系列教材
第五节 信度和效度
信度:简单地说,信度就是指测量数据和结论的可靠性程 度,也就是说测量工具能稳定地测量到它要测量的事项的 程度。
名词解释测量的信度
名词解释测量的信度
测量的信度是指在心理学、社会科学和其他研究领域中,用来衡量测量工具或方法的稳定性和一致性的度量。
它反映了测量工具在不同时间、不同评估者或不同题项中得到相似结果的程度。
测量的信度是评估测量工具的可靠性和稳定性的重要指标。
它关注的是测量工具本身的特性,而不是测量结果的准确性。
一个信度较高的测量工具意味着在重复测量或不同评估者的情况下,测量结果应该是相似的或高度一致的。
常用的测量信度指标包括重测信度、内部一致性信度和等价形式信度。
重测信度通过在不同时间点对同一样本进行重复测量来评估测量工具的稳定性。
内部一致性信度则通过测量工具内部各项指标之间的相关性来评估测量工具的一致性。
等价形式信度则是通过比较不同版本或形式的测量工具在同一样本中的得分来评估测量工具的等效性。
测量的信度对于研究的可靠性和有效性至关重要。
如果测量工具的信度较低,那么使用该工具得到的结果可能不可靠,无法准确
反映所要研究的变量。
因此,在研究设计和数据分析中,确保测量工具具有高信度是十分重要的。
戴海崎《心理与教育测量》(第3版)课后习题(第4章 测量信度——第6章 测验的项目分析)【圣才出品】
第4章测量信度1.各种信度系数所对应的误差来源是什么?答:信度主要包括重测信度、复本信度、分半信度、同质性信度、评分者信度,各种信度系数所对应的误差来源分别简述如下:(1)重测信度系数对应的误差来源重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。
除去主试,施测环境和被试等方面的误差,它的独特误差来源主要有:①施测过程中所产生的遗忘和练习效应;②在两次施测的间隔时间内,被试在所要测查的心理特质方面获得了学习机会。
(2)复本信度系数对应的误差来源复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。
它的误差来源有:①不能获得严格意义上的平衡测验;②施测过程中产生的顺序效应和迁移效应;③在两次施测的间隔时间内,被试在所测量的心理特质上获得了学习机会。
(3)分半信度系数对应的误差来源分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。
它的误差来源是:不同的分半方法的分半信度不同,可能是由于将测验分为相平行的两半的方法不同而产生误差。
(4)同质性信度系数对应的误差来源同质性信度也称内部一致性系数,它是指测验内部所有题目之间的一致性程度。
克龙巴赫α值还是所有可能的分半信度的平均值,它只是测量信度的下界的一个估计值。
即,α值大,必有测量信度高;但α值小时,却不能断定测量信度不高。
它的误差来源产生于题目是否同质,这包括两个方面:①所有题目都测的是同一种心理特质;②所有题目得分之间都具有较高的正相关。
(5)评分者信度系数对应的误差来源评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。
在心理与教育测量工作中,客观题的评分很少出现误差,但主观题的评分常常会造成误差。
它的误差来源主要是多个评分者之间的个体差异,对相同答案的不同评定,这种个体差异不可能完全消除,只能最大程度低依赖正规的测查程序和统计方法来减小它。
第四章测量的信度与效度
结构效度主要应用于智力测验、人格测验等一些心理测 验方面。
2.结构效度的确定 确定结构效度的基本程序 第一,对所研究的心理特质的结构进行界定 第二,依据理论框架,提出可能的假设 第三,收集数据,验证假设
③考察测验的同质性。
④因素分析的方法 ⑤结构方程的方法
(2)测验间法 通过对几个测验的比较研究,找出它们所测的共同特质,
这样便可以确定这些测验是否具有结构效度。 ①相容效度:计算被试在新旧两个同类测验上的分数的
相关。如果相关高,则说明两个测验测的是相同的特质。 ②区分效度:一个有效的测验不仅与其它测量同一构想
(二)结构效度(construct validity) 1.结构效度的含义、特点与应用范围 结构效度是指一个测验实际测到所要测量的理论结构和
特质的程度,或者说测验分数能够说明测量的理论结构 和特质的程度。
结构效度有如下特点:
(1)结构效度首先取决于事先假定的心理特质的结构理 论
(2)当实际测量的资料无法证实事先的理论假设时,并 不一定就表明该测验结构效度不高。
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
向细目表对照 ③制订评定量表,考察题目对所定义的内容范围的覆盖
率、判断题目难度与能力要求之间的差异等。
4第四章社会测量及指标
4.定比尺度
定比尺度也称比例尺度、等比尺度。定比尺度除具有 上述三种尺度的全部性质之外,还具有一个共同的基准— —有实际意义的零点(绝对零点)。 所以它所测得的数据,既能作加减运算,又能作乘除 运算。 例如身高、年龄、出生率、工资等都是定比尺度。 如张三的工资是180元,李四的工资是90元,便可说张三
下面是一个包括4项用来测量堕胎态度陈述的哥特曼量表。 (1)任何孕妇均可要求堕胎: 同意 反对 (2)孕妇在其身心健康受影响的情况下可以堕胎: 同意 反对 (3)孕妇在生命有危险时方可堕胎: 同意 反对 (4)孕妇在胎儿有残废和死亡倾向时可以堕胎: 同意 反对 依据对堕胎的保守程度,这4项陈述是依次排列的,对 此做出的回答有下列5种模式。 思想开放的回答者(类别A)同意全部回答项目,最保守 的回答者(类别E)反对全部项目。
字、符号分别来代表人、事物、事件属性的过程和方法。
社会测量与自然科学测量相比,社会测量
有两个特点:
(1)对社会现象的测量其标准化和精确化程度均
较低
(2)这种测量不完全是数量化的,它也可以是类 别化的。
(二)社会测量的尺度
作为社会研究与社会统计中可以取二个或以上值的变
量,它有质的差异和量的不同,有间断和连续的区别;同
X1=5十1十4十3=13(分) 这里X1代表某人在变量A上的得分。 倘若我们发了500份问卷,其中300份是工人填的,200 份是农民填的。 统计结果,300个工人的平均得分为12分,200个农民的 平均得分为14分。我们就可以从总体上进行比较,农民平 均得分高于工人,说明农民在重男轻女问题上受封建思想 影响比工人深。
2、定序尺度
定序尺度也称等级尺度、顺序尺度。定序尺度的取值 可以按照某种逻辑顺序将调查对象排列出高低或大小,确 定其等级及次序。所得变量可用数学符号 “>”或“<”来表 示。 例如:文化程度: (1)不识字或识字很少, (2)小学, (3)初中, (4)高 中, (5)大专, (6)大学, (7)大学以上
第四章 信度理论
信度与误差的关系 三种误差
抽样误差:抽样产生的误差
测量误差:偶然因素引起的不易控制的误差
系统误差:由与测量无关的因素引起的具有一定系
统性和规律性的误差
误差对信度的影响 抽样误差:不影响信度
测量误差:是影响信度的主要因素
系统误差:不影响信度
信度的理论定义
误差是随机的,即误差的平均数等于0,且呈正态分布
误差分数与真分数之间无相关
则获得分数、真分数和误差分数之间具有如下关系
2 t 2
2 e
2 t
2 t 2 t 2 2 t
2 e 2 t
测验的长度:测验所包含的测题的数量。
测验的长度越大,信度越高。
nrll rnn 1 n 1rll
对于预期信度的测验长度调整
rnn 1 rll n rll 1 rnn
被试的能力全距
1 r rnn 1 2 n
2 0
真分数模型 提出者:Charles Spearman(相关研究) 历史: 1904 逻辑性 测量分数易犯错误 1913 数学性
1904 Spearman:测验分数之间的相关低 于“真正客观值”之间的相关 1907 Spearman:易犯错误的度量 1913 Spearman:真正客观值
经典真分数 模型
信度的理论定义
从逻辑上讲,信度是一组测验分数中真分数方差 与获得分数方差的比率。 测验分数的含义
Xt X Xe
真分数的意义
无限次重复同一测验所得分数的平均数 真分数的获得完全依赖于所采用的测量过程
第四章 测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件
要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。
第四章 心理与教育测量的信度
仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分,且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数:适用于任何计分方式的测验。
概化理论的发展 测验情景关系说 测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法: 假定X=T+E,有σ
X 2=σ T 2+σ E 2,
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔,被试要测的特质没有学习和训练
重测信度练习
例3:10名学生接受了某测验,分数记为X,为考察该测
验的信度,一星期后,对这10个学生重新测了一次,分数
记为Y,根据两次测验结果,求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数,
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20):
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数,pi为通过第i题的人数比例,qi为未通过 第i题的人数比例,SX2为测验总分的变异数。
平行测验A
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Measurement Reliability
测验类型
信度系数
低
中
高
学业成就测验
0.66
0.92
0.98
学术能力测验
0.56
0.90
0.97
特殊能力倾向测验 0.26
0.88
0.96
人格测验
0.46
0.85
0.97
兴趣测验
0.42
0.84
0.93
态度测验
0.47
0.79
0.98
注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.
88~112
20
Measurement Reliability
注意几点: (1)SE对真分数做的是区间估计,不可能由此得到一
个确切的点。这就是说,测验分数不是一个定点,而 是具有一定的分布范围。因此,两次测验分数之间存 在差异是很正常的。 (2)置信水平确定后,估计的精度主要取决于SE,SE 越小,范围越小,估计就越精确,反之也然。 (3)真分数不能等同于真正能力或心理特质,真分数 中包括了系统误差。
27
Measurement Reliability
一般来说,重测的时间间隔越短,那么各种施测情 境的变化就越小,重测信度系数就会越大。
重测信度系数较大时,说明该测量工具前、后两次 的测量结果比较一致。结果具有较好的跨时间上的 稳定性。
3.一个包含10个题目的测验,信度为0.50,若增至 50个题目,其信度将是多少?
4.书本P57-58第2、3题
25
Measurement Reliability
第二节 信度的评估方法
一、重测信度 二、复本信度 三、内部一致性信度 四、评分者信度
26
Measurement Reliability
2.信度系数只是对测量分数不一致程度的估计, 并没有指出不一致的原因。
3.获得较高的信度系数并不是心理测量追求的 最终目的,它只是迈向目标的一步,是使测量 有效的一个必要条件。
10
Measurement Reliability
信度系数要达到多高才可以接受呢?
最理想的是rxx =1.00,但办不到 研究结果显示,能力,成就测验都在0.90以上,有的还
rxx代表测量的信度,S2T代 表真分数的变异数, S2x代 表是实得分数的变异数,即 总变异数。
定义2:信度是被试团体真分数与实得分数相关系数的平方
rXX
2 TX
定义3:信度是一个测验X(A卷)与它的任意一个平行测验
(B卷)的相关系数
rXX XX
4
Measurement Reliability
7
Measurement Reliability
r 信度系数是表示测量结果的稳定性程度的指标。记为: XX
信度系数的值域:?[0,1]
相关系数的值域是[-1,+1] ,信度系数的值域:[0,1], 为什么?
没有百分之百可靠的测量,因此,rXX=1只是理 论上的值,实际当中是不会存在的。
8
Measurement Reliability
Measurement Reliability
第四章测量的信度
1
Measurement Reliability
导学
信度是评价测验优劣的重要指标,了解信度的相关知识是 编制优质高效测验的前提。通过本章的学习我们可解 决三个问题: 一、明确信度的理论定义及操作定义;(难点) 二、掌握几种常模参照测验的信度估计方法;(重点) 三、了解影响信度的因素,在信度估计时尽量避免由此 造成的误差;提高信度的方法。
我们可以用测量的标准误来估计个人测验的真分数的大小。 如果选用95%的可靠性水平(置信水平),即显著性水
平(a值)为.05,,真分数有95%的可能落入X ± SE , 即X ±1.96 SE的范围之内,也可以写成X-1.96SE T X+1.96 SE,SE则用公式代入。或有5%的可能落入 这范围之外。这实际上也表明了再测时分数改变的可能范 围。 X―1.96SE<T≤X+1.96SE
15
Measurement Reliability
2.确定信度可以接受的水平
最理想的是rxx =1.00,但办不到 研究结果显示,能力,成就测验都在0.90以上,有的
还可以达到0.95以上;人格测验、兴趣、态度、价值观 等都在0.80~0.85。 一般原则: ⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预 测,而且不能做团体比较; ⑵当0.70≤rxx <0.85时,可用于团体比较; ⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作 为。 另一原则:新编的测验信度应该高于缘由的同类测验 或相似测量
13
Measurement Reliability
此时,个人在两次测验中的分数差异就是测量误差。 据此可制成误差分数的分布。这个分布的标准差(误 差分布的标准差)我们称之为测量的标准误,是表示 测量误差的大小的指标,其计算公式为:
SE S x 1 rxx
SE表示测量的标准误,即误差分布的标准差;Sx表示实 得分数的标准差;rxx表示信度系数。
14
Measurement Reliability
三、信度的作用(信度与测验分数的解释)
1.信度是测量过程中所存在的随机误差大小的反映
(解释真实分数与实得分数的相关) 信度系数可以解释为:总的方差中有多少比例是由真实
分数的方差决定的,也就是测验的总变异中真分数造成 的变异占百分之几。 例如,r=0.9时,实得分数90%的变异来自真分数,10% 来自误差。r=1呢?r=0呢? 信度系数从0.00~1.00,代表了从缺乏信度到完全可信 的所有状况 信度系数也告诉我们误差有多大
12
Measurement Reliability
2.标准误
信度系数仅表示一组测量的实得分数与真分数的符合 程度,但并没有直接指出个人测验分数的变异量。由 于误差存在,一个人所得分数有时比真分数高,有时 比真分数低,有时二者相等。理论上我们可以对一个 人施测无数次测验,然后求得分数的平均数和标准差。 这个平均数就是这个人的真分数,而标准差就是测量 误差大小的指标。但在实际上是行不通的。然后,我 们可以用一组被试两次测量结果来代替对同一人的反 复施测,以估计测量误差的变异数。
可以达到0.95以上;人格测验、兴趣、态度、价值观等都 在0.80~0.85。 一般原则: ⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测, 而且不能做团体比较; ⑵当0.70≤rxx <0.85时,可用于团体比较; ⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。 另一原则:新编的测验信度应该高于原有的同类测验或 相似测量
首先计算出差异分数的标准误: 在统计上,经常要求两个分数的差异程度达到0.05的显著
水平,才能承认不是误差的影响。因此,将差异标准误 (7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验 两半得分的差异高于大约15分,才能达到0.05显著水平。 上述被试的差异分数110-102=8是不显著的。
由于真分数的方差无法统计,可转化为: rxx=(S2x-S2E)/S2x =1- S2E/S2x
该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,而
不是个人分数的特性; 第二 、真分数的变异数是不能直接测量的,因此信度是
一个理论上构想的概念,只能根据一组实得分数做出 估计。
5
23
Measurement Reliability
课堂练习
1.某个被试的测验IQ=100,再测的分数可能是多少? (已知测验的标准差为15,信度系数为0.90).
95%的可能在90.6~109.4之间
2.被试在韦氏智力测验中言语智商为102,操作智商 为110。两个分测验都是以100为平均数,15为标准 差的标准分数。假设言语测验和操作测验的分半信度 分别为0.93和0.94.问其操作智商是否显著高于言语 智商?
一、重测信度(Test-Retest Reliability)
(一)含义
也叫再测信度 1.重复测验:同一量表,同一被试群体,在不同时间,
两次施测。 2.重测信度:用同一测验,对同一组被试前后两次施测,
两次测验分数之间的相关程度(用相关系数来表示)就 是再测信度。 3.重测信度实质:主要考察了一个测量工具是否能够保 证在不同时间测量结果的一致性,表示测验结果的稳定 性。故称之为稳定性系数(Coefficient of Stability) 4.形式:施测A1—适当时间—再施测A2
16
Measurement Reliability
3.解释个人分数的意义
作用:其一是估计真实分数的范围;其二是了解实 得分数再测时可能的变化情形。 这就是测量标准误 的应用。
SE Sx 1 rxx
真分数的估计区间为:
X-1.96SE T X+1.96 SE
17
Measurement Reliability
24
Measurement Reliability
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1-=.95的置信区间
2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
21
Measurement Reliability
4.比较不同测验分数的差异