测验的信度
第三讲 测验的信度
(三) 测验难度 难度与信度不存在简单的对应关系。如果 因为难度过大或过小,造成分数范围缩小, 可使信度降低。
(四) 时间间隔 再测法求信度,间隔时间越短信度系数越 大;间隔时间越久,信度系数越低。
的变异是真实分数造成的,误差造成的只占 10%。 rxx =1时,表示没有测量误差。 值得注意的是,信度系数的分布是 0.00~1.00的正数范围,表示信度缺乏~ 完全可信。
(二) 确定信度可以接受的水平(参考p352) 1.当rxx<0.70时,测验不能用于对个人作 出评价或预测,而且不能作团体比较; 当0.70≤rxx<0.85时,可用于团体比较; 当rxx≥0.85时,才能用来鉴别或预测个 人成绩或作为。 2.新编的测验信度应过于原有的同类测验 或相似测验.
第一,实得分数(X)是真实分数(T)和误差(E)之和。
X=T+E 第二, X=T+E转换为方差表示: S2X= S2T+ S2E
第三,信度被定义为:一组测量分数的真分数方差与 总方差(实得分数的方差)的比率。
rxx= S2T/S2X
第四,真实分数的转换: S2T= S2X- S2E 第五,
rxx= 1-S2E/S2X
(四)同质性信度(homogeneity reliability)
重测信度和复本信度主要是考察测验跨时间 的一致性(稳定性)和跨形式的一致性 (等值性)。内部一致性信度系数主要反 应的是题目之间的关系,表示测验能够测 量相同内容或特质的程度。 如,EPQ人格测验的各项目之间的同质程 度。
同质性信度(homogeneity reliability) 1.同质性信度的概念:同质性信度又称内部一致性信 度。指测验的所有题目间性质的一致性,即测得是 同一种心理特质或行为。 2.采集数据的方法:施测一次测验,算出所有测题的 得分,求出各题目间的相关。 当各个测题的得分有较高的正相关时,不论题目 的内容和形式如何,则测验为同质的。相反,即使 所有题目看起来好象测量同一特质,但相关很低或 为负相关时,则测验为异质的。 3.最常看到的同质信度是克伦巴赫(Cronbach)a 系数。
确定测验信度的方法
确定测验信度的方法
(1)再测法,指用同一种测量工具和方法,对同一调查对象,前后两次施测。
采用再测法时应注意三个问题:第一,两次测量的时间间隔要适当;第二,再测法适用于测验项目多的速度测验,而不适用于项目少的难度测验;第三,应设法调动被调查者再测的积极性。
再测法简便易行,因此是一种最普遍,最常用的信度检验方法。
(2)复本法,是指对同一组被调查者同时或连续使用量表的正本和复本进行测量,复本的项目陈述与正本不同,但测量的是同一内容,即在概念、题量、形式和难度方面都一致。
在采用复本法时,一定要注意:一是正本和复本必须同质、同量。
二是两次测量的时间选择要适当,若同时进行,要注意被调查者可能因测量太相似而疲倦的问题;若连续进行,则要注意避免间隔时间太长。
复本法的检验结果比再测法的准确度高,也得到广泛应用,但它本身也有一定的局限:它只能减少而不能完全排除练习和记忆功能的影响;对于许多测量来说,建立复本有一定难度。
(3)分半法,是按正常的程度实施测量,然后将全部项目分成相等的两半,分别统计。
关键的问题是如何将测量分成两半。
一个测量可以采用多种不同的方法分半,但是在大多数情况下,分为前半部分和后半部分是不可取的。
通常采用奇偶分半法,即按奇偶数将项目一分为二,分别计算。
但遇到有关联的项目或解决同一问题的项目时,应将其归在同一半,否则会高估信度的值。
另外要注意当量表中存在任选题时,不宜采用分半法。
测验的信度名词解释
测验的信度名词解释嘿,咱今儿来聊聊测验的信度!你说啥是测验的信度呀?这就好比你有一把尺子,你每次用它去量东西,得出来的结果都差不多,那这把尺子就是可靠的,信度就高。
测验也是一样的道理呀!想象一下,你参加了一场考试,这次考了 80 分,下次再考类似的内容,结果就变成 40 分了,这像话吗?这就说明这个测验的信度不行啊!信度高的测验呢,就像一个靠谱的朋友,不管啥时候找它,它都能给你比较稳定的反馈。
测验的信度其实包括好多方面呢。
比如说重测信度,就是你过段时间再测一次,结果是不是差不多。
这就好像你喜欢吃的那家馆子,你今天去觉得好吃,过一阵再去,味道还是那么棒,那你就会觉得它信度高呀!还有复本信度,就是有两份类似的测验,你做出来的结果也得比较一致才行。
就像你有两双差不多的鞋子,穿起来都很合脚,那才好嘛!那为啥要重视测验的信度呢?这还用问吗!如果测验信度不高,那得出的结果能靠谱吗?那不是瞎耽误功夫嘛!好比你想量自己的身高,结果尺子一会儿长一会儿短,你能知道自己到底多高吗?信度高的测验才能让我们真正了解被测试的东西呀!而且啊,测验的信度对于很多事情都很重要呢!在教育领域,老师通过信度高的测验来了解学生的学习情况,如果测验不可靠,那不是会误导老师和学生嘛!在心理学研究中,要是测验信度不行,那得出的结论说不定都是错的呢!在企业招聘中,要是测试工具信度低,招进来的人不合适,那不是给企业找麻烦嘛!那怎么提高测验的信度呢?这可得好好琢磨琢磨。
首先得保证测验的内容质量高呀,不能乱七八糟的。
然后施测的过程也要规范,不能一会儿这样一会儿那样。
还有评分也要客观公正,不能凭感觉来。
这就跟做菜一样,食材要好,步骤要对,火候要掌握好,才能做出美味的菜肴嘛!咱再回过头来想想,测验的信度是不是真的很重要呀!要是没有信度,那测验还有啥意义呢?所以啊,咱可得重视起来,让测验真正发挥它的作用!怎么样,我说得够清楚了吧?测验的信度,咱可得好好把握呀!。
提高试题信度的方法
提高试题信度的方法
提高试题信度的方法主要有以下几点:
1. 适当增加测验中与原题目具有较好同质性的题目,增加测验的长度。
这样可以排除偶然因素的影响,提高测验的信度。
2. 保持问卷的难度适中。
题目难度太大或太小都可能使得分差异减小,从而降低测验的信度。
3. 保证测验时间充分。
这能确保答卷者能够从容地回答所有问题,使得分反映真实情况。
4. 保持测试的程序统一。
这包括指导语、回答问题的方式、分收试卷的方法和测验时间等都保持一致。
5. 保证测验的内容同质。
要求答卷者具有相同的能力、知识和技能,以提升测验的信度。
这些方法可以提高测验的信度,使结果更准确可靠。
但每个测验的具体情况可能会有所不同,因此在具体应用时需结合实际情况进行选择和调整。
测验的信度
(三)解释个人分数的意义 其一是估计真实分数的范围; 其二是了解实得分数再测时可能的变化情形。 这就是测量标准误的应用。
结合p353公式和事例讲解
(四) 比较不同测验分数的差异
信度在评价两个不同测验的分数是否有明显差异时起着非常 重要的作用。
两个不同测验的分数: ①两个人不同分数的差别 ②同一被试在两个测验上的差别。 这就是差异分数的标准误问题 计算公式:
信度指数(rXT)的平方就是信度系数r2XT。
3.测量标准误 测量误差分布的标准差,即为测量的标准误。 公式为:
SE=S X 1 -rXX
注:SE为测量的标准误, SX是所得分数的标准差, rxx为测验的信度系数
测量的标准误越小,信度越高,反之亦然.
二
信度评估的方法
(一) 重测信度 (二) 复本信度 (三) 分半信度 (四)内部一致性信度 (五) 评分者信度
SEd =S
2-rXX -ryy
注:S 代表两个测验使用的标准差 rxx与ryy代表两个测验的分半信度
※统计学上,一般要求两个分数的差异程度达到0.05的显著水平,才能
承认不是误差的影响。
(二)信度的指标 信度的指标通常3种表示方法 1.信度系数 信度是以信度系数为指标,是一种相关系数.常 常是同一被试样本所得的两组资料的相关,即真 实分数方差与实得分数的方差的比值. rXX=r2XT=S2T/S2X
2.信度指数 信度指数(rXT)是真分数标准差与实得分数标准差 的比值。 rXT=ST/SX
第三讲 测验的信度
主要内容 一 二 三 四 信度的概念 信度评估的方法 信度的意义 影响信度的因素
一
信度的概念
(一) 信度的定义 信度是指同一被试在不同时间内用同一测 验(或用另一套相等的测验)重复测量, 所得结果的一致程度,即一个测验的稳定 性、一致性。 在测量理论中,信度被定义为:一组测量 分数的真分数方差与总方差(实得分数的 方差)的比率。
5心理测量 第五章 经典测验理论——信度
二、估算信度系数的方法
在数据达不到这一要求时(方差不齐性) 卢仑/卢龙Rulon公式:
rXX =1-Sd2/ Sx2
弗朗那根Flanagan公式:
rXX =2[1-(Sa2+ Sb2) ] / Sx2
如果该测验的标准差是15,信度系数是 0.84,那么他智商的真实得分范围是多少?
四、信度系数的作用
3、比较不同测验分数的差异 测量标准误和测验信度在评价两个测验
分数是否有明显差异时也非常重要。 通过差别分数的标准误,可以比较两个
人不同分数的差别和一个被试在两个同 类测验上的差别
四、信度系数的作用
多个测验分数加总的合并分数
分数合成后,信度倾向于提高
测验间的相关越高,合成信度越高
rss
1
k
k (krii ) (k 2 k )rij
rii 平均测验信度 rij 平均测验相关
k 测验数目
三、特殊的信度问题
4、分量表的信度 有些量表是测量单一心理特质、心理内
容的,可计算全量表的信度系数 有些量表由多种分量表构成,应计算各
典型信度系数 0.95 0.90 0.85
0.80
0.75 0.70 0.65 0.60 0.55 0.50
信度系数的意义
测验类型
解释
测量误差几响乎没有影
能力、智力、成就
高到中等的信度
人格测验和态度、兴 趣等一些等级量表
课堂测验
中到低的信度
投射测验
低信度 真分数和误差对测验
四、信度系数的作用
2、解释个人分数 信度系数可以更加精确的解释个人分数,根据
测验的信度问题定
5.2.1再测信度
概念:同一测验让同一组被试做两次, 两次测验中间隔一段时间。计算两次测 验分数之间的相关,其相关系数表明该 测验随着时间的推移是否保持稳定。
使用再测信度时要注意练习效应和学习 效应,注意选择合适的时间间隔。
.
5.2.2复本信度
复本测验是指在性质、内容、题型、难度 等方面都一致的两份或多份测验。同一组 被试在复本测验上所得结果的相关系数就 是复本信度。
.
5.2.3 内部一致性信度
内部一致性是指同一测验里的各题目或各部分题 目是否测了同一个东西。如果测验的各个题目测 的都是同一个东西,这些题目间就有一致性,反 之,题目之间则没有一致性。
估计内部一致性信度的方法有很多种,这些方法 大致可以归为两类。一类是通过测验两半的相关 来估计,另一类是通过题目的方差来估计。
.
5.3 影响信度的几个因素
被试的异质性程度 被试的异质性程度越高,真分数的方差就越大, 信度也就越高。
时间限制 在严格的时间限制下,被试的答题速度对分数有 明显的影响,也就是说被试真分数的方差不仅包 括被试对题目反应的差异,也包含了被试答题速 度的差异。在这种情况下,信度系数就被高估了。
.
测验的长度
测验太难或太容易时,分数的范围就会缩小,从 而降低信度。当测验难度水平为0.5时,信度最高。 题目区分度
题目的区分度与测验信度关系密切。区分度 好的试题对被试的真分数估计得较准确,测量误 差较小。如果一份试卷中题目的区分度都很好, 测验的信度就会很高。
.
5.4 信度系数的用途
一.评价测验 信度系数是衡量测验好坏的一个重要
根据区间估计的方法,假定一个测验的标准误是 SEM=10,被试得分X=50,如果我们想使推测的 正确率达到95%,被试的真分数就落在观测分上 下1.96个标准误的范围内, 即 (X-1.96SEM)≤T≤(X+1.96SEM),结果是30≤T≤70。 这表明,被试的真分数落在30到70分之间的可能 性有95% 。
心理学测验的信度与效度
心理学测验的信度与效度
测验的效度指的是测验的正确性和有效性。
换言之,效度指的是测验能在多大程度上实现测验的目的。
效度是科学测验工具最重要的质量指标。
能测出来想测量东西的程度,则效度高;测不出来,则效度低。
例如:想要测量小明的身高,测量工具是秤,那么,测量不出想要测量的东西,则效度低。
测验的信度又叫做测验的可靠性,指的是测验的一致性程度,即多次测验结果要保持一致。
信度指标通常以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,成为信度系数。
例如:想要测量小明的性格是什么样的,测验结果发现,第一次测验是内向,第二次测验是外向,第三次测验是中性的,那么它的信度比较低。
课件:测验的质量鉴定(信度)
K
R21
k
k 1
1
x(k kst2
x)
库德-理查德逊信度例题
•下表是10名学生在5道题目上的答题情况,请 计算其信度。
题
学生
目 1 2 3 4 5 6 7 8 9 10
1 2
1 1
1 1
1 1
1 1
1 1
1 1
结果
返回
s2
x2 n
n
x
2
175 10
39 10
2
2.29
K
R20
n n 1
1
st2
p q
6 11.19 6 1 2.29
0.58
K
R21
n
n
1
1
x(1 n
st2
x)
6
6
1
1
3.9(6 3.9) 6 2.29
0.4
8
评分者信度
• 含义:评分者信度(Scorer reliability)指的是多 个评分者给同一批人的答卷进行评分的一致性程度。
MSP MSr 1 MSr
MSP
MSP
•由于这种方法的计算较之其他方法复杂的多,因而现在不常用,但 是其运用方差分析估计信度的思想为现代测量理论之一的理论的诞生 奠定了一定的基础。
返回 库德-理查德逊20公式(K-R20)
rtt
n
n
1
st2
st2
pq
• 式中,n是测验项目的数目,p是项目通过率,q是项目 未德通逊过公率式,要S求t20是,1整计个分测,验所的以总Σp分q实方际差上。就由是于每库道德题-的理方查 差之和。
测验信度名词解释
测验信度:评估测验结果的可靠性一、测验信度的定义测验信度是指测验的准确性和可靠性。
它可以用来衡量测验题目是否能够准确地反映测试受试者的知识水平和能力。
它是测试设计者判断测试有效性的一个重要指标,是衡量测试成绩的重要指标。
测验信度可以通过计算测试的内部一致性来衡量,例如,Cronbach's alpha信度系数可以用来衡量测试的内部一致性。
通过计算每一道题的相关系数,可以判断测试的可靠性。
此外,测试的外部一致性也可以用来衡量测试的信度,例如,可以通过计算两个测试的相关系数来衡量测试的外部一致性。
测验信度的重要性不言而喻,它不仅可以用来衡量测试的准确性,而且可以帮助我们判断测试的可靠性,从而帮助我们决定测试的有效性。
因此,测验信度是测试设计者判断测试有效性的一个重要指标,是衡量测试成绩的重要指标。
二、测验信度的重要性测验信度是衡量测验结果可靠性和效力的重要指标。
它可以帮助我们评估测验的准确性,以确保测验结果的有效性。
测验信度可以帮助我们识别测验中存在的偏差,并有效地避免测验结果的偏离。
例如,一项测验可能会受到某些环境因素的影响,而测验信度可以帮助我们确定这些因素的影响程度,以便采取相应的措施来消除这些影响。
测验信度还可以帮助我们识别测验中存在的歧义和错误,以降低测验结果的不准确性。
例如,在一项测验中,如果某些语句模糊不清,测验信度可以帮助我们检查这些语句是否会影响测验结果。
此外,测验信度还可以帮助我们识别测验中的缺陷,从而提高测验的准确性。
例如,一项测验可能会因为缺乏足够的参考标准而出现结果偏差,而测验信度可以帮助我们识别这些缺陷,从而确保测验结果的准确性。
总之,测验信度是衡量测验结果可靠性和效力的重要指标,可以帮助我们确保测验结果的有效性,从而改善测验的准确性。
三、测验信度的应用测验信度是衡量测验的可靠性和准确性的重要指标。
它可以用来衡量测验的可靠性和准确性,以及测验的有效性。
测验信度的应用可以帮助我们评估测验的有效性,确定测验的有效性,以及测验的准确性。
测验的信度
5.评分者信度
标准化测验一般都有较为严格的评分程序。 对于客观性试题来说,评分所引起的误差使 可 以忽略不计的,但对于一些主观题目来说,评 分者之间的变异是产生误差的重要原因之一。 考察评分者信度的方法是,随机抽取部分答 卷,由两个或多个评分者独立按照评分标准打 分,然后求其间的相关。在计算相关时,如果 是两个评分者,则采用积差相关或等级相关的 方法,一般认为经过训练的成对评分者之间的 一致性达到0.90以上,评分才是客观的。
同质性也称内部一致性,是指测验内部所有 题目间的一致性。这里讲的是分数的一致,而 不是题目内容或形式的一致。因此,若测验的 各个题目得分有较高的正相关时,不论题目内 容和形式如何,测验为同质的。相反,即使所 有题目看来都好象测同一特质,但相关为零或 负值时,这测验还是异质的。也有些心理测量 学家认为,同质性的定义还应加上测单一因素 的限定。
2.解释分数
信度系数仅表明一组测量的实际值与真 值的符合程度,并没有给个人测验分数 的变异情况。由于误差的存在,一个人 所得的分数一般很难等于真分数。
(四)影响信度系数的因素
影响信度的因素很多,被试、主试、 测验内容、施测环境等各方面均能引起 随机误差,导致分数不一致,从而降低 测验的信度。
四、测量的信度(重点)
(一)什么是信度 作为一个好的测验,它的结果必须可靠。所 谓可靠,是指多次测量的结果保持一致。 人们通常把测量结果的可靠性称之为信度, 即测量结果的一致性或可信性程度。一个好的 测量工具,对同一事物反复多次测量,其结果 应该始终保持不变。 信度是测验结果的一致性或可靠性程度。
(二)估计信度的方法
(三)信度系数的用
信度系数有两个主要用途,一是用来评 价测验,二是用来对分数做解释。
教学测验中的信度、效度、难度和区分度
山东教师招聘网教学测验中的信度、效度、难度和区分度
编制教学测验必须在信度、效度、难度和区分度四个指标上达到一定要求,即起码达到有效、可信,具有一定难度和区分度。
很多考生在这四个概念的理解上有些混淆,结合例子帮助大家梳理一下:
1.信度与效度:信度指的是测验结果一致、分数稳定。
比如今天用一套试卷测试小明的成绩是80分,一个星期后再用来测小明还是考80分,那么这套测验的信度就是高的。
效度指的是测验工具能够真实地测出所要测量的事物的程度。
比如老师想要测量学生的英语口语水平,但是拿了一套笔试试卷让学生作答,那么这套试题的效度就是低的;再如一个数学测验试题的文字难度太大,超过学生自身水平,那么这套测验试题的效度是低的,没有测出想要测的学生数学水平。
信度与效度可以简单的概括为“两斤白糖”,两斤是信度,白糖是效度。
如果测出来的是一斤半或者是两厘米,那就说明信度有问题。
如果测出来的是盐巴或者大米,不是我们想要的白糖,那就是效度的问题。
2.难度与区分度:难度指测验的难易程度,难度值P=答对人数/总人数×100%。
比如全班总人数为30人,一道数学应用题只有6个人答对了,那么这道测验题目的难度值=20%,P值越大难度越小,P
值越小难度越大。
区分度用来鉴别不同水平的学生,高水平者得高分,低水平者得低分。
考生在备考这个知识点的时候,只需要把这四个概念理解清楚、做好区分即可。
此外,更抽象一点的关系是:信度是效度的必要条件,即高信度不一定高效度,但高效度必定高信度。
更多教师资格证备考信息关注山东教师招聘考试网。
第三讲 信度
例题
10名被试在一个有10个条目的测验中得分如下,求 该测验的分半信度?
测验题目得分 被试 1 2 3 4 5 6 7 8 9 10 单号 双号 得分 得分 单双 之差
1பைடு நூலகம்
2 3
2
2 2
2
1 2
2
1 2
1
2 2
2
1 1
2
0 2
1
0 1
0
1 1
0
0 1
1
0 1
7
4 7
6
4 8
1
0 -1
4
5 6 7 8 9 10
SE S x 1 xx
SE:测量的标准误 rxx:测验的信度系数 SX :所得分数的标准差
可见,测量的标准误与信度呈负相关。
第二节 信度评估的方法
一、重测信度
再测信度 稳定性系数
第 三 讲 测 验 的 信 度
使用同一测验,在同样条件下对同一组被试 前后施测两次测验,求两次得分间的相关系数。
第二节 信度评估的方法
第 三 讲 测 验 的 信 度
例题
A、B两位教师给6篇作文评分,结果如下, 试求两位教师评分一致性的程度。 作 文 1 2 3 4 5 6
教师A
教师B
25
22
30
26
27
23
20
20
28
25
32
35
第二节 信度评估的方法
第 三 讲 测 验 的 信 度
几种信度相应误差(变异)的来源
信度类型 误差(变异)来源 重测信度 时间误差 复本信度(连续施测) 内容误差 复本信度(间隔施测) 时间、内容误差 分半信度 内容(项目)误差 同质信度 项目异质误差 评分者信度 评分者间误差
信度和效度名词解释
信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。
一般多以内部一致性来加以表示该测验信度的高低。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
例如,用同一个量表对同一组被试在不同时间进行测量,如果每次测量结果都很相近,就说明这个量表的信度较高。
2. 信度的类型- 重测信度:用同一种测验,对同一组被试者,前后施测两次,再根据被试者两次测验分数计算其相关系数,即得重测信度。
它反映了测验跨时间的稳定性。
例如,在一个月内,对同一批学生使用相同的智力测验进行两次测试,两次测试结果的相关性就是重测信度。
- 复本信度:复本是内容、形式、难度等方面与原测验相似的测验。
复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。
有A、B两套英语水平测试题,它们在题型、难度等方面相似,对同一组学生先进行A卷测试,过一段时间再进行B卷测试,然后计算两次成绩的相关系数就是复本信度。
- 内部一致性信度:主要反映的是测验内部题目之间的关系,表示测验能够测量相同内容或特质的程度。
例如,在一个包含多个项目的人格测验中,内部一致性信度高意味着各个项目之间测量的是人格的同一个方面,常用的计算方法有克伦巴赫α系数等。
- 评分者信度:用于衡量不同评分者对同一组被试评分的一致性程度。
在一些主观性较强的测验中,如作文评分、面试评分等,评分者信度就非常重要。
如果不同评分者对同一篇作文或同一个面试者的评分比较接近,那么评分者信度就较高。
3. 影响信度的因素- 被试样本:被试样本的同质性(相似性)程度会影响信度。
如果被试样本的同质性高,信度可能会较低,因为他们在测验所测特质上的差异较小;反之,异质性高的被试样本可能会使信度较高。
例如,在一个只针对高智商学生的智力测验中,由于学生的智商都比较高且接近,可能会导致信度系数较低。
- 测验长度:一般来说,测验的题目数量越多,信度越高。
因为较长的测验能够更全面地测量被试的特质,减少随机误差的影响。
测验的信度
心理测量学——测验的信度学习笔记第三节测验的信度第一单元信度的概念第二单元信度评估的方法第三单元信度与测验分数的解释第四单元影响信度的因素第一单元信度的概念一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。
在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差(实得分数的方差)的比率。
二、信度的指标(一)信度系数与信度指数信度指数是真分数标准差与实得分数标准差的比值。
信度指数的平方就是信度系数。
(二)测量标准误测量误差分布的标准差,即为测量的标准误。
第二单元信度评估的方法一、重测信度二、复本信度三、内部一致性信度四、评分者信度信度的类型与估计方法重测信度(test-retestreliability)–又称稳定性系数。
它的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数。
–最适宜的时距随测验的目的、性质和被试特点而异,一般是两周到四周较宜,间隔时间最长不超过六个月。
内部一致性信度(internalconsistencyreliability)–分半信度(split-halfreliability)采集者退散是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。
分半法经常会低估信度,必须修正,借以估计整个测验的信度。
–同质性信度(homogeneityreliability)同质性主要代表测验内部所有题目间的一致性。
当各个测题的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。
相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异质的。
–评分者信度(scorerreliability)–随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。
心理测量学5 第五节 测验的信度
评分者一致性系 数
斯皮尔曼等级相关法 作文、创造力、投射、 道德判断测验 肯德尔和谐系数法
一、样本特征 1、样本团体异质性的影响 团体的异质程度与分数分布有关,一个 团体越是异质,其分数分布的范围越广,信 度系数就越大。反之也然。(回忆散点图) 这是因为,在同质团体中,受测者水平比较 接近,两次测验成绩差异主要受随机因素的 影响,这次可能是甲高于乙,下次可能是乙 高于甲,变化受随机因素的影响,没有规律 性,因此相关很低
( 3 )如遇到有牵连的项目或一组解决同 一问题的项目时,这些项目应放在同一半, 否则会高估信度的值。 (4)将一个测验分成两半的方法很多 (如,按题号的奇偶性分半、按题目的难 度分半、按题目的内容分半等),因此, 一个测验可以有多个分半信度值。提供分 半信度值时,要说明分半的方法。 ( 5 )为了弥补分半法的不足,可以采用 其它的方法。 back
增加题目数量可以提高信度,但并非多 多益善。测验过长是得不偿失的: (1)测验过长,编制测验要浪费较多的 时间和精力,施测时浪费受测者的时间 和精力,花费大。 (2)测验过长会引起受测者的疲劳和反 感,从而降低可靠性。 为了节省时间和精力,有时还需要将过 长的测验适当缩短,而不使其对信度有 大的损害。
注意: 等值稳定性信度系数的值一般要比等值性系 数和稳定性系数要低。因为,时间因素会引 起我们所要测量的心理特质的变化以及测题 的取样不同会影响两次测验分数的一致性。 等值稳定性系数是测验信度的最严格的考察, 得到的是信度系数的下限。 back
利用一次测验所获得的资料来计算信度 系数。这样计算出来的信度系数反应的 是测验内部的一致性,即测验项目的同 质性,叫做内部一致性系数或同质性系 数。 (一)分半法(分半信度) (二)同质性信度 back
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意: 注意:
信度估计方法不只上面几种, 信度估计方法不只上面几种,实际上有多少 误差来源,便有多少估计信度的方法。 误差来源,便有多少估计信度的方法。原则 上一个测验哪种误差大, 上一个测验哪种误差大,便采用哪种估计方 有时甚至需要有几种信度系数。 法,有时甚至需要有几种信度系数。
重测信度
定义:又称稳定性系数,即使用同一测验, 定义:又称稳定性系数,即使用同一测验,在 同样条件下对同一组被试者前后施测两次, 同样条件下对同一组被试者前后施测两次,求 两次得分间的相关系数。 两次得分间的相关系数。 2-4周 周 计算方法:重测法。 A2,求r12。 计算方法:重测法。A1 , 优点: 优点:能提供有关测验是否随时间而变异的资 料,可作为被试将来行为表现的依据。 可作为被试将来行为表现的依据。 缺点:易受练习和记忆的影响。 缺点:易受练习和记忆的影响。 两次测量之间最适宜的时距:随测验的目的、 两次测量之间最适宜的时距:随测验的目的、 性质和被试特点而异,一般是两周到四周为宜, 性质和被试特点而异,一般是两周到四周为宜, 间隔时间最好不超过六个月。 间隔时间最好不超过六个月。
测量标准误与信度的关系:互为消长, 测量标准误与信度的关系:互为消长, 信度高,标准误低;信度低, 信度高,标准误低;信度低,标准误高
例题: 例题:
1、公式rxx =r2xT=S2T/ S2x和公式 xT=ST/ Sx表明 、公式 和公式r 信度指数的( 就是信度系数。 信度指数的( )就是信度系数。 (A)一半 ) (B)平方 ) (C)倍数 ) (D)本身 ) 2、( )是指同一被试在不同时间内用同一测 、( 或用另一套相等的测验)重复测量, 验(或用另一套相等的测验)重复测量,所得 结果的一致程度。 结果的一致程度。 (A)信度 ) (B)效度 ) (C)难度 ) (D)区分度 ) 3、信度只受 )的影响。 的影响。 、信度只受( 的影响 (A)系统误差 系统误差 (B)随机误差 随机误差 (C)恒定效应 恒定效应 (D)概化作用 概化作用
同质性信度
主要代表测验内部所有题目间的一致性。正 主要代表测验内部所有题目间的一致性。 所有题目间的一致性 相关高,测验为同质的; 相关高,测验为同质的;低正相关或为负相 关时,测验为异质。 关时,测验为异质。 如果测验由许多分测验组成, 如果测验由许多分测验组成,则要求分测验 内部同质,分测验之间异质。 内部同质,分测验之间异质。 计算方法: 计算方法: 库德—理查逊公式:K-R20,K-R21(适 库德 理查逊公式: , ( 理查逊公式 用条件:两级评分, 用条件:两级评分,后者还要求测题难度 相同或近似) 相同或近似) 克伦巴赫α系数 既可适用于两级评分, 系数: 克伦巴赫 系数:既可适用于两级评分, 也可适用于多级评分( 也可适用于多级评分(如有多项选择的人 格测验、态度量表等)。 格测验、态度量表等)。
信度评估的方法
根据反映测验误差的不同来源,可分: 根据反映测验误差的不同来源,可分:
重测信度——考察跨时间的一致性。 考察跨时间的一致性。 重测信度 考察跨时间的一致性 复本信度——考察跨内容的等值性。 考察跨内容的等值性。 复本信度 考察跨内容的等值性 内部一致性——考察题目的同质性。 考察题目的同质性。 内部一致性 考察题目的同质性 评分者信度——考察评分的一致性。 考察评分的一致性。 评分者信度 考察评分的一致性
确定信度可以接受的水平
两个原则: 两个原则:
rxx<0.70时,测验不能用于团体比较和对个人进 时 行评价和预测。 行评价和预测。0.70≤rxx<0.85时,测验能用于 时 团体比较。 团体比较。rxx≥0.85时,能用于鉴别或预测个人 时 成绩或作为。 成绩或作为。 新编测验的信度应高于原有同类测验或相似测验。 新编测验的信度应高于原有同类测验或相似测验。
能力或成就测验: 甚至0.95) 能力或成就测验: rxx≥0.90(甚至 甚至 人格测验: [0.80,0.85]或更高 人格测验: rxxЄ[0.80,0.85]或更高 [0.80,0.85]
解释个人分数的意义
测量标准误的作用: 测量标准误的作用:
估计真实分数的范围; 估计真实分数的范围; 了解实得分数再测时可能的变化情形。 了解实得分数再测时可能的变化情形。
复本信度
等值性系数: 等值性系数:A B
定义:是以两个等值但题目不同的测验(复本) 定义:是以两个等值但题目不同的测验(复本)来 测量同一群体, 测量同一群体,然后求得被试在两个测验上得分的 相关系数。 相关系数。 施测方法:将被试随机分成两半,一半被试先做A, 施测方法:将被试随机分成两半,一半被试先做 , 再做B;另一半先做B,再做A,合并两个A和 的 再做 ;另一半先做 ,再做 ,合并两个 和B的 数据求相关。 数据求相关。
对同一批(多于一个) 对同一批(多于一个)被试前后施测两次或采 用两套相等的测验对同一批被试施测, 用两套相等的测验对同一批被试施测,求取两 次测验分数的相关系数即为测验的信度系数, 次测验分数的相关系数即为测验的信度系数, 这是信度的第三种表示。 即rxx,这是信度的第三种表示。
思考:信度系数与信度指数的关系是什么? 思考:信度系数与信度指数的关系是什么? 有了r 就可以通过公式r 有了 xx,就可以通过公式 xx= 1-S2E/ S2x计算第二 种表示中的SE, 种表示中的 , SE=Sx(1- rxx)1/2
不同测验分数的差比较举例
某被试在韦氏成人智力测验中言语智商 为100,操作智商为105,已知两个分数 都是以100为平均数,15为标准差的标准 分数,假设言语分量表和操作分量表的 分半信度为0.87和0.88,问言语智商和 操作智商是否存在显著性差异。
举例
“大约有 大约有95%的可能性真分数落在所得分 大约有 的可能性真分数落在所得分 的范围内, 的范围内 或有5%的可能性 数+1.96SE的范围内,或有 的可能性 落在范围之外”的描述, 落在范围之外”的描述,其置信区间为 ( )。
测验的信度
主讲:邓稳根
信度的概念
一般定义: 一般定义:
信度:即测验的可靠性, 信度:即测验的可靠性,指的是测验所得结 果的一致程度。 果的一致程度。它是衡量测验质量好坏的最 基本指标。 基本指标。
经典测量理论的定义
经典测量理论的假设:X=T+E.(X为实得分数, 为实得分数, 经典测量理论的假设: 为实得分数 T为真实分数,E为随机误差分数。 为真实分数, 为随机误差分数 为随机误差分数。 为真实分数 可以转换为: 可以转换为:S2x=S2T+S2E. 信度定义: 信度定义:信度是一组测验分数的真分数方 差与总方差(实得分数方差)的比率, 差与总方差(实得分数方差)的比率,即 rxx=S2T/ S2x= 1-S2E/ S2x
真分数估计举例
在一个人格测验中,某个被试的外向性 得分为20分,已知该分测验的标准差为 10,信度系数为0.91。试问该被试外向 性的真实水平处于什么范围(或然水平 为95%?如果对该被试重新施测,他的 分数将不会落在什么范围外?
比较不同测验分数的差异。 比较不同测验分数的差异。
已知X 是否差异显著。 已知 1,X2,求X1,X2是否差异显著。 求X1- X2; 根据SEd=S(2- rxx - ryy)1/2 ,求SEd,这里要 根据 , 求两个测验的标准差相同。 求两个测验的标准差相同。 比较|X 比较 1- X2|/SEd和1.96(要求或然水平为 和 ( 95%时才为 时才为1.96)的大小,如果 1- X2| 时才为 )的大小,如果|X /SEd> 1.96 ,则差异显著;反之,则差异 则差异显著;反之, 不显著。 不显著。
(A)X-1.96SE<XT≤X+1.97SE ) (B)X-1.96SE≥XT ) (C)X+1.96SE≤XT ) (D)X-1.96SEXT≤X+1.97SE )
内部一致性信度
分半信度: 分半信度:1/2A 1/2A
定义 指在测验实施后, 指在测验实施后,将测验按奇偶性分成两 半,并分别计算每位被试在两半测验上的 得分,求出这两半分数的相关系数。 两半分数的相关系数 得分,求出这两半分数的相关系数。 校正 原因:测验长度变短,易低估测验的信度; 原因:测验长度变短,易低估测验的信度; 公式: ,(假设条件是两 公式: rxx=2rhh/(1+rhh),(假设条件是两 ,( 半分数的方差相等,如不等, 半分数的方差相等,如不等,采用弗朗那 根公式或卢伦公式直接求r 根公式或卢伦公式直接求 xx)。
真分数的估计,或再测时实得分数的变化范 真分数的估计, 围计算: 围计算:
根据SE=Sx(1- rxx)1/2,求SE。 根据 。 如果已知或然水平,一般为95%。 如果已知或然水平,一般为 。 则真分数的置信区间或再测时X的变化范围是 的变化范围是: 则真分数的置信区间或再测时 的变化范围是: X-1.96SE<T≤ X+1.96SE
稳定性与等值性系数。 稳定性与等值性系数。A
两个复本的施测相隔一段时间。 两个复本的施测相隔一段时间。
B
优点: 优点:等值性系数能避免重测信度的记忆和学 习效应。 习效应。 缺点:只能减少不能消除练习效应; 缺点:只能减少不能消除练习效应;无法消除 迁移效应;建立复本很难。 迁移效应;建立复本很难。
(A)时间 ) (C)评分 ) (B)题目 ) (D)内容 )
一般要求在成对的受过训练的评分者之间平均 一致性达到( 以上 以上, 观的。 一致性达到 )以上,才认为评分是客 观的。
(A) 0.70 (C) 0.90 (B) 0.80 (D)l .00
信度与测验分数的解释
解释真实分数与实得分数的相关程度 rxx=S2T/ S2x rxx=0, S2E= S2x =0, rxx=1, S2T= S2x =1, rxxЄ[0,1] [0,1]