心理测量 第四章 测量的信度
《心理测量学》复习思考题答案
(0076)《心理测量学》复习思考题答案第一章心理测量概述一、解释1.测量:按照一定法则给事物指派数字。
2.心理测验:实质上是行为样本的客观的和标准化的测量。
3.量表:具有参照点和单位的用以测量某种事物以确定其数量的连续体。
二、填空1./2.无论是物理特性的测量,还是精神特性的测量,都必须具有(参照点)和(单位)两个要素。
3.量表可以分为(类别量表)、(等级量表)、(等距量表)和(比率量表)四级水平。
4.要求被试按平时的习惯作出反应而无正确答案的测验称为(典型行为测验)。
5.以预先确定的教学内容为标准,考查被试对于指定的教学目标中的内容或技能掌握程度的测验称为(目标参照测验)。
三、单项选择1.心理测量的参照点是(①)。
①人定零点②绝对零点③人定零点和绝对零点④不能确定2. 一般而言,心理测验的分数属于(②)。
①类别量表②等级量表③等距量表④比率量表3.狭义的心理测量是指以(②)为工具的测量。
]①调查②测验③实验④口试四、判断分析1.心理测量主要用于对人的精神特性的直接测量。
(×)分析:人的心理行为变化无法直接测出,只能通过个人在活动中(具体讲就是对测验题目)的反应来间接推断人的某种精神特性的状况。
2.由于心理测量属于等级量表,因而在应用中只能使用等级量表适用的统计方法。
(×)分析:虽然心理测量属于等级量表,但在应用时可以采取变通的方式:①假设量表上的单位是相等或近似相等,其前提是常态分布的假设;②把测验分数转换到一个有相等单位的量表上,即把原始分数转换成标准分数。
这样就可以使用等距量表的统计方法。
3,在对心理测验进行区分时,应主要看编制者的目的和测验的实际内容。
(√)分析:由于测验的编制者给要测量的特性所下的操作性定义不同,因而区分测验时不能只看测验的名称,而应主要看编制者的目的和测验的实际内容。
五、简答1.心理测量的特点是什么&答案要点:①心理测量没有绝对零点,只有人定零点。
第四章心理测量的信度
第四章心理测量的信度一、单项选择题。
1.当代信度理论的大部分要点是()。
(4.1.63)A斯皮尔曼 B皮尔逊 C桑代克 D库德2.重测信度的大小等于同一组被试在两次测验上所得分数的()。
(4.2.67)A.克伦巴赫α系数B.皮尔逊积差相关系数C.肯德尔和谐系数D.肯德尔W系数3.关于重测信度说法正确的是()。
(4.2.67)A.每一种信度系数都能说明信度B.重测信度高,说明分数受被试状况和测验情境变化的影响小C.所有的测验都可以计算重测信度D.重测信度不仅反映了随机误差的影响,也反映了被试心理特点的长期变化4.关于重测信度下列说法正确的是()。
(4.2.67)A每一种信度系数都能说明信度。
B重测信度高,说明分数受被试状态和测验情境变化的影响小。
C所有的测验都可以计算重测信度。
D重测信度不仅反映了随机误差的影响,也反映了被试心理特点的长期变化。
5.关于重测信度下列说法不正确的是()。
(4.2.69)A任何一个测验都可能有不止一个再测信度系数。
B一份完备的测验应有很多重测系数,分别与不同的测验间隔时间相对应。
C重测相关很低意味着测验不可信。
D重测相关很低可能是被试被研究的特性发生了改变。
6.等值性系数取决于平行测验的得分之间的相关,且两次测验的时间间隔极短,所以若等值性系数偏低肯定是由于()造成的。
( 4.2.71)A.学生自身变化B.题目取样不同C.主试的反应D.测试环境变化7.分半信度只适用于()。
(4.2.7 4)A.难度测验B.速度测验C.=非标准化测验D.成就测验8.同质性信度是指测验的()的一致性程度。
(4.2.74)A.题目内容B.题目形式C.所有题目间D.各维度题目9.下列估计信度的方法需施测2次的是()。
(4.2.80)A.分半信度 B.同质性信度C.评分者信度D.再测信度10.下列哪项不是影响信度的因素()。
(4.3.82)A.样本团体平均水平B.题目数量C.系统误差D.施测情境11.人格测验的信度应达()以上。
第4章 测量的信度与效度
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24
心理测量学中的信度和效度分析
心理测量学中的信度和效度分析心理测量学是研究心理测量方法与技术的学科,旨在通过反映被测者的心理特征和过程,揭示其心理素质、智力水平等信息。
而在心理测量过程中,信度和效度分析是两个重要的概念。
一、信度分析信度是指测量工具在测量同一心理特征或过程时的稳定性和一致性。
换句话说,信度反映了测量工具在同一被测者群体中的结果是否稳定,并且是否能复现。
具体来说,信度分析主要从可靠性和稳定性两个方面来考量。
1.可靠性可靠性是指测量工具的结果是否稳定且一致。
在心理测量学中,一种常用的方式是通过内部一致性来评估可靠性,最常见的统计方法是Cronbach's α系数。
Cronbach's α系数介于0和1之间,数值越大代表内部一致性越高,通常要求α系数达到0.7以上为可靠。
2.稳定性稳定性是指测量工具在不同时间或在不同条件下所得到的结果是否一致。
为了评估测量工具的稳定性,常用的方法是再测法和半分法。
再测法是指在不同时间或条件下对同一样本重复测量,然后通过计算相关系数来评估稳定性。
而半分法则是将测量工具的题目分成两部分,分别进行测量并计算两部分得分的相关系数。
二、效度分析效度是指测量工具是否能够准确地测量所要测量的心理特征或过程。
也就是说,效度是评估测量工具是否真的测量到了我们想要测量的东西。
效度分析主要从描述效度、判别效度和预测效度三个方面来考量。
1.描述效度描述效度是指测量工具是否能够全面、准确地描述被测者的心理特征或过程。
具体来说,可以通过专家评定法和内容效度等方法来评估描述效度。
专家评定法是通过请相关领域的专家对测量工具进行评定,包括评估题目的合理性、适用性等方面。
而内容效度是指测量工具的题目是否充分、恰当地涵盖了被测者的心理特征或过程。
2.判别效度判别效度是指测量工具能否区分不同的心理特征或过程。
为了评估判别效度,常用的方法是构太效度。
构太效度是通过与已知测量工具或理论进行比较,来确定测量工具是否能够与其他相关测量工具或理论得到一致或相似的结果。
心理测量的复习大纲
心理测量的复习大纲心理测量大纲.第一章:第一节一般测量概述1、测量的概念:依据一定的法则使用量具对事物的特征进行定量描述的过程。
2、影响测量精确的因素:一、测量对象本身的性质。
①确定型(物体的长度)。
②随机型(人的短时记忆容量)③模糊型,即事物本身的量是模糊不定的(人的性格特征)二、测量的精确度取决于测量工具的精确性。
3、根据测量的性质和不同的特点,可以将不同形式的测量大致分为4种类型。
①物理测量:及对事物物理特征的测量。
长度,重量等。
②生理测量:对机体生理特征的测量。
如对动植物各种化学成分含量的测量。
③社会测量:即对社会现象的测量,如人口普查。
④心理测量:对人的心理特征的测量。
如智力、人格测量。
4、任何测量都必须具备两个基本要素:参照点和测量的单位。
其中参照点分为绝对参照点和相对参照点。
5、测量的量表:能够使事物的特征数量化的数字的连续体就是量表。
量表可以分为四种:①命名量表:用数字代表事物或用数字对事物进行分类。
命名量表又分为名称量表(用数字指代个别事物)和类别量表(用数字指代事物种类)。
②顺序量表:按照事物的大小,等级,程度而排列数字的量表。
③等距量表:不仅能够指代事物的类别,等级而且具有相等的单位。
等距量表的数字是一个真正的数量,这个数量中各个部分的单位是相等的。
因此可以对其进行加减运算。
等距量表没有绝对的零点。
它的零点是人们假定的相对零点。
对于等距量表的两个数不能进行乘除运算。
④比率量表:除了具有类别、等级、等距的特征外,还有绝对的零点。
第二节心理与教育测量的性质1.、心理与教育测量的定义:依据一定的心理学和教育学原理,使用测验对人的心理特质和教育成就进行定量描述的过程。
其独特的性质:①心理与教育测量依据的法则在很大程度上只是一种理论,很难达到如同物理测量依据的法则那样普遍被人们接受的水平。
②心理与教育测量的对象是人的心理特质和教育成就。
③心理与教育测量的量具市有关领域的专家编制,经过长期的试用,修订,完善而逐渐形成的标准化测验。
名词解释测量的信度
名词解释测量的信度
测量的信度是指在心理学、社会科学和其他研究领域中,用来衡量测量工具或方法的稳定性和一致性的度量。
它反映了测量工具在不同时间、不同评估者或不同题项中得到相似结果的程度。
测量的信度是评估测量工具的可靠性和稳定性的重要指标。
它关注的是测量工具本身的特性,而不是测量结果的准确性。
一个信度较高的测量工具意味着在重复测量或不同评估者的情况下,测量结果应该是相似的或高度一致的。
常用的测量信度指标包括重测信度、内部一致性信度和等价形式信度。
重测信度通过在不同时间点对同一样本进行重复测量来评估测量工具的稳定性。
内部一致性信度则通过测量工具内部各项指标之间的相关性来评估测量工具的一致性。
等价形式信度则是通过比较不同版本或形式的测量工具在同一样本中的得分来评估测量工具的等效性。
测量的信度对于研究的可靠性和有效性至关重要。
如果测量工具的信度较低,那么使用该工具得到的结果可能不可靠,无法准确
反映所要研究的变量。
因此,在研究设计和数据分析中,确保测量工具具有高信度是十分重要的。
戴海崎《心理与教育测量》(第3版)课后习题(第4章 测量信度——第6章 测验的项目分析)【圣才出品】
第4章测量信度1.各种信度系数所对应的误差来源是什么?答:信度主要包括重测信度、复本信度、分半信度、同质性信度、评分者信度,各种信度系数所对应的误差来源分别简述如下:(1)重测信度系数对应的误差来源重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。
除去主试,施测环境和被试等方面的误差,它的独特误差来源主要有:①施测过程中所产生的遗忘和练习效应;②在两次施测的间隔时间内,被试在所要测查的心理特质方面获得了学习机会。
(2)复本信度系数对应的误差来源复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。
它的误差来源有:①不能获得严格意义上的平衡测验;②施测过程中产生的顺序效应和迁移效应;③在两次施测的间隔时间内,被试在所测量的心理特质上获得了学习机会。
(3)分半信度系数对应的误差来源分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。
它的误差来源是:不同的分半方法的分半信度不同,可能是由于将测验分为相平行的两半的方法不同而产生误差。
(4)同质性信度系数对应的误差来源同质性信度也称内部一致性系数,它是指测验内部所有题目之间的一致性程度。
克龙巴赫α值还是所有可能的分半信度的平均值,它只是测量信度的下界的一个估计值。
即,α值大,必有测量信度高;但α值小时,却不能断定测量信度不高。
它的误差来源产生于题目是否同质,这包括两个方面:①所有题目都测的是同一种心理特质;②所有题目得分之间都具有较高的正相关。
(5)评分者信度系数对应的误差来源评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。
在心理与教育测量工作中,客观题的评分很少出现误差,但主观题的评分常常会造成误差。
它的误差来源主要是多个评分者之间的个体差异,对相同答案的不同评定,这种个体差异不可能完全消除,只能最大程度低依赖正规的测查程序和统计方法来减小它。
第四章测量的信度与效度
结构效度主要应用于智力测验、人格测验等一些心理测 验方面。
2.结构效度的确定 确定结构效度的基本程序 第一,对所研究的心理特质的结构进行界定 第二,依据理论框架,提出可能的假设 第三,收集数据,验证假设
③考察测验的同质性。
④因素分析的方法 ⑤结构方程的方法
(2)测验间法 通过对几个测验的比较研究,找出它们所测的共同特质,
这样便可以确定这些测验是否具有结构效度。 ①相容效度:计算被试在新旧两个同类测验上的分数的
相关。如果相关高,则说明两个测验测的是相同的特质。 ②区分效度:一个有效的测验不仅与其它测量同一构想
(二)结构效度(construct validity) 1.结构效度的含义、特点与应用范围 结构效度是指一个测验实际测到所要测量的理论结构和
特质的程度,或者说测验分数能够说明测量的理论结构 和特质的程度。
结构效度有如下特点:
(1)结构效度首先取决于事先假定的心理特质的结构理 论
(2)当实际测量的资料无法证实事先的理论假设时,并 不一定就表明该测验结构效度不高。
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
向细目表对照 ③制订评定量表,考察题目对所定义的内容范围的覆盖
率、判断题目难度与能力要求之间的差异等。
心理测量第4章心理与教育测量的信度
K-R20公式
K-R21公式
克伦巴赫系数
库德-理查逊公式只适用于答对一题得一分,答错无分的测验,不适用于项目多重记分的测验,针对这一需要,克伦巴赫提出了系数的方法。其公式为:
K为测验题目数, 为某一题目分数的变异数, 为测验总分的变异数
采用SPSS计算信度
数 据 库
两次施测期间被试的学习效果没有差别
计算再测信度应满足以下几个假设;
两次测验的时间间隔要适当
应注意提高被试的积极性
再测法适用于速度测验和人格测验,而不适用于难度测验
采取此法时应注意以下几个问题:
用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。
S为相同尺度的标准分数的标准差,rxx、ryy分别为两个测验的信度系数。然后再将标准分数的差异与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著。
例:韦克斯勒对104名14岁半至15岁半的儿童,间隔一个月时间前后测了两次,求得全量表的稳定性系数为0.95,实测分数的标准差为15,则测量的标准误为:
同 质 性 信 度 计 算 方 式
结果
输入40题
评分者信度
标准化测验一般都有较为严格的评分程序。对于客观性试题来讲,评分所引起的误差是可以忽略不计的,但是对于一些主观题来讲,评分者之间的变异是产生误差的重要原因之一。
考察评分者信度的方法是随机抽取部分试卷,由两个或多个评分者独立按评分标准打分,然后求其间的相关。在计算相关时,如果是两个评分者,则采用积差相关或等级相关的方法,一般认为经过训练的成对评分者之间的一致性达0.90以上,评分才是客观的。如果是多个评分者则采用和谐系数来估计信度。其公式为:
心理测量的信度
第17页
例2:假设有一份主观幸福感调查表,先后两次施测于 10名学生,时间间隔为六个月,结果如表所表示,求 该测验重测信度。(为了便于了解和计算,本章预计 信度例子都是小样组,实际应用时应采取大样组。)
表5-1 某幸福感调查表两次测试结果
测
被试
验 1 2 3 4 5 6 7 8 9 10
X1 16 15 13 13 11 10 10 9 8 7
(2)两次测验时距应尽可能短促,方便 防止知识积累、练习效应等原因影响。
(3)因为量表两个复份在许多方面近似, 所以信度系数有稍稍偏高倾向。
心理测量的信度
第22页
(4)被试易出现疲劳、失去主动性等反 应,还会出现迁移。这些称为次序效应, 为了抵消次序效应,可随机分配二分之 一被试先做复本A再做复本B,另二分之 一被试先做复本B再做复本A,以平衡次 序效应。
(一)分半法(分半信度)
(二)其它计算内部一致性系数方法
back
心理测量的信度
第26页
分半信度(Split-half reliability): 分半信度就是将测验题目分成等值两半, 分半求出量表题目标总分,再计算两部 分总分相关系数。
分半方法很多,常见方法是把一个量表 按题目番号分为两半,二分之一是奇数 题,另二分之一数偶数题。求出每个人 奇数题总得分和偶数题总得分,然后求 出奇数题总得分和偶数题总得分相关系 数,最终对相关系数进行校正。
测验A 适当初距 测验B
计算方法同稳定性系数和等值性系数。
等值稳定性系数也是采取复本对被试施测,但 等值性系数测验要求两次测验时间间隔尽可能 短,而计算等值稳定性系数两次测验却要求有 一个适当时距。
心理测量的信度
第24页
心理测量信效度
•
• •
影响测量效度的因素
1.测验的构成 当组成测验的试题样本没有较好的代表欲测内容 获结构时,测量的内容效度获结构效度必然不会 太高 2.测验的实施过程:指导语、意外干扰、或评分计 分出错 3.接受测验的被试:应试动机、情绪、态度、身体 状况、性别、年龄、文化程度等 4.所选校标的性质 5.测量的信度
提高效度的方法
1.精心编织测量量表 2.妥善组织测验 3.创设标准的应试情境 4.选好正确的校标
信度的估计方法
1.重测信度:指的是用同一个量表对同一组 被试施测两次所得结果一致性程度,其大 小等于同一组被试在两次测验上所得分数 的皮尔逊积差相关系数
• 测量的心理特征必须是稳定的;遗忘和练习的效 果基本上可以相互抵消;在两次的施测的间隔内 ,被试索要测查的心理特质没有获得更多的学习 和训练
信度的估计方法
• 复本信度:指的是两个平行的测验测量同 一批被试所得到的结果一致性的程度,其 大小等于同一被试在两个副本测验上所得 分数的皮尔逊积差相关系数 • 稳定性和等值性系数是对信度最严格的检 验 构造两份或两份以上的真正平行测验;被 试有条件接受两个测验(时间和经费)
信度的估计方法
• 分半信度:指的是将一个测验分成对等的 两半后,所有将在两半上得到的分数的一 致性程度 • 计算:斯皮尔曼-布朗公式(两半的变异系 数相等) 弗朗那根公式 卢仑公式 分半信度通常是在只能施测一次或没有副 本的情况下使用,在使用斯皮尔曼布朗公 式要求在两半测验上得分的变异数要相等 ,当一个测验无法分成对等两半时,分半 信度不宜使用
1.信度是测量过程中存在随机误差大小的反 映 2.信度是可以解释个人测验分数的意义 SE=S(x)√1-r(xx)公式中SE为测量的标准误,S(x)是所得分数
第四章测量的信度
一般来说, 重测的时间间隔越短, 那么各种施测情境 的变化就越小, 重测信度系数就会越大。
重测信度系数较大时, 说明该测量工具前、后两次 的测量结果比较一致。结果具有较好的跨时间上的 稳定性。
定义2: 信度是被试团体真分数与实得分数相关系数的平 方
定义3: 信度是一个测验X(A卷)与它的任意一个平行测验 (B卷)的相关系数
由于真分数的方差无法统计,可转化为: rxx=(S2x-S2E)/S2x =1- S2E/S2x 该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,
X―1.96SE<T≤X+1.96SE
• 例:在一个智力测验中,某个被试的IQ为100,这是否反 映了他的真实水平? 如果再测一次,他的分数将改变多 少?
• 已知该智力测验的标准差为15,信度系数为.84,则其IQ
的测量标准误和可能范围为: 勇于开始,才能找到成
•
功的路
注意几点: (1)SE对真分数做的是区间估计,不可能由此得到一
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1- =.95的置信区间
2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
3.一个包含10个题目的测验,信度为0.50,若增至 50个题目,其信度将是多少?
•
真分数的估计区间为:
X-1.个人测验的真分数的大小 。
第四章 测量信度
五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件
要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。
心理测量4 项目分析
注意事项
当测验用于选拔或诊断时,应该多选择难度 值接近录取率的项目。 测验为选择题时,难度值应大于随机猜测概 率水平。
难度等于概率水平,说明题目可能太难;或题意 不清,被试凭猜测作答。 难度(通过率)低于概率水平,说明题目有系统 偏差。 是非题难度值0.75时最合适,四选一题目0.63时 最合适。
16
鉴别指数的判断
因为高分组条目总得分上高于低分组,理论上他们每 个条目的通过率也要高于低分组。
D>0时,D越大,说明该条目区分两种水平(组)的 能力越强
D<0则反映高分组的得分反而低于低分组,说明该条 目有问题。
伊贝尔(L. Ebel, 1965)关于鉴别指数评价项目性能 的标准:
鉴别指数(D) 0.40以上 0.30~0.39 0.20~0.29 0.19及以下
11
测验的难度 测验的难度取决于组成测验项目的难度 通过观察测验分数的分布,可以进行直观检验。 如果测验难度适中,分数的分布应当接近常 态分布; 如果测验偏难,分布呈正偏态(图13-4,A) 如果测验偏容易,分布呈负偏态(图13-4,B) 测验偏难或偏容易时,可以通过增加或减少不同 难易程度的条目来解决。
公式:
rpq
Xp Xq St
pq
rpq 点二列相关系数 X p 为与二分变量通过组相对应的连续变量的平均数
X q 为与二分变量未通过组相对应的连续变量的平均数
St 为连续变量的标准差 p 通过组人数与总人数之比(通过率)
q 未通过组人数与总人数之比(未通过率)
举例(例9):
19
二列相关
适用于两个连续变量,但其中一个变量被人为分 成两类。
理论上最大区分度(以总分对半划分高、低分组时)
戴海崎《心理与教育测量》(第4版)章节题库(测量信度)【圣才出品】
第4章测量信度一、单项选择题1.某测验的信度为0.64,实得分数的标准差为5,该测验的标准误为()。
A.0.36B.1.04C.3.00D.4.36【答案】C【解析】根据标准误的公式,代入数据,得:2.重测信度的主要误差源是()。
A.内容取样B.时间取样C.统计方法D.评分者【答案】B【解析】重测信度是指同一个测验先后施测于同一批被试,比较这两次测验结果的一致性程度。
其中时间的长短是影响其信度的关键因素。
如果时间太短则被试可能存在记忆;如果时间太长,则被试的流失率或者被试本身的成熟发育等会影响实验结果。
3.衡量测验跨时间一致性的信度称为()。
A.重测信度B.复本信度C.同质性信度D.评分者信度【答案】A【解析】不同的信度考查的内容不同。
重测信度衡量测验跨时间的一致性。
复本信度(连续施测)衡量测验两个平行测验内容之间的一致性,复本信度(间隔施测)衡量两个平行测验内容之间跨时间的一致性。
分半信度衡量一个测量的两半内容之间的一致性。
评分者信度衡量评分者间的一致性。
4.将测验对等分半后,两半测验得分的相关系数为0.60,校正后该测验的分半信度是()。
A.0.70B.0.75C.0.80D.0.85【答案】B【解析】利用分半法计算测验的信度,可能会低估原长度测验的信度,所以需要用斯皮尔曼-布朗公式对分半信度系数进行修订,根据校正公式可知校正后该测验的分半信度是0.75。
5.同质性信度主要反映测验内部()间的一致性。
A.两半测验B.题目与分测验C.所有题目D.分测验与测验【答案】C【解析】同质性信度主要反映的是所有题目间的一致性。
当各个测题的的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。
相反,表面看起来题目都是测的是同一特质,但各个题目间相关很低或负相关时,则测验为异质的。
分半信度测的是两半测验的一致性。
6.在不同时间内用同一测验重复测量同一被试者,所得结果的一致程度称为()。
A.信度B.效度C.难度D.区分度【答案】A【解析】A项,信度主要是指测量结果的可靠性或一致性,可用重测信度、复本信度、内部一致性信度、评分者信度进行评估。
第四章 心理与教育测量的信度
仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分,且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数:适用于任何计分方式的测验。
概化理论的发展 测验情景关系说 测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法: 假定X=T+E,有σ
X 2=σ T 2+σ E 2,
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔,被试要测的特质没有学习和训练
重测信度练习
例3:10名学生接受了某测验,分数记为X,为考察该测
验的信度,一星期后,对这10个学生重新测了一次,分数
记为Y,根据两次测验结果,求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数,
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20):
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数,pi为通过第i题的人数比例,qi为未通过 第i题的人数比例,SX2为测验总分的变异数。
平行测验A
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么样的测量要考虑重测信度?
• 人的多数心理特质如智力、性格等,具有 相对的稳定性,因此对这些心理特质的测 量,应该前后一致。因此,我们希望得到 测验稳定性的证据。 • 另外,我们还经常要用测验分数对人做预 测,此时测验分数的跨时间的稳定性更加 重要。
• 重测信度的优点在于提供有关测验结果是否随时 间而变异的资料,作为预测受试者将来行为表现 的依据。其缺点是易受学习和记忆的影响。 • 如果相隔时间太短,则记忆犹在,练习的影响很 大,往往造成假性的高相关;如果相隔时间太长, 那么身心特质的发展与学习经验的累积等均足以 改变测验分数的意义,使相关降低。 • 一般来说,最适宜的相隔时间随测验的目的和性 质而异,少者两周,多者半年。
2.信度可以帮助进行不同测验分数 的比较
• 来自不同测验的原始分数是无法直接比较 的,而必须将它们转换成相同尺度的标准 分数才能进行比较。 • 例:某班期末考试,张生语文、数学的成 绩转换成T分数(平均数为50、标准差为10) 分别为65和70,由此我们可以知道张生的 数学比语文考得稍好些,但二者差异是否 有意义,仍不清楚。
再测信度(稳定性) 复本信度,分半信度(等值性) , Alpha系数(同质性) 先后施测两个复本
评分者信度
一、重测信度
• 1.含义和计算 • 重测信度(test-retest reliability)指的是用同一个量表对 同一组被试施测两次所得结果的一致性程度。 • 重测信度能表示两次测验结果有无变动,反映测验分数的 稳定程度,所以又叫稳定性系数。 • 其计算公式即皮尔逊积差相关公式: • XX = [ (X X ) (YY )] / √ (X X )2. (YY )2 • 公式中,XX是重测信度,X及X是第一次测量的实得分数 及实得分数的平均值,Y及Y是第二次测量的实得分数及 实得分数的平均值。
• 测量的标准误可用下式计算:
• SE=SX √ (1 - XX) • 这里SE为测量的标准误,SX为所得分数的 标准差,XX为测量的信度。 • 从式中可以看出,测量的标准误与信度之 间有互为消长的关系:信度越高,标准误 越小;信度越低,标准误越大。
• 根据上公式,知道了一组测量的标准差和信度系 数,就可以求出测量的标准误。进一步我们就可 以从每个人的实得分数估计出真分数的可能范围, 即确定出在不同或然率水准上真分数的置信区间。 • 人们一般采用95%的或然率水准,其置信区间为: • (X-1.96SE) T (X+1.96SE) • 这就是说,大约有95%的可能性真正分数落在所 得分数1.96SE的范围内,或者5%的可能性落在 这范围之外。这实际上也表明了再测时分数改变 的可能范围。
二、信度系数
• 大部分的信度指标都以相关系数表示,即用同一被试样本 所得的两组资料的相关作为测量一致性的指标,称作信度 系数。 • 要注意三点: • (1)在不同的情况下,对不同样本,采用不同方法会得 到不同的信度系数,因此一个测验可能不止一个信度系数。 • (2)信度系数只是对测量分数不一致程度的估计,并没 有指出不一致的原因。 • (3)获得较高的信度系数并不是心理测量追求的最终目 标,它只是迈向目标的一步,是使测验有效的一个必要条 件。
• (3)测验分数是一个人真正分数的最佳估计,但 由于存在测量误差,所以必须将测验分数看成以 该点为中心上下波动的范围,而不要看成确切的 点。这一范围有多宽将取决于测量标准误的大小, 最终取决于信度系数。 • (4)测量标准误是对测量误差的描绘,用它能对 个人真正分数的置信区间作出估计,但用它来估 计个人真正水平则可能导致严重错误,因为它没 有考虑到系统误差的影响。
第四章 测量信度
• 2010-9-25
第一节 信度概述
• 一、什么是信度 • 信度又叫可靠性,是指测量结果的稳定性 程度或一致性程度。 • 一个好的测验必须稳定可靠,即多次测量 的结果保持一致,否则便不可信。
• 任何一种测量,总有或多或少的误差,信 度受随机误差的影响。随机误差越大,信 度也就越低;随机误差越小,信度就越高。
三、分半信度
• 分半信度(split-half reliability)指的是将一个测 验分成对等的两半,根据所有被试在这两半测验 上所得分数的一致性程度。 • 分半信度系数可以和等值性系数一样解释。因为 这两半测验基本上相当于最短时距施测的两个平 行的复本,由于只需要对一个测验进行一次施测, 考察的是两半题目之间的一致性,所以这种信度 系数有时也被称为内部一致系数。 • 虽然分半信度也可当作内部一致性的测量,但我 们将归类为等值的特例,与其它等值性测量唯一 不同之处是在测验施测后才分成两个。
例题
• 在一次测验中有一学生得80分,这是否反 映了他们的真实水平?如果再测一次他的 分数将改变多少?已知该次测验的标准差 为5,信度系数为0.84。 • 首先计算SE: • SE= 5 √ (1-0.84) =2 • T=80 1.96 2 = 76.08~83.92 • 我们可以说该学生的真正分数有95%的可 能性落在76与84分之间。
分半信度的计算:
• 和等值复本信度的计算方法类似,只不过 被试在两半测验上得分的相关系数只是半 个测验的信度。由于在其它条件相等的情 况下,测验越长,信度越高,因此必须用 “斯皮尔曼——布朗公式”进行校正: • XX =2 hh / (1 hh ) • 式中XX为整个测验的信度,hh为两半测验 分数间的相关系数。
第二节 信度的估计方法
• 信度是反映测量中随机误差大小的指标。 由于造成测量的随机误差的方式或来源多 种多样,所以信度的估计方法也多种多样。 下面所介绍的信度估计方法是分别考察信 度的某一方面的,使用时要特别注意它的 含义及适用范围。
信度与误差来源
误差来源
信度类型
时间 内容 时间和内容
评价者/观察者
• 两个等值测验可同时连续施测或相距一段时间分 两次施测。前者的复本信度又称等值性系数,其 分数的不一致主要来自题目取样的差别,因为两 次测验的间隔极短,所以没有时间造成的误差。 后一种复本信度又称稳定性与等值性系数。因为 它把复本法与重测法结合起来,所有影响施测和 再施测不一致的因素以及影响平行型不一致的因 素都将对它发生影响,因此分数的不一致性最高。 可见与稳定性系数和等值性系数相比,稳定性与 等值性系数是对信度的最严格的检验,其值最低。
• 弗朗那根(Flanagan)公式: • XX = 2 [ 1 (Sa2+Sb2)/Sx2] • 公式中Sa2和Sb2分别表示所有被试在两半测 验上得分的变异数,Sx2表示全体被试在整 个测验上的总得分的变异数。
• 2.使用的前提条件(3个条件)
• (1)该测验测量的心理特性必须相当稳定。 • (2)遗忘和练习的效果基本上相互抵消。 • (3)两次测验期间的学习效果没有差异。 • 学校的各种测验或标准化考试,上面三个假设几 乎是无法满足的。因此,一般标准化考试很少用 重测法来估计测验的信度。 • 成人的人格特质一般是稳定的,并且不容易受遗 忘、练习、学习的影响,较多用重测法估计信度。
• 信度也可看作测量结果受机遇影响的程度。
• 信度的含义可以从两个层面加以分析: • (1)当我们以同样的测量工具重复测量某 项持久性的特质时,是否得到相同的结果? 由此可知此一测量工具的稳定性。 • (2)测量工具能否减少随机误差的影响, 提供某项特质个别差异程度的真实量数? 由此可知测量结果的精确性。
用SE估计个人分数的误差 要注意四点:
• (1)一个测验有很多可能的信度估计,因 而也有同样多的标准误估计,在实际工作中 要注意选择最适合某一特殊情况的信度估计 来解决问题。 • (2)理论假定SE在所有分数水平都一样, 但有时高分段与低分段其标准误并不相同。 水平高的人与水平低的人在做测量时会有不 同的随机误差,受随机误差的影响也不一样。
• 2.使用前提条件 • 首先要有两份或两份以上真正平行的测验。即两测验在题 目内容、数量、形式、难度、区分度、指导语、时限、以 及所用的例题、公式和测验的其它所有方面都应该相同或 相似。若不一致,所得的信度就成了歪曲的估计。 • 事实上,要编制两份完全等值的测验是不大可能的,即使 是很有经验的测验编制者,也只能编制出基本等值的测验。 • 用复本法估计测验的信度的条件之二便是被试要有条件接 受两个测验。这种条件主要取决于时间和经费等几个方面。 • 对于稳定性与等值性系数,还需要满足重测信度的基本条 件。
• 由于SX2=ST2+SE2, • 所以信度还可表示为: • XX=(SX2-SE2)/ SX2=1- SE2/ SX2 • 信度在1(完全可信)与0(不可信)之间
• 由于真分数的变异数是不能直接测量的,因此信 度是一个理论上构想的概念,由于我们无法得到 测验的真正信度,我们只能用一些指标对它进行 估计。
ห้องสมุดไป่ตู้ 二、复本信度
• 1.含义与计算 • 任何测验都只是所有可能题目中的一份取 样,所以可能编制许多平行的等值测验, 叫做复本。 • 复本信度(alternate-form reliability)就是 指用两个复本测验测量同一批被试所得结 果的一致性程度。 • 其大小等于同一批被试在两个复本测验上 所得分数的积差相关系数。
信度系数达到多高才可以接受呢?
• 最理想的情况是XX=1,但这是办不到的。 • 一般能力与成就测验的信度系数要求在0.90以上, 有的可以达到0.95; • 至于性格、兴趣、价值观等人格测验的信度系数, 通常在080到085或更高些。 • 当XX<0.70时,不能用测验来对个人作评价,也 不能在团体间作比较; • 当XX大于或等于0.70时,可用于团体间比较; • 当XX大于或等于0.85时,可用于鉴别个人。
• 任何测验只有包含特定样本的题目,由特 定的施测者,对特定的被试,在特定的时 间、地点施测,情况不同便会得到不同的 分数。由于信度系数总是在特定情况下获 得的,因此,只有当一个测验在很多情况 下被证实具有较高的信度时,才可以说它 是比较可靠的测验。