测验的信度与效度
测验的信度与效度
– 優缺點?
信度的類型
• 評分者間信度(inter-rater reliability):
– 不同的評量者的觀察、紀錄、評分的一致性。 – 傳統:相關係數、同意百分比法 – 近代:類推性理論
反映測量工具本身內容廣度的適切程度, 強調測量內容(教材內容或預期的行為)的 廣度、涵蓋性與豐富性 ,以做為外在推 論的主要依據。 針對測量工具的目標和內容,以系統的 邏輯方法來詳細分析,又稱為邏輯效度 (1ogical validity) 表面效度(face validity),指測量工具 在外顯形式上的有效程度 限制:出於邏輯判斷,缺乏實證的統計 數據評估指標,需以判斷法來進行效度 評估
實徵法(gathering
根據具體客觀的量化指標來進行評 估
效度的類型
內容效度(content validity) 效標關聯效度(criterion-related validity) 建構效度(construct validity)
內容效度
(content validity)
內容效度
• 信度並非「全有或全無」,而是程度的問
題。若多次重複測量的結果都非常接近, 則說明該評量結果信度高;反之,若各次評 量結果的變異大,則信度低。
• 與物質、生理特徵的測量相較,心理測驗
的測量精確度較低。 • 誤差來源
– 個人狀況(身體不適、大意) – 題目本身的合宜性(太難、太容易) – 測驗情境的影響(實施、計分的錯誤)
0 2 1 1 2 0 1 1 1 9 11 18.3
信度与效度
一、信度1.定义信度主要是指测量结果的可靠性或一致性。
信度只受随机误差的影响,随机误差越大,信度越低。
因此,信度可以视为测试结果受随机误差影响的程度。
系统误差产生恒定效应,不影响信度。
每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下:X=T+E如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式:S^2(x)=S^2(t)+S^2(e)公式中,S^2(x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。
即:r(xx)=S^2(t)/S^2(x)2.信度的指标大部分情况下,信度是以信度系数为指标,它是一种相关系数。
常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:r(xx)=r^2(xt)=S^2(t)/S^2(x)3.信度信度评估的方法(见具体例子)(一)重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。
重测信度所考察的误差来源是时间的变化所带来的随机影响。
在评估重测信度时,必须注意重测间隔的时间。
对于人格测验,重测间隔在两周到6个月之间比较合适。
在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。
⑵不同的行为受随机误差影响不同。
(二)复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。
复本信度的高低反映了这两个测验复本在内容上的等值性程度。
两个等值的测验互为复本。
计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。
复本信度也考虑两个复本实施的时间间隔。
复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。
信度和效度练习题答案
信度和效度练习题答案1.关于测验的信度与效度的关系,说法正确的是()。
A.测验有信度,一定有效度B.测验有信度,一定没有效度C.信度与效度是正相关的D.效度高,信度一定高1.【答案】D。
解析:本题考查测验的信度与效度的关系。
其中效度是指一个测验或测量工具能真实的测量出所要测量的事物的程度。
信度主要测量结果的前后一致性程度。
具体表现为:效度高,信度一定高;效度低,信度不一定;信度低,效度一定低;信度高,效度不一定高。
A选项,信度高,效度不一定高。
因此,此说法错误。
B选项,信度高,效度不一定高。
因此,此说法错误。
C选项,信度与效度的关系具体表现为:效度高,信度一定高;效度低,信度不一定;信度低,效度一定低;信度高,效度不一定高。
因此,选项说法不正确。
D选项,效度高,信度一定高。
故说法正确。
综合上所述,本题正确答案是D。
2.柴也愚,参也鲁,师也辟,由也喭。
该古语体现的教学原则是()。
A.因材施教B.循序渐进C.启发性原则D.巩固性原则2.【答案】A。
解析:本题考查教学原则。
A选项,因材施教原则,是指教师要从学生的实际情况、个别差异出发,有的放矢地进行教学,使每个学生都能扬长避短,获得最佳发展。
B选项,循序渐进原则,要求教师严格按照科学知识的内在逻辑体系和学生认识能力发展的顺序来进行教学。
C选项,启发性原则要求教师充分调动学生学习的主动性、积极性,引导学生独立思考,积极探索,生动活泼地学习。
不符合题意,排除。
D选项,巩固性原则,是指教师要引导学生在理解的基础上牢固地掌握知识和基本技能,并使其长久地保存在记忆中,能根据需要迅速再现出来,以利于对知识、技能的运用。
不符合题意,排除。
题干中,高柴愚笨,曾参迟钝,颛孙师偏激,仲由鲁莽。
他们也是日常生活中有缺点的平凡人,但他们经过针对性的教育后,却都各有一番长进。
由此可知,体现的是因材施教。
本题正确答案是A。
3.【判断】班级授课制是近代教学主要的教学组织形式,因此,班级授课制没有任何缺点。
心理学测验的信度与效度
心理学测验的信度与效度
测验的效度指的是测验的正确性和有效性。
换言之,效度指的是测验能在多大程度上实现测验的目的。
效度是科学测验工具最重要的质量指标。
能测出来想测量东西的程度,则效度高;测不出来,则效度低。
例如:想要测量小明的身高,测量工具是秤,那么,测量不出想要测量的东西,则效度低。
测验的信度又叫做测验的可靠性,指的是测验的一致性程度,即多次测验结果要保持一致。
信度指标通常以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,成为信度系数。
例如:想要测量小明的性格是什么样的,测验结果发现,第一次测验是内向,第二次测验是外向,第三次测验是中性的,那么它的信度比较低。
人才测评的信度与效度
•
计算复本信度的主要目的在于考察两个测验复本的题
目取样或内容取样是否等值。复本信度也考虑两个复本实
施的时间间隔。
•
复本信度的主要优点在于:⑴能够避免重测信度的一
些问题,如记忆效果、练习效应等;⑵适用于进行长期追
踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅
导或作弊的可能性。
• ☆复本信度的局限性在于:⑴如果测量的行为易受练习的 影响,则复本信度只能减少而不能消除这种影响;⑵有些 测验的性质会由于重复而发生改变;⑶有些测验很难找到 合适的复本。
验信度 , 测验内容应尽量同质。 ( 4 )测验的时间要充分 : 对某一测验而 言 , 应保证绝大多数被试在规定时间内完成 测验 ; 否则 , 如果被试不能从容回答所有问 题 , 就不能反映被试的真实水平。
• ( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、回答问题的方式、分收试卷的方法、测 验时间等都要统一。
• (6) 适当增加测验的长度 : 增加测验的长度 可提高测验的信度 , 也可以提高效度 , 但增 加测验的长度对信度的影响大于对效度的 影响。
三、测评手段有效度
切忌以点代面,比如:韩复榘的选任方法
过分依赖一个情景也会降低面试效度 比如:某商场老总招聘员工的方法
员工未来工作绩效预测方法的有效性系数
• ( 2 )测验的难度要适中 : 难度即测验的难 易程度 , 当测验难度太大时 , 被试得分普遍 太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分普遍较高 , 呈正偏态分布。太难太 易的测验都使被试得分差异减小 , 使实得分 数方差减小 , 从而降低测验信度。
• ( 3 )测验的内容尽量同质 : 性质相同的测 验内容 , 对被试也要求相同的能力、知识和 技能 ; 而内容不同质的测验 , 则要求被试不 同的能力、 知识和技能。因而为了提高测
如何区分信度、效度
如何区分信度、效度、区分度一、效度效度是指一个测验或测量工具能真实地测量出所要测量的事物的准确性。
效度强调的是准确性。
例如:1、老师想要测量小学二年级学生的语文水平如何,拿来一张适合二年级水平的试卷进行测试,说明该测试效度较高。
2、老师想要测量小学二年级学生的语文水平如何,但拿了三年级的英语试卷,说明该测试的效度低。
二、信度信度主要指测验结果的前后一致性程度。
也就是说多次测量结果相似或者相近。
多次测试结果稳定性的体现。
例如:1、老师拿同一张试卷测试所教两个班级,测试结果相似,那么说明该测试信度较高。
2、小明早上起来用家里的电子秤称体重为45公斤,中午也是59公斤,说明该测试的效度低。
效度和信度主要区别:效度是否高主要测量工具能真实地测量出所要测量的事物的准确性,而判断正确的标准就是测量工具是否可靠,比如:老师想要测量小学二年级学生的语文水平如何,但拿了三年级的英语试卷,这个测量工具—试卷就是不可靠的,因为三年级的英语试卷不能准确测量出二年级的语文水平,测量工具不可靠,说明准确性不高,从而效度低。
信度主要的多次测量做对比,因此它测量的结果常常是两个以上,比如上述例题中,两个平行班级的最终测试结果、早上和中午的体重数值,这都是有两个结果,这样才能进行对比,通过对比来判断测量结果的相似性,如果相似性程度高,说明信度高,如果相似性程度低,说明信度低。
三、难度难度指测验的难易程度。
在教学测量中,通常用答对或通过测验的人数比例作为难度值。
四、区分度区分度有时也称鉴别力,主要指测验对于不同水平的被试加以区分的能力。
一般来说,要有区分度,要满足以下两个条件:1、在试卷题型分布中:包含有不同难度的试题,才能提高区分度,拉开考生得分的差距;2、从试卷整体的难易成都上来看,中等难度的试卷,比较能拉开区分度。
考题预测:。
效度和信度如何区分
信度与效度的区分1.效度:指的是一个测验能否真实准确地反应所要测量事物的程度,简单来说,可以理解为某测验测量准确与否的问题,因此也是衡量一个测验优劣的最重要的指标。
效度的内涵及其地位考试中也常以内涵型或地位型单选题、判断题形式考察,需要大家能够理解识记。
2.信度:同一测验多次测量,测量结果的一致性、稳定性与可靠性程度,这一概念内涵尤其是其中的可靠性,考试中常被归为效度以判断形式考察,需要重点掌握。
同时,考试中经常考察测验长度(即测验题量的多少)对测验信度的影响,因此二者关系也需要大家掌握。
一般来说,增加同类题目的测验长度,增加题目的代表性,是提高信度的一个有效办法,当然也要避免过犹不及的现象,测验题目过长反而会干扰测验信度。
效度vs信度关于效度和信度的关系,也是常考的一个难点:信度高的,效度不一定高;效度高,信度一定高。
下面将通过一个生活中的例子帮助考生理解。
小明用一个坏了的体重计测体重,多次测量得到的结果都是20公斤,而小明的实际体重应该是60公斤。
测量得到的结果一致性很高,说明这个测验的信度高。
但这个体重计却并没有准确地测出小明的真实体重,说明这个测验的效度低。
总结一下就是,当一个测验信度高的时候,效度不一定高。
如果小明用一个正常的体重计,多次测量得到的结果都是60公斤,也就是小明真实的体重。
这次测验准确测出了小明的体重,且结果保持一致,也就是说效度高、信度也高。
在一定时间内,真实结果一般是保持相对稳定的,因而只要能测出真实结果,多次施测结果就会保持较高的一致性,即效度高、信度一定高。
理解了信度和效度的内涵,大家就可以去推断二者的关系,主要包括以下几种:1.高效度一定高信度——测量准确即可八正测量结果的稳定和可靠2.高信度不一定高效度——测量结果稳定并不能保证结果的准确,如拿高三数学卷子测试小学三年级孩子的数学水平,测试多次结果均为0.信度高,但并不能说小学三年级孩子没有数学能力。
3.低效度不一定低信度——道理与高信度不一定高效度一致。
信度和效度名词解释
信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。
一般多以内部一致性来加以表示该测验信度的高低。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
例如,用同一个量表对同一组被试在不同时间进行测量,如果每次测量结果都很相近,就说明这个量表的信度较高。
2. 信度的类型- 重测信度:用同一种测验,对同一组被试者,前后施测两次,再根据被试者两次测验分数计算其相关系数,即得重测信度。
它反映了测验跨时间的稳定性。
例如,在一个月内,对同一批学生使用相同的智力测验进行两次测试,两次测试结果的相关性就是重测信度。
- 复本信度:复本是内容、形式、难度等方面与原测验相似的测验。
复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。
有A、B两套英语水平测试题,它们在题型、难度等方面相似,对同一组学生先进行A卷测试,过一段时间再进行B卷测试,然后计算两次成绩的相关系数就是复本信度。
- 内部一致性信度:主要反映的是测验内部题目之间的关系,表示测验能够测量相同内容或特质的程度。
例如,在一个包含多个项目的人格测验中,内部一致性信度高意味着各个项目之间测量的是人格的同一个方面,常用的计算方法有克伦巴赫α系数等。
- 评分者信度:用于衡量不同评分者对同一组被试评分的一致性程度。
在一些主观性较强的测验中,如作文评分、面试评分等,评分者信度就非常重要。
如果不同评分者对同一篇作文或同一个面试者的评分比较接近,那么评分者信度就较高。
3. 影响信度的因素- 被试样本:被试样本的同质性(相似性)程度会影响信度。
如果被试样本的同质性高,信度可能会较低,因为他们在测验所测特质上的差异较小;反之,异质性高的被试样本可能会使信度较高。
例如,在一个只针对高智商学生的智力测验中,由于学生的智商都比较高且接近,可能会导致信度系数较低。
- 测验长度:一般来说,测验的题目数量越多,信度越高。
因为较长的测验能够更全面地测量被试的特质,减少随机误差的影响。
信度、效度和区分度
信度、效度、区分度和难度(一)教学测验的信度、效度、区分度及难度设计和编制任何一种测验,都必须使其在效度、信度、难度和区分度方面达到一定要求,即达到有效、可信,具有一定难度和区分度。
1.效度效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。
一次测验是否有效,主要看其是否能准确地测量所要测量的东西。
效度是评价工具最重要的必备条件,一个缺乏效度的评价工具是没有什么使用价值的。
同时,效度又是一个相对概念,任何一种评价工具只是对一定的目的来说才是有效的。
有效,就是测验能不能用,有没有用。
假的没办法用,只有真的才有用。
2.信度信度是指测验结果的稳定性或可靠性,即某一测验在多次施测后所得到的分数的稳定、一致程度。
它既包括在时间上的一致性,也包括内容和不同评分者之间的一致性。
几次测验的结果稳定而没有剧烈的上下浮动,那么就是信度高;几次测验结果相差太多,则为信度低。
3.难度难度指测验的难易程度。
在教学测量中,通常用答对或通过测验的人数比例作为难度值。
难度值(P)=答对人数(R)/被试总人数(N)×100%P值越大,难度越低;P值越小,难度越高。
一般来说,难度值平均在0.5最佳;难度值过高或过低,都会降低测验的信度。
通过的人少,则难度高,通过的人少则难度低。
4.区分度区分度有时也称鉴别力,主要指测验对于不同水平的被试加以区分的能力。
能够有效区分出水平不同的测验。
二、掌握方法1.效度在掌握效度时,大家可以抓住关键点“正确性/准确性”。
它所指的就是看一个测验能否正确测出想要的东西。
即“一个测验或测量工具能真实地测量出所要测量的事物的程度。
”例如:现在想测学生的英语成绩,但是拿了一张语文卷子给学生做。
那么这个测验的效度就是很低的,因为不能准确地测出学生的数学成绩。
2.信度在掌握信度时,大家可以抓住关键点“稳定性或可靠性”。
它所指的就是一个测验的结果是否可信。
举个例子:现在拿了一张数学卷子给小明做,小明做了90分。
信度与效度
分半信度实际上反映的只是两半测验项目之间 的相关系数,由于在其他条件相同的情况下, 测验越长,信度越高,因而分半法经常会低估 信度,必须通过一些公式去加以修正,借以估 计整个测验的信度。
同质性信度
同质性主要代表测验内部所有题目间的一致性。 当各个测题的得分有较高的正相关时,不论题
目的内容和形式如何,其测验为同质的。 相反,即使所有题目看起来好像测量同一特质,
所谓真分数就是一个测量工具在测量没有误差时,所 得到的纯正值。
这实际上是个循环定义,因为一个量具若测得真值, 便没有误差。
真分数的操作定义是,经过无数次测量所得的 平均值。
可见,真分数是一个在理论上构想出来的概念,在 实际测量中是得不到的,因为一个测量工具无论多 么精确,也会有误差,我们只能通过改进量具来接 近真值,而不能完全得到它。
但相关很低或为负相关时,其测验为异质的。
此外,对于一些复杂的、异质的心理学变量, 采用单一的同质性测验是不行的,因而常常采 用若干个相对异质的分测验,并使每个分测验 内部具有同质性,这样每个分测验就能用来预 测异质效标的某一方面。
评分者信度
评分者信度用于测量不同评分者之间所产生的 误差。为了衡量评分者之间的信度高低,可随 机抽取若干份测验卷,由两位评分者按评分标 准分别给分,然后再根据每份测验卷的两个分 数计算相关,即得评分者信度。
把任何一个测验成绩都看做是真分数和测量误差 的和,这是经典测量理论的基本思想 X=T+E
这里X为实得分数或观测分数,T是假设的真分 数,E是测量误差。
关于测量误差(E)有以下假设:
1)如果对一个人测量无数次,其平均误差为0,即 E=0
2)真分数和测量误差是相互独立的,即rTE=0 3)误差分数和实得分数的相关为0,即rEX=0
信度和效度的关系
信度与效度
信度是效度的基础,效度不能脱离信度单独 存在。信度是为效度服务的。效度是信度的 前提,有效度必定有信度。效度高信度必定 也高,一个有效度的测量一定是一个有信度 的测量。但是,效度低,信度很可能高。
信度与效度
例如:对学生进行一次测试,检查学生对所学知识的掌 握程度。假如试卷本身设计的不合理,有些题目好学生 不会做而基础较差的学生却做得出来,或者由于外界的 条件较差,非常吵闹,气温很高,或者评卷人的主观评 卷等,都会影响测试的信度,那么的测试结果就根本达 不到检测学生的目的,因为评判的条件没有达到,此次 测试就是无效的了,也无从判断试卷本身的效度(信度 低,效度不会高)。只有我们确信测试是有效的了之后, 对效度做出判断才是有意义的。在确信了测试是有效的 之后,我们才可能从内容、结构共时、预测和表面等几 个方面来判断测试是否达到了考试的目的.即是否考了 想考内容。
信度与效度
又如,我们想了解学生的写作能力,可是考 的题型却是多项选择题、听力和阅读。没有 设计写作的题型。这样的考试虽然是有效的。 但却偏离了考试的初衷,因此不能很好的检 测学生的写作能力,因此此次考试无效度的 (信度高,效度未必高)。反之,我们确信 试卷的效度很低,即没考想考的内容,那么 我们说其信度可能高也可能低。
信度和效度的关系
信度(Reliability)
• 信度是指测验结果的稳定性或可靠性,即 某一测验在多次施测后所得到的分数的稳 定、一致程度。它既包括在时间上的一致 性,也包括内容和不同评分者之间的一致 性。
效度(Validity)
• 效度是指测量的正确性,即一个测验能够 测量出其所要测量的东西的程度。效度考 虑的问题是:测验测量什么?测验对测量 目标的测量精确性和真实性有多大?
效度信度难度区分度的区别
效度信度难度区分度的区别
设计和编制任何一种测验,都必须使其在效度、信度、难度和区分度方面达到一定要求,即起码达到有效、可信,具有一定难度和区分度。
一、效度
效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度(测得对不对)(比如用称测身高)。
一次测验是否有效,主要看其是否能准确地测量所要测量的东西。
例如:老师想要测量小学二年级学生的语文水平如何,拿来一张适合二年级水平的试卷进行测试,说明该测试具有(效度)
二、信度
信度是表明评价工具质量的又一重要指标,主要指测验结果的前后一致性程度。
也就是说多次测量结果相似或者相近。
多次测试结果稳定性的体现。
例如:老师拿同一张试卷测试所教两个班级,测试结果相似,那么说明该测试具备(信度)
三、难度
难度指测验的难易程度。
在教学测量中,通常用答对或通过测验的人数比例作为难度值。
四、区分度
区分度有时也称鉴别力,主要指测验对于不同水平的被试加以区分的能力。
例如:能够测试出学生真实水平的高低,体现该测试具备(区分度)。
心理测量信度与效度分析
心理测量信度与效度分析在心理学领域,心理测量是一项至关重要的工具,它帮助我们了解个体的心理特征、能力水平和行为倾向。
而信度和效度则是评估心理测量工具质量的两个关键指标。
信度,简单来说,就是测量结果的稳定性和一致性。
想象一下,你用一把尺子去测量一个物体的长度,如果每次测量得到的结果都差不多,那这把尺子就具有较高的信度;反之,如果每次测量的结果差异很大,那这把尺子的信度就很低。
在心理测量中也是如此,如果一个心理测试在不同时间、不同场合对同一个人进行测量,得到的结果都比较接近,那么我们就可以说这个测试具有较高的信度。
信度主要包括重测信度、复本信度、内部一致性信度等几种类型。
重测信度是指在不同时间对同一批被试进行重复测量,然后计算两次测量结果之间的相关程度。
比如,我们对一群学生进行一次智力测验,一个月后再次对他们进行同样的测验,比较两次测验的分数。
如果两次分数的相关性较高,说明这个智力测验的重测信度较好。
复本信度则是使用两个内容相似但形式不同的测验版本对同一批被试进行测量,然后计算两个版本测验结果的相关程度。
内部一致性信度通常通过计算一个测验中各个项目之间的相关程度来评估,比如常用的克伦巴赫α系数。
那么,为什么信度在心理测量中如此重要呢?首先,高信度的测量工具能够为我们提供可靠的信息。
如果一个测试的结果今天这样,明天那样,我们就无法根据它做出准确的判断和决策。
其次,信度是效度的必要而非充分条件。
也就是说,一个测量工具要有效,首先必须要有信度,但有信度不一定有效。
接下来,我们谈谈效度。
效度指的是测量工具能够准确测量出所要测量的心理特质或行为特征的程度。
比如说,一个旨在测量焦虑水平的测试,如果它确实能够准确反映出被试的焦虑程度,而不是其他无关的心理状态,那么它就具有较高的效度。
效度主要有内容效度、构想效度和效标效度三种类型。
内容效度关注的是测量内容是否涵盖了所要测量的领域。
例如,一个数学考试要测量学生的数学知识水平,那么考试题目就应该全面覆盖数学的各个重要知识点。
心理学中的各种信度和效度
路漫漫其修远兮,吾将上下而求索-百度文库心理学中的各种信度和效度一、信度所谓信度,指的是测量结果的稳定性程度,其操作定义是,信度乃是一个测验X与它的任意一个“平行测验X,的相关系数。
无关因素、测验的长度、测验试题的区分度、被试团体的代表性都会影响信度。
(一)重测信度1、定义:利用同一量表,让同一被试群体在不同时间两次施测之后的相关值。
这一信度值表示的是测验结果的稳定性,故也称之为稳定性系数。
2、形式:施测一一经过适当时间一一再施测3、举例:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如下表所示,求该测验的重测信度。
4、使用的前提条件(1)所测量的心理特质必须是稳定的。
(2)遗忘和练习的效果基本上互相抵消。
(3)在两次施测的间隔期内,被试在所要测查的心理特质方面没有更多的学习和训练。
5、注意事项(1)有些测验不宜采用重测法估计信度,如测量推理和创造力的测验。
那些不易受重复使用影响的测验才能用再测法估计信度。
如感觉运动测验、人格测验。
(2)两次测验间隔的时间要适当,并注意提高被试的积极性(3)测验手册中报告重测信度时应说明两次施测的间隔,以及在此期间内被试的有关经历(4)时间间隔的把握:适宜时间间隔依照测验目的、性质及被试特点而定,可以是几分钟甚至几年。
例如对于年幼儿童的间隔要小;年长群体的间隔可大。
但智力测验的间隔不能太短,成就测验的间隔不能太长。
一般间隔时间不超过六个月,既不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘。
6、重测信度的评价:(1)优点:能够提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为表现的依据。
(2)缺点:易受练习和记忆的影响,前后两次施测间隔的长短必须要适度。
(二)复本信度11路漫漫其修远兮,吾将上下而求索-百度文库1、什么是复本:任何测验只是所有可能题目中的一份取样,所以可编制许多平行的等值测验,叫做复本。
测验信度效度
2) 测验施测的样本性质,样本同质性越高,效度越低。
不同团体对同一测验反应可能不同;同一测验,效度团 体性质不同;样本团体的异质性 3) 效标的性质 效标的性质:若其它条件一样,所测量的行为或心理 特质与效标行为或特质越相似,效度系统就越高
信度和效度的关系
3) 测验的难度 测验的难度:测验难度对信度有间接影响。对于人格 测验、兴趣、态度、价值观等测验,不存在难度问题。 从理论上说,只有难度水平为50%时,才能使测验分数 分布范围最大,求得的信度也最高。 4) 测量的时间间隔 测量的时间间隔:时间间隔只对重测信度和不同时测 量的复本有影响,时间越短信度值越高。
信度的作用和 信度的作用和意义 作用 作用:1)解释预测个人分数的意义 作用 2)解释真实分数与实得分数间的关系 3)确定测验好坏的一个指标;最理想 r=1.00 意义:1)信度系统为样本测验分数的总方差中有 意义 1 多少比例是真分数方差,也就是测验的总变异中 真分数造成的变异占百分之几2)测量的标准误 是有多大可能性真实分数在某一分数范围内。并 且可以预测实得分数再测时可能的变化情况。
影响信度的因素
1) 样本特征 样本特征:样本团体得分分布的影响,样本越分散信 度越高;样本团体异质性的影响,异质性越高信度越高; 样本团体平均能力水平的影响,平均能力越低信度越高 2) 测验的长度 测验越长题目越多,测验的内容取样就越有代 测验的长度:
表性;测验越长被试的猜测因素影响越小,信度就高。
或一段时间后被试的行为表现程度
常用效标: 常用效标:学业成就,临床诊断,实际工作表现,特殊训练成 绩,效标团体比较,先前有效测验,等级评定。
(4)表面效度 ) 它是一个测验看起来好像是测量所要测的东 西的程度,不是效度,不反映测验正测量的东西, 只是外行人的一种评价。
信度、效度、区分度
信度就是一致性,效度就是符合程度,(测验的代表性有多强).打个比方。
比如说,某一个学生参加生物考试。
很显然,这个测验的目的是为了检测该学生对课本上的知识掌握的有多牢固,对吧!那这一张试卷的效度是指什么呢?其实效度就是指,这张试卷到底能够代表整个生物课本的内容的程度,(也就是符合所要测目的的程度),如果把,该课本的整体内容与试卷做一个比例,那么整本书的内容,就肯定是代表100%也就是1,对不对. 那么试卷的效度就是这张试卷能够占这100%的比例有多少,也就是符合程度,如果这张试卷能完全代表整本书的内容,那么试卷就占整本书内容的100% 如果效度低,可能代表性就只有90%或者更低80%这就是所谓内容效度提出的原理.那么信度是什么呢?信度是指,这一张试卷上的题目,是否对于这个学生的学习分布是随机的,说通俗点讲,你可以这么理解,比如说,张三参加这次考试,其实他对于整本书的知识只是知道点皮毛而已,根本不是全知道, 每一章知道一点点基本内容,也就是说他根本就学习不好。
然而呢,参加考试的时候,却异常幸运,所出的题目,全部都是他正好会的皮毛, 所以他的成绩异常的好。
可能考了100分。
然而,在另一次重新测的时候,试卷和以前的难度一样大,但是题型和以前不一样,有恰恰全部都是张三不懂的内容,但其实他并不是完全不懂,他本来是掌握了课本的60%内容,按照常理,他的成绩应该在60分左右,但上次,他的成绩却超过了太多,得了满分.可遗憾的是这一次,再测,正好是他全不懂的内容,他得了0分。
这就是所谓的“复本信度",正因为试卷的信度设计的不够好,才会出现这种极端偏态的情况,所以难以反映考生的实际水平。
几次测得的成绩相关为0那就完全不能算了。
对不对。
再谈谈效度问题. 其实你也可以这样理解效度,即,假如张三去参加考试,他要考的是生物.但是出题的人,却把生物试题全部用古文写(即,文言文书写)你想想如果是这种状况的试卷,即使是该试卷的题目是国内顶尖的生物老师出的“标准题”,但是被人改为了文言文书写,那测的时候,会是一种什么结果呢?不言而喻。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的測量
• 折半信度(split-half reliability):測驗題目依題目
的單雙數或其他方法分成兩半,計算受測者在兩半 測驗上的分數的相關係數。
– 優缺點?
表格左方表示教學所欲達成的目標, 上方表示教材內容範圍,並逐一檢 視每一試題以考驗整份測驗之內容 效度
雙向細目表
題數
內容範圍
行為目標 知識 理解 應用 分析 綜合 評鑑 情意 技能
簡答題 總題數
分數 百分比
細胞
0 2 1 1 2 0 1 1 1 9 11 18.3
能量代謝
2 0 2 1 1 1 0 0 1 8 10 16.7
使用便利 – 複本測驗需要在內容、型式、題數、難度、測驗指導
與時間等都需要與原測驗相等, – 主要誤差來源:內容取樣、時間間隔、練習效果、學
習遷移 – 優缺點?
信度的類型
• 內部一致性係數(coefficient of internal consistency)
– 反映測量工具內部同質性、一致性或穩定度。 同質性越高,代表量表試題是在測量相同的特 質。常用方法有:
光合作用
1 1 1 2 1 1 1 0 1 9 14 23.3
呼吸作用
1 2 1 1 2 2 1 1 1 12 15 25.0
生物分子
0 2 1 1 1 1 1 0 1 8 10 16.7
總題數
4 7 6 6 7 5 4 2 5 46
分數
百分比
4
6.7
7
11.7
6
10.0
6
10.0
7
11.7
5
8.3
– 常見於:智力、性向、人格等測驗 – 通常個別化診斷測驗信度係數須達.90,團體測
驗為.80,篩選測驗為.60 – 優缺點?
信度的類型
• 複本信度(a1ternate-form reliability)
– 同一群受試者接受兩種複本測驗的得分之相關係數。 – 複本常見於團體化測驗,可相互替代使用(例如前後測),
效標關聯效度 測驗分數與外在效標之間的一致程度 外在效標:測驗所要測量的某些行為或 特質的代表量數 又稱實證效度、統計效度。 以測驗分數和特定效標(criterion)之 間的相關係數,表示測量工具有效性之 高低。 個別測驗效度係數小於.70,團體測驗 效度係數小於.60,就需要謹慎地解釋
根據具體客觀的量化指標來進行評 估
效度的類型
內容效度(content validity) 效標關聯效度(criterion-related validity) 建構效度(construct validity)
內容效度
(content validity)
內容效度
反映測量工具本身內容廣度的適切程度, 強調測量內容(教材內容或預期的行為)的 廣度、涵蓋性與豐富性 ,以做為外在推 論的主要依據。
針對測量工具的目標和內容,以系統的 邏輯方法來詳細分析,又稱為邏輯效度 (1ogical validity)
表面效度(face validity),指測量工具 在外顯形式上的有效程度
限制:出於邏輯判斷,缺乏實證的統計 數據評估指標,需以判斷法來進行效度 評估
內容效度的判斷方式
專家效度 雙向細目表
– 時間因素
效度
效度的意義
效度的意義
測量的正確性,指測驗或其他測量 工具確能測得其所欲測量的特質或 功能之程度
測量的效度愈高,表示測量的結果 愈能顯現其所欲測量對象的真正特 徵
評估效度的方法
判斷法(informed judgment)
測量特性與質的評估
實徵法
(gathering of empirical evidence)
• 信度並非「全有或全無」,而是程度的問
題。若多次重複測量的結果都非常接近, 則說明該評量結果信度高;反之,若各次評 量結果的變異大,則信度低。
• 與物質、生理特徵的測量相較,心理測驗
的測量精確度較低。
• 誤差來源
– 個人狀況(身體不適、大意) – 題目本身的合宜性(太難、太容易) – 測驗情境的影響(實施、計分的錯誤)
• 影響信度的因素
– 受試者因素(如受測者的身心健康狀況、動機、注意力、 持久性、作答態度等變動)
– 主試者因素(如非標準化的測驗程序、主試者的偏頗與 暗示、評分的主觀性等等)
– 測驗情境因素(測驗環境條件如通風、光線、聲音、桌 面、空間因素等皆有影響的作用)
– 測驗內容因素(試題取樣不當、內部一致性低、題數過 少等)
信度的類型
• 評分者間信度(inter-rater reliability):
– 不同的評量者的觀察、紀錄、評分的一致性。 – 傳統:相關係數、同意百分比法 – 近代:類推性理論
影響信度的因素
• 影響信度的關鍵因素是測量誤差,可以減低誤差的方法,
即能夠提高信度。
– 基本原理:中央極限定理 、測量標準誤、共變量的計算
效標關聯效度類型
信度的原理
實得分數與真正分數
• 實得分數(X)=真正分數(T)+誤差分數(E)
• 實得分數變異數(S2X)=真正分數變異數
( S2T)+誤差分數變異數(S2E )
• 信度變異= S2T/ S2X
信度的類型
信度的類型
• 再測信度(test-retest reliability)
– 係指以同一種測量工具,對同一群受試者,前 後測驗兩次的相關係數。又稱穩定係數。通常 時間越長,再測信度越低
4
6.7
2
3.3
19
31.7
60 100
提高內容效度的方法
列出教材內容各項重點與所要測 量的學習結果或行為
各項教材重點和學習結果要以相 對的重要性來加權
依據雙向細目表來編製測驗,所 編製的測驗越符合細目表各細格 所佔的比重,則內容效度越高。
效標關聯效度意義
(criterion-related validity)
信度與效度
以打靶為例
信度(reliability)
測驗資料的可靠性
效度(validity)
測驗結果的真確性
信度
信幾次測驗結果是否一致的程度
• 範例
– 一天之內以同一磅秤多次測量某人體重 • 結果一:大致相同→測量結果可靠 • 結果二:有顯著性的差異→測量結果不可靠