测验的信度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测量标准误与信度的关系:互为消长, 测量标准误与信度的关系:互为消长, 信度高,标准误低;信度低, 信度高,标准误低;信度低,标准误高
例题: 例题:
1、公式rxx =r2xT=S2T/ S2x和公式 xT=ST/ Sx表明 、公式 和公式r 信度指数的( 就是信度系数。 信度指数的( )就是信度系数。 (A)一半 ) (B)平方 ) (C)倍数 ) (D)本身 ) 2、( )是指同一被试在不同时间内用同一测 、( 或用另一套相等的测验)重复测量, 验(或用另一套相等的测验)重复测量,所得 结果的一致程度。 结果的一致程度。 (A)信度 ) (B)效度 ) (C)难度 ) (D)区分度 ) 3、信度只受 )的影响。 的影响。 、信度只受( 的影响 (A)系统误差 系统误差 (B)随机误差 随机误差 (C)恒定效应 恒定效应 (D)概化作用 概化作用
评分者信度
适用: 适用:用于测量不同评分者之间所产生 的误差。 的误差。 两个评分者之间的信度:有若干份试卷, 两个评分者之间的信度:有若干份试卷, 每份试卷由两人评分, 每份试卷由两人评分,然后根据每份试 卷的两个分数求相关。( 。(如果受过训练 卷的两个分数求相关。(如果受过训练 的评分者,其评分一致性应达0.90以上) 以上) 的评分者,其评分一致性应达 以上 多个评分者之间的信度: 多个评分者之间的信度:如果采用等级 评分,可采用W系数计算评分者信度。 评分,可采用 系数计算评分者信度。 系数计算评分者信度
能力或成就测验: 甚至0.95) 能力或成就测验: rxx≥0.90(甚至 甚至 人格测验: [0.80,0.85]或更高 人格测验: rxxЄ[0.80,0.85]或更高 [0.80,0.85]
解释个人分数的意义
测量标准误的作用: 测量标准误的作用:
估计真实分数的范围; 估计真实分数的范围; 了解实得分数再测时可能的变化情形。 了解实得分数再测时可能的变化情形。
同质性信度
主要代表测验内部所有题目间的一致性。正 主要代表测验内部所有题目间的一致性。 所有题目间的一致性 相关高,测验为同质的; 相关高,测验为同质的;低正相关或为负相 关时,测验为异质。 关时,测验为异质。 如果测验由许多分测验组成, 如果测验由许多分测验组成,则要求分测验 内部同质,分测验之间异质。 内部同质,分测验之间异质。 计算方法: 计算方法: 库德—理查逊公式:K-R20,K-R21(适 库德 理查逊公式: , ( 理查逊公式 用条件:两级评分, 用条件:两级评分,后者还要求测题难度 相同或近似) 相同或近似) 克伦巴赫α系数 既可适用于两级评分, 系数: 克伦巴赫 系数:既可适用于两级评分, 也可适用于多级评分( 也可适用于多级评分(如有多项选择的人 格测验、态度量表等)。 格测验、态度量表等)。
应注意的问题
有多少误差来源就有多少信度估计方法。 有多少误差来源就有多少信度估计方法。 应根据情况采用不同的信度指标, 应根据情况采用不同的信度指标,原则 上一个测验哪种误差大, 上一个测验哪种误差大,便用哪种误差 估计。 估计。 一个测验往往要计算多种信度系数。 一个测验往往要计算多种信度系数。
测验的信度
主讲:邓稳根
信度的概念
一般定义: 一般定义:
信度:即测验的可靠性, 信度:即测验的可靠性,指的是测验所得结 果的一致程度。 果的一致程度。它是衡量测验质量好坏的最 基本指标。 基本指标。
经典测量理论的定义
经典测量理论的假设:X=T+E.(X为实得分数, 为实得分数, 经典测量理论的假设: 为实得分数 T为真实分数,E为随机误差分数。 为真实分数, 为随机误差分数 为随机误差分数。 为真实分数 可以转换为: 可以转换为:S2x=S2T+S2E. 信度定义: 信度定义:信度是一组测验分数的真分数方 差与总方差(实得分数方差)的比率, 差与总方差(实得分数方差)的比率,即 rxx=S2T/ S2x= 1-S2E/ S2x
信度评估的方法
根据反映测验来自百度文库差的不同来源,可分: 根据反映测验误差的不同来源,可分:
重测信度——考察跨时间的一致性。 考察跨时间的一致性。 重测信度 考察跨时间的一致性 复本信度——考察跨内容的等值性。 考察跨内容的等值性。 复本信度 考察跨内容的等值性 内部一致性——考察题目的同质性。 考察题目的同质性。 内部一致性 考察题目的同质性 评分者信度——考察评分的一致性。 考察评分的一致性。 评分者信度 考察评分的一致性
(A)X-1.96SE<XT≤X+1.97SE ) (B)X-1.96SE≥XT ) (C)X+1.96SE≤XT ) (D)X-1.96SEXT≤X+1.97SE )
真分数估计举例
在一个人格测验中,某个被试的外向性 得分为20分,已知该分测验的标准差为 10,信度系数为0.91。试问该被试外向 性的真实水平处于什么范围(或然水平 为95%?如果对该被试重新施测,他的 分数将不会落在什么范围外?
比较不同测验分数的差异。 比较不同测验分数的差异。
已知X 是否差异显著。 已知 1,X2,求X1,X2是否差异显著。 求X1- X2; 根据SEd=S(2- rxx - ryy)1/2 ,求SEd,这里要 根据 , 求两个测验的标准差相同。 求两个测验的标准差相同。 比较|X 比较 1- X2|/SEd和1.96(要求或然水平为 和 ( 95%时才为 时才为1.96)的大小,如果 1- X2| 时才为 )的大小,如果|X /SEd> 1.96 ,则差异显著;反之,则差异 则差异显著;反之, 不显著。 不显著。
对同一批(多于一个) 对同一批(多于一个)被试前后施测两次或采 用两套相等的测验对同一批被试施测, 用两套相等的测验对同一批被试施测,求取两 次测验分数的相关系数即为测验的信度系数, 次测验分数的相关系数即为测验的信度系数, 这是信度的第三种表示。 即rxx,这是信度的第三种表示。
思考:信度系数与信度指数的关系是什么? 思考:信度系数与信度指数的关系是什么? 有了r 就可以通过公式r 有了 xx,就可以通过公式 xx= 1-S2E/ S2x计算第二 种表示中的SE, 种表示中的 , SE=Sx(1- rxx)1/2
真分数方差, 真分数方差,误差分数方差和信度之间的关系
真分数方差越大,误差分数方差越小,信度越大。 真分数方差越大,误差分数方差越小,信度越大。
信度的求取
r2xT=S2T/ S2x,rxT即为信度的第一种表示信度 , 指数。但这里S 无法求取。 指数。但这里 2T无法求取。 对同一被试反复施测无数次,或用无数个相等 对同一被试反复施测无数次, 的测验对同一被试反复施测无数次, 的测验对同一被试反复施测无数次,从而一个 被试可以得到无数个分数, 被试可以得到无数个分数,这无数个分数的平 均值为真实分数T, 均值为真实分数 ,标准差即为测量的误差方 它也是信度的第二种表示。 差,它也是信度的第二种表示。这里对一个被 试能不能反复施测无数次? 试能不能反复施测无数次?
稳定性与等值性系数。 稳定性与等值性系数。A
两个复本的施测相隔一段时间。 两个复本的施测相隔一段时间。
B
优点: 优点:等值性系数能避免重测信度的记忆和学 习效应。 习效应。 缺点:只能减少不能消除练习效应; 缺点:只能减少不能消除练习效应;无法消除 迁移效应;建立复本很难。 迁移效应;建立复本很难。
复本信度
等值性系数: 等值性系数:A B
定义:是以两个等值但题目不同的测验(复本) 定义:是以两个等值但题目不同的测验(复本)来 测量同一群体, 测量同一群体,然后求得被试在两个测验上得分的 相关系数。 相关系数。 施测方法:将被试随机分成两半,一半被试先做A, 施测方法:将被试随机分成两半,一半被试先做 , 再做B;另一半先做B,再做A,合并两个A和 的 再做 ;另一半先做 ,再做 ,合并两个 和B的 数据求相关。 数据求相关。
真分数的估计,或再测时实得分数的变化范 真分数的估计, 围计算: 围计算:
根据SE=Sx(1- rxx)1/2,求SE。 根据 。 如果已知或然水平,一般为95%。 如果已知或然水平,一般为 。 则真分数的置信区间或再测时X的变化范围是 的变化范围是: 则真分数的置信区间或再测时 的变化范围是: X-1.96SE<T≤ X+1.96SE
确定信度可以接受的水平
两个原则: 两个原则:
rxx<0.70时,测验不能用于团体比较和对个人进 时 行评价和预测。 行评价和预测。0.70≤rxx<0.85时,测验能用于 时 团体比较。 团体比较。rxx≥0.85时,能用于鉴别或预测个人 时 成绩或作为。 成绩或作为。 新编测验的信度应高于原有同类测验或相似测验。 新编测验的信度应高于原有同类测验或相似测验。
内部一致性信度
分半信度: 分半信度:1/2A 1/2A
定义 指在测验实施后, 指在测验实施后,将测验按奇偶性分成两 半,并分别计算每位被试在两半测验上的 得分,求出这两半分数的相关系数。 两半分数的相关系数 得分,求出这两半分数的相关系数。 校正 原因:测验长度变短,易低估测验的信度; 原因:测验长度变短,易低估测验的信度; 公式: ,(假设条件是两 公式: rxx=2rhh/(1+rhh),(假设条件是两 ,( 半分数的方差相等,如不等, 半分数的方差相等,如不等,采用弗朗那 根公式或卢伦公式直接求r 根公式或卢伦公式直接求 xx)。
(A)时间 ) (C)评分 ) (B)题目 ) (D)内容 )
一般要求在成对的受过训练的评分者之间平均 一致性达到( 以上 以上, 观的。 一致性达到 )以上,才认为评分是客 观的。
(A) 0.70 (C) 0.90 (B) 0.80 (D)l .00
信度与测验分数的解释
解释真实分数与实得分数的相关程度 rxx=S2T/ S2x rxx=0, S2E= S2x =0, rxx=1, S2T= S2x =1, rxxЄ[0,1] [0,1]
注意: 注意:
信度估计方法不只上面几种, 信度估计方法不只上面几种,实际上有多少 误差来源,便有多少估计信度的方法。 误差来源,便有多少估计信度的方法。原则 上一个测验哪种误差大, 上一个测验哪种误差大,便采用哪种估计方 有时甚至需要有几种信度系数。 法,有时甚至需要有几种信度系数。
重测信度
定义:又称稳定性系数,即使用同一测验, 定义:又称稳定性系数,即使用同一测验,在 同样条件下对同一组被试者前后施测两次, 同样条件下对同一组被试者前后施测两次,求 两次得分间的相关系数。 两次得分间的相关系数。 2-4周 周 计算方法:重测法。 A2,求r12。 计算方法:重测法。A1 , 优点: 优点:能提供有关测验是否随时间而变异的资 料,可作为被试将来行为表现的依据。 可作为被试将来行为表现的依据。 缺点:易受练习和记忆的影响。 缺点:易受练习和记忆的影响。 两次测量之间最适宜的时距:随测验的目的、 两次测量之间最适宜的时距:随测验的目的、 性质和被试特点而异,一般是两周到四周为宜, 性质和被试特点而异,一般是两周到四周为宜, 间隔时间最好不超过六个月。 间隔时间最好不超过六个月。
例子
复本信度又称等值性系数。 复本信度又称等值性系数。它是以两个等值但 题目不同的测验(复本)来测量同一群体,然 题目不同的测验(复本)来测量同一群体, 后求得被试者在两个测验上得分的相关系数。 后求得被试者在两个测验上得分的相关系数。 复本信度反映的是测验在( 上的等值性。 复本信度反映的是测验在( )上的等值性。
不同测验分数的差异比较举例
某被试在韦氏成人智力测验中言语智商 为100,操作智商为105,已知两个分数 都是以100为平均数,15为标准差的标准 分数,假设言语分量表和操作分量表的 分半信度为0.87和0.88,问言语智商和 操作智商是否存在显著性差异。
举例
“大约有 大约有95%的可能性真分数落在所得分 大约有 的可能性真分数落在所得分 的范围内, 的范围内 或有5%的可能性 数+1.96SE的范围内,或有 的可能性 落在范围之外”的描述, 落在范围之外”的描述,其置信区间为 ( )。