第五章信度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
rxx=ST2 / Sx2 =1- SE2 / SX2
(二)测验长度的影响 其他条件不变时, 测验越长→行为样本的代表性越高→信度 越高;随机误差抵消。 (三)测验难度的影响 过难或过易都会使分数分布范围减小,降低 信度。最佳难度水平0.5
二、提高测量信度的常用方法
1. 适当增加测验的长度。 2. 使测验中所有试题的难度接近正态分布, 并控制在中等水平。 3. 努力提高测验试题的区分度。 4. 选取恰当的被试团体,提高测验在各同质 性较强的亚团体上的信度。 5. 主试者严格执行施测规程,评分者严格按 照标准给分,施测场地按测验手册的要求 进行布置,减少无关因素的干扰
(二)由施测过程引起的误差
1. 物理环境
2.主试因素
3.意外干扰
4.评分计分
(三)被试引起的误差 1. 应试动机 2. 测验焦虑 3. 生理因素 4. 学习、发展和教育 5. 测验经验
三、信度的作用
1.评价测验:信度是测量过程中所存在的随 机误差大小的反映 2.解释个人测验分数的意义
SE:标准误
一、GT的基本原理和概念
(一)测量情景关系是“测什么”和“怎么测”的 总和。 在概化理论中,测量情景关系是由测量目标 (Object Of measurement)和测量侧面(facet of measurement)构成的。
(★)测量目标是指“测什么” ,即研究者希望描述 的实体属性(如:能力、成就、教学质量)。 (★)测量侧面是指“怎么测”,指一组特定的测量 条件,包括影响测量目标观察值的各种因素(测量 工具、测量环境、测量过程、评分专家,以及观察 的场合、情景、时间等等)。各个测量侧面又可分 为不同的水平每个侧面都对测量结果有影响,是测 量误差的来源。
复本信度(间隔施测)
分半信度 同质性信度 评分者信度
时间与内容取样
内容取样 内容取样和内容的异质性 评分者间的差异
第五节 影响信度系数的因素
一、影响因素 除被试、测验内容、施测情景外,影响信度系数的因 素还有: (一)分数分布的影响 分数分布范围越宽,信度系数就越高。被试团体同质 性水平 同质性越高(个体差异越小)→分数分布范围小→ 信度越低
施测的安排: ① 等值性系数:两个复本测验是同时连续施 测的 ② 稳定等值系数(重测复本信度):两个复 本测验是相距一段时间分两次施测的。
Байду номын сангаас
3、局限(★) ① 只能减少而不能排除练习和记忆的影响。 ② 许多测验建立复本相当困难。
三、分半信度
1.含义和计算 (★)分半信度(split-half reliability)是指 将一个测验分成对等的两半后,所有被试在 这两半上所得分数的一致性程度。 假设(★) :两半测验等值。
2
克龙巴赫α系数:
α = [ K /(K - 1)] [1 -(ΣSi2)/ Sx2 ] 注意: 用于预测的测验或学绩测验可不考虑同质性。
验证理论构想时必须考虑同质性。因此,同 质性不但与信度有关,还与效度有关。
五、评分者信度 1.含义和计算
(★) 评分者信度(scorer
reliability)是指多个评分者 给同一批人的答卷进行评分的一致性程度。
Sx:所得分数的标准差
rxx:测验的信度 真分数的置信区间(95%)
3.不同测验分数的比较
• 来自不同测验的原始分数无法直接比较。只有参 照同一团体的平均分数,将它们转换成相同尺度 的标准分数(T、Z),才能比较。
• 要比较个人在两种测验上的差异,用差异标准误 来检验其差异的显著性。 • 差异标准误 S:标准分数的标准差 rxx、ryy:两个测验的信度系数 • 标准分数的差异与1.96SEd(0.05水平)进行比 较。> = <?
三、信度好坏的判断标准(★)
标准化能力或学绩测验:>0.90 人格测验:>0.80 教师自编学绩测验:>0.60
第六节 概化理论简介
(★)经典测验理论(CTT)中信度存在的问题: 1. 严格平行测验假设难以成立。要求子测验在 内容、均数、变差、信效度方面完全相同。 这在实际的测验情景中很难满足。 2. 信度系数往往随测量设计的不同而不同,误 差难于控制,也不能有效地分离误差的来源。 误差变异并非单一的结构,经典测量理论对 误差来源的笼统划分与控制成为它在实际应 用中最为突出的缺陷。
四、同质性信度
1.含义
同质性信度(homogeneity reliability), 也叫内部一致性系数,是指测验内部所有题 目间的一致性程度。可弥补分半法的不足。
(★)
2.计算及适用范围 基本公式: rkk = K rij / [ 1 +(K - 1)rij ] K为测验项目数 r ij是项目间相关系数的平均数。
第二节 真分数及其有关的假设
一、真分数的含义 (★)真分数(True Score):一个测量工具 在没有测量误差时所得到的真值。 (★)操作定义:无数次测量结果的平均值。 观察分数(Observed Score):测验分数
二、真分数的数学模型及其假设 对一个测验成绩(个体)而言 X=T+E X:测验分数;T:真分数;E:测量误差
2人时:相关系数(积差相关)
多人时:肯德尔和谐系数
W=12 [ΣR i2 -(ΣR i)2 / N] / [K2(N3 -N)] (K=3 ~ 20;N=3 ~ 7时,查W表检验) R I为第i个被试被评的水平等级之和
>.90
各种信度系数相应误差变异的来源 (★) 信度 重测信度 复本信度(连续施测) 误差变异来源 时间取样 内容取样
3、重测信度的误差来源与控制(★) ① 测验本身:心理特性的稳定性。适用于稳 定的心理特质(速度测验、人格测验) ② 被试方面:成熟、知识变化、练习、记忆 效果、情绪。时间间隔适当。要提高被试 积极性、消除不合作态度。 ③ 施测过程及期间:记时错误、情结波动、 健康状况、动机变化
二、复本信度
1.含义和计算 (★)复本信度(Alternate-form reliability)是指 两个平行(等值)的测验测量同一批被试所得结果 的一致性程度。 计算方法与再测法相同。 2.使用的前提条件(★) ① 两测验真正平行:项目的内容、形式、数量、难 易、时限、指导语等 ② 被试要有条件接受两个测验。注意:时间间隔要 适当。
注意: (1)信度系数有多种。 (2)同一种信度系数也会因样本、测查时间 不同而有多个。 (3)信度系数只是对测量分数一致性的估计, 但并没有指出不一致的原因。 (4)获得较高的信度只是测验有效的必要条 件。
二、测量误差的来源(★)
(一)测量工具(测验内部)引起的误差 1. 题目取样 2. 测验题目格式 3. 难度 4.指导语 5.时限
决定系数是真分数与实测分数相关系数的平方,标志着 因变量能以自变量解释的比例部分。
误差越小,信度越高。
注意: (1)信度指的是一组测验分数或一系列测量 的特性,而不是个人分数的特性; (2)真分数的变异数是不能直接测量的,因 此信度是一个理论上构想的概念,只能根据 一组实得分数作出估计。
信度系数
例:每个被试写两篇题目不同的短文,由三个 评分者给所有短文评分。 测量目标:被试的写作水平 测量侧面:题目(2)、评分者(3)
GT的主要任务(★) : 区分出误差的各种来源,并把误差方差分解 成各个相应的方差分量,为控制和减少测量 误差提供依据。
(二)在概化理论中用可靠性(dependability)的 概念代替了传统信度的概念。 可靠性指的是从一个测验或是测量的被测者 得分到施测者同等程度接受的所有可能条件 下被测者均分的概化的精确性,即从测量对 象在样例测量上的得分到全域分的概化精确 性。 概化越精确,越能从一个测量或测验的情况 来推断观察全域的情况。
常见的分半方法是按测题序号奇偶分半:
①测验题目按某种顺序(如难度)排列; ②如果是随机排列的题目,则必须是所有题目是 平等的(要么难度相等,要么性质一致,是测同 一个心理特质的); ③如果测验有多个分量表,应在分量表内部排好 顺序,再把各分量表的两半组合起来求相关。
分半法:按正常的程序实施测验,然后将全 部项目分成相等的两半,根据各人在这两半 测验的分数计算其相关。然后进行修正(?) 校正公式:斯皮尔曼-布郎公式 rxx= 2 rhh /(1+ rhh) rhh是两半测验分数之间的相关系数。
SX2 = SV2 + SI2 + SE2
SX2
SV2 SI2 SE2
ST2
第四节 信度(reliability)概述
一、什么是信度? 信度是指测量结果的可靠性程度。 操作定义:一组测量分数的真变异数与总变异数 (实得变异数)的比率。 rxx=ST2 / Sx2=1- SE2 / SX2 rxx:信度系数
第四节 估计信度的方法
一、重测信度 1.含义和计算 (★)重测信度(testretest reliability): 用同一量表对同一组 被试施测两次所得结 果的一致性程度。
2.使用的前提条件(★) ① 所测量的心理特质必须是稳定的; ② 练习和遗忘的效果基本上相互抵消; ③ 在两次施测的间隔时期内,被试在所要测 查的心理特质方面没有获得更多的学习和 训练。
库德-理查逊公式 KR20公式: rxx = [ K /(K - 1)] [ 1-(Σpiqi)/ Sx2 ] pi为答对第i题的人数的比例;qi为答错第i题的 人数的比例;K为题目数, Sx2为测验总分 的变异。 适用于:已知各项目的难度
KR21公式: rxx = [ K /(K - 1)] [1 -(K p q )/ Sx ] =[K Sx2-X(K-X)]/(K-1) Sx2 适用于:各项目难度相近的情况
概化理论的提出
克龙巴赫(Cronbach)等率先提出了概化理论 (Generalizabillity Theory )的基本框 架; 运用对方差或协方差分量分解的方法,将测 验情景中的各类误差进行分解和控制,实现 了对经典测量理论的扩展; 用于评分者信度的估计、临界分数误差估计、 测验分数的推广性和标准参照测验的信度研 究中。
第三篇 测量的理论
信度 效度 项目分析 量表与常模
第五章
信度
同一个人一天中用同一称称体重多次,结 果(单位:公斤)是: 55;40;62;45;55; 49;82;46;60;53 此人的体重是多少?
第一节
二、测量误差的种类
测量误差及其来源
一、测量误差的含义: 测量值与实际值的差异
(★)系统误差:测量工具本身引起的误差(稳定)。 (★)随机误差:由不稳定因素引起的误差(不稳定)。
• 克龙巴赫认为,获取的测验观察分仅仅只是可获 取的测验观察分总体分数中的一个样本而已,因 此,测验的编写者有责任说明对这个获取的观察 分所来自的观察分总体分数(总体分)应如何认识。 • 从统计上说,总体分实际上就是所有观察分的平 均数。在一个具体的测验条件下,如一个特定的 场合、一个特定的主试以及被试在一个特定的测 验形式上所获取的观察分,还有推测出来的总体 分,与在另一个测验情形下所产生的观察分及其 总体分相比较,一般说来两者总是不一样的。 • 测验编写者在指定了可获取的总体分之后,应对 该测验进行一般化研究(即G研究)和决策研究(即D 研究)。
真分数理论的基本假设(★) : 1. 误差的平均数为0 2. 误差分数与真分数之间的相关为0; 3. 两次测量的误差分数之间的相关为0 。
对于一个团体来说, SX2 = ST2 + SE2
实得分数变异数=真分数的变异数+误差变异数(随机误差)
ST2 = SV2 + SI2
真变异数=与测量目的有关的变异数+与测量目的无关的稳 定的变异数(系统误差)
当假定“两半测验等值(具有相同的平均数 和标准差”)不成立时,用弗朗那根公式或 卢仑公式来估计信度。 弗朗那根公式: rxx = 2 [ 1 -(Sa2 + Sb2)/ Sx2] Sa2 、 Sb2是两半测验分数的变异数, Sx2是测验总分的变异数
卢仑公式: rxx = 1 - Sd2 / Sx2 Sd2 :两半测验分数之差的变异数 Sx2:测验总分的变异数