心理与教育测量第四章课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 信度系数(rX X )是表示测量信度高低的指标,其值 域为[0,1]。世界上没有百分之一百可靠的测量。 rX X 1 只是理论上的。 • 信度也是多次测量同一对象的一致性程度。
• 信度的统计定义(统计等价定义)
– 信度是被试团体真分数方差与实得分数方差之 比,即: 2 2
rX X T /
• 计算公式:
举例:
• 假设有一份考试焦虑调查表,先后两次施测于10 名学生,时间间隔为半年,结果如表所示,求该 测验的重测信度。
• 使用条件
– ①所测心理品质相对稳定,否则无法判断是量 具信度低,还是品质本身稳定性差。 – ②前后间隔时间要恰当,遗忘和练习的效果基 本上相互抵消。时间间距依问题的性质和测量 目的而定。通常,以2-4周为宜。智力测验的间 隔一般在6个月左右。 – ③间隔期间被试在所测品质方面无更多学习和 训练。 – ④有被试的真诚合作。
X
– 信度是被试团体真分数与实得分数相关系数的 平方,即: 2
rX X T X
– 信度是一个测验与它的任意一个平行测验的相 关系数,即:
rX X X X
二、信度的作用
• 信度是测量过程中所存在的随机误差大小 的反映。
– 测量中随机误差越大,测量的信度越低。(但 信度与系统误差无关!)
克龙巴赫系数计算举例
语文测验模拟资料如表,试求内部一致性系数α的 值(注:第一行数字为被试编号,第一列为项目 编号)。
① ② ③ ④ ⑤
1 3 5 8 8 12
2 5 4 6 9 14
3 2 1 4 6 10
4 6 6 9 10 15
5 3 4 5 7 11
6 4 2 7 8 13
7 3 3 5 6 13
• 需要注意的问题
– 当某个测验涉及多个年龄或年级等不同层次的 考生(被试)时,重测信度不能直接用测验的 原始分数进行估算,而必须使用经过常模量表 转换之后的量表分数或其他类型的标准分数进 行估算。否则会高估。 – 当极少数考生的前测分数与后测分数相差特别 明显时,应去除这些异常的极端值(控制在2% 以内),以避免低估重测信度。
心理与教育测量
主讲:邓稳根(博士) 赣南师范学院教育科学学院 E-Mail: dwengen@163.com
第四章 测量信度
• 信度概述 • 信度的估计方法 • 提高测量信度的方法
第一节 信度概述
• 信度的定义 • 信度的作用
一、信度的定义
• 信度的描述性定义
– 信度(reliability)指测量结果的稳定性程度, 有时也叫测量结果的可靠性。
– 组织复查。 – 自觉防止各种客观效应的影响。 – 在规模阅卷中可考虑采用统计手段控制和调整 评分误差。
• ①均数、标准差。 • ②网上阅卷。 • ③电子阅卷员。
六、成套测验综合分数的信度
• 略
第三节 提高测量信度的方法
• 影响测量信度的主要因素 • 提高测量信度的常用方法 • 几点说明
一、影响测量信度的主要因素
不同测验分数的差异比较举例
• 某被试在韦氏成人智力测验中言语智商为 100,操作智商为105,已知两个分数都是 以100为平均数,15为标准差的标准分数, 假设言语分量表和操作分量表的分半信度 为0.87和0.88,问言语智商和操作智商是否 存在显著性差异(α=0.05 )。
需要注意的问题
• 一个测验可以有多个信度估计值,因而其 误差估计值也会有多个。 • 本理论假定同一个团体中所有人的测量误 差是相同的,但实际上水平高的人与水平 低的人在做测量时会有不同的随机误差。 • 测量的结果不能僵硬地看成是一个点,而 应看成是一个以该点为中心,以SE的某个 倍数为半径上下波动的一个范围。例如, 真正IQ一般在实得IQ±5的范围内波动。
其中 S a2 、 b2 为两半测验分数方差, d2 为两半测验分数 S S 之差数的方差, 2 为总方差。 S
X
• 使用条件
– 随机分成的两半必须是对等的两半。 – 通常在只能施测一次或没有复本的情况下使用。
• 评价
– 优点:只需施测一次便能求取信度。 – 缺点:有些题目,很难分为对等的两半,比如 语文考试里的作文,就没办法分半;分半方法 很多,所估信度很可能有差异。
真分数估计举例
• 在一个人格测验中,某个被试的外向性得 分为20分,已知该分测验的标准差为10, 信度系数为0.91。试问该被试外向性的真 实水平处于什么范围(α=0.05)?如果对 该被试重新施测,他的分数将不会落在什 么范围外?
2、比较不同测验分数的差异
• 已知X,Y,求X,Y是否差异显著。 • 根据SEd=S(2- rxx - ryy)1/2 ,求SEd,这里 要求两个测验的标准差相同。 • 比较|X-Y|/SEd和Zα/2的大小,如果|X1- X2| /SEd> Zα/2,则差异显著;反之,则差异不 显著。
• 被试方面:
– 单个被试心理的稳定性; – 团体被试水平的离散程度及平均水平的过高或 过低。
• 主试者方面
– 施测人员不按规定施测或给学生加压、暗示。 – 阅卷人员标准掌握一致、不准确。
• 施测情境方面
– 考场条件声、光、空间、桌面、仪器质量等。
• 测量工具方面:
– 量具性能是否稳定,包括试题取样代表性、稳 定性,试题同质性,试题难度及其分布。
四、同质性信度
• 定义
– 测验内部所有题目间的一致性程度。 一致性包 含两重含义:
• 所有题目都是测同一种心理特质。 • 所有题目得分之间都有较高的正相关。 • 两者的关系:正相关高是同质性高的必要而非充分 条件。
• 计算
– 求所有分半信度的平均值。
• 缺点:分半的方法太多,有Cnn/2个,计算太麻烦。 例如,有20个题目,则分半的数量有: C2010个。
举例
• 有一个包括20个题目的测验,信度为0.60, 若把测验增加到50个题目,其信度将增加 到多少?
• 一个包含60个题目的测验信度是0.80,欲 将信度提高到0.90,需要增加多少题目?
• 控制试题难度分布为正态,并把难度控制在中等 水平。
5
15 16
6
13 12
7
12 11
8
20 19
9
11 10
10
9 8
• 使用前提条件
– 要命制出真正等值的平行测验。 – 被试要有条件(时间、经费等)接受两个测验。
• 评价
– 优点:能减少练习和记忆效应。 – 缺点:很难构造出两份以上的平行测验;只能 减少而不能消除练习效应;无法消除迁移效应。
三、分半信度
8 6 5 8 9 15
9 5 6 7 10 15
10 4 2 5 7 12
荷伊特信度举例
五、评分者信度
• 定义
– 多个评分者给同一批人的答卷进行评分的一致 性程度。
• 计算
– 两个评分者:采用积差相关或等级相关 – 多个评分者:
• 无相同等级情况:肯德尔W系数 • 有相同等级情况:校正之后的肯德尔W系数。 • W系数的显著性检验:查W表(K:3~20人,N: 3~7个);计算χ2值:χ2 =K(N-1)W,df=N-1。
– 评分者原因:
• ①评分者专业知识水平不够;影响对试题和答案的 理解,尤其是综合性试题,创造性答案。 • ②评分者评判能力不够;缺乏评判能力,特别是缺 乏计量评判能力,评分勿高忽低,或偏高、偏低。 • ③评分者个性倾向影响:宽、严不同,导致评分不 一致。 • ④评分者心理状况和工作态度不同。
– 评分阅卷中各种客观效应的影响:
– 肯德尔W系数
W 12[ R i ( R i ) / N ] /[ K ( N N )]
2 2 2 3
– 校正后的W系数(略)
• 评分误差产生的原因
– 试题原因
• 试题答案不唯一,评分标准还客观,要依赖于评分 者主观经验,因此评分误差严重主要在自由反应性 试题上,特别是论文式试题。
第二节 信度的估计方法
• • • • 重测信度 复本信度 分半信度Biblioteka Baidu同质性信度
– 分半信度和同质性信度也叫内部一致性系数。
• 评分者信度 • 成套测验综合分数的信度
一、重测信度
• 定义:
– 同一测验对同一批被试先后施测量两次所得结 果的一致性程度,其大小为两次分数的积差相 关系数。 也叫稳定性系数。用于考查测量结果 跨时间的稳定性。
– 先求所有题目间相关系数的平均值,再用下列 公式计算:
• 其中K为一个测验题目个数,r ij 为所有题目间相关 系数的平均值。
– Kuder-Richardson(K-R)公式
• K-R20公式(只适用于两级评分,例如0,1):
rX X K K 1 [1

pi qi / S X ]
2
其中K为题目数,p i 为答对第i题的人数比例, q i 为答 错第i题的人数比例, S 为测验总分的变异。 • K-R21公式(在KR20基础上要求各题难度相同):
• 信度可以用来解释个人测验分数的意义。 • 信度可以帮助进行测验分数的比较
1、解释个人分数的意义
• 测量标准误的作用:
– 估计真实分数的范围; – 了解实得分数再测时可能的变化情形。
• 真分数的估计,或再测时实得分数的变化 范围计算:
– 根据SE=Sx×sqrt(1- rxx) ,求SE。 – 根据显著性水平α或置信水平(1-α)。 – 则真分数的置信区间或再测时X的变化范围是: X-Zα/2SE<T≤ X+Zα/2SE
• • • • ①“名片效应” ②“光环效应” ③“对比效应” ④“先后效应”
– 环境与组织管理的影响。
• 控制论文式试题评分误差的方法。
– 命题进尽量控制作答的发散范围,预先制定好 评分规则,并尽是客观、精细,但不吹毛求疵。 – 选择和培训阅卷人员,统一评分标准,规范阅 卷行为。 – 流水作业评分。 – 分因素评分。
• 评价
– 优点:能提供有关测验是否随时间而变异的资 料,可作为被试将来行为表现的依据。 – 缺点:难以消除记忆和练习及学习的影响;难 以取得被试的全面合作。
二、复本信度
• 定义
– 两个平行测验测量同一批被试所得结果的一致性程度。 其大小为两次分数的积差相关系数。
• 分类
– 等值性系数(通常指复本信度):两个复本测验同时 连续施测。 – 稳定性与等值性系数(通常指重测复本信度):两个 复本测验相距一段时间分两次施测。是对信度的最严 格的检验。
• 实施
– 平衡设计:将被试随机分成两半,一半先测A卷,再测 B卷;另一半先测B卷,再测A卷。
• 计算公式
– 类似于重测信度。
• 举例
– 假设用A、B两型智力复本测验对五年级10个 学生施测。结果见下表。试求该测验的复本信 度。
测 验
被试
1
X1 X2 16 15
2
17 16
3
18 19
4
14 18
2 X
其中 p 为所有题平均答对率, q 为所有题目平均答 错率。
– 克龙巴赫系数(适用所有题目):

K K 1
S [1
Sx
2
2 i
]
其中,Si2为每个题目的方差。 • 注意: 大,信度必高,但小,信度不一定低。
– 荷伊特信度(采用方差分量比方法):
rX X 1 M S 人 X题 M S人
• 定义:
– 将一个测验随机分为对等的两半(常用奇偶分 半),所有被试在这两半测验上得分的一致性 程度。
• 计算
– 通常也采用积差相关系数求取。 – 由于测验长度变短,通常需要校正,公式为:
rX X 2 rh h 1 rh h
,其中
rh h 为两半的相关系数。
举例
• 已知某量表的分半信度为0.63,请算出原 长度的信度系数。
• 两次施测估计信度的间隔时间。
– 时间间隔会影响重测信度和稳定性与等值性系 数(有时也叫重测复本信度) – 时间间隔越长则信度越低。
二、提高信度的常用方法
• 适当增加测验长度。(其本质是加大行为 样本容量)
– 注意:加长部分必须与原测题同质,而且不可 无限加长。 – 加长测验的效果可用rkk=krxx/[1+(k-1)rxx]计算, 其中k为改变后的测验长度与原来长度之比, rxx为原测量的信度,rkk为测验长度增加为k倍 后的测量信度。 – 加长效果遵循报酬递减律。
– 上式为Spearman-Brown公式,使用条件为两 半分数的方差(变异数)相等。如果不等,可 采用下列两个等价公式直接计算。 – Flanagan公式:
rX X 2[1 ( S a S b ) / S X ]
2 2 2
– Rulon公式:
rX X 1 S d / S X
2 2
相关文档
最新文档