第三章误差及其检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

四、 信度评估的方法
重测信度
复本信度
信度 内部一致性 信度 评分者信度 分半信度 同质性信度
(一)重测信度(Test-retest reliability)
含义 同一测验 同组对象 前后测2次 相关系数 程序 误差
A卷
一 定 时 距 太短 练习效应 记忆效应
时间
太长 身心变化
稳定 性
A卷
使用条件
(2)两种测验分数的比较(差异的标准误)
2 SEd SE12 SE2
SEd S 2 rxx ryy
所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著.
3、确定信度的可接受水平
典型测验的一般标准
测验类型 最低标准
能力测验
人格测验
0.90-0.95
★ 时间间隔视测验目的、性质、被试 特点而定; ★ 年幼儿童,间隔要小;年长成人,间隔可长; ★ 智力测验间隔不能太短,成就测验不能太长; ★ 一般以2-4周为宜,智力测验的间隔时间一般在6个月左 右。
(二)复本信度(Alternate-form raliability)
含义 两等值测验 最短时间内 对同组对象 施测结果r
重测
复本 内部一致性:分半、同质性 评分者
测验条件、样本性质及估计方法不同,信度不同.
注:第一条假设在于说明E是服从均值 为零的正态分布的随机误差;第二、 三条假设意在说明E是个随机误差,没 有包含系统误差。
理解如下:
1、在问题研究范围内,反映心理特质水平的真分数是不变 的,测量的任务就是估计这一真分数的大小; 2、观察分数被假定等于真分数与误差之和,而且观察分 数与真分数是一种线性关系; 3、测量误差是完全随机的,并服从均值为零的正态分布。 且独立于所测特质以外的任何变量。 4、对于一个团体来说,实得分数、真分数和测量误差之 间有如下关系:
rnn 1 rXX k rXX 1 rnn
RXX为原测验的信度. RNN为测验长度增加后测验的信度. K为改变后的测验长度与原来长度之比.
例2-16:某测验有40题,信度0.65, 若增至120题,信度会是多少?
rnn 0.85
例2-17:某测验有30题,信度0.75, 试问要达到多少题才能使信度达到0.90?
同日或次日
1年 2~2.5年 5年 9年
0.90~0.95
0.85 0.80 0.75~0.80 0.78
年龄的时间变化
年龄越低,信度越低
间隔六年,rXX的变化 第一次 4 9 11 第二次 10 15 17 rXX 0.73 0.87 0.92
思考
如何提高测量的信度?
适当增加测验的长度; 使测验项目的难度分布接近正态; 努力提高试题的区分度; 选取适当的被试团体; 主试严格执行测验规程; ……
S S S
2 X 2 T
2 E
随机误差
在一次测验中,一个团体的实测分数的变 异数是由与测量目的有关的变异数、稳定但 出自无关来源的变异数和偶然但出自无关来 源的变异数所决定的。
S S S
2 X 2 T
2 E
S S S
2 T 2 V 2 X 2 V
2 I 2 I 2 E
S S S S
使用条件
第一,前提是有复本测验。 第二,被试有条件接受两个测验(时间和经费等)。 第三,报告结果时要报告两次测验的间隔及有关经历.
评价
优点
代表性增强,信度更准 一定程度避免练习、记忆效应
不足
编制复本难 影响积极性 触类旁通
重测信度与复本信度有何异同?
小结与问题
跨时间 一致性 试题之间 有何关系?
几点说明
1.有多少种误差,就有多少种估计信度的方法. 2.上面介绍的各种计算方法仅适用于常模参照测验. 3.标准参照测验的信度问题必须以概化理论为依据. 4.不同类型的测验,信度的要求是不一样的. 5.用不同方法估计的信度也会有所差异.
小结
理论假设: X=T+E; S² X = S² T +S² E 信度:测量结果的稳定性(一致性)程度. 类型
(三)测验难度
一般趋势
测验太难或太易,分数范围缩小,降低信度.
难度与题型
简答题:P=0.5时,X为0~100,信度最高。 学绩测验选择题的理想平均难度(洛德) 五择一:0.70 四择一:0.74 三择一:0.77 是非题:0.85
(四)时间间隔 智力的时间变化
间隔期 信度系数
考研题
五、影响信度的因素
测验长度
样本特征
测验难度
时间间隔
(一)测验长度
含义
测验试题的数量
特点


测验越长,试题取样越具有代表性。 测验越长,猜测因素影响就越小。 增加测验长度的效果应遵循报酬递减率原则。
长度与信度的关系
krXX rnn 1 k 1rXX
操作演练
假设对100个六年级学生以两个月的时间间隔先 后施测一个创造力测验的A/B两个复本,所得的 等值与稳定性系数为0.70。 我们还根据被试对每个复本的反应计算出分半信 度为0.80. 同时,我们将另一个评分者随机抽取50份卷子另 外评分,得到评分者信度为0.92。 然后,我们对这这三种方法所产生的误差变异进 行分析。
等值 性
程序
误差 内容 取样
A卷
最 短 时 距
B卷
复本等值的条件
● 各测验测量的是同一种心理特质;
● 各测验具有相同的内容和形式;
● 各测验的题目不应重复;
● 各测验题目数量相等;各测验难度和区分度大体相同; ● 各测验的分数分布(标准差和平均数)大体相同;
● 复本编制好后,应再测一次,以确保等值。
一个假想测验的变异数分析
信度类型 误差变异数 误差变异来源 时间和内容取样
复本信度(间隔) 1-0.70=0.30
分半信度 上述两者差异 评分者信度
误差变异总和 真实变异
1-0.80=0.20
内容取样
0.30-0.20=0.10 时间取样 1-0.92=0.08 评分者差异
0.20+0.10+0.08=0.38 1-0.38=0.62
0.80-0.85
非标准化测验
0.60-0.85

信度评价的一般原则 RXX ﹤0.70:不可靠,不能用; 0.70≦RXX ﹤0.85:可用于团体; RXX≧0.85:可用于鉴别个人.
几种典型测验的信度系数
测验类型 成套成就测验 学术能力测验 成套倾向性测验 客观人格测验 兴趣问卷 态度量表 低 .66 .56 .26 .46 .42 .47 中 .92 .90 .88 .85 .84 .79 高 .98 .97 .96 .97 .93 .98
第一,所测的心理特性必须是稳定的。 第二,遗忘和练习的效果基本上相互抵消。 第三,所测心理特质在两次施测的间隔时间内 没有获得更多的学习和训练。 第四,报告结果时要报告两次测验的间隔及有 关经历.
评价
优点 省力、省时 测量属性相同 提供随时间变化的资料 不足
时间间隔长短
★ 时间间隔越长,重测信度越低;
3、误差的来源
三层面模式
测量 工具
测试对象
施测 过程
1.测验题目取样不当
测 量 工 具
2.测验题目格式不妥 3.测题的难度不当 4.测题或指导语用语不当
5.测验时限过短
......

测 试 环 境
测 试 时 间

主 试 因 素


意 外 干 扰 评 分 记 分

应 试 动 机 测 验 焦 虑
2、误差的种类
系统误差

随机误差




随机误差与系统误差的比较
类型 产生原因 特点 方向和大小上 完全随机 效能
影响 一致 性 不影 响一 致性
指 标
信 度 效 度
随机 不易控制的 误差 偶然因素
影 响 准 系统 恒定、有规 稳定地存在于每 确 性 次测量中 误差 律的因素
二、信度的定义
信度指的是测量结果的稳定性程度(或一致性程度)。
真分数方差与观测分数方差的比值
rXX
S 源自文库 S
2 T 2 X
信度是反映测量中随机误差大小的指标。
三、信度的应用
1、评价测验(随机误差的大小)
2、解释测验分数的意义
(1)解释个人测验分数的意义
SE S X 1 RXX
(X-1.96SE)﹤T≤(X+1.96SE)(95%的概率水平)

测 验 经 验

练 习 效 应

反 应 倾 向 生 理 变 因
经典测验理论 信度概念 信度的评估方法
信度系数的应用
影响信度的因素
一、经典测验理论
成熟 标志 20世纪50年代 Gulliksen 《心理测验理论》 三大 支柱 基本假设 信度 效度
考研题
Classical Test Theory(CTT)
方差相等时
方差不等时
使用条件
测验只能施测一次或没有复本的情况下使用. 当一个测验无法分成对等的两半时不宜使用.
2、同质信度(Homogeneity raliability)
同质性 题目间的内部一致性
克龙巴赫 系数
各类 题型
类型
库-理信度
二值 记分
(四)评分者信度(Scorer raliability)
第三章 测量的误差及检验
第一节 测量的误差及其来源 第二节 测量的信度 第三节 测量的效度
第一节 测量的误差及其来源
◆ 误差的定义 ◆ 误差的种类 ◆ 误差的来源
考研题
1、误差的定义
误差:与测验目的无关的因素所导致的测验结果不一致或不准确的现象.
测量 因素
与测量目的无关
测量 结果
不准确 或不一致
k 3, n 90
(二)样本特征
1、样本团体异质性的影响
特点
样本越异质,分数分布越广,有可能高估信度。 样本不同,信度就有可能不同 。
2、样本团体平均能力水平的影响
特点:
团体平均水平太高或太低,分布变窄,可能低估信度.
选择测验时应注意
取样团体的变异性和能力水平 建立信度的团体与欲测团体是否一致
跨形式 一致性
(三)内部一致性信度
含义 测验 各题间 一致性
题目 一致 性
同质性 信度
类型
分半 信度
1、分半信度(Split-half raliablity)
奇偶题 分半
难易:低高 两半相似: M、S 项目组间相关 分布常态
两半相关:rhh 校 正:rnn
校正方法
斯皮尔曼 -布朗公式 弗拉南根公式 卢尤公式
含义 评分者评分的一致性
方法
2评分者
rXY
2个以上者 肯德尔和谐系数
各种信度系数相应误差变异的来源
信度系数的类型
再测信度 复本信度(连续施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
误差变异的来源
时间取样 内容取样 时间与内容取样 内容取样 内容的一致性 评分者间的差异
友情提示
实际上,有多少种误差的来源,就有多少 种信度估计的方法。一般来说,一个测验 哪种误差大,就应该用哪种误差估计。有 时一个测验需要几种信度估计。
基本假设与真分数
1、真分数
测验所得 未加工
理论定义 真正特质水平
操作定义 无数次测量结果的均值
经典测验理论(CTT)假定:
观察分数(X)与真分数(T)之间 是一种线性关系,并只相差一个随机误差 (E)。 即: X=T+E
关于测量误差还有如下假设:
1、如果对一个人的某种心理特质用平行测验测量无数次, 则其观察分数的平均值会接近于真分数。 2、 误差分数与真分数相互独立,相关为0。 3、各平行测验上的误差分数之间相关为零。
相关文档
最新文档