误差及信度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 项目的代表性、可理解性等
–测量对象
• 测验焦虑、测验经验、学习发展和教育、应试动机、 练习效应、反应倾向、生理变因
–测量过程
• 测试环境、测试时间、主试因素、意外干扰、评分 计分
心理测量误差的来源 • 主试对测量结果的影响 –主试的人格特点:是否善于建立良好人 际关系,是否过于严格或宽松 –主试的期望(罗森塔尔效应):人有在 不确定环境中按照可能有的线索解释情 境的倾向
重测信度的风险
• 练习效应 –被试可能因为练习效应导致两次测试的成绩不 一致(常常是第二次偏高) –如果所有被试在练习中得到了等量的促进
• 信度? • 但实际上,不同的被试可能从练习中获益不一致
–如何避免练习效应
重测信度的风险
再测风险1
练习在第二次 测验时得到更 高的分数
足够长的时间 去忘记
再测风险2
信度的三种类型
• 考察丈量得到的长度准不准,我们可以—— –重新测量几次 –用不同的工具(e.g.,卷尺、米尺、游标卡尺 等) • 考察心理测验是否可靠,我们共有三种检验信度 的方法 –重测信度 –内部一致性(分半法或alpha系数) –评分者一致性信度
重测信度(再测信度)
• 编制测验的人让参加测试的同一批人在两种不同 情境下完成同一个测验,然后比较再次测验得分 之间的相关 –检测一个测验跨时间的一致性 –两次施测之间的间隔从几个小时到几年不等 –间隔时间是重测信度的一个重要影响因素 –测验编制者报告一个测验的重测信度时,必须 同时说明两次测验之间的间隔时间长短
1
2 3 4 5
6
总和
4
17
6
28
5
16
3
19
2
17
2.00
19.44
内部一致性 vs. 同质性
• 一致性的方法来估计信度只对同质——只测验一 种特质或特征——的测验有效 –当测验不只一种特质的时候,对内部一致性的 估计会偏低 –例如,对一个应聘会计师工作的人的测量可能 需要测量其会计原理的知识、计算技巧、以及 使用电子制表的能力 –这样的测验是同质还是异质
• K为题目数 • 表示所有被试 在各题上得分的方 差的和 • 表示所有被试 在整个测验上的总 得分的方差
例: 5名被试在某测验上的得分情况
题号
学生
A 3
4 3 2 1
B 6
3 4 5 4
C 1
3 1 2 4
D 6
2 2 1 5
E 5
3 1 2 4
σi2
3.76
0.4 1.36 1.84 1.84
–75个正常成年人,24小时后重测 –80个大学生,28天后重测
内部一致性
• 如果只能测一次,我们如何估算测验的信度
• 每把尺子上,每个刻度是一致的,既是标准长度 ,尺码是内部一致的 • 一个测验的内部一致性就意味着测验的每个问题 对测验所要衡量的属性都有相同的价值 –P.147,数学问题的例子
衡量内部一致性的方法
以PAI人格评定问卷为例
• PAI(Personality Assessment Inventory, Leslie Morey, 1991)用于成年人的人格临床评定量表 –CPAI,中国人格评定量表,中国科学院心理研 究所,张建新课题组 • 重测信度 –非临床条件下的两个样本群体
• 临床样本估计信度的弊端
重测信度(再测信度)
• 它反映的是心理测验跨时间的一致性,是稳定性 系数
时间间隔 施测 相关系数
再施测
重测信度(再测信度)
• 两个前提 –参加测试的人在所要测量的品质上不会发生变 化
• 桌子破损了 • 成就/能力/人格测验类似
–集中复习 –NC—MCI—AD –人格障碍
–参加测试的人的情绪、投入程度,以及在两次 测试之间出现的个人问题都可能影响他们的测 验成绩
心理测量误差的控制
• 误差的控制 –测验的标准化!
心理测量的信度
10
生活中的例子
• 一位同学考研成绩为72分,另外一位同学得分为 74分,最后录用了72分的那位同学! –这是否意味着学院选择了能力更低的一位同学? • 为什么在有的测试中会遇到一个问题“反复”问 的情况 –“我是紧张的”;“我感到紧张束缚”(状态 /特质焦虑量表) • “你幸福吗”是一个测量幸福感好的测量工具吗? –一个项目为什么有问题?
north northwest
West
southwest central
east
south
South
Active aging
Assessment
评分者信度
• 一次施测后,由两个或者更多的人来给同一个测验打 分 • 给出评分说明,比较评分者们对每一个题目的判断, 看看他们是否一致 • 评分者批阅第一份试卷和最后一份试卷的评分一致性
评分者信度
• 评判间信度 –可以通过求一个评分者的判断与另一个评分者 的判断之间的相关来计算评分者信度,当具有 较强正相关时,评分者信度就很高 • 评判间一致性 –称名或顺序数据 –Cohen’s Kappa(P.158) • 评分者内部一致性 –当一个评分者做出判断时,研究者希望确保评 分者在给所有测验评分的时候保持一致
• 皮克马力翁效应—暗示的力量 • 罗森塔尔效应—满怀期望的激励 • 生活中的相关例子
心理测量误差的来源 • 被试特点对测量结果的影响
–测验的技巧与练习因素
• 测验的技巧:熟悉测验程序及题目形式 • 练习效应:教育背景较差和经验较少者受练习因素 的影响较为显著;着重速度的测验,练习效果较为 明显
–焦虑和动机因素
H
I J 总和∑
64
64 75 659
78
70 82 676
4992
4480 6151 46742
4096
4096 5625 47449
6084
4900 6724 48256
重测信度的计算
• 皮尔逊积差相关
• X为第一次测验的实得分数;Y为第二次测验的实 得分数;N为被试人数
例1:用某量表测验10名学生,得分记为X,16天后用原量表 对这10名同学再测一次,得分记为Y,问测验结果是否可靠?
H
I J 总和∑
64
64 75 659
78
70 82 676
4992
4480 6151 46742
4096
4096 5625 47449
ቤተ መጻሕፍቲ ባይዱ
6084
4900 6724 48256
重测信度的计算
• 皮尔逊积差相关
• X为第一次测验的实得分数;Y为第二次测验的实 得分数;N为被试人数
重测信度的计算
• 计算得rxx=0.68 • 显著性水平取0.05,df=10-2=8 • 查 积 差 相 关 系 数 检 验 表 得 r0.05(8)=0.632, rxx>r0.05(8) • 说明两次测验所得分数显著相关,故该测验信度 高,测验结果可靠,作出此结论的可靠度为95%
心理测量的误差
心理测量误差的定义与种类
• 所有的心理测验都是不完美的并存在误差的 –成就测验 –人格测验
心理测量误差的定义
• 误差的定义 –测量误差指的是在测量过程中,那些与测量目 的无关的因素所导致的测量结果不准确或者不 一致的效应
• 误差是由与测量目的无关的变因引起的 • 误差是不准确或不一致的测量结果
不同质的量表或测试
• 对一个异质测验的内部一致性的估计,只估计一 个总体的内部一致性是不合适的 • 应该对每个同质的分测验的内部一致性进行计算 并报告 –对会计师的测验应该有三个对内部一致性的估 计:会计原理分测验的信度估计、计算技巧分 测验的信度估计、使用电子制表软件的分测验 的信度估计
不同质的量表或测试
什么是信度
• 心理测验是一种测量工具。在这个意义上,它与 尺子、秒表或者温度计没有什么不同
什么是信度
• 信度是决定一个心理测验有多可信的最重要的指 标之一 –指的是测量的一致性程度 –一个好的测验必须稳定可靠,即多次测量的结 果要保持一致 –但并不表明这个测验时有效的(准确性)
什么是信度
• 这个词汇测验是否可信?
复本信度
• 这种方法要求编制测验的人编制该测验的两个版 本:复本测验或等值测验 –可在短时间内重测 • 多用于前后测 –干预研究(工作记忆更新) • 最大的风险 –两个版本的测验不等值
• 成就测验较容易实现等值 • 而人格测验较难(如自尊)
–此外,范式的熟悉如何控制?
例1:用某量表测验10名学生,得分记为X,16天后用原量表 对这10名同学再测一次,得分记为Y,问测验结果是否可靠?
–rxx为整个测验的信度系数,rhh为两个“半测 验”上得分的相关系数(P.157) –注意:只有在分半测验时才使用这个校正公式 ,重测信度和alpha系数不用 –这样的计算是否还是存在一定问题?
将一个六个项目测验进行分半的十种可能方法
分半A的测验项目 1,2,3 1,2,4 1,2,5 1,2,6 分半B的测验项目 4,5,6 3,5,6 3,4,6 3,4,5 信度估计 0.64 0.68 0.82 0.79
1,4,5 1,5,6
1,3,5 1,4,6 1,3,6
2,3,6 2,3,4
2,4,6 2,3,5 2,4,5
0.88 0.82
0.74 0.71 0.72
衡量内部一致性的方法
• Alpha系数 –一个更好的测量内部一致 性的办法是比较在所有可能 的拆分测验的方式下个体的 分数,这个方法弥补了由分 半不等值造成的误差 –可以用于等级量表(1,2,3 ,4等) • KR-20(库德-理查德)系数 –用于问题是正误计分
学生 X Y X· Y X2 Y2
A
B C D E F G
88
80 68 60 96 32 32
94
78 56 48 70 38 62
8272
6240 3808 2880 6720 1216 1984
7744
6400 4624 3600 9216 1024 1024
8836
6084 3136 2304 4900 1444 3844
• 应试动机:被试参加测验的动机不同,会影响其回 答问题的态度、注意力、持久性以及反应速度等 • 测验焦虑:适度的焦虑会使人的兴奋性提高有积极 影响,过度的焦虑会使工作能力降低成绩大多偏低
心理测量误差的来源
• 被试特点对测量结果的影响 –反应定势
• (1) 求“快”与求“精确”的反应定势 • (2) 偏好正面叙述的反应定势 • (3) 偏好特殊位置的反应定势 • (4) 偏好较长选项的反应定势 • (5) 猜测的反应定势:有些被试不愿猜测;相反, 另外有些被试即使告诉他答错要倒扣分,还是无法 阻止其猜测行为
心理测量误差的种类 • 误差的种类 –随机误差
• 与测量目的无关的偶然因素引起的误差,使 多次测量产生了不一致的结果 随机误差影响了一致性和准确性,而系统 误差却是恒定的,只是影响准确性 • 与测量目的无关的因素引起的一种恒定而有 规律的效应
–系统误差
心理测量误差的来源
• 误差的来源 –测量工具
分测验 1.会计技能 2.计算技能 1 (0.90) 2 0.70 (0.85) 3 0.51 0.47 (0.95)
3.使用电子制 表的技术
• 对角线空格中括号内的数字是分测验的α系数, 没有加括号的是数字是分测验之间的相关系数
Another Example
Sampling
North
northeast
学生 X Y X· Y X2 Y2
A
B C D E F G
88
80 68 60 96 32 32
94
78 56 48 70 38 62
8272
6240 3808 2880 6720 1216 1984
7744
6400 4624 3600 9216 1024 1024
8836
6084 3136 2304 4900 1444 3844
• 分半法 –将测验分成两半,然后比较前半部分和后半部 分的题目上个体所得的分数 –前提:两部分在长度和内容上都等价 –分解测验最好的方法:问题随机分配
• 随机分配能够平衡分数中由顺序效应、难度及内容 导致的差异
分半信度系数的调整
• 一个测验中问题的数目与其信度是直接相关的, 缩短一个测验将会减少它的信度 • 在使用分半法时,我们必须对得到的信度系数进 行校正(斯皮尔曼-布朗公式)
矛盾 平衡
情境发生改变
两次间隔时间 不要太长
复本信度
• 对同一群体实施两套在各个方面都非常相似的同 质测验
复本信度
• 这种方法要求编制测验的人编制该测验的两个版 本:复本测验或等值测验 –可在短时间内重测 • 多用于前后测 –干预研究(工作记忆更新)
工作记忆更新任务
• 前测:以水果类名词为材料 –要求被试报告最后n个词 –苹果、桃子、李子、西瓜„„ • 训练:采用数字更新任务 –23,45,67,35,69, „„ • 后测:以工具类名词作为材料 –斧头、锤子、镰刀、剪刀, „„
相关文档
最新文档