第05章信度

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

三、测量误差和真分数理论
在实测分数中真分数所占的比率实测分数=真分数+误差（X=T+E）公式：
真分数模型
经典测量理论假设，观察分数与真分数之间是一种线性关系，只相差一个随机误差。
真分数公设：X＝T + E （X是实得分数，T
是真实的分数，E为随机误差或测量的误差）此式定义：测量分数是真分数与误差分数之和。对于同一被试用平行的测验反复多次测验，观察分数的平均值会接近真分数。
二、测验的长度对信度的影响
测题数量越多信度就越高以已有测题数量所得信度来预测达到某种信度水平需增加的题数
公式：例：
以增加题目的数量来推测所能达到的信度公式：例：
进一步增加题数可达到的信度水平
题数
10 50 100 200 300 400 500
相关系数 0.50 0.83 0.91 0.95 0.968 0.976 0.98
第05章测量的信度
Outline
第一节信度的理论第二节测量误差的来源第三节估计信度的方法第四节影响信度系数的因素第五节测量的标准误差第六节概化理论简介
第一节信度的理论
一、信度的操作性定义二、误差三、测量误差和真分数理论
一、信度的操作性定义
定义：测验结果一致性的判断 (一个测验可靠性和稳定性的指标)
公式：
例：三个教师给6篇作文评分
教师 1
2
3
4
5
6
A
25
30
27
20
28
32
B
22
26
21
20
25
30
C
15
20
18
14
21
22
将分数值转换为得分等级（最高为1……）然后求出每一篇作文所得等级之和（Ri ）
1
2
3
4
5
6
A
5
2
4
6
3
1
B
4
2
5
6
3
1
C
5
3
4
6
2
1
Ri
14
7
13
18
8
3
例题计算
Ri ＝14+7+13+18+8+3＝63 Ri2＝811 K＝3
四、信度的基本定义
信度（reliability）：测量结果的稳定性程度。
定义1：一组测量分数的真分数的变异数与实得分数
的变异数的比率
rxx
S
2 T
S
2 x
定义2：一组测量分数的真分数的变异数与实得分数
相关系数的平方
rxx ρT2X 定义3：一个测验与任一个平行测验的相关系数
rxx ρXX
第二节误差及误差的来源
例题
假设一个测验有5个测题,施测于一个30个人的样本,结果求出标准差为2.5
测题答对人数 p
1
15
2
20
3
12
4
10
5
6
q 0.50 0.67 0.40 0.33 0.20
pq 0.50 0.33 0.60 0.67 0.80
0.25 0.22 0.24 0.22 0.16
Σpq=1.09
稳定系数
定义：与测量目的无关的因素造成了测验结果的不一致或不准确
误差来源
1.测验内部引起
1）题目取样误差
2）题目用词模棱两可
3）题目太难
4）规定的测验时间太短
5）题型的原因
2. 测验过程引起的
1）物理环境 2）主试方面 3）意外干扰 4）计分
3.被试引起的
1）动机 2）焦虑 3）练习 4）经验 5）生理因素
第三节估计信度的方法
一、稳定系数（重测信度）（跨时间的一致性）二、等值系数（复本信度）（跨形式的一致性）三、内在一致性系数四、评分者信度
一、稳定系数（重测信度）
稳定系数（重测信度）（跨时间的一致性）：对同一个测验前后做两次，然后计算两次测验结果的一致性。
公式一：
公式二：
例题
稳定系数（克伦巴赫系数）公式：
内在一致性系数的使用局限性
1. 只适合于同质性的测验 2. 特别不适合于速度测验
四、评分者信度
（一）2个评分者：二个评分者分别对一组被试的测验结果加以评分，然后求取两组人分数的一致性；另一种方法是求取完全相同评分的比例。
（二）三个以上评分者对一组被试的测验结果评分，其一致性的求取采用肯特尔和谐系数。
一个好的测验在多次测量同一个人的时候结果应该是基本一致的.
二、误差
测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。系统误差：在相同的观测条件下作一系列观测，若误差的大小及符号表现出系统性，或按一定的规律变化，那么这类误差称为系统误差。只影响准确性。随机误差：在相同条件下进行多次测量时，每一个单独的误差出现没有规律性，误差数值的大小和符号的正负不固定。由与测量目的无关的、偶然因素引起的、而又不易控制的误差。影响准确性和一致性。
三、测验的难度对信度的影响
难度间接影响信度。即难度影响测验分数的分布，然后影响信度。
第五节测量的标准误差
定义：误差分数分布的标准差标准误也可用来判断一个测验的稳定性程度。信度系数是估计整个样本的误差程度，而标准误则是用来估计个人分数中的误差水平。
标准误的计算公式
标准误的用途
确定分数的有效区间不评价两个同测验分数是否有明显的差异。
N=6
被评对象在3-7人时，直接查表，w值大于表中数值说明信度是高的，如被评对象超过7人，则可计算2值，作2检验。
2＝k (N-1) wdf=N-1来自不同类型测验的信度要求
标准化智力测验 0.90
(中等到高的信度)
标准化成就测验 0.85
标准化人格测验 0.80
(中等到低的信度)
标准化团体测验
标准误用于确定分数的有效区间
测量的标准误： 95%的置信区间：（X-1.96SE）≤ T≤(X+1.96SE)
例题
一个儿童做韦氏智力测验测得智商120，已知韦氏测验的标准差为15，信度是0.95。
以95%的置信水平来确定这个儿童智商分数的有效区间，那么真分数有95%的可能性会落在X+/- 1. 96 Se的范围内，即
真分数理论的3个假设
误差分数的平均数是零。因为误差是随机的误差分数与真分数相互独立,没有任何相关。如果有相关,那误差就不成为误差了两次测量的误差分数之间的相关为零。因为误差是随机的,所以测量之间没有必然的联系
测量分数=真分数+误差分数
误差之和为零
测量分数的平均数=真分数的平均数
测量分数的方差等于真分数的方差与误差方差之和(但标准差并没有如此之关系）
因为每一次测量结果中都可能有误差的存在，所以一次测量不一定能准确反映真实的情况，而多次测量可以弥补这一不足，因为误差是随机出现的，所以理论上可以用多次测量结果的平均数来代表真分数，而每一次测量分数与平均数的离差就是误差。一个测验结果的离散度越小说明误差也就越小。
真正在心理测量中真分数是不可能直接获得的。可行的是探查一个测验的误差有多大，然后通过用测验分数与误差分数相减来求取真分数。
概化理论中，在根据行为样本的表现（得分）估计行为总体的水平时，必须同时指出测量条件样本是否也推论到了各自所对应的条件总体（全域）。
这种把被试的某种潜在特质水平定义在具体的测量条件全域（范围）上的分数，就叫全域分数
概化理论中方差分量的估计
当测验涉及被试和题目两个因素时，可以将总变异分解为题目效应（题目难度等差异）、被试效应（被试水平差异）以及题目与被试之间的交互作用概化理论中运用方差分析的思想，在求得各种均方的基础上，根据抽样理论，估计出有关的内在总体方差，即属于各主效应和交互作用的方差分量。
测验情境关系：在不同的测验情境关系下，测量误差的结构不同，误差量也不同。由此测验编制者可以通过改变测验情境关系达到改善测量，降低测量误差的目的。概化理论认为，研究测量必须先研究测验情境关系。
测验情境关系
测验情境关系是由一个测量目标和若干个测量侧面构成的。测量目标：测量者希望通过测量用测量数据描绘的那些实体。测量侧面：除了测量目标方差，其余的都是误差方差，这些误差的来源都称作为测量侧面。
概化理论的基本原理
首先，运用实验设计的思想，分析影响测验分数变异的各种来源；接着，运用方差分析的技术，分别估计各种变异来源对分数变异所做的贡献（方差分量）然后，根据不同研究目的，分别考察研究目标在测验总分变异中所占的比重。
概化理论的全域分数
经典测量理论运用真分数的概念来刻画被试潜在的心理特质的水平；概化理论则提出了全域分数的概念来刻画被试潜在的心理特质的水平。
∑x1x
2
1946
例题2
被试数学x 阅读y x
y
x2
y2
xy
1
41
17
+1
-4
1
16
-4
2
38
28
-2
+7
4
49
-14
3
48
22
+8
+1
64
1
8
4
32
16
-8
-5
64
25
40
5
34
18
-6
-3
36
9
18
6
36
15
-4
-6
16
36
24
7
41
24
+1
+3
1
9
3
8
43
20
+3
-1
9
1
-3
9
47
23
+7
分半信度
把一次测验的结果人为地分成对等的两半，然后计算两半分数之间的相关。计算分半信度的一个重要之处是如何进行合理的分半。分半信度只是半个测验的信度，所以需加以校正。校正公式：
库德—理查逊估计法
库德—理查逊1937年提出了一种分析题目间一致性来估计信度的方法，即应用项目统计量来避免任意的两半分法导致产生的误差。常用KR20公式。公式：
概化理论控制测验误差的方法主要是通过统计控制技术实现，即把干扰测验分数的无关变量或因素引入测验模型中，然后用统计技术分别估计出这些因素以及因素之间交互作用对测验的影响程度。再通过分离这些影响后，显现出被试水平之间的真正差异，即控制了测验误差。
概化理论的基础
分数方差测量学：测量误差的来源多种多样，各种误差在误差总量中所占的比也不相同。
+2
49
4
14
10
40
27
0
+6
0
36
0
400 210 0
0
244 186 86
40
21
例题2计算
采用重测信度需注意之处
两次测验的时间应该是合理的,即既不能太长又不能太短。相隔太长的时间被试在所测量的特征上可能会发生变化，相隔太短有记忆的效应。
重测信度的使用局限性
1.被试在这期间自身发生了变化 2.第一次测验的经验对第二次测验产生影响。如第一次测验产生了焦虑就会影响第二次测验) 3. 记忆的作用 4.耗时耗精力,被试不好找
0.70
某些投射测验
0.60 (低信度)
第四节影响信度的因素
一、测验分数分布的范围对信度的影响二、测验的长度对信度的影响三、测验的难度对信度的影响
一、测验分数分布的范围对信度的影响
分数分布的范围越大，信度就越高，分数分布的范围越小信度就越低。
用异质团体的信度来推测同质团体的信度
公式：例：
测
被试
验 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x1 16 15 13 13 13 11 10 10 10 9 9 8 8 7 6
x2 16 15 16 14 12 11 13 12 10 11 11 9 10 8 7
统计值
测验 ∑x
x1
158
x2
199
∑x 2
S
1784 10.53 2.83 2147 11.67 2.65
120+/-1.96 × 3.35 =113-127。
标准误用于评价两个同测验分数是否有明显的差异
公式：置信度乘以标准误标准误公式：
例题
一个儿童的韦氏言语智商是102，操作智商为108，操作智商是否显著地高于言语智商呢？以标准误来检验，先算出差异分数的标准误
两个分数差异大于9分以上才有显著性差别，现在 108-102=6，所以这个儿童的两种智力没有差异。
概化系数与可靠性系数
概化理论认为，测量的误差包括两种，其一为相对误差，其二为绝对误差
相对误差是由所有随机误差引起的测量误差，即在概括全
域上，被试p的样本得分与全体被试样本得分的均值之差值与被试p的全域分数与全体被试全域分数均值之差两者之间的差异。即被试在样本上的离均差与他的全域分数的离均差之差值即为测量的相对误差。
二、等值系数（复本信度）
一个测验有A，B两个版本，对一组被试测试，求取两个测验结果的一致性。两个版本连续施测称为等值性系数，如果两个版本间隔一段时间施测称为稳定性等值系数。
三、内在一致性系数
以一次测验的结果来估计测验的信度，用以估计测验内部的一致性。内部一致性信度的估计方法（1）分半信度（2）库德—理查逊估计法（3）稳定系数
以图形也可辨认两种分数的差异
以图形也可来辨认两种分数的差异。如果置信区间有重叠，尤其是一半以上重叠，那就不能说一个分数比另一个高。
第六节概化理论
一、GT的基本原理及概念二、单侧面随机设计三、双侧面完全随机交叉设计
概化理论
概化理论是一种能够同时达到区分被试和评估被试真实水平的目的，并较好控制测验误差的现代测量理论。
与测量目的有关的变异s测量分数真分数和误差分数的分布假设学生测量分数17152162042325227252252535251026304333524545总数250250平均数250250方差12021050152标准差10910239测量分数真分数误差分数误差之和为零测量分数的平均数真分数的平均数测量分数的方差等于真分数的方差与误差方差之和但标准差并没有如此之关系因为每一次测量结果中都可能有误差的存在所以一次测量不一定能准确反映真实的情况而多次测量可以弥补这一不足因为误差是随机出现的所以理论上可以用多次测量结果的平均数来代表真分数而每一次测量分数与平均数的离差就是误差

第05章 信度

第05章信度