第五章项目反映理论与自适应测验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
范围越大,信度越高;
r
2 S = T XX
/
2 SX
2 2 = (S X-S E)
/
2 SX

2 1-S
2 S E X
/
③信度系数与样本团体的异质性有关。对不同的
团体需要重新确定测量的信度;
④测验难度水平使测验分数分布范围最大时,测
验的信度才会最高。
3、测量的效度
指测量的有效性,即一个测验对它所要测量的特 性准确测量的程度。一个测验,如果能正确地测 量出所要测的东西,那么它就是高效度的测验。 效度:与测量目的有关的分数的方差与实得分数 的方差之比
2)复本信度——平行测试法
根据一组被试在两个等值测验上的得分计算的相 关系数即为复本信度系数。
反映的是两个测验之间的等值程度度上避免了受练习和记忆的影响
缺点:很难编制两份等值的试卷
3)分半信度——折半法
按正常的程序实施测验,然后将全部试题分成 相等的两半,被试组在这两半测验上的分数之 间的相关系数即为信度系数。
N
2、协方差和相关系数
协方差—— xy
S
N
1 (X -X)(y -y) Sxy= N∑ i i i=1
相关系数——
γ
xy
γ
xy=


1 (X -X)2 i ∑ N i=1
N
Sxy Sx Sy N 1 (X -X)(y -y) i i ∑ N i=1
√N ∑
1
N
i=1
(yi-y)2
(二)测量数据应具备的特性
学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X1 X2 15 14 13 12 12 11 11 10 10 10 10 10 9 9 9 8 8 7 6 8 5 8
15 14 16 15 13 12 11 13 13 12 10 11 11 11 10
由与测量目的无关的因素引起的恒 系统误差: 定的有规律的误差
多次测量结果不一致,大小和方向 随机误差: 是随机的。既影响测量的准确性又 影响一致性。 稳定地存在于每一次测量中。只影 系统误差: 响测量的准确性。
测验试题形式选择不当、指导语 随机误差: 不清晰、评分标准不一致等。
系统误差: 测验设计人员有偏见。
与库德-理查逊法 不适用于速度测验
②克伦巴赫α 系数
可用于多重评分测验
α
kk =
2 ∑ S i k (1- Sx2 k-1
)
k——测验的题目数 Si2——第I道题目分数的方差
Sx2——测验总分的方差
5)评分者信度
考察评分者信度的方法是随机抽取部分试卷, 由两个或多个评分者按评分标准打分,然后求 其间的相关。
1、平均值、分散和标准偏差
平均值——
x
1 X= (x1+x2+x3· · · · · · · · · xN) N N 1 = ∑xi N i=1
2 方差(分散)——S
测量得分的分散程度
x
变异数
1 2 2 ( X - X ) S x= N∑ i i=1
N
标准偏差—— x
S
Sx=

2 S
x


1 (X -X)2 i ∑ N i=1
4)内部一致性信度
5)评分者信度
1)再测信度
r
XX
1 X X ∑ X X - 1 2 1 2 N = S1S2
用同一个测验,对同一组被试前后两次施测,两 次测验分数之间的相关程度就是再测信度。 测验跨时间的一致性——稳定性系数。
例1 假设有20个学生在1月1日接受了一个测验,到 2月1日,又再一次接受同一测验,把1月1日的 首测与2月1日的再测的分数分别记为X1X2,测 验结果为:
2 S
V
2 /S
X
测验的效度除受随机误差影响外,还受系统误 差的影响;
可信的测验未必有效,而有效的测验未必可信; 测验本身、测验的实施和被试等对测验的信度有 影响的因素对效度也有影响。
根据考察一个测验有效程度的途径,把测验的 效度分为:
9 10 7
计算得:
∑X1X2 = 2385 X1=9.95
S1=2.46 X2=11.45 S2=2.42
r
XX
(2385/20-9.95×11.45) = =0.9 (2.46×2.42)
①所测量的特性必须是稳定的;
再测信度 满足条件
②遗忘与练习的效果相同;
③两次施测期间被试的学习效果没有
差别。 优点:提供测验结果是否随时间而变化的资料, 可作为预测被试将来行为的依据; 缺点:易受练习和记忆的影响。 适用于速度测验,不适用于难度测验
(X-1.96SE)≦ T ≦(X+1.96SE)
7)影响信度的因素
被试、主试、测验内容和施测环境等均能引起 随机误差,导致分数不一致,从而降低测验的 信度。
①测验的题目数越多,则其信度越高。
题目越多,试题的取样越适当;题目越多,测 验分数受猜测因素的影响越小。
②团体的异质程度与测验信度有关,分数分布的
间接测量。通过测量学生对所学知识的掌握程度 来了解其智力或学业水平的现状和发展情况。
测量的结果是相对的。学生学业成绩只有在某种 标准的比较中才有意义。只有把它们和集体的平 均水平比较,或者和教学计划规定的教学内容、 教学目标比较,才能确定测验分数的含义。
2、教育测量的量表
量表——测量工具。具有一定单位和参照点的 连续体,为获得有用的数据而设计。
二、教育测量一般概念及量表
1、教育测量的一般概念 测量:根据一定规则用数字对事物的特性加 以描述和确定的过程。
采用的方法
1)要明确被测量对象的属性或性质 2 )确定能使这些属性显示出来并又可 测量包含 以被感知的一系列操作 3)制定一个程序使得结果可以量化
参照点——计算的起点,有绝对零点和相对零
第五章 测试与测试理论
测试与测试理论
• • • • • 测量的意义与分类 教育测量一般概念及量表 测量数据的记述与处理 项目反应理论 项目反应理论的应用
一、测量的意义和分类
狭量测试:针对具体的技能、知识、能力、适应性等 特性的测试
器具测试与笔纸测试
客观测试与非客观测试 1、测量的分类 综合测试与分析测试 标准测试与非标准测试 集团基准测试与达到基准测试
1 Ste= ∑ ( t - t ) ( e - e ) i i N i=1 =0
N
1 2 2 ( X - X ) S x= N∑ i i=1 N 1 2 - = ∑[(ti+ei) ( t +e ) ] i N i=1
N

2 S
2 + 2S + S te t e

2 S
2 + t S e
2、测量的信度
试题号 1 2 3 4 5 80 24 6 7 8 30 9 25 10 47 答对人数 60 70 50 45 10 90 40 25 19
试题号
11 12 13 14 15 16 17
18
15
19
12
20
10
答对人数 82 74 20
∑piqi=3.52
Sx2=16
k=20
3.52 20 (1- 16 20-1 )
1、测量的误差模型
xi——测试值
ti ——真值 ei ——测量误差
N足够多
N
xi=ti+ei
ei = 0 e=∑
i=1
1 x =1 (t +e ) X=N∑ i N∑ i i i=1 i=1
N N
1 1 = ∑ti + ∑ei N i=1 N i=1
N N
= t+ e=t
若测量误差与得分真值间是完全独立的,则:
点(人为定的参照点)。
教育测量中的参照点为相对零点。
??
单位——测量的基础。理想单位的条件:
要有确定的意义;具有相等的价值
教育测量:根据教育目标的要求,按一定规则 用数字对教育效果加以描述和确定的过程。
即,遵照教育学、心理学和测量学的理论和原则, 通过各种测验来确定由于教育引起的学生知识、 能力变化的方向和数量。
如何 优点:分半法估计信度比再测法和副本法 分半? 简便,减少了学生的疲劳、厌烦等因素;
局限:分半信度系数只能表示两半试题的 等值程度,不能提供时间稳定性的信息。
不采用前后分半,采用奇偶分半法,即将题目 的奇数号分为一组,偶数号分为一组; 求出所有被试在奇数和偶数题上总分的相关系 数;
求得的信度为半个测验信度,整个测验的信度 需要进行矫正。
r
K-R20

=0.82
例3 假定某次考试共有105道题,学生平均分数为 75分,标准差为19分,则利用k-R21公式可计 算得这次考试的信度是:
r
K-R21
= =
kSx2-X(k-X) Sx2 (k-1)
105×192-75×(105-75) (105-1)× 192
=0.95
库德-理查逊法只适于客观性测验,不适用于 主观性测验;只适用于题目得分不为1则为0的 测验,不适用于其他判分方式的测验。
① 求得当两半测验等值时,两半测验分数具有
相同的平均数和标准差,可用斯皮尔曼-布朗公 式校正:
r = 2r /(1+r
XX
AB
AB

② 当两半测验具不同的均值和方差时,可用卢
伦公式校正:
r
XX
= 1-Sd2/ Sx2
Sd
2
两半测验分数 之差的方差
Sx
2
整个测验总分 的方差
4)内部一致性信度
也称同质性,指测验内部所有题目间的一致性。 如果在一个测验中各道试题得分有较大的正相 关时,我们说这个测验是同质的,也就是说, 在该测验项目中所有的项目都测量相同的特质 或程度略同的特质。
1)类别(称名)量表
根据精确度 2)等级(顺序)量表
3)等距(间隔)量表
4)等比(比率)量表
1)类别量表
对被测对象进行分类,并赋予各类以不同的符号。
类之间只具有“质”的差别而不具有“量”的差 别。
标记 功能 分类 百分比 适用的统计 卡方检验
2)等级量表
数字或符号表示测量对象在某一属性上的顺序或 等级关系。
不表明各数字间的差距相等,不能进行四则运算。
中位数 适用的统计 百分位数
3)等距量表
教育测量
具有类别量表和等级量表的性质外,还具有连续 数量之间的差距相等。
数值间不能进行乘除运算,但可以进行加减运算。 量表的数值加或减一个常数或用一个常数乘除, 不会破坏原有数据间的关系。
均数 适用的统计 相关系数 F-t检验
信度:当一个测验多次测量的结果一致或稳定时, 它就被认为是可靠的。而估计测量一致性或稳定 性程度的指标,称为信度。
r
2 S = T XX
/
2 SX
即指:测验中,被试的实得分数与真实分数差距越 小,测验的分数就越可靠,信度就越高;反之,信 度就越低。
1)再测信度
2)复本信度
估计信度的方法: 3)分半信度
1)测验的观察分数X可看作真分 数T和测验误差分数E的线性组合;
经典测量理论关 2)误差分数E的数学期望为0; 于误差三个假设
3)任何两次测量所产生的误差相 互独立。
1)测验自身所引起的误差;
误差的来源 2)测验过程所引起的误差;
3)被试本身所引起的误差。
三、测量数据的记述和处理
(一)测量数据的统计测度
一般认为,当经过训练的成对评分者之间的相 关系数达到0.9以上时,才能认为评分客观。评 分者之间的一致性越好,其信度也越高。
1)~5)估计信度的方法,只适用于常模参照 测验,而不适用于标准参照测验; 信度系数是衡量测验好坏的一个重要指标。最 理想的情况是信度为; 一般能力与学绩测验的信度系数常在0.90以上, 性格、兴趣、态度等人格测验的信度系数通常 在0.80~0.85之间。
4)等比量表
物理测量
具有最高的水平量度,除了具有前三者性质外, 还具有绝对零度,可进行四则运算。 心理测量中,反应时间属于该类。 教学与时间数据进行分析即可采用等比量表。
3、教育测量的误差
测量误差:在测量过程中由与目的无关的因素 产生的不准确的或不一致的结果。 由与测量目的无关的偶然因素引起 随机误差: 的变化无规律的误差
6)信度系数与个人测验真分数的估计
常通过估计测量标准误的方法对个人真正能力 作置信区间的估计。 测量标准误的大小影响实得分数对真分数估计的精 确度,其数值与信度有关,两者之间的关系:
SE=SX(1-rxx)1/2
SE—测量的标准误
SX —所得分数的标准差
rxx—测验的信度
个人在测验中所得分数X有95%的可能性落在真 分数T加减1.96个标准误的范围内,即:
估计测验内部一致性的常用方法:
① 库德-理查逊公式
r r
K-R20

k k-1
∑piq i (1- ) Sx2
K-R21

kSx2-X(k-X)
Sx2 (k-1)
pi——通过第i题的人数比例
k——测验题目数
qi——为未通过第i题的人数比例
X——测验总分数的平均数
Sx2——测验总分数的方差
例2 假设在一次有100人参加的客观性试题的测验 中,题量为20道,学生考试分数的标准差为4 分,各试题的答对人数如表所示:
相关文档
最新文档