基于项目反应理论的试题参数估计方法(精)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 5卷第 1期贵阳学院学报 (自然科学版 (季刊
Vol . 5 No . 1JOURNAL OF G U I Y ANG COLLEGE
2010年 3月 Natural Sciences (Quarterly
Mar . 2010
基于项目反应理论的试题参数估计方法
薛宝山
(山东胜利职业学院 , 山东东营 257097
摘要 :探讨了几种常用的基于项目反应理论 (I RT 的试题参数估计方法 , 并分析了每一种估计方法的优缺点及各自的适用领域 , 为构建基于 I RT 的试题库系统提供理论参考。关键词 :项目反应理论 ; 试题库 ; 参数估计 ; 遗传算法
中图分类号 :TP3111131文献标识码 :A 文章编号 :1673-6125(2010 01-
03
I RT 2ba sed Param eter Eva on s
(Shandong 257097, China
Abstract:The p l ores several common I RT -based evaluati on methods of test questi ons and analyses ad 2vantages and of each method and its suitable app licati on range, which p r ovides the theoretical reference t o constructing I RT -based test questi on bank syste m.
Key words:I RT; test questi on bank; para meter evaluati on; genetic algorith m;
1引言
在互联网技术迅速发展的今天 , 基于网络技术的考试系统得到了广泛的应用 , 网络考试系统拓展
了考试的灵活性 , 显著降低了教育成本。作为网络考试系统中的重要环节 , 试题库及其理论的研究和应用也越来越广泛。
试题库是严格遵循教育测量理论 , 在计算机系统中实现的某个学科题目的集合 , 是在精确的数学模型基础上建立起来的教育测量工具。试题库系统是进行计算机辅助教学的一种有利工具 , 是计算机科学、教育测量理论相结合的产物 , 是未来计算机辅助教学系统的一个重要的发展方向。
2理论基础
211项目反应理论 (I RT
项目反应理论是一种以试题参数为前提的理论 , 它以被试个体潜能通过试题作答反应的可测性 , 被试个体潜能与其试题上可见反应函数关系的基本一致性 , 以及试题参数线性变换下的不变性为理论假设 , 进而建立种种以被试个体在既定试题上的作答反应参数来推断其潜在特性的数学模型 , 以一定的数学模型来确定被试个体试题反应概率与其潜在能力之间的函数关系。
项目反应理论的质量指标即项目参数的估计值与样本选择无关 , 对被试者能力水平的估计值与测试试题无关 , 是一种建立于一套假定之上的能力测量理论。考生的能力估计值除了测量误差外 , 不会受所使用的测试种类的影响 , 它是试题独立(I 2te m -independent 的能力估计值 , 其次 , 从不同群体的考生估计得到的试题参数估计值 , 不受参与测试的考生群体的影响 , 也就是说它是样本独立
—
87— 3收稿日期 :2009-12-30
作者简介 :薛宝山 (19 - , 男 , 山东胜利职业学院 , 讲师 , 本科 , 研究方向 :软件工程。
(Sa mp le -independent 的试题参数估计值。项目反应理论还提供其测量的估计标准差 ((Standard err ors 和试题的信息函数 (Ite m inf or mati on func 2 ti on , 它可以用来作为评价能力估计值之精确度的指标 , 优于经典测试理论中的“ 信度” (Reliability 。 212试题参数的估计
任何项目反应模型都可以统一描述成 P j
(Q =F (Q, a, b, c 的形式。公式中中包含两类参数 , 一类是被试者的能力参数 , 用 Q 来表示 , 只与被试者有关 , 与题目参数无关 ; 另一类是项目的质量参数 , 用
a 、
b 、
c 标识 , 分别称为区分度参数、难度参数和猜测参数 , 这些参数值都不能由直接测量得到 , 而必须通过被试者的反应数据进行估计来求出。在项目反应理论模型的研究过程中 , 人们提出了多种理论模型 , 可以分为两大类 :静态模型与动态模型。静态模型描述被测试者某一时刻的素质、能力水平不随时间变化 ; 动态模型则用来描述被试者的内在素质、能力水平随时间变化的情况。比较成熟的是静态模型 ,
,
,
状分为正态卵型和逻辑斯蒂型等多种。
213逻辑斯蒂克模型 (Logistic Model
目前应用较广的是逻辑斯蒂克模型 (Logistic Model 。在逻辑斯蒂克模型中 , 根据参数的不同 , 特征函数可分为单参数、双参数和三参数三种模式 :
单参数模式:p (θ
1+e -D (θ-b
双参数模式:p (θ
1+e -D a (θ-b
三参数模式:p (θ =c +(1-c
1+e -D d (θ-b 其中 , D =11702为量表因子常数; θ为受测者能力值。P (θ 表示能力为θ的人答对此题目的概率 ; a 为题目的区分度 , 即特征曲线的斜率 , 它的值越大说明题目对受测者的区分程度越高 ; b 表示题目的难度 , 即特征曲线在横坐标上的投影 ; c 表示题目的猜测系数 , 即特征曲线的截距 , c 的值越大 , 说明不论受测者能力高低 , 都容易猜对本道题目。当 c =0为双参数模式 , 当 c =0且 a =1时为单参数模式。通常θ、 a 、 b 、 c 都是未知的 , 要根据被试对项目的作答反应对θ、a 、 b 、 c 进行估计 , 一般采用双参数 Logistic 的 0-1评分模型进行比较。根据具体问题 , 可出现几种情况 :第一是各项目参数已知 , 估计被试能力 ; 第二是被试能力已知 , 估计项目参数 ; 第三是同时估计被试能力和项目参数。
3试题参数的估计方法
311极大似然估计法
在测试过程中 , 对测试样本进行如下统计 :假设第 j 道试题的区分度为 a (j , 难度系数为 b (j , 猜测系数为 c (j , 应试者在该试题的反应函数 :U j ={1:答对情况 ; 0:答错情况 }。该应试者参与了 n 道测试后 , 其能力计算的极大似然方程为: L (θ =L (U │ θ, a, b, c =Π
n
j =1
exp (u