关于项目反应理论试题参数的估计

合集下载

项目反应理论(IRT)甄选试题方法研究

2018年9月伊犁师范学院学报（自然科学版）Sept.2018第12卷第3期Journal of Yili Normal University（Natural Science Edition）Vol.12No.3项目反应理论（IRT）甄选试题方法研究张兆远1，陶剑2（1.伊犁师范学院数学与统计学院，新疆伊宁835000；2.东北师范大学数学与统计学院，吉林长春130024）摘要：主要研究项目反应理论（IRT）方法并使用该方法对一组真实考试成绩进行分析，探索如何使用IRT理论甄选试题的一般方法.关键词：项目反应理论；甄选；试题中图分类号：O213；G449文献标识码：A文章编号：1673—999X（2018）03—0010—050引言教师要通过考试来考查学生对知识的掌握情况，而出试卷的过程就是甄选题目的过程.经常出现的情况是教师认为简单的题目，结果很多学生却作答错误，有人就说这道题或试卷难度太大.于是，我们就希望能给每道题标出难度值，在选题时供参考.估计试题参数的方法有经典测量理论（CTT）、概化理论（GT）和项目反应理论（IRT），是教育测量领域最重要的三种理论方法.其中，IRT方法具有参数不变性、测量精度高等优点，但由于理论相对复杂、操作难度较大而没能被广泛使用.随着计算机软件、互联网技术的迅猛发展，IRT的操作使用开始变得简单易行，但广大教师对IRT方法的了解程度还远远不够.本文采用IRT方法对某校数学考试试题进行分析，并探索给出如何使用IRT方法甄选试题的一般方法.1项目反应理论（IRT）简介项目反应理论（Item response theory，IRT）也称潜在特质理论，是一种现代心理测量理论，假设被试具有某种潜在特质（latent trait），被试的潜在特质一般是指潜在的能力，通常用测试得分数据来估算.项目反应理论认为被试对测试项目的反应成绩与它们的潜在特质存在密切联系，并且项目反应理论估计的项目参数具有参数不变性的特点.项目反应理论可以通过项目特征曲线（item characteristic curve，ICC）来综合展示各项目分析的结果，使我们能够综合直观地观察到项目难度、区分度等项目特征和被试能力，进而可以指导教师甄选试题编制试卷.同时IRT在一定程度上克服了CTT和GT的一些局限性.1.1模型假设假设1：作答真实可信，各被试之间互不影响.假设2：局部独立性，即对同一被试题目间相互独立.假设3：潜在特质空间维度有限性，即一次只测试一种能力.假设4：项目特征曲线严格单调上升，即被试能力水平收稿日期：2018-01-12基金项目：伊犁师范学院教改项目（JG20161643）；国家自然科学基金项目（11571069）；伊犁州教育科研规划项目（YLJYKT2016040）.作者简介：张兆远，男，在读博士研究生，研究方向：统计学；陶剑，男，教授，统计学博士生导师.张兆远，陶剑：项目反应理论（IRT）甄选试题方法研究第3期越高其正确作答概率越高.假设5：非速度测量假设，即被试在测试中有充足时间作答.1.2基本模型以下是项目反应理论中3种常用模型：1）正态肩形模型P i(θ)=c i+(1-c i)∫-∞a i(θ-b i)e-z222πd z.2）Rasch模型P i(θ)=e(θ-b i) 1+e(θ-b i).3）logistic模型P i(θ)=c i+1-c i1+e[-Da i(θ-b i)].模型中a、b、c为项目参数，分别表示区分度、难度、猜测度；参数θ表示被试潜在特质，即能力参数.区分度参数取值范围为[-∞,+∞]，实际应用中一般为[0,+3]；难度参数取值范围为[-∞,+∞]，实际应用中一般为[-3,+3]；猜测度参数取值范围为[0,+1]，实际应用中发现很少大于0.5；能力参数取值范围为[-∞,+∞]，实际应用中一般为[-3,+3]；D为常数取1或1.7.以上模型又可分为单参数、二参数、三参数模型，在应用过程中可以根据实际需要进行选择.1.3项目反应曲线图1给出了项目反应曲线ICC示意图，ICC曲线呈现出单调递增的S型，IRT模型参数可以在ICC曲线中综合直观地观察到.它的横坐标表示潜在特质，即能力参数θ；纵坐标表示被试对项目的正确作答概率P i().区分度参数是曲线拐点处切线的斜率，曲线越陡峭在拐点处切线斜率越大区分度就越高，那么相邻水平被试正确作答反应概率的差异就越大；难度参数是正确作答概率为0.5（三参模型时为1+c2）时的能力值点，这与CTT中关于难度的定义有本质区别；猜测度参数为ICC曲线的下渐近线值，当被试能力水平非常低时，其正确作答概率接近c值，能力越高c参数的影响力越小.图1项目反应曲线ICC示意图1112伊犁师范学院学报（自然科学版）2018年2试题甄选本文整理了604份被试作答数据，共分析15道试题：第1~5题为选择题，第6~10题为填空题，第11~15题为判断题，这三种题型都是可化为0~1判断的客观题.本文选用IRT中的Logistic模型，由于第1~5题为4选1的选择题，即使不会做的被试也有0.25的可能性猜对答案，所以选用带有猜测度参数的三参数模型，其他题型选用二参数模型.当然，也可以不考虑猜测度参数而全部使用二参数模型，通常二参数模型的参数估计结果更稳定.本文在分析过程中综合使用R语言、FoxPro9.0、Excel、BILOGMG3.0和ANOTE1.6软件对数据进行处理分析，包括数据整理、拟合度检验和参数估计等.2.1拟合度检验与参数估计项目参数估计值与模型-数据拟合度检验表1注：**表示0.05显著性水平下拟合度未达标；自由度df为10.第1~5题为4选1的选择题，由于不会做的被试者也有0.25概率猜测正确，所以c值不应大于0.25，在实际应用过程中根据具体情况需要可以适当放宽.由表1中的猜测度参数c估计值可以看到它们都小于0.25，都符合标准.拟合度检验中卡方值越大说明拟合效果越不好.本文将能力参数估计值分为10组，因此卡方检验自由度df取10.第5题卡方值为18.375，在0.05的显著性水平下自由度为10查表知卡方检验值为18.307，而18.375大于18.307说明第5题拟合度未达标.又因为在0.01的显著性水平下自由度为10查表知卡方检验值为23.209，据此本文将卡方检验值适当放宽到20.000，从而保留第5题.2.2利用项目参数选题为了能够更加直观地通过区分度参数与难度参数甄选试题，我们绘制第1~15题的项目反应曲线ICC，见图2.张兆远，陶剑：项目反应理论（IRT）甄选试题方法研究第3期图2第1~15题项目反应曲线ICC由图2并结合表1可见，第3题、第12题、第14题的拐点偏左，这类题的难度较低；第11题，难度较大；第11题、第14题拐点处切线斜率较小，这类题目区分度较小；可以看出第4题、第6题、第7题、第8题、第9题、第10题的ICC曲线相对完整优美，是我们甄选试题时的理想目标.3总结本文使用项目反应理论（IRT）方法甄选试题.第一步，通过拟合度检验选出与IRT模型拟合效果好的题目，需要注意的是拟合度不佳并不一定说明题目本身不好，此处选出拟合度好的题目是为了保证下一步选题的可靠性.本文采用卡方检验法检验拟合度，卡方值越大说明拟合效果越不好，本文中要求卡方值不大于20.000.第二步，估计IRT模型在各项目的参数并绘制各项目ICC曲线，具体方法可参见相关文献或者使用已有的软件程序.第三步，通过猜测度参数c、区分度参数a和难度参数b并结合观察各项目ICC曲线甄选题目：1）从理论出发猜测度不应大于0.25，实际应用中可适当放宽，本文要求猜测度不大于0.30，当然也可以不考虑猜测度参数而全部使用二参数模型，通常二参数模型的参数估计结果更稳定.2）理论上讲区分度越大越好，实际应用中一般取值范围为[0,+3].3）难度取值范围一般为[-3,+3]，由IRT中难度参数的定义易知，相比CTT中的难度参数IRT中的难度参数使得我们可以更有效地甄选试题；事实上，难度与区分度联系紧密，IRT中的区分度是相对于难度参数附近的被试水平而言的.如果每道题都选难度非常大的，那么只有少数高能力被试才能作答正确，而在实际中被试的能力参差不齐，所以一般各难度段的题目都要选.4）ICC曲线相对完整优美的项目，一般是我们甄选试题时的理想目标.本文建议：当已知被试能力先验信息时，一般大部1314伊犁师范学院学报（自然科学版）2018年分的题目应在被试能力参数范围内按均匀分布选择区分度较大的题目；当不知道被试能力先验信息时，一般大部分题目应在难度范围[-3,+3]内按均匀分布选题的同时选择区分度较大的题目.当然，在实际的操作过程中由于考试的目的不同选题策略也会不同.比如一次考试的目的是选出顶尖人才，那么通常会选择难度和区分度都比较大的题目；比如一次考试的目的是为了检验学生对知识的掌握程度从而评定出等级就可以选择本文建议的选题策略.事实上，在已知被试能力先验信息时，可以通过甄选题目精准控制被试的考试得分或通过率.项目反应理论（IRT）中还有一个重要概念是信息量.信息量与区分度参数相关性较强，可以利用项目信息量辅助甄选试题.信息量概念涉及试卷整体的信效度问题，笔者将在后续论文中阐述研究此问题.另外，本文主要研究二级评分题型的甄选方法，对于多级评分题型由于模型不同需另行讨论.参考文献：［1］CARDAMONE CN，ABBOTT JE，et al.Item Response Theory Analysis of the Mechanics Baseline Test［J］.Physics Education Research Conference，2012，1413（1）：135-138.［2］SWAMINATHAN H，HAMBLETON RK，ROGERS HJ.Assessing the Fit of Item Response Theory Models［J］.Handbook of Sta⁃tistics，2006，26（6）：683-718.［3］FRANK B.BAKER.The Basics of Item Response Theory［M］.ERIC，2001.［4］WIM J.van der Linden.Handbook of Modern Item Response Theory［M］.CRC Press，2016.［5］TORRE JDL，PATZ RJ.Making the Most of What We Have：A Practical Application of Multidimensional Item Response Theory in Test Scoring［J］.Journal of Educational and Behavioral Statistics，2005，30（3）：295-311.［6］罗照盛.项目反应理论基础［M］.北京：北京师范大学出版社，2012.[责任编辑：张建国] Research on Item Response Theory(IRT)Selection Test Questions MethodZHANG Zhao-yuan1,TAO Jian2(1.College of Mathematics and Statistics,Yili Normal University,Yining,Xinjiang835000,China;2.School of Mathematics andStatistics,Northeast Normal University,Changchun,Jilin130024,China)Abstract:This paper mainly studies the item response theory(IRT)method and uses the IRT method to analyze a set of real test results,and explores how to use IRT theory to select test questions.Key words:item response theory;selection;test questions。

项目反应理论简介

• 区分度指标（鉴别力指数D或相关系数r） D＝ PH－PL
经典测量理论的测验编制
• 假设被试的特质是正态分布，从而测验总分的分布也是正态
• 测验分数尽可能区分被试，因此测验总分的变异程度越大越好
• 测验中试题的难度中等为好，区分度越大越好
经典测量理论的缺陷
• 参数依赖于样本 • 能力量表与难度量表不统一 • 对于所有被试的测量误差相等 • 无法反应潜在特质与被试作答之
参数估计时标尺的建立
P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2) =P(2;2.0,-0.15,0.2)
P

0.2

1
1 0.2 e 1.710.5( 0.8)

0.2

1
1 0.2 e 1.71( 2 0.7 )
间的关系 • 在测验编制问题上的困惑
准备知识
• 标准分数
Z XX S
• Z>0，高于平均，Z<0，低于平均 • P(-1.96<Z<1.96)=0.950 • P(-3<Z<3)=0.997
A1 1 1 0 1 0 0 0 1 16 B0 1 0 1 1 1 1 0 1 0 6 C1 0 1 0 1 1 0 1 1 1 7 D1 1 1 0 0 0 0 0 0 14 E11110110107 F11000010115 G1 1 1 0 1 1 0 0 1 17 H0 1 1 1 1 0 1 1 1 18 I 10001001104 J 01100010014 总7 8 7 3 6 4 5 3 8 7

1

c3

1
1 c3 e1.7a3 ( b3 )

项目反应理论简介

项目反应理论简介摘要：项目反应理论（IRT）是近三十年发展起来的一种比较先进的心理与教育测验理论，受到国内外许多学者和专家的关注。

与经典测验理论相比，项目反应理论在较强的前提假设下，有更多的优越性。

关键词：经典测验理论；项目反应理论；项目特征曲线；罗氏模型一、引言目前，考试系统题库的建立主要基于两种指导理论：经典测验理论（Classical Test Theory, CTT）和项目反应理论（Item Response Theory, IRT）。

二者都有一套完整的试题分析指标体系和评价标准。

但经过长期实践，经典测验理论显示出某些难以克服的缺点，如由不同测试项组成的测验其结果无法比较，数据没有等距性，测量结果容易受到样本的影响，以及多个变量不易同时处理等。

针对这些，现代测验理论应运而生。

在国外已广泛应用于教育测验领域，如GRE，GMAT，TOEFL等测验，近年来也扩展应用到其他学科领域的测验评估。

Baker (2001)认为，在经典测验理论指导下，测试学家关心的是被试的测试得分，即每个正确测试项的分值总和。

而项目反应理论的关注重点则是被试是否答对每个测试项，而不是被试的测试总分。

项目反应理论和经典测验理论在数学模式、基本假设和测验可靠程度的估计指标等方面都存在着明显的差别。

与经典测验理论相比，项目反应理论在较强的前提假设下，有更多的优越性。

二、项目反应理论项目反应理论，也称潜在特质理论、潜在特质模型、强真值理论，是一种现代心理测量理论，是一系列心理统计学模型的总称，是针对经典测量理论的局限性提出来的。

项目反应理论是用来分析考试成绩或者问卷调查数据的数学模型，这些模型的目标是来确定潜在心理特征(latent trait）是否可以通过测试题被反应出来，以及测试题和被试之间的互动关系。

项目反应理论假设被试对项目的反应能体现他的潜在特质（Baker, 2001）。

根据被试回答测试项的情况，通过对项目特征函数的运算，来推测被试的能力。

项目反应理论与题库建设

项目反应理论与题库建设项目反应理论（IRT）项目反应理论是针对经典测量理论的不足而提出来的一种新的测量理论。

它的最大优点是项目参数和被试能力参数的不变性。

即项目参数的估计值与被试样组的选择无关；被试能力的估计值与所施测的试题无关。

同时能够提供各被试能力估计值的精确度指标，而且在施测前就可以知道各个测验项目对于不同被试的能力估计的精确度。

项目反应理论的这些优点对于题库的建设、测验的编制十分重要。

项目反应理论包含很多内容，限于篇幅，下面仅就其核心内容加以简单的讨论。

1、项目反应模型项目反应模型是用以表示被试能力和被试者对测验项目“正答概率”之间关系的数学函数，这个函数是单调递增的，被称为项目特征函数（ICF： Item Charateriseic Function）或项目反应函数（ IRF： Item Response Function）。

它包含一定数目的项目参数（如难度参数、区分度参数、猜测参数等），这些参数值可以通过一定的方法估计出，在项目参数值确定后，利用项目反应模型就可以计算出各被试的能力估计值。

在IRT的研究发展中，人们提出了多种项目反应模型，这些模型主要分为两大类：静态模型和动态模型。

静态模型描述考生某个时刻的潜在特质水平，不包含时间因素；动态模型用来测量考生潜在特质随时间变化的程度。

目前发展比较成熟且得到广泛应用的是静态模型。

下面我们主要介绍在题库建设中常使用的几种静态模型。

静态模型也有多种，它们可分为单维的和多维的；二值记分的和多值记分的；正态卵型的和逻辑斯谛型的，等等。

在题库建设中最常用的是单维的二值记分的逻辑斯谛模型。

单维是指模型假设只有一种潜在特质对测验反应数据起作用；二值记分是与二值反应相联系的记分方式。

在成就和能力测验中，考生对项目反应的“正确”与“错误”，通常用0和1表示(0表示错，l表示对），所形成的测验数据就是二值的。

二值记分表明模型所能处理的测验数据是二值的。

逻辑斯谛模型的数学表达式为：式中，e为自然对数的底；x为一个任意符号。

基于项目反应理论的题库构建及其有效性检验——以“现代教育技术

基于项目反应理论的题库构建及其有效性检验*——以“现代教育技术”公共课为例王玥常淑娟[通讯作者]韩晓玲陆宏（山东师范大学教育学部，山东济南250014）摘要：题库是考试实践中不可或缺的要素，如何构建具有良好试题内容和试题参数的题库一直是教育评价领域关注的焦点。

文章以师范生的“现代教育技术”公共课为例，通过探讨基于项目反应理论的题库构建，论述了试题编制的原则、试题的等值设计、试题参数的估计方法以及如何利用信息函数进行题库质量的评价。

最后，文章指出了题库构建中尚存的不足和未来研究方向。

关键词：项目反应理论；题库；“现代教育技术”公共课；IRT模型；试题编制【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097（2019）10—0041—07 【DOI】10.3969/j.issn.1009-8097.2019.10.006题库是指按照一定的教育测量理论在计算机系统中实现某个学科试题的集合，是严格遵循教育测量理论，在精确的数学模型基础上建立起来的教育测量工具[1]。

《国家中长期教育改革和发展规划纲要（2010-2020年）》明确提出，要“完善国家考试科目试题库”[2]。

在考试的实践化操作中，无论是计算机智能化组卷，还是计算机自适应测验，都离不开题库，题库对心理与教育测量的进一步科学化、现代化起到了极大的推动作用。

一国内外相关研究20世纪60年代中期，英国首先使用“题库”（Item Bank）一词。

20世纪末期，国外开始由专门的研究机构负责题库的建设，如美国教育考试服务中心（Educational Testing Service，ETS）、美国大学入学考试（American College Test，ACT）、英国剑桥评价（Cambridge Assessment，CA）等。

在这些机构里，题库不仅是试题的管理平台，而且是命题过程的平台，涉及题目编辑、试测、计算试题参数、等值、参数检验、统计学检验等一系列过程[3]。

基于项目反应理论的试题参数估计方法(精)

第 5卷第 1期贵阳学院学报 (自然科学版 (季刊Vol . 5 No . 1JOURNAL OF G U I Y ANG COLLEGE2010年 3月 Natural Sciences (QuarterlyMar . 2010基于项目反应理论的试题参数估计方法薛宝山(山东胜利职业学院 , 山东东营 257097摘要 :探讨了几种常用的基于项目反应理论 (I RT 的试题参数估计方法 , 并分析了每一种估计方法的优缺点及各自的适用领域 , 为构建基于 I RT 的试题库系统提供理论参考。

关键词 :项目反应理论 ; 试题库 ; 参数估计 ; 遗传算法中图分类号 :TP3111131文献标识码 :A 文章编号 :1673-6125(2010 01-03I RT 2ba sed Param eter Eva on s(Shandong 257097, ChinaAbstract:The p l ores several common I RT -based evaluati on methods of test questi ons and analyses ad 2vantages and of each method and its suitable app licati on range, which p r ovides the theoretical reference t o constructing I RT -based test questi on bank syste m.Key words:I RT; test questi on bank; para meter evaluati on; genetic algorith m;1引言在互联网技术迅速发展的今天 , 基于网络技术的考试系统得到了广泛的应用 , 网络考试系统拓展了考试的灵活性 , 显著降低了教育成本。

作为网络考试系统中的重要环节 , 试题库及其理论的研究和应用也越来越广泛。

项目反应理论

项目反应理论任何一种理论都不可能是完美无缺的，作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。

项目反应理论（Item Response Theory, IRT）则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。

无论是CTT还是GT，其测验内容的选择、项目参数的获得和常模的制定，都是通过抽取一定的样本（行为样本或被试样本），因此可以说二者都建立在随机抽样理论基础之上。

它们的局限性主要表现在以下几个方面：（1）信度估计的精确性不高测量的重要目标就是降低测量误差，提高测量的精度。

在经典测量理论中，信度被定义为真分数的方差与实得分数（原始分数）的方差之比。

然而，在此定义中，真分数的方差和误差的方差都无法求取。

为了估计信度，CTT又提出了平行测验的概念，并在此基础上推演出了若干个信度估计公式。

但是严格的平行测验是不存在的，等价测验也很难获得的，在此基础上估计的测验信度很难达到比较高的精确程度。

另外，经典测量理论中的信度估计值也是一个笼统值，即假定对不同能力水平的被试来说，测量的误差是相同的。

而事实是，一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。

当测验施测于能力水平高于（或低于）测验难度的被试时就容易产生较大的测量误差。

而且测量误差值会随着被试水平与测验难度距离的增加而变大。

（2）各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系，同时设计了一套参数指标来刻划测量各方面的特性。

如信度、效度、项目的难度、区分度等。

但是这些参数的估计对样本的依赖性是很大的。

如项目难度，对于同一题目，若样本的群体水平较低，就有较高的难度估计值。

测验的信度和效度采用相关分析法，同样受到样本的影响。

为避免抽样误差对参数估计的影响，经典测量理论特别强调样本对总体的代表性。

但经典理论所用的是随机抽样，随机抽样总有一定偏差存在。

何况在实际工作中，由于客观条件的限制，还不能做到随机抽样。

项目反应理论【精选文档】

项目反应理论随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高.目前，心理测量有三大理论派别：经典测量理论（Classical Test Theory , 简称CTT) ，项目反应理论（Item Response Theory ，简称IRT) 和概化理论（Generalizability Theory , 简称GT）.项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的, 其理论基础是潜在特质理论。

项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系, 这种关系的数学形式就是“项目反应模型”。

下面主要对项目反应的理论假设和数学模型做一下简要概述。

一、项目反应理论的基本假设任何一种数学模型都有一定的前提，任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设：潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设.有的学者还增加了“知道—-答对"假设和非速度限制假设。

在此仅说明前面三条最基本的假设.1、潜在特质空间的单维性假设潜在特质空间是指由心理学中的潜在特质组成的抽象空间。

如果考生在测验项目上的反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间，考生的各个潜在特质分数综合起来，就决定了该考生在该潜在空间的位置。

如果影响考生测验分数的所有重要的心理特质都被确定了，那么该潜在空间就称为完全潜在空间。

目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在特质决定了考生对项目的反应，也就是说组成某个测验的所有项目都是测量的同一个心理变量，例如知识、能力、态度或人格。

当然，这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应，这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。

因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素，那么就认为这组测验数据是满足单维假设的.2、测验项目间的局部独立性假设所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响，也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应.在实际的教育和心理测量问题中, 如果前一个项目的内容为后一个项目的正确反应提供暗示或其它有效的信息，局部独立性的假设就会遭到破坏，例如所谓的链状试题就会出现这种情况.局部独立性是建立在统计的意义上的,用统计学的语言，局部独立性是指对每一个测验者来说, 对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积.3、项目特征曲线假设项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。

基于项目反应理论的试题参数估计方法

一
了考试的灵活性，显著降低了教育成本。作为网络
考试系统中的重要环节，试题库及其理论的研究和
应用也越来越广泛。
定的数学模型来确定被试个体试题反应概率与
试题库是严格遵循教育测量理论，在计算机系统中实现的某个学科题目的集合，是在精确的数学
Ｉ－ａｅａａｔｒＥａｕｔｎＭｅｈｄｆＴｓＱｕｓｏｓＲＴｂｓｄＰｒｍｅｅｖｌａｉｔｏｓｏｅｔｅｔｎｏｉ
ＸＵＥＢａ —ｈｎｏｓａ
（ｈｎｌＶｃｔｎｌｏｅｅＤｎｙｎｈｎｏｇ５０７ＣｉａＳｅｇｏａｏａＣｌｇ，ｏｇｉｇＳａｄｎ７９，ｈｎ）ｉｉｌ２
一
７ — ８
（ａｐｅ—ｉｄｐｎｅｔ的试题参数估计值。项目Ｓｍｌｎｅｅｄｎ）
据具体问题，出现几种情况：一是各项目参数可第已知，计被试能力；估第二是被试能力已知，估计项
目参数；第三是同时估计被试能力和项目参数。
ＡｂｔａｔＴｅｐｅｅｔｒｉｌｘｌｒｓｓｖｒｌｏｓｒｃ：ｈｒｓｎｔｅｅｐｏｅｅｅａｍｍｏＲ — ｂｓｄｅａｕｔｎｍｅｈｄｆｅｔｑｅｔｎｎｎｙｅｄ・ａｃｃｎＩＴ — ａｅｖｌａｉｔｏｓｏｓｕｓｉｓａｄａａｓｓａ・ｏｔｏｌ
反应理论还提供其测量的估计标准差（Ｓｎ￣ｄ（ｍｄｅｒｒ）试题的信息函数（ｔｎｏｍｔｎｆｎ— ｒｓ和ｏＩｍｉｆａｏｕｃｅｒｉｔｎ，ｉ）它可以用来作为评价能力估计值之精确度的ｏ

基于项目反应理论的大学英语分级测试试题分析

基于项目反应理论的大学英语分级测试试题分析作者：何立新来源：《文理导航》2013年第21期【摘要】本文以项目反应理论为依据，运用BILOG-MG V3.0分析软件对大学英语分级测试的试题（项目）进行了分析研究，通过标刻难度、区分度、能力参数等各项目参数，为科学建立大学英语分级测试题库提供数据，奠定基础。

【关键词】大学英语；分级测试；项目反应理论；试题分析一、引言大学英语教学是高等教育的一个有机组成部分，大学英语课程是大学生的一门必修的基础课程。

大学英语实行分级教学不仅体现了《大学英语课程教学要求》“分类指导，因材施教”的原则，对于整体提高大学英语教学质量也起到了积极促进作用。

因此，大学英语试题建设显得尤为重要。

试题是题库建设的最基本元素，它的优劣直接影响大学英语试题题库的质量。

所以，建立起对大学英语试题的科学完整的评价体系十分必要。

二、理论研究客观、准确地评价大学英语试题，科学的对其进行分析。

其关键点在于要有科学的理论依据。

在教育心理测量领域中，应用比较多的有经典测验理论和项目反应理论。

经典测验理论（简称CTT）是最早的也是最实用的测验理论。

也称为真分数理论，即被试的真分数是观测分数（或说测量实得分数）的数学期望值。

真分数模型是以弱假设为基础的，即这些假设很容易验证并易被大多数测验数据资料所满足。

经典测验理论的假设内涵主要是以真实分数模式为理论架构，依据弱势假设，使用简单，可操作性强，应用较广。

基于经典测验理论统计分析得到的各项指标，依赖于特定的被试样本，所求得的参数会受到不同样本组能力水平的影响。

经典测验理论无法建立考生得分与测验题目参数之间的函数关系，即考生能力的估计会由于测验的改变而改变。

项目反应理论（简称IRT）是建立在潜在特质理论的基础上的。

其主要观点是：在认知测验中，潜在特质指所要测的内在能力。

定量地估计个体在每一种特质上的位置是心理测量的任务。

反之，也可用所估计到的特质的量去预测和解释个体在相应情境中将会产生的行为反应。

多维项目反应理论的计量模型、参数估计及应用

θ j , bi ) = P (U ij 1=
∏
k =1
m
e
(θ jk −bik ) (θ jk −bik )
1+ e
补偿模型和非补偿模型在人-题交互作用的表达方式上是不同的。非补偿模型使用的题目由不同的维度任务构成，这些不同的维度任务又对应着各自需要的技能或知识，题目的完成依赖于每个维度任务的完成。补偿模型则更侧重整体的作用，所有技能和知识一起对题目的所有方面发生影响。这方面的比较研究不多，如Bolt和Lall (2003)发现在英语用法测验中，补偿模型对数据的拟合比非补偿模型好。归根到底，使用哪种模型取决于人们在实际题目上的反应机制。
关键词
多维项目反应理论，计量模型，参数估计
1. 引言
相对经典测验理论(Classic Test Theory, CTT)而言，项目反应理论(Item Response Theory, IRT)在项目和测验质量分析、题库建设、计算机自适应测验编制等方面的作用，越来越受到研究者的青睐(戴海琦， 2010)。近年来，随着认知科学、数学和计算机科学的发展，IRT 模型的假设、理论和实际应用也出现一些新的进展，其中之一就是由以往注重单维模型 (Unidimensional IRT, UIRT) 向单维和多维模型 (Multidimensional IRT, MIRT)并重转变。MIRT 的提出是为了更好地对被试在完成一项测验任务时需要的多种能力、项目特征与答对概率之间的关系进行模型化。MIRT 被认为是近 20 年来测验理论发展的主要新进展之一(康春花，辛涛，2010)。被试在对某一特定测验题目作答时，可能使用了不只一种能力；同样地，考试中的问题很可能需要许多技能和能力才能答对。特别是测量复杂的知识领域如自然科学时更是如此。尽管 UIRT 在一定条件下是有用的，但还是需要更复杂的 IRT 模型以准确反映被试和题目之间相互作用的复杂性。MIRT 模型的发展正符合这一需要(康春花，辛涛，2010)。

项目反应理论简介

项目反应理论的挑
05
战与未来发展
挑战与问题
01
模型参数的识别和估计
项目反应理论依赖于对模型参数的准确识别和估计，然而在实际应用中，由于数据质量、样本大小等因素的影响，可能会出现参数估计不准确的问题。
02
模型的假设条件
项目反应理论是基于一些假设条件，如局部独立性和正态分布等，然而在实际应用中，这些假设条件可能会被违反。
02
心概念
刺激与反应
1 2
刺激
指能够引起和激发个体反应的外部环境因素。
反应
指个体对刺激做出的行为或心理上的回应。
3
反应规则
指在特定刺激下，个体如何做出反应的规律。
反应者与环境
01
反应者
指受到外部刺激并做出反应的个体或系统。
02
03
环境
交互作用
指反应者所处的外部条件和影响因素。
指反应者和环境之间的相互影响和作用。
更具有广泛适用性。
模型的适用性
03
未来研究可以开发适用于更广泛任务或测验的模型，论与实践的结合
要点一
针对具体应用场景进行模型设计和优化
项目反应理论在教育、心理学、医学等领域都有广泛的应用，未来研究可以针对这些具体应用场景进行模型设计和优化，以提高模型的适用性和实用性。
项目反应理论简介
汇报人： 2023-11-29
目录
• 项目反应理论概述 • 项目反应理论的核心概念 • 项目反应理论的应用领域 • 项目反应理论的研究与发展 • 项目反应理论的挑战与未来发展
01
项目反应理论概述
定义与背景
项目反应理论是一种心理测量理论，它为理解和描述个体在特定测验项目上的反应行为提供了一个框架。该理论是心理测量学领域的重要支柱之一，被广泛应用于教育和临床诊断等领域。

高考数学试卷多维项目反应理论的分析及应用

心理学探新2013，V01．33，N o．5，438—443P S Y C H O L O G I C A L E X P L O R A T I O N高考数学试卷多维项目反应理论的分析及应用‘许志勇1，丁树良2，钟君1(1．天津市教育招生考试院，天津300387；2．江西师范大学计算机信息工程学院，南昌330022)摘要：高考数学学科试卷的试题综合性较强，一道试题通常考查多种能力属性，而基于单维性假设下的经典测量理论和传统的项目反应理论无法完成该种情形下试卷测量性能分析和考生作答表现分析。

本文以M I R T理论为基础，使用C O N Q UE S T软件为工具进行分析，可以获得试卷内部不同能力维度之间的相关以及考生不同维度的能力参数，为提升命题质量和改进教学提供了依据，表明M I R T具有很好的应用前景。

由于M I R T理论的复杂性以至于目前分析软件的不足制约其进一步的深入应用，这是今后应该深入研究的问题。

关键词：高考；数学能力；多维项目反应理论中图分类号：B841．2 文献标识码：A文章编号：1003—5184(2013)05—0438—061问题提出生能力和素质方面的考查，注重考查考生今后进入对于高考试卷进行测量陛能分析和考生作答表高校继续学习的潜能。

但是能力作为心理名词，是现分析，传统上通常使用经典测量理论作为基础，由顺利完成某种活动所必须的，并且直接影响活动效于该理论建立在物理测量的基础之上，其基本测量率的个性心理特征，其本身的复杂性和不确定性使模型表示为：Xi=t+E。

，其中置是个体i在测验中人们很难设计出清晰而又良好的规则，以及根据这所得的分数，正是个体的真分数，表示个体在测量属个规则将能力给予量化，影响着能力立意命题理念性(能力属性)上的水平，E是测验的误差(hrd&的深入推进，也影响着对考生能力掌握情况的评估。

Novick，1968)。

该测量模型所分析的基本单位是测随着MIRT的发展，为评估考生在各能力属性的作验总分，而不是个体在具体测验项目(试题)上的反答表现提供了可能。

项目反应理论题库参数估计测验等值选题策略信息函数论文

IRT在《现代教育技术》题库构建中的应用【摘要】随着信息技术的发展,计算机技术被大量应用到教育测量当中,改变了传统的以纸笔为工具的测量手段,给教育测量带来巨大变革,也使得基于题库系统的计算机辅助测试获得了巨大的发展。

一个构建良好、功能齐全的题库系统对于测试的准确性具有重要的意义。

现代教育技术是当前教育改革的突破口,通过应用它可以带动教育思想和观念的更新,推动教育内容、教育模式和教育手段的改革,因此《现代教育技术》课程是一线教师和师范生必须学好的一门课程。

但开设此门课程的高等师范院校由于每年都有大量学生参加该课程考试,使得传统的笔试方式在组卷、监考、成绩统计、试卷分析等方面面临考验。

基于此,本文以《现代教育技术》公共课为例,在项目反应理论的指导之下建立一个小型的题库系统,并设计实现对该课程的一次计算机自适应测试过程。

论文采用文献分析法和实验研究法,在介绍题库发展现状的基础上,深入研究了题库的理论基础——项目反应理论,重点分析了题库建设的原理和过程,主要包括模型选择、参数估计、测验等值、选题策略以及参数初始值的确定和测试终止条件等环节。

其中参数估计、测验等值和选题策略是重点也是难点,本文中参数估计采用的是联合极大似然估计方法实现被试能力... 更多还原【Abstract】 Along with the development of informationtechnology, computer technology has been extensively applied to the education measurement,and changed the traditionalmeasurement methods which use paper and pen as instruments.It also brings about great changes to the educational measurement, and makes the computerized adaptive testing on the basis of item bank to have great development.There is great significance for the accuracy of exam with a well-built, fully functional item bank system.Modern educa... 更多还原【关键词】项目反应理论；题库；参数估计；测验等值；选题策略；信息函数；【Key words】IRT(Item Response Theory)；Item Bank；Parameter Estimation；Test Score Equating；Selection Strategy；Information Function；【索购硕士论文全文】Q联系Q：138113721 139938848 即付即发目录摘要6-7ABSTRACT 7-8第一章绪论9-171.1 研究背景9-101.2 国内外研究现状10-151.2.1 国内外对题库系统的研究现状10-131.2.2 国内《现代教育技术》公共课题库系统研究现状13-151.3 研究内容151.4 研究方法15-161.5 研究目的16-17第二章项目反应理论的基本概念与原理17-272.1 项目反应理论的基本概念17-202.2 项目反应理论的基本假设20-222.2.1 单维性假设202.2.2 局部独立性假设20-212.2.3 项目特征曲线假设212.2.4 非速度限制假设21-222.2.5 “知道—答对”假设222.3 项目反应理论的基础模型22-272.3.1 单参数逻辑斯谛模型22-242.3.2 双参数逻辑斯谛模型24-252.3.3 三参数逻辑斯谛模型25-262.3.4 项目反应理论的模型选择26-27第三章基于IRT 的题库系统建设的关键技术27-493.1 基于IRT 的题库系统建设中的参数估计27-383.1.1 项目反应理论的参数估计方法分类27-283.1.2 被试能力参数的估计28-333.1.3 项目参数的估计33-363.1.4 能力和项目参数的联合极大似然估计36-373.1.5 能力和项目参数初始值的确定37-383.2 基于IRT 的题库系统建设中的测验等值38-443.2.1 经典测量理论分数等值方法及其局限性393.2.2 项目反应理论的等值方法39-443.3 基于IRT 的题库系统建设中的选题策略44-493.3.1 信息函数45-473.3.2 测验编制47-49第四章基于IRT 的《现代教育技术》题库系统应用实例49-634.1 开发技术简介49-514.1.1 ASP 技术49-504.1.2 数据库技术504.1.3 ASP 访问数据库技术50-514.2 题库系统的设计51-564.2.1 题库结构52-534.2.2 基于IRT 的《现代教育技术》题库建设过程53-564.3 基于题库的自适应测试过程56-634.3.1 初始选题阶段57-594.3.2 试题选取59-604.3.3 测试终止条件60-614.3.4 被试能力最终估计值61-63第五章总结与展望63-655.1 研究总结635.2 存在问题63-645.3 未来工作64-65附录65-68山东师范大学《现代教育技术》公共课试题一65-67 山东师范大学《现代教育技术》公共课试题二67-68 注释68-69参考文献。

项目反应理论

应用篇：测验等值
参考：张敏强（教育测量学）项目反应理论的重要特点： 1. 项目的难易度的估计不因样本不同而不同； 2. 被试能力的估计不因测验的改变而改变； 3. 测量误差的估计对每一位被试单独给出。要为项目参数建立一个指标体系要为被试的能力建立一个指标体系
测验等值
概念：对测量同一种心理特质的不同测验分数或项目参数，通过一定的数学模型，转换成同一单位系统中的量数，以有利于相互比较的方法。
二级评分IRT模型例：逻辑斯蒂模型单参数模型（拉希模型）；双参数模型和三参数模型。多级评分IRT模型连续型IRT模型
优点及运用
能力参数估计的不变性。即个体独立于测验项目参数估计的不变性。即测验独立于个体提供被试能力估计值的精确度指标被试能力和项目难度在同一量表上，为测验编制、测题分数的报告和解释提供了便利。
项目的平均数与方差（变差）
项目的平均数项目的方差和标准差总分方差
St = ∑ pi qi + 2∑ rij pi qi p j q j
2
项目的方差与难度的关系 P＝0.5时，S2有极大值。
难度与测验分数的分布
由一个标准化样组所构成的测验分数的分布，一般来说是常态分布。出现偏态分布的情况：左偏态；右偏态。试题难度和测验目的有关。
D = PH − PL
0.40以上，优良；0.30～0.39，良好，如能修改更好；0.20～0.29，尚可，仍需修改； 0.19以下，劣，必须淘汰。
Байду номын сангаас
估计方法（cont.）
2. 方差法（测题的方差）条件？ 3. 项目与总分相关说明项目与总分有一致性点二列相关；二列相关；皮尔逊积差相关。 4. 项目的组间相关四项（格）相关；Φ相关；皮尔逊积差相关。 5. 项目与外部准则的相关：项目效度分析

项目反应理论

项目反应理论随着心理学的发展, 心理测量无论就是在理论上, 还就是在方法上都逐步地提高。

目前, 心理测量有三大理论派别: 经典测量理论(Classical Test Theory , 简称CTT) , 项目反应理论( Item Response Theory , 简称IRT) 与概化理论( Generalizability Theory , 简称GT)。

项目反应理论就是一种先进的测量理论,它就是针对经典测量理论的不足而提出来的, 其理论基础就是潜在特质理论。

项目反应理论的基本思路就是确定考生的心理特质值与她们对于项目的反应之间的关系, 这种关系的数学形式就就是“项目反应模型”。

下面主要对项目反应的理论假设与数学模型做一下简要概述。

一、项目反应理论的基本假设任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设。

有的学者还增加了“知道——答对”假设与非速度限制假设。

在此仅说明前面三条最基本的假设。

1、潜在特质空间的单维性假设潜在特质空间就是指由心理学中的潜在特质组成的抽象空间。

如果考生在测验项目上的反应就是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。

如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。

目前比较成熟的大多数项目反应模型都假设完全潜在空间就是单维的,即只有一种潜在特质决定了考生对项目的反应,也就就是说组成某个测验的所有项目都就是测量的同一个心理变量,例如知识、能力、态度或人格。

当然,这一假设往往不可能得到严格的满足,因为总有其她因素会影响到考生在测验上的反应,这些因素包括认知的、人格的与施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度与考试技巧等。

项目反应理论简介

项目反应理论简介一、项目反应理论的概念项目反应理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对经典测量理论(Classical Test Theory,简称CTT) 的局限性提出来的。

IRT 是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定的潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。

目前广泛应用在心理和教育测量领域,基于IRT理论的计算机自适应测试(CAT)是CAA常用的测试方法。

潜在特质模型(latent trait mode l)认为,在被试样本可观察到的测试成绩和基于该成绩不可观察的特质或能力之间存在着联系。

二、IRT的理论体系(三条基本假设)–假设一:能力单维性假设——指组成某个测验的所有项目都是测量同一潜在特质;–假设二:局部独立性假设——指对某个被试而言,项目间无相关存在;–假设三:项目特征曲线假设——指对被试某项目的正确反映概率与其能力之间的函数关系所作的模型。

IRT最大的优点是题目参数的不变性,即题目参数的估计独立于被试组。

它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响;同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平所决定,一个被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。

IRT理论所做出的一切推论都必须以局部独立性假设为前提。

三、IRT常用的模型IRT根据受测者回答问题的情况,通过对题目特征函数的运算,来推测受测者的能力。

IRT的题目参数有:难度(difficulty index)、区分度(discriminative powder index)和猜测系数(guessing index)。

根据参数的不同,特征函数可分为单参数模型(难度)、双参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

B’ 抗 56;DB 抗体可阳性 (’BDB 可阳性 #
<’ 血清补体无下降
:’ 磺
胺类药物可能诱发药物性狼疮
;’ 停药后症状可消失
表 " 第" ’>’>A 题参数估计结果
分析 % 由图 ! 可知第 " 套试卷第 " 题的区别度为 9’C>"> ’ 难度其中 * 表示概率 "! 为能力估计值 "8. 为第 . 题的项目反应 "!/为最大估计值 # 本课题参数估计应用江西师范大学测量通用程序 () 算法来计算边际极大似然估计值 " 具体方法是 " 将所有考试结果 $ 9 "" 记分& 输入 (8:(* 数据库中 " 按学号 ’ 每道题的答案及答分输入到计算机中 " 最后转化为 ;<= 数据 " 在软件上运行计算 # 为 9’C!C% ’ 猜测系数为 9’""?!" 显著性检验提示卡方值为
昏迷
(’ 尿毒症
题 >’ 男性 "A9 岁 " 慢性肝炎 "C 年 " 因呕血 ’ 柏油便 " 天
关于项目反应理论试题参数的估计
值方法 ! 实际上仅局限在考生测验总分等值这一个方面 "
!( 既适用于常模参照性测验又适用于标准参照性测
验 " 经典理论的难度 % 区分度等在考生全部通过 & 或不通过’ 时 ! 就会失去意义 !所以无法处理这类问题 ! 而 $%& 的难度值却直接用被试特质水平值来表达 ! 区分度是特性曲线拐点处的斜率 ! 这就从根本上解决了经典理论所面临的困难 ! 能完全运用于标准参照性测验 "
典测验理论的局限性 ! 将被试特质水平与被试在项目上的行为关联起来并且将其参数化 # 模型化 " 构造模型的方法有很多种 ! 如果采用 &’()*+), 模型将它们关联 ! 将对考生和试卷进行评价的指标统称为参数 ! 通常主要关心能力参数 & !’ 和项目参数 & -!. !,’ " 根据参数的不同 !/’()*+), 项目特 & !00’ 可分为单参数 ! 双参数和三参数 1 种模式 " 三征曲线参数模式见公式 (
!’ 参数估计的方法
本研究采用边际极大似然估计与 () 算法 $ ))*( %
+#,-./#0 0.120.3445 267.+#7.4/ #/5 () #0-4,.73+& 来进行参
数估计 # 该方法是近十多年发展起来的 # 它的优点是 () 算法在一般条件下可以收敛 " 并且计算比较简单 " 但是它的 $ 全答对 " 全答错& 无法正确估缺点是对于特殊的反应模式计其项目参数 # 该方法的基本公式如下 %
*( 由于具有参数不变性等优点 ! 可编制出 ( 因人施
测 ) 的自适应测验等新型测验 " 新的测试理论 $%& 虽然比起经典理论来具有不可比拟的优越性 ! 但由于与实际尚有一些距离 ! 有待进一步完善 " 我们在试题参数确定上图! 第 "套试卷第 #题的项目反应曲线图的做法应该是根据具体实际以 $%& 在试题参数测试的不变性为基础 ! 充分利用经典理论的优点 ! 抓住经典理论与
教育发展研究
!"#
机参数分析的结果包括分析的时间 " 收敛的精度等以及每 $ B& ’ 难度 $ <& ’ 猜测系数 $ :& ’ 卡方值及显道试题的区别度著性检验结果 # % 道试题的内容如下 $ 其中有 ! 者为该题答案& % 题 "’ 急诊昏迷病人 " 轻度黄疸 " 口具特殊气味 " 双侧肢体张力对称性增高 " 瞳孔等大 " 尿蛋白及糖定性均阴性 " 下列哪种情况可能性最大 %
入院 # 体检 % 嗜睡 " 行为异常 " 巩膜黄染 " 胸壁见蜘蛛痣 " 肝掌 " 腹软 " 肝未及 " 脾肋下!&+ "质中 " 移动性浊音阳性 " 扑翼样震颤阳性 " 经治疗后患者清醒 " 你认为下列哪项措施不利于预防此并发症再发 (
!! $ 参数 " 试题的难度 " 即特征曲线在横坐标上的投
影#
%! &参数 "试题的猜测系数 " 即特征曲线的截距 # 它的
值越大 "说明不论受测者能力高低 "都容易猜对本道试题 #
B’ 加强营养 " 多补充蛋白饮食 <’ 调整水电解质平衡 :’酌情应用利尿剂 ;’应用改善肝功能药物 (’经常口服乳果糖
题 >A’ 关于药物性狼疮 " 下列哪项不符合 (
@’CC%"" 无显著性 " 从参数估计结果提示该道题为质量较
好 " 可以反映学生对该方面知识的掌握水平 #
%’ 参数估计的结果及分析
$ "& 我们对我校临床医学 >? 级毕业生进行了 @99 道试题的试测 " 按学号 ’ 每道题的答案及答分结果输入 (8:(* 数据库中 " 最后转化为 ;<= 数据 " 在软件上运行计算 " 结果可以得出所有题目的难度 ’ 区别度 ’ 猜测系数以及每道试题的质量 # $ !& 如上述原理 " 每道试题都有自己的参数估计曲线 " 从此曲线可以知道该试题的参数估计 # 以下是第 " 套试卷 % $ 见图 ! ’% ’A& " 各图左侧为题号 ’ 卡方值道试题分析的情况及检验结果 " 图右侧曲线就是该题的项目反应曲线 # 计算图! 第 " 套试卷第 " 题的项目反应曲线图图 % 所示的第 > 题曲线显示该题质量不好 " 卡方值为
$%参数估计的由来 !"# 是一种新兴的心理与教育测验理论 ! 它突破了经
图 $ 三参数模式的特征曲线从图$ 中可以看出 (
教育发展研究
!"!
关于项目反应理论试题参数的估计
"! # 参数 " 试题的区分度 " 即特征曲线的斜率 " 它的值
越大说明试题对受测者的区分程度越高 #
的发展有许多积极作用 ! 使用考试手段能够检测教育质量 ! 规范和引导教师的教学行为 ! 促进学生积极努力地学习 ! 而且对培养学生分析问题 ! 解决问题等综合素质能力可以发挥非常重要的鞭策作用 " 如何客观 # 科学地反映和评价每一位学生的专业理论水平和实际应用能力 ! 定量化比较不同学校 # 不同教师 # 不同教学模式的教学质量和效果 ! 在检测标准上与国际接轨 ! 充分发挥考试对改进教学的反馈功能以及考试对教学的 $ 指挥棒 % 作用 ! 为社会培养高质量人才 ! 是我国高等教育必须解决的一个重要课题 " & !"#’ 是近十年发展起来的一种比较先进的项目反应理论心理与教育测试理论 ! 受到国内外许多学者的关注 ! 对于促进我国高等教育考试评价方式的改革和发展具有很大的指导意义 " 因此 ! 本文对项目反应理论的实际应用 ! 特别是如何估计试题参数这一关键环节进行了比较系统的研究 ! 这种类型的工作在国内文献上尚未见到 " 本文所涉及的试题库是以临床医学院内科学考试的学生为对象 ! 由于内科学在临床医学教学中占有十分重要的地位 ! 其中涉及的知识面广 ! 对学生的综合素质能力要求很高 ! 用传统考试评价方式往往不能达到理想的效果 ! 因此在美国等发达国家的同类考试中也是比较早就引入了项目反应理论 ! 并有各种理论探讨 " 作为本文得到的结果 ! 则不仅适用于临床医学院内科学这一课程 ! 而且对临床医学教学的其他课程 ! 甚至完全属于医学教育之外的学科 ! 都有参考价值 "
!"’99%A" 有显著性 " 分析该题曲线位置较高 " 题目偏难 " 难
度为 E%’A9A9" 区别度只有 9’!A>! " 且猜测系数较大 " 许多学生可通过猜测来回答该题的 # 图 A 所示的第 >A 题曲线也很好 " 卡方检验也无显著性 # 因此 "也是一道理想的试题 " 与第 " 题比较 " 区别度大 &题能较好地区别不同水平的学生 " 另外该题的猜测系数较第 " 题略大 "这与该题的难度增加有关 #