基于经典测量理论和项目反应理论的等值与连接(二)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

导言

笔者连续写作了三篇论文探讨测验等值和连接的概念、程序、应用以及存在的问题等,本文是这一系列论文的第二篇。本系列论文取材于《一名业界人士对等值和连接的介绍———经典测量理论和项目反应理论入门》(A Practitioner's Introduction to Equating with Primers on Classical Test Theory and Item Response Theory,Ryan&Brockmann,2009)。第一篇文章(编者注:此文已发表于《考试研究》2011年第1期)探讨了效度的核心问题,以及在命制试题和组卷过程中构建等值测试版本的重要意义。同时,该文还介绍了等值和连接的主要概念和基本术语,并概述了经典测量理论(CTT)和项目反应理论(IRT)。本文将重点介绍连接和等值的取样及等值设计,并探讨建立题库步骤和基于CTT的等值程序。第三篇将介绍基于IRT的等值技术程序,同时讨论一些普遍的等值问题。

本系列论文是面向开发、维护和改进教育测量项目的教育工作者而作的,其目标读者群包括教育测量的用户、从业者以及负责教育测量项目的政策制定者。当然,对于其他想对连接与等值作一些基础的了解,从而进行更深入的技术学习的人来说,这些论文也是非常实用的基础知识。笔者强烈建议读者参阅第一篇文章,其中阐述了这系列文章的背景及思路。

一、等值设计:基本概念和术语

要运用等值程序对学生的测试成绩进行等值,首先应采用特定的方法采集学生的测试成绩。实施连接和等值运算所使用的成绩数据是依据既定的准则采集的,这个准则即称为数据采集设计或者等值设计。选择使用哪些成绩数据必须具有很强的目的性,并要非常慎重。此外,数据采集必须符合一定的要求并在技术上可行。本文着重讨论下列等值设计及相关主题:

● 随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design);

● 单组设计(Single Group Design);

● 平衡单组设计(Single Group Design with Counterbalancing);

● 锚题测试设计(Anchor Test Design);

● 创建题库(Item Bank Development);

● 矩阵型取样测试(Matrix Sampling of Items)。

1.随机组群(等值组群)设计(Random Groups(Equivalent Groups)Design)

等值组群设计,也叫随机组群设计,其建立在随机取样的原理上。如果在测试人群中能获得两个足够大的随机样本,那么就可以说这两个样本在学生成就上是“等值”的。也正如《教育测量》(第四版)所述的“达到了同一人群中两个随机样本所能达到的等值”(Brennan,2006)。

在此种设计中,两个随机取样的小组使用了不同试卷。使用试卷A和试卷B的小组称为随机等值组。这种设计的取样可以采用分层按比例随机取样法(a stratifiedproportional random sampling),使用的分层变量和学生的相关特征相匹配。相对于简单随机取样法(simple random sampling)而言,这种设计的取样方法更具有可比性(等值性)。

随机组群设计通常采用螺旋测试(spiraled test)以获得随机取样等值组。在图1所示的例子中,试卷A和试卷B是以这样的顺序打包的:A/B/A/B……,指示考官按照试卷A和试卷B交替发放给学生。这种随机发放试卷的方式在每个班级建立了两个随机取样组。如果采用的是多套试卷,那么打包顺序不一定都是以试卷A开头。试卷叠放顺序的数量与试卷的数量相等,包裹(packet)1以试卷A开头,包裹2以试卷B开头,以此类推。随机发放试卷的方式在每个班级建立了多个随机取样组。在网络机考(the computer-based online test)管理中,使用经过仔细测试的随机数字生成算法(random number generating algorithm)来随机发放试

卷是非常重要的。

图1 等值组群(随机组群)设计

随机组群设计的优点之一是其对单个考生的影响相对较小,并不要求每个考生都做试卷A和试卷B,因此避免了像其他设计那样有时会受顺序问题的影响。顺序影响指的是学生因做试卷的顺序不同而表现出成绩差异,即如果学生需要做两份试卷,做完了第一套试卷可能会影响做第二套试卷的表现。

如果“随机”是通过在班级和学校里螺旋发放所有试卷的方式实现,那么这种设计就存在一个缺点。在这种情况下,所有试卷中的全部题目在同一环境中都曝光了,因此,整套题目和试卷的泄密风险升高。这种设计的另一个潜在缺点是需要获得相对较大的样本以显示

试卷A和试卷B的题目是稳定可靠的。在某些情况下,对大样本的要求可能使这种设计变得困难或者不可行。这种数据采集设计支持线性等值、等百分位等值以及多种不同的IRT

等值法(将在后面介绍)。

2.单组设计(Single Group Design)

单组设计法是理解大多数等值设计非常有用的出发点,并且是后面提及的平衡单组设计法(Single Group with Counterbalancing Design)的基础。单组设计法要求同一考生既做试卷A,也做试卷B。如果全部考生都做待等值的两份试卷,可以采用这种设计,但实际操作中更方便可行的是从整个考生群中选择一个随机小组。这种设计方法如图2所示。

图2 单组设计

在这个设计中,采用一个随机取样组,并让该组考生做试卷A和试卷B。相对于试卷B时,学生做试卷A得到的成绩可能受到某些因素的影响,这些因素包括如做过一些仅仅针对试卷B的练习题,或者通过参加试卷A来着手准备试卷B的部分具体内容等。单组设计法假设这些因素的影响是可以忽略的。

单组设计的优点之一是做两份不同试卷的学生的能力是相似的,实际上应该说不只是相似,因为他们就是同一群学生。在技术术语上,这叫做“考生熟练差异控制”(controlling for differential examinee proficiency)。

单组设计并非仅用来进行典型的试卷间连接或等值。在一组考生完成某一份完整版的试卷后,可以将整份试卷分为几个部分,建立一些压缩版的试卷,然后让这些试卷两两等值。同样,在对完整版试卷量表化后,可以删除一些题目,得到一份较短的试卷,然后与完整版试卷等值起来。

相关文档
最新文档