项目反应理论新进展之题组反应理论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
心理科学进展 2013, Vol. 21, No. 12, 2265–2280 Advances in Psychological Science
DOI: 10.3724/SP.J.1042.2013.02265
2265
项目反应理论新进展之题组反应理论*
詹沛达1 王文中2 王立君1
(1浙江师范大学心理系, 金华 321004) (2香港教育学院评估研究中心, 香港)
摘 要 通常把测验中共用同一刺激的项目集合称为题组, 并把由共同刺激引起的题组项目反应间的相依性称为题组效应。本文首先分别对题组、局部独立性和局部依赖性的概念进行了介绍和梳理, 并结合前人研究给出了题组效应的概念。之后在阐明直接使用标准项目反应模型去拟合题组反应数据会导致参数估计偏差等诸多问题后, 引出能更好地处理题组效应的题组反应模型。全文详细介绍了包括高阶题组模型和多水平题组模型在内的6种题组反应模型, 通过对“如何理解题组反应模型中的区分度参数”和“题组反应模型与多维项目反应模型的关系”两问题的探讨, 认为:(1)题组反应模型与标准项目反应模型中的区分度参数含义并不相同, 直接将两者进行对比是不合理的; (2)题组反应模型属于广义多维项目反应模型, 与狭义多维项目反应模型的主要区别在于满足广义局部独立性假设时所需要控制的潜因素不同。
关键词 题组反应理论; 题组反应模型; 多维项目反应理论; 广义多维项目反应模型; 广义局部独立性 分类号
B841
1 引言
随着心理科学的不断发展, 心理与教育测验理论也已经有过百年的发展史。大体可以把现有的心理与教育测验理论分为两个部分:随机抽样理论(Random Sampling Theory, RST)和项目反应理论(Item Response Theory, IRT)。其中, RST 又包含了古典测验理论(Classical Test Theory, CTT)和概化理论(Generalizability Theory, GT)。在RST 的核心定义中认为:观察分数等于真分数加上误差, 但在实际数据分析中, 真分数是无法获得的, 因此在使用观察分数对被试或项目进行评价时就会引入一些误差因素, 导致RST 在应用中出现了一定的局限性, 如:测验结果拓广有限性、测验分数的测验依赖性、统计量的样本依赖性、被试能力与项目难度两个指标含义的非统一性、测量误差估计的笼统性等(漆书青, 戴海崎, 丁树良, 2002; 罗照盛, 2012)。RST 的各种局限性在其自
收稿日期:2013-05-08
* 浙江师范大学人文社科重点研究项目(SKZD201009)资助。
通讯作者:王立君, E-mail: frankwlj@
身的框架内已经无法被克服, 要进一步适应当今测量实践的需要, 就需要寻找并建立一种新的测验理论。
随着20世纪50年代初第一个项目反应理论模型(Item Response Model, IRM) —— 双参数正态肩形模型(Two-parameter Normal Ogive Model) (Lord, 1952)的提出, 测验理论经历了从RST 到IRT 的创新性变革。并且在过去的半个世纪中, IRT 已经逐步取代了CTT 的核心地位, 在现代心理与教育测量实践中发挥着重要的作用(Embretson & Reise, 2000; De Boeck & Wilson, 2004; Ip, 2010a; 辛涛, 乐美玲, 张佳慧, 2012)。IRT 以潜质(Latent trait)为基础, 克服了RST 的局限性, 并以概率形式模型化了潜质在项目上的反应。从广义角度讲, IRT 不仅包含了标准项目反应理论(Standard IRT, SIRT), 还包含了多维项目反应理论(Multidimensional IRT, MIRT)、群体水平项目反应理论(Group-level IRT, GIRT)、认知诊断理论(Cognitive Diagnosis Theory, CDT)以及本文将要介绍的题组反应理论(Testlet Response Theory, TRT)等, 其中又以SIRT 的应用最为普遍。通常在使用SIRT 时需要满足一些前提假设, 如潜质单维性假设、项目特征曲线单调递增性假设、局部独
2266 心理科学进展第21卷
立性假设等(Hambleton & Swaminathan, 1985; 漆书青等, 2002), 但这些假设却与许多心理或教育测验的实际情况不相符合(丁树良, 罗芬, 涂冬波, 2012), 为了能进一步适应当今测量实践的需要, SIRT也已经从不同方向得到了拓展, 如上文提到的MIRT、CDT、TRT等等。其中, TRT可应用于不满足局部独立性(Local Independence, LI)假设1的题组项目(Testlet-based item), 是SIRT的拓广理论之一。
本文首先对TRT的相关概念(如: 题组、局部独立性和局部依赖性概念)进行梳理, 并结合前人研究给出了题组效应的概念。之后介绍了处理题组效应的传统方法和模型化方法—— 题组反应模型, 全文较详细地介绍了6种题组反应模型, 并分别对“如何理解题组反应模型中的区分度参数”和“题组反应模型与多维项目反应模型的关系”进行了更为深入和详细的探讨。本文利于读者清晰、全面地了解TRT, 为国内学者更好地应用TRT来指导心理或教育测验的开发、编制及测验分析提供了理论参考。
2题组的相关概念及传统处理方法
2.1题组的基本概念
在实际的心理或教育测验中, 经常出现多个项目共用相同刺激(Stimulus)的情况(如:英语中的篇章阅读理解题型、数学中的分步证明题), 这种受共同刺激影响和制约的项目集合通常被称为题组(Testlet) (Wainer & Kiely, 1987)或项目束(Item bundle) (Rosenbaum, 1988)。在题组中, 通常会在一份材料或已知条件后配上若干个项目, 而不是每一个项目都配上一份材料, 因此, 使用题组可以节约考生阅读材料的时间, 提高测验的效率(Bradlow, Wainer, & Wang, 1999; Wainer, Bradlow, & Du, 2000; DeMars, 2006; Wainer, Bradlow, & Wang, 2007; Huang & Wang, 2013)。此外, 题组还可以比独立的多项选择题提供更为复杂的、逻辑关系更强的材料, 而这些具有上下文相关性的项目(Context-dependent item)常被认为是更接近现实且能够测量更高水平技能的(DeMars, 2006)。但
1全文在 4.2之前所提到的局部独立性(LI)假设均为狭义局部独立性假设, 关于广义局部独立性假设详见 4.2的内容。如果考生对题组的已知条件产生了误解或者该材料涉及了某项专业知识, 那么考生对题组项目的反应必然会产生较高的相关性(Yen, 1993; Rosenbaum, 1988; Wang, Bradlow, & Wainer, 2002)。以“2011年全国硕士研究生入学统一考试英语(一)”为例, 全卷除“Section : Writing”
Ⅲ中两篇写作题型外, “Section: Use of English”
Ⅰ和“Section: Reading Comprehension”
Ⅱ中的项目均是以题组的形式出现(7个题组包含50个项目), 且“Section: Use of English”
Ⅰ的阅读材料涉及了心理学中“情绪”的相关知识。此外, 如TOEFL、GRE、PISA、SAT等大型考试均涉及了大量的题组, 可以说测验已经出现了由采用大量的独立选择题向采用题组过渡的趋势(Wang et al, 2002; Wainer et al., 2007), 对题组进行研究的必要性日显重要。但目前, 国内对TRT的研究还比较滞后, 仅有的几篇文献(孟庆香, 2008; 涂冬波, 蔡艳, 漆书青, 丁树良, 戴海崎, 2009; 吴锐, 丁树良, 甘登文, 2010; 郑蝉金, 郭聪颖, 边玉芳, 2011; 刘玥, 刘红云, 2012; 田文娜, 张敏强, 2012; 徐宝, 2012)远不足以满足实际的测量需求, 这不利于TRT在国内的发展, 更不利于国内学者采用TRT 来指导心理或教育测验的编制与开发, 因此对TRT的研究还有待深入。
2.2局部独立性与局部依赖性
当测验存在题组时, 嵌在题组内的项目将共用同一份材料, 这时项目反应间就存在一定的相依性, 即违背了局部独立性假设。由于国内学者们对局部独立性还没有形成统一而准确的认识(叶萌, 2010), 因此在介绍TRT前有必要对局部独立性和局部依赖性(Local Dependence, LD)的概念进行简单地梳理, 便于读者对TRT有更合理、准确的认识。
局部独立性假设是SIRT的基本假设之一, 是标准项目反应模型(Standard Item Response Model, SIRM)建立联合似然函数、准确预测被试潜质、实现项目参数估计的重要前提。自Lazarsfeld和Henry (1959)提出局部独立性概念起, 局部独立性概念就不断地经历探讨、修正和完善(如:Lord & Novick, 1968; McDonald, 1979; Lord, 1980; Stout, 1990; Chen & Thissen, 1997; 漆书青, 2003; Wang & Wilson, 2005b; Reckase, 2009; 叶萌, 2010; 孙胜亮, 杜文久, 2012)。Embretson和Reise (2000)