不同IRT模型在生活取向测验修订版中的适用性比较

合集下载

项目反应理论在英语考试分数可比性研究中的应用

项目反应理论在英语考试分数可比性研究中的应用

项目反应理论在英语考试分数可比性研究中的应用首先,我们需要了解项目反应理论的基本原理。

IRT假设考试分数反映了被试者在被测能力上的差异,而且每个考试项目都有自己独特的特性。

IRT的核心是建立被试者和题目之间的关系模型,这个模型通过两个参数来描述:项目难度(item difficulty)和被试者能力(test taker ability)。

项目难度指的是被试者需要具备多高的能力才能回答正确;而被试者能力则代表了被试者在被测能力上所具备的水平。

IRT利用这些参数,通过概率模型来预测被试者回答项目的概率。

在英语考试中,IRT可以用于分析不同题目的难度和被试者的英语能力。

通过IRT模型的建立,我们可以根据被试者的回答情况来估计他们的英语能力水平,并将这些估计值进行比较。

这种比较可以帮助我们评估和比较不同考试的难度水平,以及不同被试者之间的英语能力差异。

IRT的应用不仅仅局限于单个考试。

它还可以用于多个考试之间的分数可比性研究。

通常情况下,不同考试的试题数量和内容都会有所不同,因此直接比较总分可能并不准确。

而IRT可以通过对项目和被试者之间的关系进行建模,提供一种更加准确的分数比较方法。

通过建立共享项目的IRT模型,我们可以将不同考试的分数转化为统一的能力指标,并进行可比性分析。

在英语考试分数可比性研究中,IRT还可以帮助我们了解考试项目的质量和效度。

IRT模型提供了项目难度和区分度(item discrimination)两个重要参数,它们可以反映考试项目的质量。

项目难度越高,意味着被试者需要具备更高的英语能力才能回答正确;而区分度越高,意味着这个项目能够有效地区分高能力和低能力的被试者。

通过对这些参数的分析,我们可以评估考试项目的难度和区分度,从而提高考试的效度和准确性。

总的来说,项目反应理论在英语考试分数可比性研究中有着广泛的应用。

它不仅可以帮助我们理解和解释考试分数的含义,还可以提供一种可比性分析的方法。

MBTI人格类型量表的理论研究与实践应用

MBTI人格类型量表的理论研究与实践应用

MBTI是一种迫选型、自我报告式的人格测评工具,用以衡量和描述人们在获取信息、做出决策、对待生活等方面的心理活动规律和不同的人格类型表现。

它以jung的心理类型理论为基础,由美国的briggs和myers母女共同研制开发。

从1942年到现在,MBTI经过myers-briggs家族半个多世纪的改良,已经发展到最新的m版,该版本引入了项目反应理论(irt),利用θ分数反映类型偏好的清晰度,与先前版本相比,其评估技术有较大的提升。

在国外,MBTI因其独到的理论根基,严格的操作规程和极强的实用性被广泛应用于团队建设、生涯设计、教育学习以及个体与家庭治疗等领域,而目前国内对于MBTI的相关研究和实践应用都十分有限,因此有必要进一步加以介绍。

1 MBTI的理论基础1.1维度及其解释MBTI的理论基础是心理类型理论。

该理论最早体现在《心理类型》一书中,它旨在揭示、描述和解释个体行为表现的差异。

在此书中,jung阐述了通过临床观察和心理分析得出的个体行为差异的三个维度:(1)精神能量指向:外向-内向;(2)信息获取方式:感觉-直觉;(3)决策方式:思考-情感。

briggs和myers 母女俩在这三个维度的基础上补充了一个新维度——(4)生活态度取向:判断-知觉,从而用四个维度描述个体的行为差异。

其中,“外向e—内向i”代表着心理能量的不同指向;“感觉s-直觉n”、“思考t-情感f”分别表示人们通过感知活动获取信息和经过判断权衡做出决定时不同的用脑偏好;“判断j-感知p”是就人们的生活方式而言,它表明个体是以一种有计划(确定)的还是随意(即兴)的方式适应外部环境,是信息获取维度和决策维度的综合效应在个人生活方式中的体现。

以上每个人格维度都有两种不同的功能表现形式,经组合可得到16(24)种人格类型。

jung把感知和判断列为脑的两大基本功能,前者帮助个体从外部世界获取信息,后者则使个体以特定的方式做出决定,它们在大脑活动中的作用受到个体的生活方式和精力来源的节制,从而对人的外部行为和态度产生各不相同的影响。

大尺度教育测评中IRT等值方法的比较研究_杨涛

大尺度教育测评中IRT等值方法的比较研究_杨涛
收稿日期: 2013 - 07 - 08 修回日期: 2013 - 12 - 03 作者简介: 杨 涛( 1967 - ) ,女,四川成都人,北京师范大学教育统计与测量研究所讲师、博士,主要研究方向: 儿童青少年认知发展、 教育测量与评价等。
158
理论·方法与案例 大尺度教育测评中 IRT 等值方法的比较研究
( 1. Institute of Educational Statistics and Measurement,BNU,Beijing 100875,China 2. Institute of Development Psychology,BNU,Beijing 100875,China
3. State Key Laboratory of Cognitive Neuroscience and Learning,BNU,Beijing 100875,China)
二、研究方法 ( 一) 等值数据收集设计 本研究采用共同题非等组设计,共 5 个题本, 各题本的测验内容相近、难度相仿,题本间有共同 题。每个题本 25 道选择题,其中 6 道共同题,共同 题占题本总题量的 24% 。 ( 二) 研究数据 数据来自国内某大尺度教育测评项目( 该项 目的样本采用 PPS 抽样方法获得,此方法为大尺 度测评常用的抽样方法,可确保样本的代表性) 中 4 年级数学测验结果,随机抽取其部分数据作为研 究数据。5 个题本的作答考生数分别为 2553 人、 2516 人、2517 人、2489 人 和 2437 人,总 样 本 量 12512 人。 ( 三) 数据处理方法 1. 数据模型 本研究中每个题目都是 0、1 计分的选择题。 根据选择 题 可 能 存 在 被 试 随 机 猜 测 的 特 点,本 研 究对于二值计分的选择题采用三参数 logistic 模型 估计题目参数。 160

项目反应理论(irt)在小学数学成就测验中的应用

项目反应理论(irt)在小学数学成就测验中的应用

项目反应理论(irt)在小学数学成就测验中的应用项目反应理论(IRT)作为一种效度理论,源于美国心理学家Augustus Damien和Anne Angoff等人于1960年,在心理学领域中是一种基于潜在变量结构想像的测量模型,它利用因变量和自变量之间的概率关系得到的线性模型,从而研究人的知识水平以及相关测试的描述。

近几十年来,IRT在教师测试评价领域用的非常多,而其在小学数学成就测验中的应用也是相当有趣的研究主题。

首先,需要明确数学成就测验和IRT之间的关系。

传统数学成就测验是传统教育测试评价的一种,主要通过给出多道题来测量孩子的数学水平。

但是传统的测试评价方法有许多不足,如:对于不同水平的学生来说,相对密集的考题结构不够灵活;成绩的白化假定太强;拟合模型的复杂性,等等,这些制约了传统数学成就测验的发展。

这时,IRT的出现为数学成就测验提供了新机会和新思路,可以有效地改进和完善数学成就测验。

其次,要正确应用IRT,需要考虑到IRT时常用于衡量涉及个体差异的测验。

若是应用于数学成就测验中的每一道题型的话,由于每道题型的能力评价更加准确,模型估计的准确性也会提高。

此外,IRT还可以被应用于诸如校本测验和比较测验等,用来衡量年级成就水平及学校之间的差异,从而更好地进行教育评价。

最后,应用IRT改进和完善数学成就测验,还需要考虑实际运用中的一些技术性问题,比如:遗传结构本质属性的建模;非参数模型在数据缺失的情况下的缩放;参数链接的多层模型的应用;判分头等及后置,等等。

如果能够在解决技术性问题的基础上,通过对数学成就测验中imerst得分优势的深入分析,有助于深入理解全面评价孩子数学学习情况和更好地指导教学。

总之,IRT在解决数学成就测验具有重要意义。

它不仅可以改进评价的准确度,而且可以更加准确地评估孩子的数学水平,有效地指导学校和教师的数学教学工作,为促进小学生在数学学习上的学习积极性提供有效的指导。

IRT理论框架下不同参数模型和评分模型对能力估计的影响

IRT理论框架下不同参数模型和评分模型对能力估计的影响
取 17 两者可以达到非常接近的程度 , . 时, 对任意能 力值 , 两函数间的差 的绝对值小于 00 . .1
2 评 分模 型
2 1 二 值评 分模 型 .
用一个取值为 0 1 , 的变量 , 来表示被试 a对 第 题的作答反应: =1 表示具有能力为 的被 试答对第 , =0 题 则表示他( 没有答对该题. 她) 能力为 的被试对 m个项 目的作答模式是一个 m
维普资讯
第2 9卷 第 2期
V0 . 9 12 No. 2


学ห้องสมุดไป่ตู้



20 0 7年 4月
Ap . r 20 07
Jun l f o ra o Hee nvri z U iest y
文章 编号 :63—2o (07 o —0 1 4 17 13 2o )2 o5—0
而, I C T的固有缺陷——精度指标不恰当、 对信 度计 算的前提要求事实上难以满足等 , 无法在该理论 内 部得 到解 决 . C r的突 破 从 宏 观 上 看 , 生 了概 对 T 诞
化 理论 ( T , G )该理 论将 C F中笼统 的误 差方 差 依 测 T
1 IT参数模型 R
20 年 07
菏 泽 学 院 学 报
第 2期
a 0+C ; 有 a a2 b f 2・ i且 2 i i i=一 ̄ / i ; i a. 2
P ()=e (i 0 / e ( ・ + 2 22 有序模型 访0 x a ・ +c) p k x 口 .. p
h=1
c ) 函数 P( ) ; f0 的以 为 自变量的函数 曲线称为项 目特征曲线 , 是被试在试题上正确作答概率对潜在

IRT项目反应理论

IRT项目反应理论
在招聘、选拔过程中,IRT可以帮助组织更准确地 评估候选人的能力。
主题研究背景
早期研究
早期研究主要集中在理论 模型的建立和验证。
当前研究
当前研究更加关注实际应 用,如在线测验、自适应 测验等。
未来展望
未来研究将进一步探索IRT 与其他技术的结合,如人 工智能、大数据等。
02
IRT项目反应理论概述
定义与概念
定义
IRT项目反应理论,也称为潜在特质理论或潜在特质模型,是一种心理测量理 论,用于描述个体在特定测验项目上的潜在特质水平与其行为表现之间的关系。
概念
IRT假设个体在某个潜在特质上的水平是连续的,并且个体在某个测验项目上的 表现是由其潜在特质水平决定的。
发展历程
起源
IRT起源于20世纪50年代,由美国心理学家伯恩斯和 金纳德提出。
THANKS
感谢观看
IRT通过建立与能力水平相对应的难度参数,能够准确地衡量学生在不同 学科领域的能力水平,从而为个性化教学和辅导提供依据。
IRT还可以用于评估学生的认知能力、学习能力和情感能力等,帮助教师 全面了解学生的发展状况,为制定教学计划和干预措施提供依据。
课程设计与优化
IRT在课程设计与优化方面也具有重要应用。通过分析学生的能力分布和项目难度参数,教师可以对课 程进行针对50年代, 随着计算机技术的发展而 逐步完善。
应用领域
广泛应用于教育、心理学、 人力资源等领域。
主题重要性
提高测验精度
IRT可以帮助研究者更准确地测量个体的能力水平, 从而提高测验的精度。
个性化教学
通过IRT,教师可以了解学生的学习需求和能力水 平,从而进行个性化教学。
人才选拔
03

不同遥感数据在测绘中的适用性与比较分析

不同遥感数据在测绘中的适用性与比较分析

不同遥感数据在测绘中的适用性与比较分析引言:测绘是现代社会发展必不可少的基础工程,而遥感技术的广泛应用为测绘工作提供了强有力的支持。

本文将探讨不同遥感数据在测绘中的适用性,并对其进行比较分析,为测绘工作者提供参考和指导。

第一部分:光学遥感数据光学遥感数据是最常见和广泛应用的遥感数据之一。

它通过感光器材记录地物反射和辐射,进而获取地物信息。

光学遥感数据具有分辨率高、信息详细的特点,适用于对地表地貌、植被覆盖等细节进行测绘。

例如,高分辨率的航空影像常用于制图和建筑物测量,而卫星影像则可以用于土地利用分类和变化监测。

第二部分:雷达遥感数据雷达遥感数据利用电磁波的散射原理,对地物进行探测和测量。

相比于光学遥感数据,雷达遥感数据在夜晚和云层密集时也能有效获取信息,具有不受天气和光照条件限制的优势。

雷达遥感数据适用于地物高程测绘、海洋监测以及天气灾害等方面的应用。

例如,合成孔径雷达(SAR)数据广泛应用于数字地表模型(DTM)生成和水体检测。

第三部分:热红外遥感数据热红外遥感数据是通过测量地物辐射的热量来获取信息的一种遥感数据。

它可以提供地物的温度分布和热量变化情况,适用于热力学分析和环境监测。

热红外遥感数据在城市热岛效应调查、地下管线检测和农业干旱监测等方面具有潜力。

第四部分:多源数据融合不同遥感数据在测绘中的应用不是相互独立的,而是需要进行数据融合和综合分析。

多源数据融合能够充分利用不同遥感数据的优势,提高测绘结果的精度和可靠性。

例如,将光学遥感数据与雷达遥感数据融合可以得到更详细的地貌和植被信息,进一步提高测绘精度。

结论:不同遥感数据在测绘中具有各自的适用性和优势。

光学遥感数据适用于对地表细节进行测绘,雷达遥感数据适用于夜晚和云层密集时的测绘需求,热红外遥感数据适用于热力学分析等特定领域。

而多源数据融合则可以综合利用不同遥感数据的优势,提高测绘结果的可靠性和精度。

因此,在实际应用中,测绘工作者应根据需求和条件选择适用的遥感数据,也可以将不同遥感数据进行融合,以获取更准确和详细的测绘结果。

教育测试新理论—IRT的研究与应用

教育测试新理论—IRT的研究与应用

结论
综上所述,IRT作为教育测试领域的一种新理论,在考试质量评估、学生学 习成果评估、教育政策评估等方面具有重要的应用价值和前景。然而,我们也需 要到IRT存在的挑战和限制,不断进行深入研究和实践探索,以进一步推动IRT在 教育测试领域的应用和发展。
参考内容
随着现代教育技术的发展,网络自适应考试系统已成为教育评估和教育改革 的重要工具。本次演示将介绍一种基于IRT(Item Response Theory,项目反应 理论)的网络自适应考试系统的设计与应用研究。该系统的特点在于能够根据每 个考生的能力水平,动态地调整考试难度,从而更加准确地评估其知识和技能水 平。
(2) IRT的稳定性较好,可以减少由于测试误差和随机因素带来的不准确评 估;
(3) IRT能够鉴别出学生的真实能力水平,为教育工作者提供更准确的教学 参考;
(4) IRT可以应用于不同地区、不同学校的教育测试中,为教育行政部门提 供客观、准确的数据支持。
2、挑战
虽然IRT具有许多优势,但也面临一些挑战:
进一步完善IRT的应用研究,需要我们在实践中不断探索和研究。例如,可 以通过跨文化、跨学科的应用来拓展IRT的适用范围;可以通过研究IRT与其他教 育测试理论的结合,进一步提高教育测试的准确性和有效性;还可以通过研发便 捷、易用的IRT软件和工具,降低IRT的应用门槛,推动其在教育测试领域的普及 和应用。
一、系统设计
1、架构设计
该网络自适应考试系统基于IRT理论,采用B/S架构,主要由服务器端和客户 端两部分组成。服务器端负责管理考试试卷、考试数据和用户信息,以及根据客 户端传来的实时数据调整试卷难度;客户端则负责显示试卷、收集考生答案及反 馈数据,并通过网络与服务器端进行数据交互。

项目反应理论(IRT)在小学数学成就测验中的应用

项目反应理论(IRT)在小学数学成就测验中的应用


2 o fl月 o8 0
为相应的三个分测验 。分测验及内容范围如表 1
示。
表 1 分 测验 及 测 验 范 围
trT re P rm t o i i Mo e ) 般 来 说 , e ,he— a ee L gsc d l 。一 a r t s 模
型 选 择必 须有 一 定 的理 论 依 据 和实 证研 究 。H m— a beo 认 为 ,三参 数模 型 比单 参数 和 双参数 模 型能 ltn 更 好 的拟合 测 验所 得数 据 ; 三 参数 模 型是 目前 大 团
实践五部分 ; 根据教学要求把考查 目 标分为知道 、 理
解 、掌 握 以及应 用 四个层 次 。本研 究 着重考 评 学生
的能力或特质水平与测验条件下被试对项 目 所作反 应之间的关系的描述和假设也不 同。项 目反应理论 是通过建立一定 的项 目反应模 型来描述这种关 系
的 , 的基 本假 设 主要 有 以下 三种 : 维性 假 设 、 它 单 局
分测验
测试 内容范围
撕 今 整数 、 数 、 数的概念或 定义 的认 识理 解 , 式 、 小 分 公 定 姒 理 数量关系的认识理解

家公认 的最有效且应用最广的二级评分 的 IT模 R 型, 适合于选择题和是非题 , 与实际测验结果匹配相 当好l 17 年,ohm等人经过实证研究发现, 3 9 8 Pp a 】 。 数 学成就测验能更好的拟合三参数模型 ,使测量误差
项 目反应理论(RT) I 在 小 学 数学 成就 测 验 中 的应用
李 映红 张绍 军
【 要】目 : 摘 的 尝试在项 目 反应理论的指导下 , 编制四年级数 学成就测验 , 为学科评 价提供辅助 工具 。方法 : 用贝佳方 法检验 试测数据 的单 维 } 利用A O E 生, N T 软件估计项 目参 数 , 用基 于题 目分类下的经验判 断法建立一个划界 分数 , 再接 合项 目信息量和双向细 目表编制成卷 。结果: 四套试卷均符合单维性要 求, 基本拟合三参数逻辑斯蒂克模型 , 目拟合 项

采用理想点方法检验生活取向测验及其修订版的单维性

采用理想点方法检验生活取向测验及其修订版的单维性

采用理想点方法检验生活取向测验及其修订版的单维性该文从项目反应过程出发,认为可能是由于原有的维度分析方法将生活取向测验(LOT)及其修订版(LOT-R)这两个测验的项目反应理想点过程错误地限定为优势过程。

导致两个测验违背单维性的结论;进而采用主成分分析的未旋转成分负荷散点图和对应分析的维度分数散点图,并结合项目相关矩阵法验证LOT和LOT-R的维度。

结果显示LOT-R的单维性得到了验证,LOT由于包含两个测量应对的项目而导致违背单维性。

最后作者提出应该与理想点过程相一致的心理计量学模型对LOT-R的数据进行分析。

标签:生活取向测验;理想点过程;优势过程;主成分分析;时应分析;项目相关矩阵随着积极心理学的兴起,乐观逐渐成为人格和健康心理学研究中最常引证的建构之一Ⅲ。

在各种乐观的建构中,气质性乐观为广大研究者所接受。

气质性乐观按一般结果期望来定义,即乐观者一般倾向于期望有利的生活结果。

该定义源自自我调节理论,在该理论中,假定乐观对人们处理新的或困难的情景有一个调节效应。

当面临潜在的障碍时,乐观者比悲观者更可能坚持他们的目标方向的努力。

Scheier和Carver(1985)编制生活取向测验(LifeOrientation Test;LOT)用于气质性乐观的测量。

LOT是一个自我报告问卷,共包括12个项目,其中有4个是附加项目,用来掩饰问卷的真实目的。

其余8个正式项目中有4个正性词项目,4个负性词项目。

后来,有研究者质疑LOT中有两个项目反映的是人们的应对方式,而不是对未来事件积极结果的期望。

为解决这个问题,Seheier,Carver和Bridges于1994年修订了LOT,把这两个项目删除,同时为保持正性词和负性词项目数的平衡,将一个负性词项目删除,并增加一个正性词项目。

修订后的生活取向测验通常记为LOT-R。

有关气质性乐观的一个基础而又有争议的问题是关于LOT和LOT-R测量的建构的潜在维度。

以Scheier等人为代表的一部分研究者坚持认为LOT和LOT -R的潜在结构是一个广泛性的乐观维度,赞成它是一个双极的概念,其中最消极的一端是悲观,最积极的一端是乐观;另一部分研究者则认为LOT和LOT-R是由两个独立的潜在维度:乐观和悲观组成。

混合题型的irt等值问题研究

混合题型的irt等值问题研究

混合题型的irt等值问题研究以《混合题型的Irt等值问题研究》为标题,本文旨在概述混合题型Irt等值问题研究的现状,揭示其存在的问题,并为等值问题研究提出一些建议。

Irt等值问题是指两个或多个应试者在相同的试题集上获得相同得分,但在实际考试中却存在显著差异的现象。

Irt等值问题已成为教育测量领域中最重要的研究内容之一。

在Irt等值问题研究中,研究人员可以利用建立在特定的技术和理论基础上的模型,检验评估多种测量形式下的等值性假设。

传统Irt等值问题研究多基于统一题型,因此研究人员可以使用多种技术来分析统一题型下的等值性。

然而,现实情况下,许多考试都会涉及多种不同题型,如多项选择题、文字题、组合题等等,这种混合题型会带来新的挑战。

因此,研究混合题型Irt等值问题的可行性显得尤为重要。

由于以往Irt等值问题的研究都基于统一题型,因此在混合题型Irt等值问题研究中,存在一些问题。

首先,混合题型Irt等值问题研究需要考虑多种题型之间的关系,由于多种题型之间的技术复杂性,如何设计有效的研究方法成为了学术界探讨的热点问题。

其次,混合题型Irt等值问题的混杂性使得测量分析更加复杂,因此研究者需要对题型之间的差异性进行更多的考量。

在解决混合题型Irt等值问题的研究中,建议采用可靠性分析、内容分析和Irt模型等技术,以提高研究的准确度。

在可靠性分析方面,可采用Cronbachalpha参数,以检验试题组合是否具有良好的测量一致性。

在内容分析方面,可采用正态分布表,结合常见的内容分析技术对试题的有效性进行检验。

在Irt模型方面,可以采用Rasch 模型等,以检验多种题型效应是否相同、测量噪声水平是否一致等。

此外,在混合题型Irt等值问题的研究中,建议研究者采用基于贝叶斯的方法,以充分把握多种题型数据之间的关系,进而改进测量模型的准确度。

此外,对于测量分析的小组效应,可以使用改进的Irt模型,如两步联合等级模型等,以解决组别内因素问题。

多维IRT与单维IRT在多维量表中应用的差异

多维IRT与单维IRT在多维量表中应用的差异

多维IRT与单维IRT在多维量表中应用的差异
林岳卿;方积乾
【期刊名称】《中国卫生统计》
【年(卷),期】2011(028)003
【摘要】目的探讨单维条目反应理论与多维条目反应理论在多维量表分析中的差异,并从中找出较优的分析方法.方法用单维分部评分模型(PCM)和多维分部评分模型分别对世界卫生组织生存质量研究小组提供的来自世界20个研究中心的WHOQOL-OLD量表数据进行条目和量表结构的分析.结果 "感觉能力"领域中的条目OLD_10 "您的感觉功能的问题影响您和他人交往的能力吗?"同时不拟合两种模型,单维IRT得到Infit和Outfit均方拟合指数、6个维度的信度系数及潜在特质间的相关系数均低于多维IRT.结论多维IRT更适合于条目数较少的多维量表的分析和评价.
【总页数】3页(P226-228)
【作者】林岳卿;方积乾
【作者单位】中山大学公共卫生学院医学统计与流行病学系,510080;中山大学公共卫生学院医学统计与流行病学系,510080
【正文语种】中文
【相关文献】
1.MIRT模型中多维能力及其相关矩阵估计的影响因素 [J], 蔡艳;涂冬波;丁树良
2.IRT等级展开模型在中学生学习焦虑综合量表编制中的应用 [J], 范晓玲;郑岱;卢谢峰
3.CTT、IRT、FT:体育科学量表编制中的应用--以《特质流畅量表》为研究例证[J], 董德朋;刘巍;孙世超
4.多水平多维IRT模型在学业质量监测中的应用 [J], 康春花;孙小坚;顾士伟;曾平飞
5.IRT的单维性假设检验与IRT的应用研究 [J], 王秀玲;李金波
因版权原因,仅展示原文概要,查看原文内容请购买。

IRT及其应用

IRT及其应用

目录前言.............................................................................................. 错误!未定义书签。

第一章、试题反应理论的概念与发展...................................... 错误!未定义书签。

第一节试题反应理论的基本概念.................................. 错误!未定义书签。

第二节试题反应理论与古典测验理论的比较.............. 错误!未定义书签。

1.模式特性: (4)2.试题参数特性 (5)3.能力与分数量尺特性 (5)4.测量精准度 (6)5.应用 (7)第三节常见的IRT模式 ................................................. 错误!未定义书签。

(一)二元计分模式....................................................... 错误!未定义书签。

(二)多元计分模式....................................................... 错误!未定义书签。

第四节IRT的基本假设 .................................................. 错误!未定义书签。

1.单向度 (17)2.局部独立性 (18)第五节当代IRT的发展 ................................................. 错误!未定义书签。

第六节IRT的应用 .......................................................... 错误!未定义书签。

1.编制测验(量表) (20)2.测验等化(equating) (21)3.建立题库 (22)4.组合测验 (22)5.发展计算机化适性测验 (23)第二章、IRT在测验编制上的应用 .......................................... 错误!未定义书签。

IRT理论和应用

IRT理论和应用

Z2 exp 2 X P( X ij 1) 2
dZ
1 P( X ij 1) 1 exp X
X j bi X ai j bi
2 IRT基础模型
正态肩型模型(Normal Ogive Model; Lord, 1952)

1

j bi P( X ij 1) 0.5 j bi P( X ij 1) 0.5 j bi P( X ij 1) 0.5
项目特征曲线与项目参数a,b,c的含义
项目特征曲线(Item Characteristic Curve, ICC)
Curve Theory)
1 IRT简介
为了克服CTT的不足而兴起,主要从测验项目微观角
度入手,采用数学建模和统计分析的手段,揭示被试
潜在特质和项目特征是如何影响被试在项目上的作答
反应的系列理论。
它包含项目特征曲线(ICC),项目反应模型(IRM),信
息量(Information),项目功能差异(DIF),测验等值 (Equating),计算机化自适应测验(CAT)等相关核心 概念和技术。
测验形式的发展 纸笔测验( Paper & Pencil, P&P),千人一卷 (公平, 公正?) 计算机为基础的测验(Computer-Based Testing) 自适应测验(Adaptive Testing or Tailored Testing) 计算化自适应测验(Computerized Adaptive Testing; CAT),千人千卷(大型题库)
Z2 exp 2 ai j bi P( X ij 1) dZ 2

不同IRT模型在生活取向测验修订版中的适用性比较

不同IRT模型在生活取向测验修订版中的适用性比较

不同IRT模型在生活取向测验修订版中的适用性比较邓稳根;戴海琦【期刊名称】《江西师范大学学报(自然科学版)》【年(卷),期】2011(035)002【摘要】In order to compare the model-data fit and item parameter estimates of generalized graded unfolding model, graded response model, and generalized partial credit model, 3 864 freschmans who came from two universitys were selected.Model-data fit were examined by adjusted x2/df ratios of item singles, item pairs, and item triples.Item parameters and their standard errors were estimated through margin maximum likelihood method.The results displayed that the model-data fit of generalized graded unfolding model were better than that of other two models, but the item parameter estimates of the former were irreasonable, which indicated that futher studies will be needed in the future.%为比较拓广等级展开模型、等级反应模型和拓广分部评分模型在生活取向测验修订版上的模型-数据拟合差异及项目参数估计值和标准误差的差异,选取2个学校的大一新生(3 864人)进行分析,采用单项目、两项目对和三项目组校正χ2/df检验3个模型的模型-数据的拟合,采用边际极大似然方法估计项目参数值及其标准误差.结果发现拓广等级展开模型的模型-数据拟合优于其它2个模型,但该模型的项目参数估计值及其标准误差显得并不是很合理,提示需要对该模型开展更深入的研究.【总页数】5页(P216-220)【作者】邓稳根;戴海琦【作者单位】赣南师范学院教育科学学院,江西,赣州,341001;江西师范大学心理学院,江西,南昌,330022【正文语种】中文【中图分类】TP18【相关文献】1.采用理想点方法检验生活取向测验及其修订版的单维性 [J], 邓稳根;戴海琦2.Rasch模型和IRT在学生成就测验统计分析中的对比研究 [J], 赵守盈;薛雯3.抗作假人格迫选测验中瑟斯顿IRT模型的影响因素 [J], 李辉;肖悦;刘红云4.不同铆测验设计下多维IRT等值方法的比较 [J], 刘玥;刘红云5.计算机动态测验中问题解决过程策略的分析:多水平混合IRT模型的拓展与应用[J], 李美娟;刘玥;刘红云因版权原因,仅展示原文概要,查看原文内容请购买。

非等组锚题设计下IRT等值方法比较及其应用

非等组锚题设计下IRT等值方法比较及其应用

非等组锚题设计下IRT等值方法比较及其应用黎光明;王小婷【摘要】总结了基于非等组锚题设计下的两大类IRT等值方法:同时参数标定和分别参数标定.分别参数标定包含了线性参数转换和固定参数标定,以等值精度为评价标准对这3类等值方法的效果和适用条件进行归纳并做出相应的评析,为测验工作者选择合适的等值方法进行项目参数和测验等值提供参考依据.%Two kinds of methods in test equating has been commented:concurrent calibration method and separate calibration method. The second kind includes linking separate calibration methods(e. g. the moment methods and the characteristic curve methods)and FIPC(Fixed Item Parameter Calibration)method. Taking equating accuracy as the criterion,the effects and suitable conditions of each method are summarized and corresponding comments are provided. The reference for users will be prouided in selecting the appropriate methods to process test equating.【期刊名称】《江西师范大学学报(自然科学版)》【年(卷),期】2017(041)005【总页数】8页(P454-461)【关键词】项目反应理论;测验等值;非等组锚题设计【作者】黎光明;王小婷【作者单位】华南师范大学心理学院,心理应用研究中心,广东广州 510631;华南师范大学心理学院,心理应用研究中心,广东广州 510631【正文语种】中文【中图分类】TP841测验等值,是指测量同一心理特质的不同测验分数或试题参数,通过一定的数学模型,转换成同一单位系统中的量数,以利于相互比较的方法[1].测验等值在题库建设和教育评价中必不可少.IRT 框架下实施等值,不仅理论完善,前提条件较容易满足,而且等值关系式也十分简洁.测验等值有不同的等值设计,如单组设计(single-group design)、随机等组设计(counterbalanced random-group design)、平衡单组设计(single group design with counterbalance)、非等组锚测验设计(Non-Equivalent groups with Anchor Test,NEAT)和共同被试组设计(common group design)(也叫锚人设计)等[2].非等组锚测验设计是目前实际应用中最广泛的等值设计,因为相对于其它等值设计,这种设计更为有效、易行.在实际情况中常有这样的情况:无法采集一个被试样本,让被试接受2个不同形式的测验施测,又难以获得2个总体分布相同的被试样本来分别接受2个测验的施测.十八届三中全会审议通过的《中共中央关于全面深化改革若干重大问题的决定》,明确了未来高考改革方向:探索全国统考减少科目、不分文理科、外语等科目社会化考试一年多考.高考“ 一年多考” 最需要解决且最难的问题是:不同次考试的多份试卷分数是否“ 等值”,即需要将不同次的高考试卷实现等值,然而不能找到一个被试样本同时施测2次的高考试题.在第1次抽取被试,第2次高考试卷不可能提前施测;在第2次抽取被试,第1次高考试卷已经“ 曝光”,测试已经不准确了.因此只能在不同次考试分别抽取被试样本,分别施测当次考卷,但是又无充分理由证明2次考生总体分布是相同的,这种情况下只能采用非等组锚题设计.NEAT设计对被试样本的要求没有像单组设计和等组设计般严格,而且锚题相对于被试样本来说,不管是题目的获取过程,还是测试的过程,都是比较容易控制的,因此NEAT设计的应用更加广泛[2-3].NEAT是大型测验中最常用的等值设计之一,如托福、GRE、SAT等著名考试均采用非等组锚题设计对多次考试进行等值.在计算机自适应测验(CAT)题库建设中,一般把题库中原有的测验称为基准测验(base form)或旧测验,其项目参数均在同一量尺上.对于新编制的项目,题库建设者一般将题库中原有的部分题目作为锚题,与新编制的项目,即新题,合并组成目标测验(target form)或新测验,通过NEAT设计将目标测验的独立项目等值到基准测验的量尺上去,这样就能将新题的项目参数统一到原来题库的量尺上去.具体来说,非等组锚测验设计就是将2个不同的测验,如基准测验和目标测验,分别施测于不同的被试样本组,但这2个测验中分别都包含一组相同的题目,即锚题(Anchor Items),用来作为进行等值转换的中介,2个测验中的非锚题题目叫做独立项目(Unique Items).NEAT设计如图1所示[4].作为2个独立测验进行等值转换的中介,锚题要具有代表性,能够代表整个测验,作为整个测验的浓缩版(Mini-Test);锚题的题型应该尽量涵盖测验中的所有题型;难度指标全距应该足够宽,区分度指标应该至少在中等水平以上;对于锚题数量的要求,包含40道题目或以上的测验中,锚题量至少应为测验总题量的20%[5],这样基准测验和目标测验就会有较高的相关.相关越高,链接能力就越强,保证等值结果的稳定性,从而越有利于对测验等值关系的认识[6-7].进行IRT测验等值,需要进行等值设计、数据收集、等值模型选取、模型参数估计、量表化、测验等值、等值结果评价等7个步骤.其中一个很重要的步骤——量表化,就是将从不同测验估计出的项目参数等值或标定到同一个量尺上去.在非等组锚测验设计下,基于IRT的项目参数等值或标定的方法,即IRT等值方法,主要有两类:分别参数标定和同时参数标定,其中分别参数标定包含线性参数转换和固定参数标定[8].1.1 分别参数标定1.1.1 线性参数转换(Linking Separate Calibration,LSC) 线性参数转换对基准测验和目标测验的项目参数分别估计,使用锚题作为链接,通过线性转换关系,将新测验组即目标测验组,标定到旧测验组基准测验的量尺上去.目标测验上项目参数的计算过程如下:ai、bi、ci分别表示新测验项目i的区分度、难度、猜测参数,转换后的参数分别表示为等值系数A和B,可以通过数学方法估计出来,包括矩估计法(Moment methods)[9-10]和特征曲线法(Characteristic curve method)[11-12].矩估计法主要包括了平均数-平均数法(Mean/Mean Method,MM)[9]、平均数-标准差法(Mean/Sigma Method,MS)[10]、稳健的平均数-标准差法(Robust Mean and Sigma Method)[13]及稳健迭代加权平均数-标准差法[12].特征曲线法,根据其等值准则的不同,主要有Haebara法(Hcrit,又称项目特征曲线法)[11]、Stocking-Lord法(SLcrit,又称测验特征曲线法)[12].其他等值准则还有对称相对熵准则(Symmetric Relative Entropy criterion,SREcrit)[14]、Haebara加权准则(Weighted criterion,Wcrit)[15]、绝对值等值准则(Absolute Value equating method)[16]和余弦等值准则(Cosine criterion,COScrit)[17]等.此外,还有回归方法.但是,由于回归方程并不是对称的,跟测验等值的基本要求不合,因此实践中较少使用回归法.1.1.2 固定参数标定(Fixed Item Parameter Calibration,FIPC) 固定参数标定结合了线性参数转换和同时参数标定的特点,又被称为锚题估计法(item anchoring estimation method)[8,18].FIPC对基准测验和目标测验分别估计项目参数.先估计基准测验上锚题的参数,在进行目标测验的参数估计时把锚题参数固定为已经得到的值,这样就使得目标测验的参数自动与基准测验位于一个量表中.该方法具有较好的灵活性,适用于不同的等值设计,并且FIPC相对于其它的等值方法更简单、省时[19].1.2 同时参数标定(concurrent calibration,CC)在NEAT设计下,同时参数标定是将2个测验的数据合并,看成同一个测验,将一组被试未作答的在另一个测验中独立项目上的反应当作缺失值,在单次标定程序中就能同时估计出基准测验和目标测验的项目参数,不需要求取等值系数.由于基准测验和目标测验都含有锚题,CC得到的2个测验的项目参数就在同一个量尺上,但是该量尺是基于基准组和目标组所有被试的水平,并不是在基准测验的量尺上[20-22].1.3 IRT参数估计程序随着计算机软件和硬件的发展,IRT参数估计程序也得到了有效的发展.从早期只适用于0-1计分的LOGIST[23]、BILOG[24]到现在能同时处理多级计分的MULTILOG[25]、PARSCALE[26]等.但是同一种等值方法,在不同软件中参数估计的方法可能会有所不同,如联合极大似然估计、边缘极大似然估计、贝叶斯估计、EM算法等.即使是同一种参数估计方法,在不同软件中估计的结果会存在差异.如在FIPC等值方法中,不同软件中EM循环的次数或先验能力分布的更新次数可能会有所不同,又如BILOG-MG不更新先验信息,而PARSCALE中更新先验信息,两者得出的等值结果有所区别.因此,在研究等值方法的差异时,应该要注意分离出不同参数估计方法的差异.2.1 线性参数转换(LSC)不同方法的比较矩估计法(包括平均数-平均数法、平均数-标准差法、稳健的平均数-标准差法、稳健迭代加权平均数-标准差法)均未能完整利用项目参数信息,并容易受到奇异值的影响.而特征曲线法能够有效利用项目参数信息,比矩估计法更加优良 [5,11-12].矩估计法,一些研究者认为平均数-标准差方法较好,因为b参数的估计结果比a参数更稳定,如在H.Ogasawara 等[27]的研究中,平均数-标准差法比平均数-平均数法等值结果更稳定.然而,F.B.Baker等[28]研究得出平均数-平均数法更稳定.矩估计法中何种方法最佳,仍存在争议.对于特征曲线法的研究,不少学者发展了许多不同的等值准则[9-12,14-15,17,28],其中最为常用的是Haebara法和Stocking-Lord法.F.B.Baker等[28]和H.Ogasawara [29-30]的研究中均得出Stocking-Lord法在求取等值系数的各方法中的精确性最高,在IRT真分数等值时优于Haebara法.等值准则的选取会影响等值的效果,关于不同等值准则的比较,需要考虑不同的IRT模型、不同题型、样本量、锚题和被试能力分布差异等因素.线性参数转换不同方法的优缺点比较如表1所示.2.2 固定参数标定(FIPC)不同方法的比较在过去,由于估计方法的难以实现,固定参数标定法未能充分表现出其优势.近年来,随着估计方法的发展,如采用EM算法实现了边际极大似然估计(MMLE)、联合极大似然估计(JMLE)和贝叶斯估计等.随着参数估计软件的发展,如BILOG-MG 和PARSCALE等,研究者开始研究FIPC方法的性能[31-33].S.Kim[32]比较了5种IRT固定参数标定方法,这5种方法的区别在于更新先验能力分布的次数和EM循环的使用次数不同,分别为没有先验能力分布的更新和EM 循环次数为1(no prior weights updating and one EM cycle,NWU-OEM)、多次EM循环(multiple EM cycle,NWU-MEM)、1次先验能力分布的更新和1次EM循环(one prior weight updating and one EM cycle,OWU-OEM)、多次EM循环(multiple EM cycles,MWU-MEM)、多次更新先验能力分布并使用多次EM循环(multiple weights updating and multiple EM cycles,MWU-MEM),结果表明在目标组被试不同能力分布下:N(0,1),N(0.5,1.22),N(1,1.42),只有MWU-MEM具有良好的参数估计精度[32].T.Kang等[4]得出了与S.Kim [32]一致的结果,在其研究中,比较了FIPC的2种方法,无先验信息更新的FIPC-BMG方法和有多次更新先验能力分布的FIPC-PSL 方法,这2种方法分别在BILOG-MG和PARSCALE中实现.结果显示,相对于有先验信息更新的FIPC-PSL方法,FIPC-BMG方法更有可能低估了均值和标准差的真值,且FIPC-BMG方法有一定的系统误差[4].综上所述,在使用FIPC并选择使用EM算法时,应该选用MWU-MEM的固定参数标定法,也就是多次更新先验能力分布并使用多次EM循环,这样即使在目标组被试能力分布与基准组差异较大时,这种方法的等值精度仍较高.2.3 同时参数标定(CC)和线性参数转换(LSC)方法的比较有关CC和LSC的研究有很多,对于两者的比较也有较多学者进行了相关研究.以下列举了部分具有代表性的研究结果,并对前人的研究结果进行了评析和总结. N.S.Petersen等[34] 及 M.S.Wingersky等[35]均得出CC比LSC的等值效果更好.但是,这些研究都是在LOGIST程序下进行的,这个程序使用了联合极大似然估计法对项目参数进行估计.S.H.Kim等[20]用BILOG和MULTILOG模拟比较了CC和LSC,他们的研究包含了4个锚题数量水平(5,10,25,50),测验总题目数为50,并包含了等组和非等组的设计来模拟水平和垂直等值的情况.他们采用了均方根误差(Root Mean Square Difference,RMSD)和欧式距离均值(Mean Euclidean Distances,MED)来评价不同条件下CC和LSC中的特征曲线法的等值效果.研究结果指出,当锚题数量较小时,LSC要优于CC,相对能得到更精确的结果;当锚题数量较大时,2种方法得到了类似的等值结果[20].但是,A.B.Hanson等[8]指出,该研究的不足在于,LSC用的是BILOG软件,而CC用的是MULTILOG,因此,在NEAT设计下这2种等值方法的差异与软件的差异混淆[8].BILOG中也可以实现CC,但是在NEAT下,BILOG不能精确估计出非等组被试指定的不同能力分布.A.B.Hanson等[8]在非等组锚题设计下用模拟研究的方法比较了CC和LSC,这两类方法均在BILOG-MG和MULTILOG中实现,以避免混淆方法差异和软件差异.LSC具体共有4种方法:2种项目特征曲线法(Stocking-Lord法和Haebara 法)及2种矩估计法(MM和MS).该模拟研究考虑了4种影响因素:等组和非等组被试群体、CC和LSC、锚题数量大小、样本量大小.评价等值效果的指标采用了基于IRT真分数等值的平均偏移均方差(Mean Squared Errors,MSE)和基于加权的和未加权的项目特征曲线的MSE.A.B.Hanson等[8]的研究结果指出,总体看来,CC要比LSC产生的误差小,且不同的被试群体非等组被试下的等值误差要明显大于等组被试.随着锚题数目的增多,等值误差呈减少的趋势.在其它因素不变的条件下,样本量太小会增大等值误差[8].J.S.Kim等[21]在多级IRT模型下比较了CC和LSC.在他们的模拟研究中同样考虑了样本量、锚题数量、等组和非等组3个影响等值效果的因素.采用了MULTILOG 软件进行多级IRT模型的参数估计.采用项目参数和能力参数的RMSE值来评估不同等值方法对参数真值的修复程度.该研究得出,CC比LSC产生的等值误差要小,尽管这个差异非常小[36].A.A.Béguin等[37-38]的研究中,用单维IRT模型处理多维IRT模型下产生的数据,来比较CC和LSC.同时,他们还在多维IRT模型下用CC进行测验等值,探讨了在忽略数据多维性的条件下,等值精确性是否有差异,并考虑了等组和非等组、潜在特质的方差大小这2个因素.该研究采用了基于等值结果估计的分数分布和模拟产生的分数分布的差异来评估等值精度.结果显示,在单维IRT模型下,多维的数据会影响CC和LSC的表现.在等组和非等组的不同条件下,CC和LSC的等值精度是不一样的.在非等组群体条件下,基于单维IRT模型下的等值方法的表现相对于多维IRT等值方法,明显受到了多维数据的影响.研究还表明,在等组群体条件下,CC产生的等值误差比LSC小[3-38].T.Kerkee等[39]用真实数据比较了垂直等值下Stocking-Lord法和CC,结果显示,CC下会有更多无法收敛的项目,并且他们还发现,LSC在每个年级上都比CC有更好的拟合性.A.Sayaka等[40]研究认为项目特征曲线表现得更好,CC和LSC这2种方法在锚题数量较小的时候等值的效果都不够好.当测验试题总数和锚题数量增大时,等值效果会变好些.尽管有学者对同时参数标定法和分别参数估计法进行了对比研究,但是很难得出一个结论说哪种方法更优越.上述模拟研究和实证研究结论的不同,可能是由于他们各自的研究中有许多不同因素造成的,如不同的数据类型、样本数量、等值准则、估计方法、参数估计程序等.因此,这些研究的结论都不能充分地证明同时参数标定法比分别参数标定法能产生更精确的等值结果.但是,测验工作者仍然可以从这些研究中得到启发,根据不同的条件选用不同的项目参数标定方法,以最大程度提高等值的精确性.2.4 同时参数标定(CC)、线性参数转换(LSC)和固定参数标定(FIPC)这3种等值方法的比较目前,关于CC、LSC和FIPC这3种等值方法的比较研究比较少.N.S.Petersen等[34]进行了一项传统等值方法和IRT等值方法的比较研究,比较了CC、FIPC和特征曲线法.研究结果显示:CC得到了最稳健的等值结果[34].Li Yuanhua等[18]比较了FIPC和特征曲线法,参数修复结果显示:FIPC和特征曲线法都得到了稳健且精确的等值结果.Zhang Zhonghua等[41]在NEAT设计下用模拟研究的方法比较了这3种等值方法.该研究考虑了4种影响因素:目标组群体能力分布分别为N(0,1)和N(1,1),基准组均为N(0,1)、锚题数量(10,20,40)、样本量(200,500,1 000)、锚题的平均难度表示所有锚题的难度均值).结果显示:当基准组和目标组的能力分布没有差异时,CC、LSC和FIPC这3种方法对被试能力真值的修复得到了相似的结果.虽然在某些条件下,CC产生的等值误差更大[41],这个差异可能是由于对区分度参数的修复程度不一造成的,这与S.H.Kim等[20]的结果是一致的.S.H.Kim等[20]发现,CC比LSC在对区分度参数的修复上表现不够好,尤其是在水平等值的条件下.但是,随着样本量的增大,CC和LSC的差异减小了[20]A.B.Hanson等[8]也发现矩估计法和特征曲线法之间的差异要大于特征曲线法和CC之间的差异.当锚题的平均难度值小于整个测验的难度值时(除了样本量为200的情况),CC优于特征曲线法[8].因此,可以说在多数情况下,同时参数标定在非等组锚题设计下的等值效果要优于特征曲线法,S.H.Kim 等也得到了同样的结果[36].T.Kang等[4]对这3种方法进行了比较,模拟研究中考查的因素有:被试数量、能力分布、锚题的数目.模拟结果的评价采用了潜在能力参数分布(underlying ability distributions)、项目特征曲线(item characteristic curves)和测验特征曲线(test characteristic curves)的返真修复(recovery)程度.FIPC可以在BILOG-MG和PARSCALE程序中实现,但是这2种程序实现FIPC的方法有所不同.CC和LSC 的等值结果可以直接比较,在所有条件下这2种方法得到的结果返真性都较好.在2种FIPC程序中,只有在合理使用PARSCALE程序时,才能得到和前2种方法相似的项目参数链接结果[4].王菲等[42]在等级记分模型下采用实测数据对这3种方法进行了比较,等值效果的比较采用了RMSD和REMSD [50]为评价标准,结果得出分测验1以平均数-平均数法的等值效果最好,分测验2则以FIPC为佳.该研究的参数估计是在PARSCALE软件中进行,其他程序使用了Visual Foxpro 6.0自行编写[42].综上,CC、LSC和FIPC这3种等值方法的优缺点如表2所示.3.1 等值方法选择两大类等值方法并没有好坏之分,而是各自有不同的适用条件,应根据实际情况选择合适的等值方法,以尽量减少等值误差,提高等值精度.以下总结最为常见的0-1记分题型,且采用3参数逻辑斯蒂模型(3PLM)时,不同的条件下采用哪种等值方法能达到最佳等值效果.1)当锚题数量为中等或较大水平时,群体能力分布没有差异或差异较小时,CC和LSC的等值效果均较好,测验工作者可根据实际需要等值到哪个量尺上来选择不同的方法:(i)当需要等值到基准组被试群体的量尺上时,可选用LSC;(ii)当需要等值到基准组和目标组合并后的被试群体的量尺上,应选用CC.2)当锚题数量为中等或较大水平时,若群体能力分布差异较大时,采用CC等值效果更佳,若需转换到基准测验量尺上,可先采用CC方法估计出项目参数,再采用矩估计法转换到基准测验量尺上.3)当锚题数量为较小水平时,使用LSC中的特征曲线法时等值效果较好.4)当构建大型题库时,采用FIPC更为灵活、有效、省时.5)样本量越大,不同等值方法的差异越小,当样本量较大时(一般为3 000左右),不同等值方法的等值精度均较高,且差异较小,测验工作者可灵活选择等值方法,若对等值样本量没有信心,可参照上述4条选择合适的等值方法.3.2 研究展望对不同的等值方法的比较,普遍考虑的因素有:等值方法(包含等值准则)、样本量、锚题数目和被试群体能力水平差异.近年来已有学者开始考虑其他因素,如不同题型(0-1记分,多级记分,混合题型,题组题型)、单维或多维IRT和不同的模型等.例如,Yao Lihua等[45] 比较了含有混合题型的测验,锚测验的构成对等值结果的影响;Tian Feng在基于3PLM和GPC(广义分布评分模型)的混合模型下,得出了同时参数标定比线性参数转换中的SLcrit方法的等值精确性更高的结果[43];S.H.Kim等在基于3PLM和GPC的混合模型下,得出特征曲线法要优于矩估计法,而Haebera法又略优于SL法[44];Yao Lihua等针对混合题型测验提出了用多维分部评分模型进行等值[45].然而国内许多研究对等值方法的探讨和比较都是在0-1记分项目的题型下进行的,关于多级记分题型,国内虽有实证研究[42],但是该研究对不同等值方法的探讨和比较都是基于同一个模型——等级记分模型之下进行的,未能涉及其他已有的多级记分模型,基于不同模型之下等值方法的比较仍是一个有待研究的内容.以上研究都是在直接等值(direct equating)的条件下进行的,对于间接等值(indirect equating)下不同等值方法的比较目前只有Li Deping等[46]进行了模拟研究,结果显示特征曲线法(SLcrit和Haebera)的表现优于矩估计法(MM和MS).然而该研究仅比较了间接等值下LSC下的不同方法,缺少和FIPC、CC方法的比较.对于不同等值方法得到的等值函数,还可以通过求取等值函数均值的方法得到新的等值函数,以减少等值误差,提高等值稳定性.这个方法最开始是由Angoff提出,Angoff对同一个线性等值函数进行多次估计,得到不同的估计函数,对这些函数进行平均可能会得到一个更合适的等值函数[47],且已有不少学者对求取等值函数均值进行了研究[48-50].目前还未有学者专门将求取等值函数均值的方法,与CC、LSC和FIPC进行比较研究,未来的研究方向可对此进行相关研究.此外,虽然多数等值模拟研究的结果会采用真值的修复程度Bias、RMSD等指标,但是等值效果的评价标准问题一直是等值研究中的难点,不同的研究采用的评价标准不完全一致,确定或者寻找一种评价等值研究的一致评价标准是值得进一步研究的课题.【相关文献】[1] 张敏强,胡晖.略论测验等值的理论、方法和应用 [J].华南师范大学学报:社会科学版,1988(4):113-118.[2] 漆书青,戴海琦.项目反应理论及其应用研究 [M].南昌:江西高校出版社,1992.[3] 漆书青,戴海琦,丁树良.现代教育与心理测量学原理 [M].北京:高等教育出版社,2002.[4] Kang Taehoon,Petersen N S.Linking item parameters to a base scale [J].Asia Pacific Education Review,2012,13(2):311-321.[5] Kolen M J,Brennan R L.Test equating,linking,and scaling:methods and practices [M].New York:Springer Verla,2004.[6] 罗照盛.项目反应理论基础 [M].北京:北京师范大学出版社,2012.[7] Kolen M J,Brennan R L.Test equating scaling and lingking:method and practices [M].3ed.New York:Springer Verlag,2014.[8] Hanson A B,Beguin A A.Obtaining a common scale for item response theory item parameters using separate versus concurrent estimation in the common-item equating design [J].Applied Psychological Measurement,2002,26(1):3-24.[9] Loyd B H,Hoover H D.Vertical equating using the rasch model [J].Journal of Educational Measurement,1980,17(3):179-193[10] Marco G L.Item characteristic curves solutions to three intractable testing problems [J].Journal of Educational Measurement,1977,14(2):139-160[11] Haebara T.Equating logistic ability scale by weighted least squares method[J].Japanese Psychological Research,1980,22(3):144-149.[12] Stocking M L,Lord F M.Developing a common metric in item response theory [J].Applied Psychological Measurement,1983,7(2):201-210.[13] Linn R L,Levine M V,Hastings C N,et al.Item Bias in a test of reading comprehension [J].Applied Psychological Measurement,1981,5(2):159-173.[14] 丁树良,熊建华,毛萌萌.项目反应理论框架下的新等值方法:对数对比等值法 [J].心理学报,2003,35(6):835-841.[15] 熊建华,丁树良.Haebara等值方法及其加权准则[J].江西师范大学学报:自然科学版,2005,29(5):434-437.[16] 程德巧.绝对值等值准则及求解算法的应用 [D].南昌:江西师范大学,2005.[17] 吴锐,丁树良,甘登文.一种新的项目反应理论等值准则:余弦准则 [J].江西师范大学学报:自然科学版,2008,32(2):224-245.[18] Li Yuanhua,Tam H P,Tompkins L J.A comparison of using the fixed common pre-calibrated parameter method and the matched characteristic curve method for linking multiple-test items [J].International Journal of Testing,2004,4(3):267-293.[19] Paek I,Young M J.Investigation of student growth recovery in a fixed-item linking procedure with a fixed-person prior distribution for mixed-format test data [J].Applied Measurement in Education,2005,18(2):199-215.[20] Kim S H,Cohen A S.A comparison of linking and concurrent calibration under item response theory [J].Applied Psychological Measurement,1996,22(2):131-143.。

[心理测验]IRT理论(ItemResponseTheory)

[心理测验]IRT理论(ItemResponseTheory)

IRT理论(Item Response Theory)IRT理论概述IRT理论即项目反应理论(Item Response Theory, IRT),又称题目反应理论、潜在特质理论(Item Response Theory)是一系列心理统计学模型的总称。

IRT是用来分析考试成绩或者问卷调查数据的数学模型。

这些模型的目标是来确定的潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。

目前广泛应用在心理和教育测量领域。

项目反应理论的意义在于可以指导项目筛选和测验编制。

项目反应理论假设被试有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。

项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。

通过项目反应理论建立的项目参数具有恒久性的特点,意味着不同测量量表的分数可以统一。

项目反应理论通过项目反应曲线综合各种项目分析的资料,使我们综合直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。

项目反应理论的特点(1)独立性。

被试特质水平不依赖于被试样本的代表性;被试水平参数不依赖于测验项目组;项目特征参数不依赖于所测被试组的参数不变测验项目组。

(2)项目理论中被试水平和项目难度可以直接比较;(3)正视了测量误差和项目性能是否与被试水平相关这一事实;(4)提供了计算机化自适应测验这一策略;(5) 从计量学角度提出了自己的新观点与新技术。

历史发展IRT理论发端于20世纪50年代,它同时被丹麦统计学家Georg Rasch和美国心理统计学家Frederic M. Lord在各自的国家发展起来。

尽管采取的研究方法不同,但是他们的结果却非常相似。

F. Lord在1951年从普林斯顿大学毕业时的博士论文《A Theory of Test Scores》被认为是IRT 理论的开端之作。

适用于多维迫选测验的IRT计分模型

适用于多维迫选测验的IRT计分模型

适用于多维迫选测验的IRT计分模型
刘娟;郑蝉金;李云川;连旭
【期刊名称】《心理科学进展》
【年(卷),期】2022(30)6
【摘要】迫选(forced-choice,FC)测验由于可以控制传统李克特方法带来的反应偏差,被广泛应用于非认知测验中,而迫选测验的传统计分方式会产生自模式数据,这种数据由于不适合于个体间的比较,一直备受批评。

近年来,多种迫选IRT模型的发展使研究者能够从迫选测验中获得接近常模性的数据,再次引起了研究者与实践人员对迫选IRT模型的兴趣。

首先,依据所采纳的决策模型和题目反应模型对6种较为主流的迫选IRT模型进行分类和介绍。

然后,从模型构建思路、参数估计方法两个角度对各模型进行比较与总结。

其次,从参数不变性检验、计算机化自适应测验(computerized adaptive testing, CAT)和效度研究3个应用研究方面进行述评。

最后提出未来研究可以在模型拓展、参数不变性检验、迫选CAT测验和效度研究4个方向深入。

【总页数】19页(P1410-1428)
【作者】刘娟;郑蝉金;李云川;连旭
【作者单位】北京智鼎优源管理咨询有限公司;华东师范大学教育心理学系;华东师范大学上海智能教育研究院
【正文语种】中文
【中图分类】G63
【相关文献】
1.一种新的多维IRT模型——高阶IRT模型
2.Rasch模型和IRT在学生成就测验统计分析中的对比研究
3.抗作假人格迫选测验中瑟斯顿IRT模型的影响因素
4.不同铆测验设计下多维IRT等值方法的比较
5.迫选式人格测验的传统计分与IRT计分模型
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
并不 是建立在 同一量尺上 , 个体和项 目的参数估计值 都高度依赖于所选择的样本等.随着测量实践的发展, 经典测验理论逐渐被新 的测量理论一 项 目反应理论
所取代 . 目反应理论 ( T直接从反应 过程出发, 项 I ) R 建
立模 型对个 体在项 目上 的反应进行分 析. 相对 于经典 测验理论, 目反应理论提供 了更多优 良的特性 . 项 由于 目前大多数 IT模型是从认知评估领域和态 R 度 测量领域 中发展起来 的.因此大多数人格评估研究
第 2期
邓 稳 根,等 : 同 I T模 型在 生 活 取 向 测验 修 订 版 中的 适 用 性 比较 不 R
反应 的理想点过程基础之上.
项 目反应 过程 符合 理想 点 过程 ,对应 分析 在量 表化 个 人 和 项 目方 面显 得 比主成 分分 析更 为 合理 [,但 I 】 是对 应分析 对个 体和 项 目的标定 并不是 建立 在正 式 的测 量理 论基 础 之上 ,因此 需要 更 正式 的测量 模 型 对 L T R上 的反应 数据进 行分 析.目前 在人 格测 量 O . 领域 中使用 较 为广泛 的测 量模 型是经典 测验 理论 的
文章编 号: 0 05 6 (0 o —2 60 1 0 -8 22 1)20 1—5 1
不同 I RT模 型在 生活取 向测验修 订版 中的适用性 比较
邓稳 根 ,戴 海 琦 2
(. 南 师 范 学 院 教育 科 学 学 院,江 西 赣 州 3 10 ; .江 西 师 范 大学 心 理 学 院 ,江西 南 昌 3 0 2 ) 1赣 4012 3 02
及其标 准误差 . 结果 发现拓广 等级展 开模 型的模型 . 数据拟 合优 于其它 2 个模 型, 该模 型的项 目参数估计 值 但
及其标 准误差显 得并 不是很合 理,提 示需要 对该模 型开展更 深入 的研究 .
关键词 :拓广等级展开模型; 等级反应模型; 拓广分部评分模型; 模型. 数据拟合; 边际极大似然方法 中图分 类号 : P1 T 8 文献标识码 : A
真分数 模型 和项 目反 应理论 模型 .
尽 管经典测 验理论 的 真分数模 型 以及 GR 和 M
G C 是 和 项 目反 应 的优 势 过 程 相 一 致 ,违 背 了 PM
L T R 的真实 项 目反 应过 程,但一 些研究者 将它们 O. 应 用 于 因素分 析方 法 编制 的人 格测 验时 ,在一 些量 表上仍 获得较 好 的模 型. 数据拟 合 .这主要是 因为尽 管这 些人 格量 表 的项 目反应 过 程是 理想 点过程 ,但 由于采用 因素 分析 方法 来 筛选 项 目,使得 测验 基本 上都 由较 为极 端 的项 目组 成 ,这些 项 目的反应 曲线 只在 非 常高 的特 质水 平处 才 发生折 叠 ,而处 于这个
摘要 :为比较拓广等级展开模型、等级反应模型和拓广分部评分模型在生活取向测验修订版上的模型. 数据
拟合差 异及项 目参数估 计值 和标准误 差的差 异, 取 2 选 个学 校 的大一新 生( 84 进行 分析 , 3 6 人) 采用单 项 目、
两项 目对 和三项 目组 校正 /f检验 3个 模型 的模 型一 d 数据 的拟合 ,采用边 际极 大似然方 法估计 项 目参 数值
拟合 L T R的数 据,并考查 边 际极大似然 ( O. MML 方 )
法 在估计 GG M 的项 目位置 参数 和反应类 别 阈限 U
收稿 日期 :2 l .92 O O0 —2
基金项 目:江西 省高校人 文社 会科学研 究规划 基金 ( L 1 x 10) 0 资助 项 目.
作者简 介:邓稳 根(9 8) 1 7 一,男,江西遂 川人,博 士研 究生, 主要从事 心理统 计与测 量研究
R br 等的拓广 等级展开模_ ( GU t等. oes t  ̄ G M)1 在上述 3 4
0 引言
虽然 有研 究 者 验证 了生 活取 向测 验 (OT R 的 L .)
个模 型中, R G a G C 与经典测验理论 的真分数模 M和 P M 型对项 目反应过程所作 的假 定相类似,即都假 定项 目 反应过程是一种优势过程, GG 则是建立在项 目 而
水平 处 的反应 者 在样 本 中所 占 的比例非 常小 ,所 以 对模 型. 据拟合 指数产 生较小 的影响 . 数 根 据 已有 的对 L TR 所 做 的对 应 分 析 结果 , O-
经典 测 验 理论 ( T ) 真分 数模 型对 反应 数 据 C T的
的分 析存 在许 多局 限,如个 体 的分 数和 项 目的位 置
L TR 上的项 目。特别是正性词项 目的极端性较低i O- l l ,
因而采用 G M 和 G C 进行分析时可能产生较大的 R PM 模型一 数据不拟合 : G UM 由于是建立在项 目反应的 而 G 理想点过程基础之上,与 L TR 的真实项 目反应过程 O.
者直接使用认知评估领域和态度测量领域 中的 IT模 R
第3 第2 5卷 期 2 1 年 3月 01
江西师范 大学学报 ( 自然 科学版)
JU N L பைடு நூலகம்J N X O MA V R IY(A U A CE C ) O R A A G I R LU E ST N T R L IN E O I N NI S
、_. , 135N o 2 o . M a .2 1 r 01
型来分析人格测量数据 . 人格评估领域使用较 多的适
相一致 . 因而可能更好地拟合 L TR上的项 目反应. O-
本调 查将验 证 G M 相对 于 G M 和 G C 更 GU R PM
用于多级反 应数据 的模 型有 Smem 的等级反应模 a j a i
型 ( R t 、Muai的分 部 评 分 模 型 ( P M)] i f M)1 2 r k G C 和 3
相关文档
最新文档