项目反应理论的参数估计

合集下载

运用粒子群优化算法估计IRT参数

运用粒子群优化算法估计IRT参数



XI l 2 A i Vi Vz A D 1 1 D 2 . 2参数 的估 计 方法 Xl 2 2 人 2 2 V l v2 人 。 2 1 D 确定 了 I T模 型 后 , 对 被 试 的 能 力值 f 和 项 目参数 (山c R 要 0 ) a ) A A A A A 人 人 人 进 行 估计 依 据 问题 的性 质 . 参数 估计 可 分 为三 种 情 况 : 一 是 第 A V 抽 m A N D m m 已知各 项 目参 数 .估 计被 试 的 能 力 值 :第 二 是 已知 被 斌 的 能 力 e I:1 , Ⅳ; 1 , , 示 群 体 中 粒 子 的位 置 , I , A, ,A D 2 2 值 , 试 题 中各 项 目参 数 : 三 是 被 试 的 能 力值 和试 题 中 各 项 其 e 估计 第 三 H参数 都 未 知 . 同 时估 计 被试 的能 力 值 和 项 目参 数 下面 就 按 要 j L’,;=2 ,j l 2 Nj LAD 是它对应的速度。 = A 照 I T的基 本 假 设 :给定 能 力 条 件 下 同 一 被 试对 每 个 项 目的 反 R ( )计算 每个 粒子 的适 应度 , 目标 函数 2 即 . 的 值。 应是相互 独立的( 即局部独立性 )不 同被试 的反应 是相 互独立 、 ( )计 算 粒 子所 经 历 的最 好 位 置 . 个 体 极值 3 即 的 . 对 0 1 分模 型 介绍 I T参 数 的 估计 方法 针 — 评 R 设 有 N 个 被试 参加 长度 为 m 的 考试 . 第 个 被 试 的 能 力 值 (: f 1 t> ( e g 1 ) fp s —) ) Bt ) (、 s 记 为 O【1 o。≤q≤N; 1 试 题 ( 称 项 目) 第 个 又 的难 度 、 分 度 、 测 区 猜 即全局极值 度分别记为 a' ,,≤j j j j ≤m。所有试题都采用 O 1 bc 1 一 评分方式 , 于 并计算群体 中所有粒 子经 历过 的最好位置 . 是可得全体被试 的作答模式矩 阵( 得分矩阵 ) = u iN m 若被 ge( = a f B t) ( e2 A, peⅣ )( U ( ) x : Bst mx ( el ) p s( f Bs ()6 t) { p s( , B t ff ( t fj ) ( )依 据 下 式 对粒 子 的速 度 和 位 置 进 行更 新 ( 4 进化 ) 试 q答 对 项 目 j则 “- ; 则 u- 。 , I否 -  ̄ 0 在局 部 独 立 性假 设 条 件 下 , - (十) ( 十 l ( p e,t () ‘((Bs ( 一 ()7 f 1; f c lX Bs ( ~ , 十 2 ) et, f ( ) ) t t )  ̄ ) tg , ) ) 基 于得 分 矩 阵 U (a ) x 估 计 O 。 ', 的 似然 函数 为 : = u N m qa b c jj

项目反应理论与题库建设

项目反应理论与题库建设

国%i-(指标库、赋史端 必图格 普文岸、笛国库? L —1、建库与维护干系统建库与维护子系统的功能是将已经选定的题目按属性指标、题文、附图、答文、答图 等项目,将有关信息准确方便地送入各子库中,并对库中的有关信息进行增、册h 修改、I 换以及按题号排序和查对等。

由于物理学科的特点,图形和特殊字符在题库中占有较大比重,所以物理题库系统需 要有绘制图形与特殊符号的功能,这项功能应在建库和维护子系统中实现。

另外,由于试题 中有图形,答案中也可能有图形,所以一个题目记录要由属性指标、题目正文(简称题文)、 附图、答文、答图等五部分组成。

考虑存储和管理的方便,试题的这些信息不统一存放在 个库中,而分别存放在指标库、题文库。

附图库、答文库和答图库等五个子库中。

同属一道试题的各项信息通过题目序号联系起来。

此外,按照课程的内容把所有题目分类, 按类存放,这样各子库相应地分成若干分库,每一分库存放某一类的试题。

接用库维护成二后请\瘠标原破K峦层加抗计机区地里统H-分布正L自动布卷模式匹醍组卷快速自动荆卷Mi 目।一个题库将存放大量的题目这些题目在计算机内如何存储将直接影响题库系统的工作效率和效果,因此题库结构的设计是题库系统设计开发的关键一环。

一般地说,一个大型题库应该具有这样的特征:(1)题库中的题目按学科领域分类,每一学科领域的题目又细分为若干个题目组合,这些题目组合可用于特定的教学目标,或测验特定的概念或能力。

(2)题库中的每一题目由两部分组成,即题目属性指标和题目本身。

题目属性指标有多项,反映有关题目的多种信息,这些信息将某一题目与库中的其它题目区别开,同时标记着题目使用的历史和使用情况(如使用次数、被高分学生答对的次数和被低分学生答对的次数等)。

(3)题库具有构成和结出等价形式测验的能力。

等价形式的测验是由不同的题目组合构成的,但每个测验的统计结果具有等效性,即这些不同的题目组合却测验相同的目标或概念,并用相同的统计方法来区分学生学习的好与差。

8.项目反应理论简介

8.项目反应理论简介


IRT则认为被试的能力与其对某一特定项目 的反应(以正确或错误反应概率表示)有 某种函数关系存在,确定这种关系就是IRT 的基本思想和出发点。
所以IRT可以被理解为一种探讨被试对项目 的反应与其潜在特质间关系的概率性方法。


用θ(theta)表示被试的潜在特质或能力, 用Pi(θ)表示其对项目i正确反应概率,项目 反应理论的关键就是确定θ与Pi(θ)间的函数 关系。


(二)项目反应理论的发展

由于项目特征曲线(ICC)对项目反应理论 的产生具有重要意义,所以在讲项目反应 理论的产生和发展问题时,一般都追溯到 1905年比奈和西蒙编制第一个智力量表时 的工作,他们当时所使用的作业成绩随年 龄增长而提高的散点图与现在的ICC曲线十 分类似。

IRT的真正创立者是美国心理测量学家洛德 (Lord)。1952年,洛德发表博士论文《一个 测验分数的理论》,提出了IRT的第一个数 学模型(Two-parameter Normal Ogive Model,双参数正态卵形曲线模型)及其参 数的估计方法,并把该模型应用到了学业 成绩和态度测量工作之中。

如何理解局部独立性假设呢? 由于这种独立性是针对特定的θ值的被试而 言的,所以称为“局部”。

例:假设1000名能力相同的被试参加某一能 力测验,600名被试答对了项目i,400名答 错了;这1000名被试对项目j的正确反应概 率与对项目i的正确反应概率统计上是独立 的。 总之,同一特质水平的被试回答某一项目时 不受其他项目的影响。
1.00
正确 反应 的概 率: Pi(θ)
0.50
0.00
潜在特质: θ
表1
某个项目假设的项目特征曲线

项目反应理论

项目反应理论

项目反应理论任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。

项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。

无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。

它们的局限性主要表现在以下几个方面:(1)信度估计的精确性不高测量的重要目标就是降低测量误差,提高测量的精度。

在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。

然而,在此定义中,真分数的方差和误差的方差都无法求取。

为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。

但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。

另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。

而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。

当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。

而且测量误差值会随着被试水平与测验难度距离的增加而变大。

(2)各种测量参数的估计依赖于被试样本经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。

如信度、效度、项目的难度、区分度等。

但是这些参数的估计对样本的依赖性是很大的。

如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。

测验的信度和效度采用相关分析法,同样受到样本的影响。

为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。

但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。

何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。

IRT中项目参数的估计精度和DIF检验的开题报告

IRT中项目参数的估计精度和DIF检验的开题报告

IRT中项目参数的估计精度和DIF检验的开题报告题目:IRT中项目参数的估计精度和DIF检验一、研究背景随着心理测量技术不断发展,IRT(Item Response Theory,项目反应理论)已经成为了一种重要的心理测量模型。

IRT模型可以对考试、问卷等测量方式进行建模,并且可以计算出被测者的能力水平和题目的难度水平。

其中,项目参数的估计精度和DIF(Differential Item Functioning,差异项目功能)检验是IRT模型中比较关键的两个问题,对于有效地评估测试的质量和公正性具有重要意义。

二、研究目的本研究旨在探讨IRT模型中的项目参数的估计精度和DIF检验方法,为针对不同人群和不同考试环境下的测试质量和公正性问题提供技术支持和解决方案。

三、研究内容和方法本研究将主要围绕以下内容展开:1. 项目参数的估计精度:介绍IRT模型中常用的项目参数估计方法,包括极大似然估计、贝叶斯估计等,并比较不同方法的估计精度和实际应用效果。

2. DIF检验:介绍DIF检验的基本概念和常用方法,包括Lord'sChi-Square检验、Mantel-Haenszel检验、Logistic Regression检验等,并比较不同方法的检验效果和实际应用效果。

3. 实证研究:以某大学英语考试题目为例,运用IRT模型进行项目参数估计和DIF检验,比较不同方法的结果,并探讨测试质量和公正性问题。

四、预期结果1. 探讨不同方法在项目参数的估计精度和DIF检验中的效果差异和适用情况。

2. 运用实证研究方法,给出针对某大学英语考试的项目参数估计和DIF检验结果,并对测试公正性进行分析。

五、研究意义1. 对于有效地评估测试质量和公正性具有重要意义。

2. 对于提高测试工具的精度和应用效果具有一定的指导意义。

3. 对于推广IRT模型在实际应用场景中具有一定的促进作用。

六、研究计划1. 第一周:文献综述,确定研究内容和方法。

项目反应理论【精选文档】

项目反应理论【精选文档】

项目反应理论随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高.目前,心理测量有三大理论派别:经典测量理论(Classical Test Theory , 简称CTT) ,项目反应理论(Item Response Theory ,简称IRT) 和概化理论(Generalizability Theory , 简称GT).项目反应理论是一种先进的测量理论,它是针对经典测量理论的不足而提出来的, 其理论基础是潜在特质理论。

项目反应理论的基本思路是确定考生的心理特质值和他们对于项目的反应之间的关系, 这种关系的数学形式就是“项目反应模型”。

下面主要对项目反应的理论假设和数学模型做一下简要概述。

一、项目反应理论的基本假设任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设.有的学者还增加了“知道—-答对"假设和非速度限制假设。

在此仅说明前面三条最基本的假设.1、潜在特质空间的单维性假设潜在特质空间是指由心理学中的潜在特质组成的抽象空间。

如果考生在测验项目上的反应是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。

如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。

目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的,即只有一种潜在特质决定了考生对项目的反应,也就是说组成某个测验的所有项目都是测量的同一个心理变量,例如知识、能力、态度或人格。

当然,这一假设往往不可能得到严格的满足,因为总有其他因素会影响到考生在测验上的反应,这些因素包括认知的、人格的和施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度和考试技巧等。

因此在项目反应理论中,只要所预测量的心理特质是影响考生对项目作出反应的主要因素,那么就认为这组测验数据是满足单维假设的.2、测验项目间的局部独立性假设所谓局部独立性假设是指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响,也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应.在实际的教育和心理测量问题中, 如果前一个项目的内容为后一个项目的正确反应提供暗示或其它有效的信息,局部独立性的假设就会遭到破坏,例如所谓的链状试题就会出现这种情况.局部独立性是建立在统计的意义上的,用统计学的语言,局部独立性是指对每一个测验者来说, 对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积.3、项目特征曲线假设项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。

项目反应理论中潜在心理特质“填补”的参数估计方法及其演变

项目反应理论中潜在心理特质“填补”的参数估计方法及其演变

心理科学进展 2014, Vol. 22, No. 6, 1036–1046 Advances in Psychological ScienceDOI: 10.3724/SP.J.1042.2014.010361036项目反应理论中潜在心理特质“填补”的参数估计方法及其演变*田 伟1 辛 涛2 康春花3(1北京师范大学教育学部; 2北京师范大学发展心理研究所, 北京 100875)(3浙江师范大学教育学院, 金华 321004)摘 要 在心理与教育测量中, 项目反应理论(Item Response Theory, IRT)模型的参数估计方法是理论研究与实践应用的基本工具。

最近, 由于IRT 模型的不断扩展与EM (expectation-maximization)算法自身的固有问题, 参数估计方法的改进与发展显得尤为重要。

这里介绍了IRT 模型中边际极大似然估计的发展, 提出了它的阶段性特征, 即联合极大似然估计阶段、确定性潜在心理特质“填补”阶段、随机潜在心理特质“填补”阶段, 重点阐述了它的潜在心理特质“填补” (data augmentation)思想。

EM 算法与Metropolis-Hastings Robbins-Monro (MH-RM)算法作为不同的潜在心理特质“填补”方法, 都是边际极大似然估计的思想跨越。

目前, 潜在心理特质“填补”的参数估计方法仍在不断发展与完善。

关键词 项目反应理论; 潜在心理特质; “填补”; 边际极大似然函数估计; EM 算法; MH-RM 算法 分类号B8411 引言一般来说, 在心理与教育测量中, 经过严格的流程编制出心理或教育测验之后, 再通过经典测验理论或项目反应理论对被试的潜在心理特质(例如, 认知、人格、学业能力等)进行量尺化。

其中, 项目反应理论因为具有相对于经典测验理论的一些优势(Brennan, 2006), 在实践中得到了广泛应用。

项目反应理论简介

项目反应理论简介
f '( x1 )
( x0 , f ( x0 ))
注意:迭代过程不可能无休止地进行下去,必须设定一个终止规则, 常用的终止规则是,当相邻的两个迭代近似值之间的差异小于某个预
先设定值(如0.01)时,迭代过程终止。
x0 x1 r
. ..
x
解方程
lnL(u | ) n f ( ) ( ui Pi ( )) 0 i 1
项目反应的基 本模型
双参数模型:
三参数模型:
eDai ( bi ) Pi ( ) ci (1 ci ) 1 eDai ( bi )
其中,b表示试题的难度参数,a表示试题的区分度参数,c表示试题的猜测系数,D是常量,D=1.7。
2
项目反应理论简介
项目特征曲线
(-3,3)
单参数逻辑斯蒂模型的项目特征曲线
4
计算机自适应测试的编制过程
1.ONE 题库建设
2.TWO
3.THREE 参数估计
4.FOUR 测试终止条件
选题策略
4
计算机自适应测试的编制过程
题目的搜集
1.ONE
题库建设
试题参数的获取
4
计算机自适应测试的编制过程
初始能力参数估计选题策略
2.TWO 选题策略
能力参数精确估计选题策略
初始能力参数估计选题策略
lnL(u | ) n f '( ) Pi ( ) ( Pi ( ) 1) 2 i 1
2
f (0 ) 1 =0 ' f (0 )
f ( n ) n 1 = n ' f ( n )
...
(| n1 n | 0.01)
4

基于项目反应理论的试题参数估计方法

基于项目反应理论的试题参数估计方法

了考试 的灵 活性 , 显著 降低 了教育成本 。作为 网络
考试 系统 中的重要环节 , 试题库 及其理论 的研究 和
应用 也越来越广 泛 。
定 的数学模 型来 确定 被 试个 体 试 题反 应概 率 与
试题库 是严格遵 循教育 测量理论 , 在计算 机系 统 中实现 的某个学科 题 目的集 合 , 是在 精确 的数学
I -ae a a trE au t nM eh d fT s Qu s o s RT b sdP rmee v lai to so et et n o i
XUE Ba —h n o sa
( hnlV ctnl o ee D nyn hn og 50 7 C ia Seg oa oa C l g , o gigS adn 79 , hn ) i i l 2

7 — 8
( a pe—id pn e t 的 试题 参 数 估 计 值 。项 目 S m l n e e dn )
据具体 问题 , 出现 几 种情 况 : 一 是 各项 目参 数 可 第 已知 , 计被 试能 力 ; 估 第二 是被 试能 力 已知 , 估计 项
目参数 ; 第三是 同时估计被 试 能力 和项 目参 数 。
Ab t a t T e p e e t ril x lr ss v r l o sr c : h rs n t e e po e e ea mmo R — b s d e au t n me h d f e tq e t n n n y e d・ a c c n I T — a e v l ai t o so s u si sa d a a s sa ・ o t o l
反应 理论 还 提供 其 测 量 的 估 计 标 准 差 ( S n ̄d (m d err) 试 题 的 信 息 函 数 (t nom tn fn— r s和 o Im if ao uc e r i tn , i ) 它可 以用来 作为评 价 能力估 计 值之精 确 度 的 o

项目反应理论的模型

项目反应理论的模型

项目反应理论的模型项目反应理论是心理学领域中的一种模型,用于量化测试者的能力水平。

该模型基于测验者对测试项目的反应,通过一些统计模型来衡量被测试者的能力水平。

项目反应理论的模型是一种非常有效的评估个人能力的工具,尤其是在教育、招聘等领域。

项目反应理论的模型是基于以下基本假设来构建的:1.每个测试项目都有一个固定的潜在难度水平,被称为难度参数。

2.每个被测试者也有一个能力水平,被称为斯洛班参数。

3.测试项目的正确反应由被测试者的能力和测试项目的难度水平共同决定。

基于这些假设,项目反应理论的模型将测试项目和被测试者的参数结合在一起,来推断受试者的能力水平。

该模型的核心是估计被试者的斯洛班参数,也称为能力水平,并将其与测试项目的难度参数进行比较。

为了实现这一目标,项目反应理论的模型采用了以下几个主要方程式:1.二项式分布方程式:用于计算测试项目正确的可能性。

2.逻辑斯蒂回归方程式:用于计算斯洛班参数和测试项目的难度参数之间的关系。

3.变异斯特林公式:用于比较测试项目的难度参数和斯洛班参数。

通过这些公式,项目反应理论的模型可以在测试被试者时精确地预测他们的能力水平。

这种方法可以应用于各种不同测试,从标准化考试到心理测试,以便评估特定领域或技能中被试者的表现。

但是,需要注意的是,项目反应理论的模型仅适用于具有可测量性的特定领域或技能。

如果测试测量的特定领域或技能不常规或难以厘定,那么这种模型是不可行的。

总的来说,项目反应理论的模型可以为教育、招聘等领域提供极具价值的工具,以量化被试者的能力水平。

这个模型的关键是能够将-test项目和被测试者的参数结合在一起,从而逐步推导出能力水平。

如果能够正确地实现这一目标,那么这种模型可以作为应用于许多各种测试和评估中的可靠而有效的工具。

多维项目反应理论的计量模型、参数估计及应用

多维项目反应理论的计量模型、参数估计及应用

θ j , bi ) = P (U ij 1=

k =1
m
e
(θ jk −bik ) (θ jk −bik )
1+ e
补偿模型和非补偿模型在人-题交互作用的表达方式上是不同的。非补偿模型使用的题目由不同的维 度任务构成,这些不同的维度任务又对应着各自需要的技能或知识,题目的完成依赖于每个维度任务的 完成。补偿模型则更侧重整体的作用,所有技能和知识一起对题目的所有方面发生影响。这方面的比较 研究不多,如Bolt和Lall (2003)发现在英语用法测验中,补偿模型对数据的拟合比非补偿模型好。归根到 底,使用哪种模型取决于人们在实际题目上的反应机制。
关键词
多维项目反应理论,计量模型,参数估计
1. 引言
相对经典测验理论(Classic Test Theory, CTT)而言,项目反应理论(Item Response Theory, IRT)在项目 和测验质量分析、题库建设、计算机自适应测验编制等方面的作用,越来越受到研究者的青睐(戴海琦, 2010)。近年来,随着认知科学、数学和计算机科学的发展,IRT 模型的假设、理论和实际应用也出现一 些 新 的 进 展 , 其 中 之 一 就 是 由 以 往 注 重 单 维 模 型 (Unidimensional IRT, UIRT) 向 单 维 和 多 维 模 型 (Multidimensional IRT, MIRT)并重转变。MIRT 的提出是为了更好地对被试在完成一项测验任务时需要的 多种能力、项目特征与答对概率之间的关系进行模型化。MIRT 被认为是近 20 年来测验理论发展的主要 新进展之一(康春花,辛涛,2010)。被试在对某一特定测验题目作答时,可能使用了不只一种能力;同样 地,考试中的问题很可能需要许多技能和能力才能答对。特别是测量复杂的知识领域如自然科学时更是 如此。尽管 UIRT 在一定条件下是有用的,但还是需要更复杂的 IRT 模型以准确反映被试和题目之间相 互作用的复杂性。MIRT 模型的发展正符合这一需要(康春花,辛涛,2010)。

项目反应理论简介

项目反应理论简介

项目反应理论的挑
05
战与未来发展
挑战与问题
01
模型参数的识别和估 计
项目反应理论依赖于对模型参数的准 确识别和估计,然而在实际应用中, 由于数据质量、样本大小等因素的影 响,可能会出现参数估计不准确的问 题。
02
模型的假设条件
项目反应理论是基于一些假设条件, 如局部独立性和正态分布等,然而在 实际应用中,这些假设条件可能会被 违反。
02
心概念
刺激与反应
1 2
刺激
指能够引起和激发个体反应的外部环境因素。
反应
指个体对刺激做出的行为或心理上的回应。
3
反应规则
指在特定刺激下,个体如何做出反应的规律。
反应者与环境
01
反应者
指受到外部刺激并做出反应的个 体或系统。
02
03
环境
交互作用
指反应者所处的外部条件和影响 因素。
指反应者和环境之间的相互影响 和作用。
更具有广泛适用性。
模型的适用性
03
未来研究可以开发适用于更广泛任务或测验的模型,论与实践的结合
要点一
针对具体应用场景进行模型设计 和优化
项目反应理论在教育、心理学、医学等领域都有广泛的应 用,未来研究可以针对这些具体应用场景进行模型设计和 优化,以提高模型的适用性和实用性。
项目反应理论简介
汇报人: 2023-11-29
目 录
• 项目反应理论概述 • 项目反应理论的核心概念 • 项目反应理论的应用领域 • 项目反应理论的研究与发展 • 项目反应理论的挑战与未来发展
01
项目反应理论概述
定义与背景
项目反应理论是一种心理测量理论,它为理解和描述个体在特定测验项目上的反应行为提供了一个框 架。该理论是心理测量学领域的重要支柱之一,被广泛应用于教育和临床诊断等领域。

项目反应理论111.pptx

项目反应理论111.pptx


在项目反应理论中,常用一般的统计依存 性和统计独立性概念来讨论项目间关系。
Pi(+):表示正确回答第i个项目的概率 Pi(-):表示答错第个i项目的概率 Pj(+):表示正确回答第j个项目的概率 Pj(-) :表示答错第j个项目的概率


P(+,+)表示正确回答第i和第j个项目的概率 同理,其它的见课本。

大量事实证明,对两级记分的项目,被试的 能力水平与他对项目的反应之间呈S型的曲线 关系,而且这一关系具有相当的普遍性。
S型ICC具有一些共同点,即都有一条Y=1的 上渐近线和一条Y=c(c≥0)的下渐进线,且是 严格单调上升的,一条ICC的形状取决于三 个变量:下渐近线的高度,曲线拐点的位置 及拐点处的斜率。 这三个变量恰好相当于三个项目参数:猜测 参数ci,难度参数bi和区分度参数ai。
1.00
项目1
Pi(θ)
0.50
项目2
0.00
b θ
图 区分度参数ai对正确反应概率的影响
ai越大,曲线在bi附近就会越陡,项目在bi 附近的区分能力就越大,但在远离bi的区 域,曲线就会变得越平坦,项目的区分能 力就越低。 也就是说,区分度参数ai大的项目对能力 水平接近bi的被试有较大的区分能力,而 对能力水平远大于或小于bi的被试区分能 力小。 相反,区分度参数ai小的项目则在能力分 布更广泛范围内对被试都有一定的区分能 力。
上渐近线
1.00
Pi(θ)
1 c 2
0.50
拐点 切线 下渐近线
c
0.00
b
θ
(1)难度参数bi 在一条ICC中,bi等于曲线在拐点处的θ值。 当猜测参数ci=0(曲线的下渐近线为0) 时,bi等于Pi(θ)=0.50时的θ值,因为对一 条完整的ICC,拐点恰好是曲线的中点和 对称点。 当ci>0时, P(θ)=(1+c)/2

CAT

CAT

二、CAT的基本原理要做到试题难度随考生能力不同而调整的测验方式,唯有实行自适应测试。

而最适合在自适应测试中应用的,便是项目反应理论(IRT)。

CAT是在项目反应理论基础上发展起来的一种测试,它是一种在项目水平上进行分析的测试。

在开始进行计算机化自适应测试之时,先由计算机终端机随机呈现一组测试试题,在考生做出反应之后,计算机便根据这些反应资料,估计出考生的初步能力估计值;然后,计算机会根据这些初步能力估计值,从现有的题库中挑选出最能对能力水平的估计发挥贡献力量的试题(通常这些试题的信息量也是最大),再呈现这些试题给考生作答。

这样,随着被试做的题目增多,计算机对考生能力的估计精度越来越高,这种测试过程一直继续下去,直到事先预定的测试题已测完,或某种预定的能力估计值的测量精确性已获得为止。

因此,实施计算机化自适应测试,不仅可以做到因材施测,也可以节省许多时间和成本。

三、CAT的编制编制CAT系统一般具有以下过程:1.题库建设题库不只是一堆试题的集合体,而是一堆经过校准、分析、归类与评鉴后,贮存起来的测验试题组合体。

CAT题库建立主要有选择模型、题目的编制开发、题目参数的确定、题库的动态维护等步骤。

题库需要满足测量各种不同能力水平的被试。

2.参数估计参数估计是根据采用的数学模型、Newton-Raphson迭代法对参数a、b、c 和θ反复进行迭代,使其达到一定的精度。

3.选题策略计算机化自适应测试的最大特点就是计算机能根据被试能力的估计值,自动选择最适宜的项目给被试者,从而做到以较少题目,达到较高的测量精度,因此选题策略十分重要。

4.选题方法计算机化自适应测试施测第一题常选择题库中具有中等难度的题目,根据被试者反应结果,对被试者能力θ做出第一次估计,估计值为θ,常用的估计方法有极大似然法和贝叶士法。

第二题的选择采用极大信息法,即选择能提供最大项目信息量的题目。

当被试者做完第二题后,计算机对被试者的能力θ做第二次估计,然后再选择能提供最大项目信息量的题目作第三题,如此选题,直到被试者能力θ的估计值达到一定的精度为止。

项目反应理论

项目反应理论

项目反应理论随着心理学的发展, 心理测量无论就是在理论上, 还就是在方法上都逐步地提高。

目前, 心理测量有三大理论派别: 经典测量理论(Classical Test Theory , 简称CTT) , 项目反应理论( Item Response Theory , 简称IRT) 与概化理论( Generalizability Theory , 简称GT)。

项目反应理论就是一种先进的测量理论,它就是针对经典测量理论的不足而提出来的, 其理论基础就是潜在特质理论。

项目反应理论的基本思路就是确定考生的心理特质值与她们对于项目的反应之间的关系, 这种关系的数学形式就就是“项目反应模型”。

下面主要对项目反应的理论假设与数学模型做一下简要概述。

一、项目反应理论的基本假设任何一种数学模型都有一定的前提,任何一种测量都有一定的假设,在项目反应理论中也有三条最基本的假设:潜在特质空间的单维性假设、测验项目间的局部独立性假设、项目特征曲线假设。

有的学者还增加了“知道——答对”假设与非速度限制假设。

在此仅说明前面三条最基本的假设。

1、潜在特质空间的单维性假设潜在特质空间就是指由心理学中的潜在特质组成的抽象空间。

如果考生在测验项目上的反应就是有K种潜在特质所决定的,那么这些潜在特征就定义了一个K维潜在空间,考生的各个潜在特质分数综合起来,就决定了该考生在该潜在空间的位置。

如果影响考生测验分数的所有重要的心理特质都被确定了,那么该潜在空间就称为完全潜在空间。

目前比较成熟的大多数项目反应模型都假设完全潜在空间就是单维的,即只有一种潜在特质决定了考生对项目的反应,也就就是说组成某个测验的所有项目都就是测量的同一个心理变量,例如知识、能力、态度或人格。

当然,这一假设往往不可能得到严格的满足,因为总有其她因素会影响到考生在测验上的反应,这些因素包括认知的、人格的与施测时的客观条件,以及考生的动机水平、焦虑程度、反应速度与考试技巧等。

项目反应理论模型应用中需要注意的几个问题

项目反应理论模型应用中需要注意的几个问题
中。
项目反应理论模型未来发展趋势与展望
模型改进与发展
随着研究的深入和技术的进步, 项目反应理论模型将不断改进和 发展,以更好地适应不同领域和
情境的研究需求。
多维度的模型拓展
未来研究可以进一步拓展项目反 应理论模型的应用范围,将其应 用于多维度、多层次的评估和分 析中,以更全面地揭示个体能力
的特点和规律。
项目反应理论模型应用中需 要注意的几个问题
汇报人: 2023-12-21
目录
• 项目反应理论模型概述 • 模型应用中需要注意的几个问
题 • 模型应用中的关键技术与方法 • 实际应用案例分析 • 总结与展望
01
项目反应理论模型概述
定义与特点
01
02
03
04
05
项目反应理论模型是一 种用于研究心理测试和 心理测量的数学模型, 它能够描述被试者在测 试中的反应行为,并根 据被试者的反应结果进 行数据分析和解释。
模型选择与适用性
在应用项目反应理论模型时,应根据研究目的、数据特点 等因素选择合适的模型,并确保模型适用于特定情境。
参数估计的准确性
模型参数的准确估计是模型应用的关键,应采用适当的统 计方法和技术对参数进行估计,并确保估计结果的可靠性
和有效性。
模型的解释与应用
在应用项目反应理论模型时,应充分理解模型的假设和限 制条件,正确解释模型结果,并将其应用于实际问题解决
该模型具有以下特点
针对个体差异:项目反 应理论模型关注个体差 异,认为每个被试者的 能力、特征和背景都会 影响其测试表现。
考虑题目特性:模型将 测试题目视为一个变量 ,并考虑其难度、区分 度等特性对被试者反应 的影响。
量化分析:项目反应理 论模型采用数学方法对 被试者的反应数据进行 建模和分析,从而使得 数据分析更加精确和客 观。

项目反应理论简介

项目反应理论简介

项目反应理论简介一、项目反应理论的概念项目反应理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对经典测量理论(Classical Test Theory,简称CTT) 的局限性提出来的。

IRT 是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定的潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。

目前广泛应用在心理和教育测量领域,基于IRT理论的计算机自适应测试(CAT)是CAA常用的测试方法。

潜在特质模型(latent trait mode l)认为,在被试样本可观察到的测试成绩和基于该成绩不可观察的特质或能力之间存在着联系。

二、IRT的理论体系(三条基本假设)–假设一:能力单维性假设——指组成某个测验的所有项目都是测量同一潜在特质;–假设二:局部独立性假设——指对某个被试而言,项目间无相关存在;–假设三:项目特征曲线假设——指对被试某项目的正确反映概率与其能力之间的函数关系所作的模型。

IRT最大的优点是题目参数的不变性,即题目参数的估计独立于被试组。

它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响;同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平所决定,一个被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。

IRT理论所做出的一切推论都必须以局部独立性假设为前提。

三、IRT常用的模型IRT根据受测者回答问题的情况,通过对题目特征函数的运算,来推测受测者的能力。

IRT的题目参数有:难度(difficulty index)、区分度(discriminative powder index)和猜测系数(guessing index)。

根据参数的不同,特征函数可分为单参数模型(难度)、双参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等。

第9章项目反应理论及其应用

第9章项目反应理论及其应用

项目反应理论的含义
项目反应理论也称项目特征曲线理论 或潜在特质理论,它是依据一定的数学模 型,用项目特征参数估计潜在特质的一种 测量理论。该理论中最重要的两个基本概 念是“潜在特质”和“项目特征曲线”。
项目反应理论的含义
项目特征曲线
项目反应理论的发展
虽然早期的项目反应模型主要是单维度 模型而且更强调双岐项目模式(如拉希模型 和三参数逻辑斯蒂模型),而如今一些多维 度项目反应模型也逐步发展起来,向其他项 目模式的拓展使得它能应用于更多的领域。 今天,项目反应理论模型已发展出了等级量 表模型、分部评分模型和多重选项计分模型 等等。
经典测量理论认为人的测验总分是这个人在些 特质上的真分数和测量误差之和。
经典测验理论多是使用匹配和随机化来进行误 差控制 。
项目反应理论的产生
2.项目反应理论的产生 自1904年斯皮尔曼首次提出经典测量理
论以来,经典测量理论为心理与教育测验的 发展很好地服务了100多年,可其自身的不 足和缺陷使得人们在某些测量的实际问题前 束手无策。
种: 自动组卷的选题策略 自适应测验的选题策略。
题目参数等值
题库的题量很大,项目参数的估计都 要分批进行,在不同批次获得的参数值, 一定要使用等值技术转换到同一量表系 统上去。在项目反应理论中,由于题目 参数估计具有跨群体不变性和潜在特质 参数估计具有可选择性,使来自不同群 体施测的题目参数可以用参数等值方法 将它们统一于同一个单位系统中,这就 保证了题目参数的准确性。
第9章 项目反应理论及其应用
中国水利水电出版社
目录
9.1 项目反应理论概述 9.2 项目反应模型的参数估计 9.3 项目和测验的信息函数 9.4 项目反应理论的应用
9.1 项目反应理论概述
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
α =1 j =1uαj αjN Nhomakorabeam
1− uαj αj
)
似然函数即能力分别为θα (1 ≤ α ≤ N )的被试 在项目参数为aj , bj , cj (1 ≤ j ≤ m)的测验中得到 作答模式U的可能性, 这种可能性用概率描述 就可得到L.
极大似然估计
举例 : 假设有3个项目(项目参数已知), 有一名被试(能力已知为θα ), 现在来确定该被试在这3个项目上的作答模式会是什么? 首先可以 肯定的是, 他 / 她的作答模式为以下 23 = 8种作答模式中的一种 :
项目反应理论的参数估计
张老师实验室讨论
2008年10月29日 年 月 日
报告内容
★ 参数估计问题转化 ★ 能力参数的条件极大似然估计 ★ 项目参数的条件极大似然估计 ★ 项目和能力参数的联合极大似然估计
为什么要进行参数估计
• IRT用数学模型将可以观察的被试行为(作答反应) 与不可观察的被试潜在特质(被试能力)联系起来, 并将这种关系数学模型化、参数化。 • 数学模型中包含了一组假设 一组假设(单维性假设、局部独 一组假设 立性假设等)、一些数学公式 一些数学公式(1PLM、2PLM、 一些数学公式 3PLM等)以及数学公式中的一组参数 能力参数 一组参数(能力参数 一组参数 能力参数及 项目参数)。 项目参数 • 对IRT模型而言,估计参数是建设题库以及评价被试 估计参数是建设题库以及评价被试 的基础。 的基础。
因为 L与 ln L有相同的极大值点 , 对L取对数可以得到 :
L = ∏∏ P Q
α =1 j =1
N
N
m
uαj αj
1− uαj αj
ln L =
∑ ∑ (U α × ln P α α
j =1 j =1
m
j
+ (1 − U α j ) × ln Q α j )
ln L = ∑∑ (Uαj × ln Pαj + (1 − Uαj ) × ln Qαj )
α =1 j =1
N
m
由高数知识可知 要使ln L得到最大值, 必须令ln L对N + 3m个 , 参数的偏导为 , 有 : 0
∂ ln L ∂θα ∂ ln L ∂bj ∂ ln L ∂aj ∂ ln L ∂cj
= 0 (1 ≤ α ≤ N ) = 0 (1 ≤ j ≤ m ) = 0 (1 ≤ j ≤ m ) = 0 (1 ≤ j ≤ m )
j =1 m m
非线性方程
g (θα ) = ∑ Daj (uαj − Pαj ) = 0
j =1 m
1 − cj (uαj − Pαj ) g (θα ) = ∑ Daj =0 Pαj − cj Pαj j =1
牛顿-拉夫逊迭代( 牛顿-拉夫逊迭代(N-R)
g(θ)
(xk, g(xk))
g ( xk ) = g ' ( xk )( xk +1 − xk )
被试能力参数已知时估计项目参数
与1PLM中项目参数已知估计被试能力 参数的情形类似,不同之处有二: ∂ ln L
1PLM情形 1PLM情形
一、 迭代公式改为: g (b(jk )) ( k +1) = b(jk ) − (k = 0,1,2, L) bj (k ) g ' (b j ) 二、b(j0 ) 的选取方法改为:
Uαj是取值为 0或1的随机变量 , 其观测值是 uαj.
记Pαj是能力为θα的被试答对项目 j的概率
P α j = P {u α j = 1 }
(1)
记 Qαj是能力为 θα的被试答错项目 j的概率
Q α j = P{ u α j = 0 }
(2)
于是我们可以得到随机变量Uαj的分布律为 :
P{ αj = uαj} = P Q U
uα j αj
1−uαj αj
, uαj = 0,1 (0 < Pαj < 1)
实际上是对( 实际上是对(1)式 和(2)式的综合
Uαj
P
1
0
Pα j
Qαj
局部独立性假设 局部独立性假设
• 各个被试的作答是相互独立的 • 同一个被试对各个项目的作答是相互独 立的
于是P{U11 = u11,U12 = u12,KK,UNm = uNm} = P{U11 = u11}× P{U12 = u12}×LL× P{UNm = uNm}
通过左边N+3m个式子求得的 个式子求得的 通过左边 N+3m个未知参数的估计值代 个未知参数的估计值代 入lnL中,可以使得lnL得到最 中 可以使得 得到最 大值。 大值。
ln L = ∑∑ (Uαj × ln Pαj + (1 − Uαj ) × ln Qαj )
α =1 j =1
N
m
∂ ln L ∂Pαj = 0即 ∂Pαj ∂θα ∂ ln L ∂Pαj =0 ∂Pαj ∂bj ∂ ln L ∂Pαj =0 ∂Pαj ∂aj ∂ ln L ∂Pαj =0 ∂Pαj ∂cj
L(1,1,1 | θα , a1, b1, c1,K, a3, b3, c3) = Pα 1Pα 2 Pα 3
可以认为: 可以认为:当项目参数和能力参数已知 时,最大的似然函数值所对应的那个作 答模式最有可能成为被试的实际作答模式。 答模式最有可能成为被试的实际作答模式。
极大似然估计
接着就有极大似然估计的思路: 假如项目固定且项目参数已知,作答模 假如项目固定且项目参数已知, 已知,但能力未知, 式U已知,但能力未知,现在要对能力进行估 计。那么能力为多少的被试最有可能得到这 种作答模式呢?也即要求使得似然函数L最大 的能力值。
i1 0 0 0 0 1 1 1 1 i2 0 0 1 1 0 0 1 1 i3 0 1 0 1 0 1 0 1
由项目参数和被试能力参数,可以计算 该被试分别得到这八种作答模式的可能 性(似然函数)。
L (0,0,0 | θα , a1, b1, c1,K , a 3, b3, c 3) = Qα 1Qα 2Qα 3
xk +1 − xk
=

g ( xk ) g ' ( xk )
| xk +1 − xk |< ε
牛顿-拉夫逊迭代( 牛顿-拉夫逊迭代(N-R)
g(θ)
(xk, g(xk))
y = g ( xk ) + g ' ( xk )( x − xk )
g (xk ) (x xk + 1 = x k − g ' ( xk )
j =1
m
j
m−
∑ uα
j =1
m
j
被试在测验中的得分与失分之比的自 然对数作为该被试的能力初值. 然对数作为该被试的能力初值.
流 程 图
能力估计中常用的一些特殊技术 : (1) 关于精度取值问题(ε = 0.01或ε = 0.001) (2) 关于全对全错的问题 (3) 关于发散的问题 : g ( xk ) 改用θk + 1 = θk − λ g ′( xk ) (4) 改变不收敛的方法之一 :修改初值 (5)固定迭代次数(e.g . 20次) (6) 控制能力解越界问题
∂ ln L g (θ k ) θk + 1 = θk − = θ k − 2∂ θ θ g ′(θ k ) ∂ ln L ∂θ 2
1 PLM
g (θ ) =
∑ D (u α
j =1 m j =1
m
j
− P αj)
g ′ (θ ) = − D 2 ∑ P α jQ α j
迭代初值
θ 0 = ln
∑ uα
渐近有效性: ★ 渐近有效性:
对大样本而言,极大似然估计量的抽样分布 方差达到了理论下界,即没有其它一致性的估计 值有更小的抽样方差。
极大似然估计
u 讨论如何使用MLE估计L = ∏∏ Pααj Q1−uαj 中N + 3m个 j αj N m
α =1 j =1
未知参数(其中N个能力参数,3m个项目参数)
L(θα | a1, b1, c1,K, a3, b3, c3; uα1, uα 2, uα 3) = ∏ P Q
uαj αj j =1
3
1−uαj αj
极大似然估计
L =∏∏P Q
α =1 j =1
uαj αj N m 1− u α j αj
将似然函数L取极大值的自变量 将似然函数 取极大值的自变量 取值作为待估参数估计值的估 计方法, 计方法,就称为极大似然估计方 法(MLE)。 )。
Uαj − Pαj ∂Pαj ∑ PαjQαj ∂θα = 0 j =1 N Uαj − Pαj ∂Pαj ∑ PαjQαj ∂bj = 0 α =1 N Uαj − Pαj ∂Pαj ∑ PαjQαj ∂aj = 0 α =1 N Uαj − Pαj ∂Pαj ∑ PαjQαj ∂cj = 0 α =1
• 能力为 θα 的被试在m个项目的作答模式记为:
U α = (U α 1, U α 2, LL , U α m ) (1 ≤ α ≤ N )
全体被试的作答模式(作答矩阵)记为U 全体被试的作答模式(作答矩阵)记为U
U = (U αj ) N × m
U 11 U 21 U = U 31 L UN 1 U 12 L U 1m U 22 L U 2 m U 32 L U 3m L L L UN 2 L UNm
∂ ln L ∂ ln L ∂ a2 f = ∂a Df = 2 ∂ ln L ∂ ln L ∂b∂a ∂b
∂ ln L ∂bj = ∂ ln L = ∂aj
∑ ( − D ) a (U α α
相关文档
最新文档