项目反应理论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目反应理论
任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。
项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。
它们的局限性主要表现在以下几个方面:
(1)信度估计的精确性不高
测量的重要目标就是降低测量误差,提高测量的精度。
在经典测量理论中,信度被定义为真分数的方差与实得分数(原始分数)的方差之比。
然而,在此定义中,真分数的方差和误差的方差都无法求取。
为了估计信度,CTT又提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。
但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。
另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。
而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。
当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。
而且测量误差值会随着被试水平与测验难度距离的增加而变大。
(2)各种测量参数的估计依赖于被试样本
经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。
如信度、效度、项目的难度、区分度等。
但是这些参数的估计对样本的依赖性是很大的。
如项目难度,对于同一题目,若样本的群体水平较低,就有较高的难度估计值。
测验的信度和效度采用相关分析法,同样受到样本的影响。
为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。
但经典理论所用的是随机抽样,随机抽样总有一定偏差存在。
何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。
因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(3)误差指标笼统单一,不精细。
CTT导出测量的标准误差SE,SE是所有被试测量误差的标准差,或称为测验平均标准误差。
CTT把此值用来描述所有被试的测量精确度。
这种所有被试都使用等测量标准误差是CTT 理论的一大不足,因为相同的测验对于不同水平的被试会有不同的测量误差,一个被试的水平与一份测验的难道相当,测量的误差较小,结果较准确。
被试水平低于或高于测验难度,测验的误差就会增大。
因此,用一个笼统单一的或作为平均的误差指标来反映所有被试的测量精确度是难以令人满意的。
因此,必须寻求针对每一个被试的更为精细的测量误差指标。
(4)能力难比较
被试的测验分数依赖于所测项目的难度。
不同测验测量同一种心理特质时,会得到不同的测验分数。
项目难度高,被试测验分数低。
这样,被试在不同测验上所得的分数难以比较。
(5)缺乏预测力
CCT不能提供不同能力水平的被试如何对项目作出反应的信息,而实际工作中却往往要对被试答对各项目的概率进行估计。
项目反应理论(Item Response Theory, IRT),又称潜在特质理论。
1、IRT的基本思想
潜在特质,假设被试对于测验的反应是受某种心理特质的支配,首先我们要对这种特质进行界定,然后估计出被试这种特质的分数,并根据该分数的高低来预测和解释被试对于项目或测验的反应。
因为这种特质无法直接测量,所以称为潜在特质
2、IRT的基本思路
确定被试的心理特质值和他们对于项目的反应之间的关系,这种关系的数学形式就是“项目反应模型”。
IRT的核心就是数学模型的建立以及对模型中各个参数的估计。
3、IRT的基本假设
(1)潜在特质空间的单维性假设
潜在特质空间指对于某一特殊行为的发展起作用的所有潜在特质的集合。
大多数项目反应模型都假设完全潜在空间是单维的。
(2)局部独立性假设
被试对一个测验项目的反应不受他们对其他测验项目反应情况的影响。
(3)项目特征曲线假设(ICC)
反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质水平之间的函数关系。
4、项目反应理论的重要特点
(1)项目的难易度的估计不因样本不同而不同。
(2)被试能力的估计不因测验的改变而改变。
(3)测量误差的估计对每一位被试单独给出。
(4)要为项目参数建立一个指标体系
(5)要为被试的能力建立一个指标体系
5、优点与局限性
(1)能力参数估计的不变性,即个体独立于测验。
(2)项目参数估计的跨群体不变性。
CTT中各种项目参数严重依赖与被试样本。
在IRT中测验项目参数的估计具有跨群体不变性,即测验项目参数的估计独立于被试样本,与所使用的被试样本无关。
(3)提供被试能力估计值的精确度指标。
通过模型测得的被试能力水平,可以精确估计其测量误差。
(4)被试的能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。
这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。
如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。
IRT也存在着一定的局限性:
(1)它假定所测的特质是单维的,这只是一种理想状态,在现实中很难满足这一假设。
(2)现有的IRT模型主要是针对的是二级评分试题(即只有正确与错误两种答案的试题),而对多级评分的试题模型,虽说有一些探索,但还不是太成熟。
(3)IRT的参数估计不依赖于特定的样本,但是要使参数的估计具有稳定性,需要大样本才可以,而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值,其人才和物力的投入都是相当可观的。
上述问题都制约了IRT理论在实践中应用的推进程度。
但
必须提出的是,IRT代表了现代测量理论的发展方向,随着统计理论成熟和计算机技术的普及和测评需求的发展,IRT理论将逐步扩大其的现代人才测评中的应用范围。
6、IRT的运用
(1)对题库建设的特殊贡献
题库质量高低的一个重要标志是题库中题目技术参数的完备性与准确性。
CTT题库的计量技术参数主要是难度、区分度、猜测度,IRT题库的计量技术参数除这三个外,还增加了题目信息函数。
把题目信息函数作为技术参数存入题库是IRT独有的,提高了题库参数的完备性和题库管理的可控性。
参数准确性也是题库质量的重要条件。
在CTT的题库建设中,建题库者力求题目参数的准确性,但CTT题目参数的估计严重依赖于样本,这给维持参数的准确性带来了困难。
在IRT 中,由于题目参数具有跨群体不变性等特点,使题目参数更具准确性。
(2)常模参照测验的编制
测验编制的一个重要目标是要使测验误差达到最小。
在IRT中,可以预先规定在特质量表上所有值的最大允许误差,然后利用公式求出所有水平值上的最小允许信息量,形成一个信息函数。
这样,测验中用较少的试题就可以达到不超过允许误差的要求,提高了测验的效率。
(3)目标参照测验的编制
目标参照测验的编制有两条原则:一是准确划定合格的分数线,二是要尽量降低对被试合格与不合格的误判率。
项目反应理论在备有题库条件下组拼目标参照测验可以比较理想地实现这两条原则。
(4)计算机化自适应测验的编制
计算化自适应测验是当今测验技术的最高水平,也是项目反应理论最有特色的应用。
在项目反应理论的指导下,结合计算机的应用,可以实现计算机化自适应测验。