IRT及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录
前言.............................................................................................. 错误!未定义书签。

第一章、试题反应理论的概念与发展...................................... 错误!未定义书签。

第一节试题反应理论的基本概念.................................. 错误!未定义书签。

第二节试题反应理论与古典测验理论的比较.............. 错误!未定义书签。

1.模式特性: (4)
2.试题参数特性 (5)
3.能力与分数量尺特性 (5)
4.测量精准度 (6)
5.应用 (7)
第三节常见的IRT模式 ................................................. 错误!未定义书签。

(一)二元计分模式....................................................... 错误!未定义书签。

(二)多元计分模式....................................................... 错误!未定义书签。

第四节IRT的基本假设 .................................................. 错误!未定义书签。

1.单向度 (17)
2.局部独立性 (18)
第五节当代IRT的发展 ................................................. 错误!未定义书签。

第六节IRT的应用 .......................................................... 错误!未定义书签。

1.编制测验(量表) (20)
2.测验等化(equating) (21)
3.建立题库 (22)
4.组合测验 (22)
5.发展计算机化适性测验 (23)
第二章、IRT在测验编制上的应用 .......................................... 错误!未定义书签。

第ㄧ节测验(量表)设计原理........................................... 错误!未定义书签。

1.测量模式的概念 (24)
第二节选择模式.............................................................. 错误!未定义书签。

第三节估计受试者程度值.............................................. 错误!未定义书签。

1.最大概似估计法 (30)
2.最大后验估计法 (30)
3.期望后验估计法 (31)
第四节试题分析.............................................................. 错误!未定义书签。

第五节测验讯息量与测量标准误.................................. 错误!未定义书签。

第六节检视资料的符合性.............................................. 错误!未定义书签。

一、基本假设的检定.......................................................... 错误!未定义书签。

1.单向度 (36)
2.局部独立性 (38)
第七节以IRT编制测验的实例 ..................................... 错误!未定义书签。

ㄧ、能力测验的编制.................................................. 错误!未定义书签。

前言
试题反应理论(IRT)是测验领域中较新的技术,它已经被应用在教育、心理、医疗等相关领域中,如国中基本学力测验、托福、GRE、GMAT考试,以及国外的一些人格量表与医学相关量表的编制。

当代著名的计算机化适性测验(CAT)也必须仰赖IRT的理论与技术才能运作。

本次工作坊的主要内容是以介绍IRT的概念与实务应用为主,上午的课程是先对IRT做基础概念的介绍,接着以生活质量量表与国中基本学力测验的发展为例,介绍IRT的基础应用,并有实际数据让学员上机操作,对于有量表发展需求者而言相当实用。

下午是IRT的进阶课程,介绍IRT在多向度测验及计算机化适性测验上的应用,对于有兴趣发展人格量表、多元性向测验等多向度测验,或是想发展计算机化适性测验的人而言是很适合的课程。

第一章、试题反应理论的概念与发展
第一节 试题反应理论的基本概念
试题反应理论(item response theory; IRT)主要是用来描述试题特性(难度、鉴别度、猜测度)与受测者的能力(潜在特质)如何影响其答题反应的一种数学模式。

最简单的IRT 模式如下列公式(1)所示(Rasch, 1960):
)()(1i j i j b b ij e e P --+=θθ, (1)
其中θj 为考生j 的能力,b i 是试题i 的难度,而P ij 是受测者答对某个题目标机率。

在IRT 的模式中,受试者在某个题目上的答对机率是同时受到受试者能力与试题难易度所影响;而受试者在测验上的整体表现就是各题目答对机率的联合机率。

藉由这个数学模式与联合机率的概念,我们就能根据受试者在各个题目上的答题反应来估计受试者的能力以及题目的难易度,并且让接受不同题目的受试者其能力可以互相比较。

IRT 其实是许多试题反应模式的总称,当代已经有许多IRT 模式分别适用在许多不同的测验情境中。

常见的 IRT 模式可以根据其所包含的试题参数数目来分,分为单参数的Rasch 模式、二参数模式与三参数模式(Birnbaum, 1968)。

也可以依据计分型态来分,分成二元计分(Dichotomous )与多元计分(polytomous )模式;或是依据适用的作答方式来分,分成评定量尺(rating scale )模式、部分计分(partial credit )模式、名义量尺(nominal scale )模式等。

第二节 试题反应理论与古典测验理论的比较
试题反应理论与传统测验理论(classical test theory; CTT)的比较见表1-1所示(Embretson & Reise, 2000; Hambleton & Swaminathan, 1986)。

大致可以从模式特性、试题参数特性、能力与分数量尺特性、测量精准度与应用等几个层面来看。

1.模式特性:
IRT的模式是针对单一试题的作答反应所提出的数学模式,在其模式中同时考虑了受试者能力与试题特性对答对机率的影响,所以它是一种直接描述作答行为的模式。

此外,IRT其实是许多试题反应模式的总称,这些IRT模式是分别依据各种不同计分方式与不同作答方式的测验情境所发展出来的。

表1-1 试题反应理论与传统测验理论的比较
试题反应理论传统测验理论
模式特性 1.针对单一试题的作答反应所提出的
数学模式。

2.现有各种不同的IRT模式,适用于不
同计分方式与作答方式的测验中。

1.针对测验总分所提出的数学模式。

2.各种不同计分方式与作答方式的测验都使用同一套模式。

试题参数特性题目特性(参数)的估计不会受到试者能
力所影响。

题目特性(参数)的估计会受到试者能力所
影响。

能力与分数量尺特性1.对受试者的能力估计不会受到题目
特性所影响。

2.根据IRT模式与概似函数估计受试者
最有可能的程度值,有比较强的数学
理论基础。

3.可以直接参照题目的特性来解释分
数,也可发展出一套参照标准(常模
参照或标准参照)来解释分数。

4.用某些IRT模式可算出等距量尺。

1.对受试者的能力估计会受到题目特性
所影响。

2.根据各题目的配分直接加总所得的分
数,间接推测出受试者的程度值,较缺
乏数学理论基础。

3.通常需要额外发展出一套参照标准(常
模参照或标准参照),才能解释测验分
数的意义。

4.当群体的分数完全符合常态分布时,才
能转换出等距量尺。

测量精准度(信度) 测量精确度的评估是以题目为单位来
计算再加总起来,因此受试者的测量精
确度(讯息量)是随着受试者的能力以及
所接受的题目特性而有所不同。

测量精确度的评估是以测验为单位,因此
接受同一测验的所有受试者其测量精确
度(信度)都相同。

应用编制测验(量表)、分数等化,编制题库、
计算机化适性测验、组合测验
编制测验(量表)
整体评估优点:具有能力估计不变性、具有题目
参数估计不变性、测量精准度的
概念较合理、应用层面较广。

优点:模式简单易理解,能力与试题参数容易计算。

缺点:不合理地假设不同人的测量精准
缺点:模式不易理解、能力估计与试题参数估计较麻烦,须仰赖计算机
软件来分析。

度相同、应用层面较狭隘,受试者程度值会受题目特性所影响、题目参数值会被受试者特性所影响。

传统测验理论则是一种针对测验总分所提出的数学模式。

在传统测验理论中假设测验所得的分数是包含了真实分数与误差两个部份。

如公式(2)所示:
X(测得分数)=T(真实分数)+E(误差), (2) 不过这个模式并未说明测验总分是如何得到的(一般都是直接对各试题的得分加总),也不知道受试者答题反应与题目难易度或受试者能力关系。

在传统测验理论中,不论是使用何种题型、何种计分方式或作答方式,都是使用公式(2)来描述测得分数的特性,所以是一种与作答行为无关的数学模式。

2.试题参数特性
试题参数是指试题的难易度、鉴别度、猜对率……等用来描述试题特性的指标。

在IRT中,题目参数的估计不会受到试者能力所影响。

这主要是因为在IRT 中已经将试题参数与受试者能力同时纳进其模式里,因此在估计其试题参数时已经考虑了受试者能力的影响,因此所估计出来的试题参数不会受到受试者能力所影响。

所以在IRT中估计试题参数时,受试者是否具有代表性并不是很重要,只要受试者的人数够多(单参数模式至少200人,三参数模式至少1000人),程度值不会过度集中,就能够估计出稳定的试题参数。

在传统测验理论中,试题参数几乎是完全决定于受试群体的能力。

以难易度为例,如果受试群体的能力较高,则计算出来的试题难易度值(答对率)就变高,亦即题目变简单;如果受试群体的能力较低,则计算出来的试题难易度值(答对率)就变低,亦即题目变难。

所以试题是难还是简单,完全取决于抽样时所选到的受试群体能力高低,因此样本的代表性对试题参数的估计有很重要的影响力。

同样地,试题鉴别度也会明显地受到受试群体的能力分散程度所影响。

3.能力与分数量尺特性
在IRT中,对受试者的能力估计值也不会受到试题特性所影响,这也是因为
IRT 模式已经将试题参数与受试者能力同时纳进其模式里,因此在估计受试者能力时已经考虑了试题参数的影响,因此所估计出来的试题参数不会受到受试者能力所影响。

此外,IRT 的程度值是根据IRT 模式与概似函数(likelihood)所估计出来的,有比较强的数学理论基础。

而IRT 的程度值与试题难易度值是共享同一个量尺,也就是说一个人的能力高低可以直接参照题目的难易度以及题目的描述句来解释,因此不需要参照群体就能详细地解释受试者的能力特性。

最特别的是,如果使用IRT 中的Rasch 模式(单参数模式),则所估计出来的受试者能力值具有等距量尺的特性,亦即其能力量尺的单位距离是相同的,这可以由Rasch 模式的推估证明出来(王文中,民86)。

在传统测验理论中,受试者的能力值是直接加总测验中各题目的得分所得。

当测验的题目较难,则受试者的得分通常会比较低;当测验的题目较简单,则受试者的得分通常会比较高,意即受试者的能力高低完全决定于他所接受到的题目难易度。

而这种直接将各题目的得分加总形成能力值的做法也缺乏数学理论依据,因为人的能力并不是如此单纯的根据题目的答对情形来加总,否则只要重复地让一个人作同样的题目10次,能力岂不变成10倍。

此外,传统测验理论所得到的分数无法直接依题目特性来解释,需要另外建立一套参照标准(常模参照或标准参照)才有办法解释测验分数的意义。

而且传统测验理论所得的分数也不具备等距量尺的特性,因此其分数严格说来并不适合进行四则运算,也不适合直接拿来做t 检定或因素分析等统计运算。

4.测量精准度
IRT 的测量精准度是以讯息量(information)的概念来表示。

讯息量是指某种难度的题目对某种能力的受试者的测量误差平方根的倒数。

如公式(3)所示:
21
I e
σ=, (3) 其中I 为讯息量,2e σ为测量误差。

测量误差愈低,对此人的测量就愈精准,因
此该题所提供的讯息量就愈高。

相同题目对不同能力者而言其讯息量并不相同,因此即使是接受相同的测验,对不同能力者而言,他们的讯息量或测量误差应该是不相同的。

这种测量精准度的特性较符合实际的测验情况,因为测验题目的难
易度很难同时适用于各种不同能力的受试者,对高能力者而言,题目可能过于简单而测不出其能力;对低能力者而言,题目可能过难而也测不出其能力;只有对中等能力者而言,题目的难易度较适当,较能精确地测出其能力。

IRT的讯息量概念恰可以反映出测验对不同能力者有不同测量精准度的现象。

反观传统测验理论,其测量精确度的评估是以测验为单位所计算出来的,也就是测量标准误(standard error of measurement; SEM)。

我们可以经由X=T+E的概念算出测验的信度(reliability),再经由下列公式转换得来:
=
SEMσ
r-1
其中σ为群体分数标准差,为r测验信度。

由于在传统测验理论中,接受相同测验的受试者其信度都相同,因此测量标准误也被视为相同。

而这样的假设显然与实际的测验情况是不符合的,因为测验中的题目不见得对各种不同能力的受试者而言都适用。

5.应用
IRT是促进现代测验进步的重要关键,尤其是计算机化适性测验。

基于IRT 的单向度假定与受试者能力估计的不变性,接受不同题目的受试者其能力就可以比较,因此就能让受试者都接受适合于自己能力的题目,达到适性测验的目的。

除此之外,IRT的试题参数较不受样本所影响,因此很适合用来发展题库;而IRT 的能力也较不受试题参数所影响,所以也很适合用来进行能力分数的等化。

另外,IRT也明确地建构出试题与测验之间的关系,因此可以直接根据测验的目的(例如希望对不同能力者的测量误差要低于多少)来选择测验题目,组成各种形式的测验。

而传统测验理论的应用就比较局限在测验编制或量表编制上,很难应用在上述各层面中。

整体而言,IRT是属于理论架构较严谨、应用层面较广的测验理论,IRT所提来的诸多测量特性都较符合实际的测验情况;但是由于其模式较复杂不易让人理解,计算过程也较繁琐,因此尚未广泛地被大众所接受。

不过随着计算机科技的进步,进行IRT分析时所需要的计算已经都可以用计算机来执行,因此也已经渐渐被应用在一些著名的大型测验中,例如国外的TOEFL、GRE测验,以及国内的国中基本学力测验等。

而传统测验理论由于已经被使用许久,而且其理论概
念较简单,目前现有的测验也大多以它为基础所发展出来的,因此短期内还不太容易被IRT所取代;然而它在测量特性上的一些问题以及应用层面的局限性,已经让某些领域的测验(量表)编制者渐渐转向以IRT为理论基础来发展测验。

相信未来IRT在测验评量领域的普及率应该会愈来愈广。

第三节常见的IRT模式
由于IRT是许多试题反应模式的总称,直到现在IRT模式还在发展中。

以下仅以计分的方式来分,分别介绍常见的几种IRT模式。

(一)二元计分模式
二元计分模式是指受试者在题目上的答题反应只有「答对」或「答错」两种。

这类模式又可以根据模式中所考虑到的试题参数个数来分,分为单参数的Rasch模式(Rasch, 1986)、二参数模式与三参数模式(Birnbaum ,1968; Lord , 1952)。

1. Rasch模式
Rasch模式如公式(1)所示,先前已经介绍过了。

在Rasch模式中认为,影响受试者答对机率的试题特性主要是难易度,因此只要了解人的能力与题目的难易度,就能知道该人在某题目上的答对机率是多少。

而在Rasch模式中,所有试题都被要求要具有高鉴别度(都是 1.0),而受试者猜对题目标机率已经被纳入受试者能力中,而不是试题特性,因此猜对率为0。

该模式最大的特色是它对试题的特性与受试者的作答反应有较严格的要求,如果都能符合这些要求,则所估计出来的能力值就能反映出受试者的真实能力,而且是等距量尺。

根据Rasch模式,我们可以画出各试题的特征曲线(item characteristic curve; ICC),如图1-1所示。

对同一试题而言,一个人的能力愈高其答对该题的机率应
该也愈高,因此这个曲线是单调递增(monotonically increasing)曲线。

由于每个试题都被要求需要有相同的高鉴别度,因此每条曲线在中段的部分看起来都很接近平行,整份测验的试题特征曲线放在一起就好像是一把尺上面有许多刻度一般。

其中以答对率为0.5向右划一条横线,与各试题特征曲线的交叉点,对应到能力轴上的值,被定义为该题的难易度。

由此也可以看出在IRT中,能力与试题难易度被视为是被放在同一个量尺上的相对概念,因为模式中两者的数值是可以直接相减的。

图1-1 Rasch模式中不同试题的特征曲线图
2.二参数模式
二参数模式最早是由Lord (1952)所提出,当时所提出来的是常态肩型模式,之后再经Birnbaum (1968)修改成较简单的对数模式,如公式(4)所示。

)
()(1i j i i j i b a b a ij e
e
P --+=
θθ, (4)
其中i a 是试题i 的鉴别度,其它的符号意义与公式(1)相同。

在二参数模式中,与 Rasch 最大的不同点是题目可以被允许有不同的鉴别度,而这些不同的鉴别度会对受试者答对题目标机率有不同程度的调节性影响。

这种模式与实际数据的分析结果较为接近,因为命题者所设计出来的试题很难都具有相同的高鉴别度,有些题目的鉴别度总是不符合预期,但是依然能发挥部份的测量功能。

二参数模式所画出来的试题反应曲线如图1-2所示。

在图1-2中,有的曲线
的中段是比较陡峭的(例如a1),有的则是比较平缓的(例如a2),这些题目虽然具有相同的难易度,但是随着受试者能力的提升,他们答对这两题的机率变化情形却不相同。

在a1中段的区域,能力只要有些微的改变其答对率就有显着的提升;而在a2中,同样的能力改变量,其答对率的提升情形明显不如a1。

图1-2 二参数模式中不同试题的特征曲线图
3.三参数模式
三参数模式的概念也是源自于Lord (1952)与Birnbaum (1968)。

这种模式主
要是针对那些可以经由猜测来答对试题的测验情况,例如选择题、是非题……等。

如公式(6)所示。

)
()(1)
1(i j i i j i b a b a i i ij e
e
c c P --+-+=θθ, (5)
其中i c 是试题i 的猜对率,这里要特别注意的是此猜对率是指能力极低者猜对该题的机率,随着能力的提高,答对该题的机率仍然会提升,但可以提升的机率范围仅有i c -1。

由于在模式中,每个题目除了有难易度与鉴别度的特征外,还有可以被猜对的可能性,因此这种模式比二参数模式更能符合实际的数据。

三参数模式的试题特征曲线如图1-3所示,从图1-3可以看出试题特征曲线
更具有多样性。

在图形左方,各试题特征曲线与纵轴的交叉点即为该题的猜对率,也就是能力很低者答对该题的机率。

在以选择题为主的测验情境中,我们经常可以发现有些试题因为诱答选项设计不佳,或是题目中有些暗示答案的线索,造成即使能力很低者也容易猜对该题(例如c1),此时就需要这类模式来找出那些题目。

而三参数模式在估计受试者能力时也已经考虑了不同题目的猜对率对受试者答对机率的影响,因此所得到的能力值应该会比较符合其实际能力水平。

图1-4 三参数模式中不同试题的特征曲线图
(二)多元计分模式
多元计分是指受试者在题目上的答题结果不只有一种,而是有很多
种可能性,例如:在成就测验中,经常有计算题、简答题或申论题等开放式反
应的题型,根据受试者回答题目的完整性,分别给予不同的分数或等级。

或是在态度量表中常见的Likert 量表,将受试者在量表题目上的答题反应分成「非常同意」、「大致同意」、「没意见」、「不太同意」、「非常不同意」等,并分别给予1~5分。

关于这些多元计分题的IRT 模式相当多,在此仅介绍两种较常见的模式。

1.部份给分模式
部份计分模式(partial credit model, PCM ) 是由Masters(1982)所提出来的,由于这是他归纳各种适用于次序反应数据的模式所得,因此PCM 的适用层面较广。

只要是题目的评分点有次序的概念,得到低分比较简单,得到高分比较难时,就能适用于这种模式。

PCM 的概念如公式(6)所示:
∑===∑-∑-=
i
m r r
j ij x
j ij ix P 0
]
)([exp
)]
(exp[)(δθδθθ, (6)
其中∑=≡-0
0)(j ij δθ,i m 是第i 题的最高得分,而ij δ是第i 题的第j 个得分的难度
阶(step difficult)。

因此)(θix P 可以解释成在第i 题所有可能的得分类别中,得到x 分的机率有多高。

例如,某个计算题的计分方式是0~3(即i m )分,受试者得到1分的机率是:
∑===∑-∑-=
3
1
1]
)([exp
)]
(exp[)(r r
j ij j ij i P δθδθθ
)]
(3exp[)](2exp[]exp[1]
exp[32112111i i i i i i i δδδθδδθδθδθ++-++-+-+-=
而1i δ、2i δ、3i δ就是分别从0分要变成1分、从1分要变成2分,或是从2分要变成3分所需跨越的难度阶(或是能力点)。

这可以用图1-4来说明较清楚。

在图1-4中,依各种能力者得到不同分数类别的机率所画出来的曲线称为类
别反应曲线(category response curve)。

其中,曲线0与曲线1的交叉点即为1i δ,此即为从0分要变成1所需跨越的难度阶,或是当受试者的能力值高于1i δ时,则他得到0分的机率将会高于他得到1分的机率。

藉由这种多元计分模式,我们可以知道受试者要在某个题目上得到某个分数时(例如:得到1分),其能力的可能范围所在(例如:图中的1i δ~2i δ之间),因此就能够对受试者的能力作更精确的测量。

但是要达到这个目标,需要有客观的评分结果。

从另一个观点来看,ij δ也可以看成是评分者把受试者评为某种分数点的严苛程度,ij δ愈高,表示评分者对于该题要得到某个分数点的要求愈高,意即愈严苛。

图1-4 多元计分模式中,在某试题得m 分的类别反应曲线图
2.评定量尺模式
评定量表模式(rating scale model, RSM)是由Andrich (1978)所提出来的,主要是适用在量表中所有的题目都有相同的计分方式时。

例如:在自陈式人格或态度
量表中常使用五点式或四点式的Likert 量表来让受试者回答,每个题目都使用相同的评分点数,其基本假设是受试者在各评分点上的差异,对所有题目而言都是相同的。

如公式(7)所示:
∑===∑+-∑+-=
m
r r
j j i x
j j i ix P 0
]}
)([{exp
}
)]([exp{)(δλθδλθθ, (7)
其中i λ为第i 题的平均难度,j δ是量表中各评分点的难度阶与平均难度之差距,
而∑=≡+-0
0)]([j j i δλθ。

由于RCM 假定所有题目的j δ都相同,因此不需像在PCM
中ㄧ样要估计出每个题目的难度阶ij δ,而是整份量表只需要估计出m 个难度阶即可。

RSM 所画出来的类别反应曲线与PCM 很像,在此不再重复,读者可自行参
考图1-4。

唯一不同的是,在PCM 中,不同题目的类别反应曲线中,各类别的相对位置都不太相同,如图1-5所示;但是在RSM 中,不同题目的类别反应曲线中,各类别的相对位置都一样,只是平均难度不同,所以看起来只是整个图形向左或向右平移而已,如图1-6所示。

图1-5 在多元计分模式,不同试题的类别反应曲线图
图1-6 在评定量尺模式,不同试题的类别反应曲线图
第四节IRT的基本假设
IRT有两项重要的基本假设,数据必须符合这些假设才能具备第二节所述的各项特性,否则就不适合用IRT模式来进行分析,当然也无法具备其良好的测量特性。

此两项重要的假设是单向度(unidimensionality)与局部独立性(local independency)。

1.单向度
单向度是指同一份测验中的所有题目主要都是测量相同的某一项能力,或是受试者在测验题目上的答题反应主要是受到单一项能力所影响。

其实这是大部分测验的必备条件,只有当测验中所有题目都测到相同的能力,我们才适合将受试者在这些题目上的得分经由某种组合得到一个分数,用此分数来表示受试者在这项能力上的程度。

例如,我们必须检验数学科测验中的所有题目是否都是在测量数学能力,而不是测到了其它能力,这样受试者的测验分数才能代表他的数学程度。

如果其中有些题目因为语汇表达太艰深或题意不清,使语文能力较差的受试者看不懂题目而答错,此时就表示这份数学测验不只测量到数学能力,还测量到语文能力,因此就不是单向度测验,不适合用IRT来进行分析。

有些智力测验或综合能力测验(自然科、社会科)经常将许多测量不同能力的分测验放在一起,就整份测验而言即是违反单向度假定,因此不适合进行IRT 分析,也不适合形成单一分数来解释受试者的能力。

不过如果测验结果是将这些分测验分开来呈现,就能够用IRT模式来针对每个分测验进行分析。

另外,当题目本身就是设计用来同时测量两种能力,受试者必须同时具备这两种能力才能答对时,也是违反单向度假定。

幸好目前已经发展出多向度试题反应模式(multidimensional item response theory; MIRT)可以用来处里这些测验(Adams, Wilson & Wang, 1997; Hattie, 1981; Mckinley & Reckase, 1983)。

相关文档
最新文档