论《经典测量理论、项目反应理论、概化理论的理论观点及相互比较》

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

论《经典测量理论、项目反应理论、概化理论的理论观点及相互比较》
学校:
学院:
班级:
学号:
姓名:
论《经典测量理论、项目反应理论、概化理论的理论观点及相互比较》
心理与教育测量理论的发展经历了两个时期:50年代之前只有真分数理论起作用,称为经典测量理论阶段;50年代至今,除经典测量理论外,还有项目反应理论、概化理论等,可称为多重理论并存阶段。

经典测量理论在测验发展中有着特殊的地位,它既是历史上的第一个测验理论,也是测验的最一般、最基本的理论,并且目前仍具有很强的生命力,应用极为广泛。

现代测验理论大多是在经典测验理论的研究基础上,针对它在某个方面存在的问题发展起来的。

如项目反应理论,就是为了克服经典测验理论的信度问题发展起来的。

在目前这个多种理论并存阶段,我们应该看到各种理论都有其合理之处,同时也各有其局限性。

一般将测量理论分为经典测量理论、概化理论和项目反应理论三大类,或称三种理论模型。

人们将以真分数理论(True Score Theory)•为核心理论假设的测量理论及其方法体系,统称为经典测验理论(Classical Test Theory,CTT),•也称真分数理论。

一、经典测量理论
真分数理论是最早实现数学形式化的测量理论。

它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。

50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。

所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(True Score)真分数。

而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。

由于有测量误差存在,所以,观察值并不等于所测特质的真实质,换句话说,观察分数中包含有真分数和误差分数。

而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。

经典测验理论是心理学研究者所熟悉的,其基本思想是把测验的得分看做真分数和误差分数的线性组合,可归结为如下简单数学模型:X=T+E,其中X是观测分数、T是真分数,E是误差分数。

传统信度效度项目分析的原理与方法均建立在这一模型之上。

信度是测量理论中最重要的核心概念,指测量结果的一致性程度,亦称可靠性程度。

在经典测量理论中信度被定义为:一组测量分数的真分数的方差(变异数)在总方差(总变异数)中所占的比率。

由于真分数的方差和误差分数的方差是无法获得的,因此这个信度概念还只是一个理想的构想的概念,不能直接计算。

测量的效度是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。

效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个
很复杂的问题,特别是对人的潜在特质的测量,因为潜在特质并不是一个看得见摸得着的物质实体,而是一种观念构想。

二、项目反应理论
项目反应理论(item response theory)也称潜在特质理论或潜在特质模型,是一种现代心理测量理论,其意义在于可以指导项目筛选和测验编制。

项目反应理论假设被试有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。

项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。

通过项目反应理论建立的项目参数具有恒久性的特点,意味着不同测量量表的分数可以统一。

项目反应理论通过项目反应曲线综合各种项目分析的资料,使我们综合直观地看出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。

项目反应理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对经典测量理论(Classical Test Theory,简称CTT) 的局限性提出来的。

IRT是用来分析考试成绩或者问卷调查数据的数学模型,这些模型的目标是来确定的潜在心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。

目前广泛应用在心理和教育测量领域,基于IRT理论的计算机自适应测试(CAT)是CAA常用的测试方法。

潜在特质模型(latent trait model)认为,在被试样本可观察到的测试成绩和基于该成绩不可观察的特质或能力之间存在着联系。

IRT的理论体系(三条基本假设)
–假设一:能力单维性假设——指组成某个测验的所有项目都是测量同一潜在特质;
–假设二:局部独立性假设——指对某个被试而言,项目间无相关存在;
–假设三:项目特征曲线假设——指对被试某项目的正确反映概率与其能力之间的函数关系所作的模型。

IRT最大的优点是题目参数的不变性,即题目参数的估计独立于被试组。

它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响;同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平所决定,一个被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。

IRT理论所做出的一切推论都必须以局部独立性假设为前提。

IRT根据受测者回答问题的情况,通过对题目特征函数的运算,来推测受测者的能力。

IRT的题目参数有:难度(difficulty index)、区分度(discriminative powder index)和猜测系数(guessing index)。

根据参数的不同,特征函数可分为单参数模型(难度)、双参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等。

IRT 的模型有Logistic模型,Rasch模型,Lord的正态卵形曲线模型等二十余种。

项目反应理论虽然在国外发展很快,但在国内研究不多,因此对多数心理学工作者来说是比较陌生的。

其基本思想与心理学中关于潜在特质的一般理论有关。

项目反应理论假设被试对测验的反应受某种心理特质支配,于是我们就可对这种特质进行界定,然后据此估计出该被试这种特质的分数,并根据其高低来预测、解释被试对项目或测验的反应。

因此项目反应理论主要用于建立各种与数据拟合的模型,以此确定被试的潜在特质值和他们对于项目的反应之间的关系。

三、概化理论
凡测量都有误差,误差可能来自测量工具的不标准或不适合所测量的对象,也可能来自工具的使用者没有掌握要领,也可能是测量条件和环境所造成,也可能是测量对象不合作所引起。

总之产生测量误差的原因是多种多样的,而CTT
理论仅以一个E就概括了所有的误差,并不能指明哪种误差或在总误差中各种误差的相对大小如何。

这样对于测量工具和程序的改革没有明确的指导意义,只能根据主试自己的理解去控制一些因素,针对性并不强。

鉴于此种情况,二十世纪六十至七十年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory)简称GT理论。

GT理论的基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。

并用“全域分数”(Universe Score)代替“真分数”(True Score)•,•用“概括化系数,•G系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。

概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。

测量工作中要加以认识和予应用的心理特质水平是测量目标。

而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement)。

如学生阅读能力测验,•其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。

这两个因素就是测量侧面。

这里对学生阅读能力的测量是在双侧面情境的条件下进行的。

测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。

测量侧面又分为随机侧面和固定侧面。

随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。

固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。

因此,进行测验的标准化就是对某些测量侧面进行固定。

固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。

概化理论又称为概括力理论或拓广理论,它将因素试验设计及其分析、方差分量模型等统计工具应用到教育与心理测量学,对经典测量理论中的一个重要概念——信度进行了推广,即结合测量的情境关系对经典测验理论给出的笼统的误差进行探查和分解,辨明误差的不同来源,并且在一定的范围内变动测量的情境,考
查这种变动引起的误差的相对变化,从而达到误差方差进行控制,提高测验“信度”的目的。

四、相互比较
1.经典测验理论与概化理论的比较
概化理论是经典测验理论的拓广,并且受到方差分析法将误差进行分解的启发。

因此,概化理论与经典测量理论的最大差别在于前者在测量误差控制方面比后者更深入。

与其他的测量一样,心理与教育测量中形成误差的原因是多种多样的。

有由测试环境与被试心理不稳而引起的误差.有由于评分员标准不一引起的误差,还有由于试题性质不一造成的误差等等。

经典测验理论对测验误差作出的重大贡献是给出了测验原始分数(X)等于真分数(T)与测验误差(E)之和的线性模型,还给出了测验信度的概念,即测验信度系数等于真分数方差在观测分数方差中所占的比例,于是测验信度系数成了测验误差的另一种度量形式。

然而,经典测验理论给出的线性模型是粗糙的,对测试误差的形成没有进行更深入的研究,故不可能区分如上所述的各种各样不同的误差。

有时。

只能撇开其他误差而只考虑其中一种误差。

这是经典测验理论误差估计的薄弱之处。

概化理论则认为可以根据引起误差的原因将E进行分解,将总误差的构成剖析清楚,并且可以给出多种信度。

但是,经典测验理论的局限性在概化理论中仅有个别的得到了一些改善,而大多数还依然存在。

原因在于概化理论与经典测验理论同属于随机抽样理论,概化理论并未改良经典测量理论的微观结构,也就是没有改良经典理论的项目参数系统。

概化理论只是更多地从整个测验的宏观结构及其与外部测验条件的关系上作了深入的计量分析。

因此.经典理论在其自身框架下的一些主要局限性依然存在。

2.经典测量理论与项目反映理论的比较
经典测验理论经过长期的发展,仍存在许多无法克服的技术问题。

首先,经典测验理论所得的项目统计量受样本的抽样变动影响大项目反应理论的这一优良性质为建设大型题库,编制各种测验提供了方便。

第二,经典测验理论中,被试测验分数依赖于项目的难度,使得进行不同测验的被试难以比较。

项目反应理论则不同,因为它具有参数不变性的优点,只要测验数据和模型是拟合的,就能克服上述困难。

因为项目参数在同一量表上,同一被试的能力估计值不变。

第三,经典测验理论中经常用到的平行测验假设是不可能实现的。

项目反应理论就不存在这个问题.因为它完全没有必要用到平行测验这一概念。

第四,经典测验理论无法预测被试在一个新测验项目上的正确反应概率,这一正确反应概率在适性测验中是十分重要的。

项目反映理沦的项目特征曲线就明确表示出被试能力与项目的关系。

第五,经典测验理论假设所有被试的测量标准误都相同,这是不太可能的。

项目反应理论就无此假设.它采用信息函数来说明这一问题。

第六,实际应用中,经典测量理论也存在一些问题。

它无法向测验编制者提供各项目及测验在其分数量表t具有最大区分能力的位置。

在项目反映理论中直接用项目参数代替了项目统计量.就不再受这些问题的困扰了。

综上所述,经典测验理论与项目反
映理论相比较.存在一些显而易见的缺点。

造成这些缺点的原因是多方面的:首先是理论基础不牢固;其次在于弱假设.弱假设固然可以扩大应用范围,但因其限制条件减少,测量误差较大。

两种理论的核心部分是数学模型,它们是基于不同的假设提出的。

经典测量理论采用的是线性的定性模型;项目反应理论采用的是非线性的概率模型。

尽管如此,两种理论仍有许多相同及相互联系的地方,经典理论中的项目统计量与项目反应理论中的项目参数有着很高的相关性,只是项目统计量依赖于被试团体,不具普遍性;而项目参数与被试原体无关,项目参数具有不变性,这可使各个被试团体所得到的项目参数具有可比性。

参数不变对提高题库的质量、对于测验的编制和实施适应性测验都是非常重要的。

教育测量是对教育领域内的事物或现象,根据一定的客观标准,作慎密的考核,并依据一定的规则将考核的结果予以数量的描述。

教育测量是学校教育常用的基本手段之一。

平时的单元测验和期中、期末考试,都是属于教育测量。

在教育科学研究中,特别是实验研究,为了给选择和组合基础条件基本相仿的实验组和对照组提供客观依据,或要掌握单组实验的实验对象的初始水平,一般都要进行事前测量;在实验结束之后,为了要显示因变量的变化情况,又要进行测量。

因此,教育测量也是教育科学研究,特别是实验研究的必不可少的工具。

相关文档
最新文档