语言测试中结构效度的实现
语言测试中的效度问题
一任务。水平 没有直接联系。 的语言能力 , 因 潜能测试 : 语言的天赋 。 它 关心学生目前 是通过考查学, I - 理论和学习理t 度。 诊断测试j 出补救的办法 。 首先要考虑内
参考文献:
一铨理想 蚋试 巷泣该 鼬 具南镊甍 懿议 葭 学习语言的潜
: 重要的 指标, 它
女 度很低的语 言
一
一莲 一 濑翔敢霞 越 ¨ 畸、 j li 一步提高英 c | 语z
是拿簪疆灏 聚 螽采 语言锈 力耦 匕 的即规定 了大 !
次大学入学考 较 或 后孚 学 咻 糨始 孺 出 i 的。与此相适 】 目是 : po 系数 题 I h一 s 镪妞, —缉学生兮年参 了我 包己设 粥 听力理解 、 讯 阅谤 这个题 目 要求 泓试 呗年 又叁弧 了 甏 镢考 试 聚礴 嵌得分慵 l 作 。复合式听! 掇
充令包括考试大 度较高 是语言测试不能完全 由客 观洼蠢 构 但 II . a 2.He 】 B t 则试就谈不上具 藏 i 盈包括以 餮 翻译以 及写 作为代表 的 茔 [ 英语测试) . 外{
j这是因为没有 。 观性试题 主观性试题虽然容易受评卷人的影 响 [ L lE 3 y B ] e
平的重要手段。 设
定 的标准 , 如效 个非常重要 的 十 者想要考查 的 r 想要考查 的内
一
游 聚 0 或 龋 学茔1 稚| 枢 譬 | 一点。 它根据《
I 辕雨 镰出鹋系 数’ 祸令值 啦也。 弧 一组 | 标考核 修完大 生黜 参 大学英语 缀考 疆着 又考羲讯 平 。 式≯ 大学英语词 自己设诗鹤—套题 ’ 弧果 贷 耦 似 强 的阅读 能力j 喂 我 稍 试然 较高甑 叛 霞 善m l 薯| 生能 以英 语为
十一语言测试的效度
十一语言测试的效度1 效度(validity)● A measure is valid if it does what it is intended to do, which is typically to act as an indicatorof an abstract concept (for example height, weight, time, etc.) which it claims to measure.The validity of a language test therefore is established by the extent to which it succeeds in providing an accurate concrete representation of an abstract concept (for example proficiency, achievement, aptitude).●效度就是测验测到它打算测的东西的程度,或者说,是根据测验分数所作出的推论的恰当性程度。
一项语言测试,它测的到底是什么;对设计者打算测量的某种心理属性,它测得的程度如何;根据测试的结果,可以作出怎样的推论与解释。
诸如此类的问题都与测试的效度有关。
2 效度的种类效度通常有如下几种:●结构效度/构念效度/构想效度(construct validity)●内容效度(content validity)●效标关联效度(criterion-related validity),包括⏹同期效度/同时效度(concurrent validity)⏹预期效度(predictive validity)●表面效度/表层效度(face validity)(1)结构效度/构念效度/构想效度(construct validity)●概念构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。
语言测试中的构念效度研究
知识文库 第14期64 语言测试中的构念效度研究王天予1.引言在考虑到语言测试发展、解释和使用时首要考虑的就是效度。
那么什么是构念效度?如何更好地理解构念效度?该效度与其他效度的不同之处是什么?2.构念及构念效度 2.1构念要想理解什么是构念效度,首先要明白什么是构念(construct)。
从心理学的角度来看,构念指的是人类头脑中存在的一种特质、水平、能力或技巧(Brown,2000:9)。
在教育测量领域,构念就是一种能力(Wiley,2002),“指成功完成特定任务所要求的人类特征”。
Ebel 和Frisbie(1991:108)将构念解释为“有关人类行为某一方面的心理构建或理论概念,是既不能够直接测量也不能够直接观察的。
”构念效度是指某个心理测验在多大程度上正确地验证编制测验的理论构想。
《标准》(APA,1999)将构念视为一个测验拟测的概念或特征。
这是从广义上将构念来指测验所涉及测量的概念或特征。
实际上,构念的选择对考试内容、考试方式和分数意义的解释息息相关,是效度研究的基础,也对考试的设计和评价起着重要的作用。
2.2 构念效度如何更好的理解构念效度呢?在教育测量领域,上述讨论的内容效度、准则关联效度和构念效度这三种类型效度都是作为整体构念效度的不同方面。
语言测试者认为这种把构念效度作为整体观点是一种新的发展。
理论界对构念的定义有不同的看法,因此,通过识别他们是如何解释应答一致性来定义构念(Messick 1981) 。
Loevinger(1957:636)最早提出要把构念效度作为整体效度来看待。
在80 年代, 这一观点逐渐得到人们的认同: 构念效度不再作为效度的一种证据,而应包括内容和标准证据、信度及其它与理论验证有关的方法 (Messick 1975, 1980, 1988, 1989; Anastasi 1986)。
其中影响最大的是 Messick 的“效度整体观”。
Messick (1988,1989)进一步丰富了效度理论,对测试的解释和使用提供了证据基础。
英语语言测试中效度的测量与估计
英语语言测试中效度的测量与估计沈阳师范大学大学外语教学部 许亚楠一、效度的基本概念(一)效度的定义及分类不同的语言测试学家对于效度这一概念的界定也不尽相同。
巴奇曼在《语言测试要略》中认为,“效度是对实证证据和理论原理在多大程度上支持基于测试的推断和行为的充分性和适当性的综合评价判断”。
换句话说,效度其实就是指一项测试中测量结果的准确性和有效性的程度,即测量是否达到了预期的目的。
效度通常可以分为构念效度、内容效度、预测效度、表面效度以及方法效度五种。
构念效度是指我们对于根据测试成绩对评价测试结果的解释是否是恰当且有意义的,即在多大程度上可以说一次测试成绩能够反映考生具备所考查的语言能力。
内容效度是指测试内容反映测试目的以及能够达到预期考查效果的程度。
预测效度是指测试结果能够在某种程度上预测出学生在未来学习中的表现和成就。
表面效度指的是一项测试能够测量出它想要测量的内容,这一概念其实和内容效度是有交叉的。
方法效度则一般用来评价测试方式与测试目标之间的关系。
(二)影响测试效度的因素测试效度的高低受到许多方面因素的影响,主要包括测验组成、测验实施、被试主观状态、效度效标和样本选择五个方面。
测验的效度与测验的取材和长度、测试题的难度、区分度及其编排方式等密切相关。
要想保证测验效度,主试应该适当控制测验环境,例如场地、材料、考试说明、考试时间等。
另外,被试对测验的态度、情感以及自身的身体健康状况都会影响测验结果的准确性和有效性,同时选择合适的效标也是估计效度所要依据的条件。
最后在样本选择上要尽可能地增加样本容量以减少测量误差,使所得的测量结果处于相对稳定的状态。
(三)提高效度的方法测试者可以通过控制系统误差、精心编制量表、妥善组织测验、扩充样本容量、增加测验长度等方法来有效提高测试效度。
效度的高低主要受到没有校准仪器、测试题目和指导语具有暗示性、答案有明显的组型等系统误差的影响,所以必须严格控制这些干扰因素。
语言测试构念效度
根据测试结果和反馈,对测试进行持续改进,优化试题设计、评分标 准和考试流程,进一步提高语言测试的构念效度和实用性。
05
结论和展望
主要结论汇总
语言测试构念效度是评估语言测试结 果是否真实反映被测者语言能力的重 要指标。
研究表明,有效的语言测试应该具备 清晰的目标、真实的任务、可靠的评 分方法等特征。
03
语言测试构念效度的 实证研究
研究设计
明确研究目标
首先,需要明确语言测试构念效 度的具体目标,例如,是要验证 某一特定语言测试的构念效度, 还是要比较不同语言测试的构念
效度。
选择适当的受试者
受试者的选择应当代表语言测试 的目标人群,以确保研究结果的 普遍性。同时,受试者的数量也 应足够,以满足统计分析的要求
。
设计测试任务
测试任务应能全面反映语言能力 的各个方面,包括听、说、读、 写等。任务的难度和长度应适中 ,以避免受试者产生疲劳或厌倦
。
Hale Waihona Puke 数据收集和分析方法数据收集
收集受试者在语言测试中的表现数据,包括得分、反应时间、错误类型等。同时,也可以收集一些背景信息,如 受试者的年龄、性别、母语等。
数据分析
可以采用定量和定性两种分析方法。定量分析可以通过统计方法,如相关分析、回归分析等,来探究语言测试和 语言能力之间的关系。定性分析可以通过对受试者的表现进行深入观察和分析,来获取更丰富的信息。
构念的理解
构念可以是理论构念,也可以是经验构念,它们都是对某一现象或事物的抽象描 述。
构念效度的评估方法
内容效度评估
通过检查测验内容是否充分、 全面地反映了所要测量的构念
来进行评估。
结构效度评估
浅析语言测试中信度与效度两者之间的关系
浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位,是从属于应用语言学这一学科的。
在过去语言测试在应用语言学中处于边缘地位,而在长达三十多年的发展中,语言测试现已发展成为一个相对独立的学科,已经在学术上占有了一席之地。
通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导,也可以衡量教学任务和教学大纲的执行情况,但是这些都是基于科学的语言测试能够得到良好的反馈情况,反之,如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率,所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。
一套设计比较科学的测试应该是具有信度,效度,难度和区分度四点特征,信度与效度是难度和区分度的基础,同时也是语言测试的两大根本要求,只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。
信度指的是测量的一致性,一个实验或测试的信度指它在重复测量时产生同样结果的程度,也就是说测量的稳定性是否一致。
影响信度的因素很多,其不仅存在于考试过程中的各个环节,也存在于阅卷的过程中,如试卷中的试题长度偏长,项目种类多,那么测试的信度就会提高,反之则会降低,考试分数集中于某一点或某一个区域时信度也会有所降低;考试期间考生时间充裕那么估算能力考试的信度也相对较高等等,这些都是存在于考试过程中各个环节的部分举例,在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一,如在评阅主观性的题目时(作文,口语等),阅卷者在评分时就具有很大的主观色彩,而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时,不容易取得一致,也会使得测试的信度不稳定。
效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断,也就是考试是否检测到了它所要检测的东西,是否达到了它的预定目标。
效度共分为三种不同的类型,其不同类型的效度测试有各自不同的测试着重面,内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的,如果测试的样本能够充分代表总体,那么测试在内容上就是有效的,反之效度则不高;预测效度和共时效度都是属于与标准有关的效度,预测效度是标志测试者将来能力的标准,如通过摸底考试分班,共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致,也就是说验证的是我们所做的假设是否有效。
基于计算机的语言测试及其效度验证_李清华
1.引言 在过去近一个 世 纪里 , 计 算机 技术 改变 着 人类 的生 活 、工作 和学 习 ( C h a l h o u b D e v i l l e 2002) ; 计算机技术的出现堪称人类文明发展新的转折点 ( P r o v e n z o , B r e t t &M c C l o s k e y 1999) 。 近五十年来 , 随着语言学 、认知科学和测量学等相关学科的不断发展 , 计算机技术对语言测试 与评估也产生了巨大影响 。 特别在测试管理 、试题设计编写 、 任务呈现 、 评分 、 成绩分析与报道 等方面 , 计算机的高效率受到越来越多大规模语言测试开发和管理者的青睐 ( A l d e r s o n &B a n e r j e e 2002) 。 现代语言测试的语言学基础经历了数次革新 , 测量学理论由经典测试理论 ( C l a s s i c a l T e s t T h e o r y ) 发展 到概化 理论 ( G e n e r a l i z a b i l i t yT h e o r y ) 和 项目 反应 理论 ( I t e mR e s p o n s e T h e o r y , I R T )( 李清华 2006a ) 。 计算机技术的发展促使语言测试的介质发生了变化 。 传统的 基于纸笔的语言测试 ( P a p e r a n d P e n c i l B a s e dL a n g u a g eT e s t i n g , P B L T ) 正在向基于计算机的语 ① 言测试 ( C o m p u t e r B a s e dL a n g u a g eT e s t i n g , C B L T ) 迈进 。 C B L T 由 机助 语言测 试 ( C o m p u t e r A s s i s t e dL a n g u a g e T e s t i n g ) 发展到计算机适应性语言测试 ( C o m p u t e r A d a p t i v e L a n g u a g eT e s t i n g ,
交际语言测试的基本理论与评估原则
交际语言测试的基本理论与评估原则敏≮if.2007.9(上旬刊)交际语言测试的墓牵理论与许结原则口洪丽燕(黄冈师范学院外国语学院大学英语教学部湖北?黄冈438000)摘要有教学必然有测试,本文探讨了交际语言测试的发展.交际能力的内涵和交际测试的评估原则,对我国广大外语教师有着重要的借鉴作用.关键词交际语言测试信度效度真实性中图分类号:HO文献标识码:A语言测试衡量学生对某一语言掌握的程度或所达到的水平.其作为--1'3学科,主要研究语言测试的原则,规律,内容,设计,评估及结果分析等方面,具有多科性的基础.作为一名语言教师,若要使自己的试题设计具有科学性,合理性,学习了解语言测试的基本理论与其评估标准是不无必要的.一,语言测试的体系的变迁纵观外语教学测试的历史,李筱菊从发展的角度提出了三代不同的测试体系:科学前测试体系,结构主义测试体系和交际测试体系.第一代体系在测试上体现为科学前语言测试.第一代外语教学和测试体系的语言观的内涵是语言是一套知识.到了2O世纪4O年代,以美国语言学家Bloomfield(1933)和Fries(1945),Lado(1957)等为代表的结构主义语言学派,在测试方法上吸取了心理学领域的心理测量学的科学方法,形成了心理测量学一结构主义语言学测试.从7O年代开始,以Savignon(1972)和Widdowson(1972)等为代表的语言学家提出了新的语言教学体系一交际语言教学.这个体系认为学语言不仅仅是学语音,语法,词汇知识,也不仅仅是训练操作形式符号的技能,而是获取人与人交际的一种能力.二,交际语言测试的基本理论:语言交际能力交际语言测试理论的核心是交际能力的学说,不同的语言学家对交际能力的阐述,代表了交际语言测试的三个发展阶段.1972年Hymes首次提出交际能力包括四个方面:可能性,可行性,确当性及有效性.CanaleandSwain(1980)~t1认为交际能力包括语法能力,社会语言能力,语篇能力和策略能力四个方面的知识和技能.2O世纪9O年代初,Bachman提出了新的交际能力理论模式. Bachman认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来的能力,由三部分组成:语言能力,策略能力和心理一生理机制.Bachman的交际测试理论不仅涵盖了这两大问题,而且提出了语言测试的"真实性程度"问题,把它作为开发,评价一项测试时的标准.三,交际语言测试的评价原则:信度,效度和真实性原则近年来随着测试理论和实践的发展,Bachman和Palmer(1996)提出了语言测试设计和评价的"有用性"原.~J](usefulness).这里我们主要讨论语言测试的信度,效度和真实性原则.1.信度(reliability)语言测试的信度是指测试结果的可靠性和稳定性.测试的信度高低,受试题的量和质,考试实施,评卷三方面的因素所牵制:试题要有足够的量,确保试题区分度高,难度适中,适宜于受试群;考试实施的各种条件对所有受试者应当一致;关于评分标准,要求评分员之间保持一致(inter—raterconsistency),也要求每个评分员自身保持前后一致(intra—raterconsistency).对考试信度的验证,测试管理者还可以通过以下方法进行评估:(1)试题分半法:考后将试题号按奇数偶数分为两半,计算两半所得分数的高低排列的相关;(2)考后复考法,同一套试题让同一个受试群在正式考后短时间内,再考一次,计算两次受试者分数高低文章编号:1672—7894(2007)09—225—01排序的相关;f3)评分一再评分法:在同一标准下两位教师对同一试卷进行评分,或同一教师对试卷进行两次或两次以上的评分;(4)信度系数公式评估法,指对测试的项目和其组成部分之间的一致性程度的测试.2.效度(validity)效度.又称有效性,它是指一套测试所考的是否就是设计人想要考的内容.(1)内容效度(ContentValidity).内容效度是指考试的内容是否具有代表性和综合性,或者说是否考了应考的内容.内容效度的确定, 一般不靠统计手段,而是命题人员或审题人员对试卷的内容,题目的难易度,区分度等进行严格的分析.(2)结构效度(ConstructValidity).结构效度指测试是否以有效的语言观(包括语言学习观和语言运用观)为依据.一项测试的结构效度的高低是指考试的结果能在多大程度上解释人的语言能力及与语言能力相关的心理特征.(3)预测效度(PredictiveValidity)和共时效度(ConcurrentValidity).预测效度是指考试的结果和预言是否有效.一份具有很好的预测效度的试卷,应该能够正确地预言学生未来的行为;共时效度是用来将新的考试和已经公认的考试作比较,以便证明新的考试的效度.3.真实性(authenticity)Bachman(1991)提出应该从两方面来定义测试的真实性:(1)情景真实性,指测试方法特征与将来某一特定目的与使用的情景特征相关的程度;f2)交际真实性,指考生在完成某一测试任务时,其语言能力的哪些方面参与了完成该测试任务的活动,参与的程度如何.语言测试的真实性这一标准有助于我们设计考题时打开思路,评估试题具有新的角度,提高测试的真实性和可信度.Bachmma还提出了用以提高语言测试交际真实性的四项措施:第一,提出要求.在设计考题时可以具体说明考生只有使用何种策略才能完成该任务.第二,提供机会.即给考生提供充足的时间,必要的信息和工具等.第三,考试任务要得当.任务太难,会影响考生策略的应用.第四,考试任务要由趣味性.通过提高考试任务的情景真实性可以提高考试任务的趣味性.交际测试法是迄今为止较为科学完善的外语测试方法,交际测试将在21世纪成为外语测试的主流.我们广大外语教师应当投身于外语测试的改革当中,从我国外语教学和测试的实际出发,借鉴和发展国外的交际测试理论,使测试真正为教学服务,不断提高语言教学的质量.参考文献:【1]Baehman,LyleF.FundamentalConsiderationsinI..anguageTestingOxford: OxfordUniversityPress,1990.[2]Bachman,LF.&AdrianS.PalmerLanguageTestinginPracticeOxford: OxfordUniversityPress,1996.[3】支润青,韩宝成.语言测试和它的方法E京:外语教学与研究出版社,2000. f41李筱菊.语言测试科学与艺术.湖南:湖南教育H{版社,2001.【5】徐强.交际法英语教学和考试评估.上海:上海外语教育H{版社,2000. f6】邹申.英语语言测试理论与操作.上海:上海外语教育出版社,1998.225。
语言测试的信度和效度
有 变 化 . 管 施 考 多 少 次 . L , 各 次 的测 试 成 绩 不  ̄J<X 象 - . t
应 该 一 致 。 之 . 果 测 试 成 绩 忽 高 忽 低 就 说 明 该 测 反 如 试 的 信 度 不 高 。 此 可 见 。 试 要 成 为 有 效 的 测 量 手 由 测 段 . 度 是其 关键 因素 之一 。 信
教 学 中发挥 积极 的反 拨作 用 , 测 试 能否是 客 观 的 、 而 公 正 的 、甚 至 是 权 威 的 评 估 ,也 都 取 决 于 测 试 的 质
果 间 隔 时 间 太 长 .受 试 者 可 能 由于 学 习 导 致 语 言 水
平 变 化 . 而 造 成 两 次 测 试 成 绩 的 不 一 致 . 果 相 关 从 结
个 测 试 具 有 较 高 的 信 度 . 只 要 被 测 量 的 对 象 本 身 没
两 个 相 互 独 立 的 并 行 子 试 卷 .然 后 对 两 个 部 分 分 数 的 比 较 以 获 得 整 份 试 卷 的 信 度 . 通 过 这 种 方 法 得 到 的 相 关 系 数 就 叫 分 半 信 度 。 两 个 部 分 的 分 数 一 致 性 越 高 . 卷 的 信 度 也 就 越 高 。 种 方 法 避 免 了重 复 测 试 这
上 反 映 了 受 试 者 的 真 实 语 言 水 平 【。 言 之 . 果 一 ”换 如
问 题 .在 设 计 试 卷 时 我 们 无 法 确 信 两 套 试 卷 在 难 度 及 内 容 上 是 否 完 全 相 同 . 此 操 作 起 来 很 困 难 。 就 因 也
基于多面Rasch模型的初中英语口语测试EBB评分标准研究与效度验证
基于多面Rasch模型的初中英语口语测试EBB评分标准研究与效度验证高淼【摘要】评分标准是测试构念的可操作化体现。
本文介绍了EBB评分标准的定义和优势,尝试了如何基于考生真实的测试表现数据,为一项低风险的大规模初中英语口语测试制定EBB评分标准,并基于项目反应理论,利用多面Rasch模型对其进行效度验证。
研究结果表明,包含语音语调、准确性、交际有效性和任务完成度四个评分维度的EBB评分标准符合分割指数、平均测量值和未加权均方拟合指数等关键测量指标要求,具有较好的效度,并且分数段划分合理,可操作性强。
%Rating scale is actually the operationalization of the construct of a test. This article first introduces what EBB is and states its advantages by comparing it with other ways of constructing scales. Then how to construct EBB scale based on students’test performance data is introduced by presenting the procedure and the selection of data. Lastly, the scale is validated by utilizing the Multi-facet Rasch analysis and revisions are made accordingly. The results indicates that the EBB scale is both valid and reliable and of practicality.【期刊名称】《中国考试》【年(卷),期】2016(000)012【总页数】11页(P29-38,47)【关键词】EBB评分标准;口语测试;多面Rasch;效度【作者】高淼【作者单位】中央财经大学外国语学院北京100081【正文语种】中文【中图分类】G405随着信息技术的发展和数据模式的爆炸式增长,当今世界已经进入网络化的“大数据时代”,美国等发达国家已将对“大数据”的研究上升至战略高度[1-2]。
基于计算机语言测试及其效度验证
探究基于计算机的语言测试及其效度验证摘要:随着计算机技术与认知科学、语言学以及测量学等结合在一起,对成绩报道与分析、试题设计编写、评分、任务呈现、评估与语言测试管理等产生了异常重要的影响。
具备高真实性的测试题型以及计算机自动评分系统和测试技术的应用,是测试结果可靠性和测试概念代表性得到了提升。
所以,建立在计算机基础之上的语言测试也开始受到管理者和语言测试开发人员的青睐。
文中就基于计算机的语言测试进行了大致论述,并就其效度进行了验证,以期为我国语言测试的进步提供可供参考的意见和建议。
关键词:计算机;语言测试;效度验证中图分类号:tp391.1文献标识码:a文章编号:1007-9599 (2013) 06-0000-021基于计算机语言测试发展状况在语言评估和测试方面,计算机技术所引起的改变主要体现在如下两点:使测量准确度以及管理实施效率得到了提升。
建立在计算机基础之上的语言测试的发展状况大致可以归为如下几点:(1)初期计算机化的语言测试。
在计算机技术限制作用下,语言测试初期主要是运用计算机的管理语言进行测试又或者将传统笔试试题搬至计算机上。
它的特点在于,只改变了测试方式,而在测试构念和任务方面与笔试并无实质性的差别。
(2)适应性的计算机语言测试。
测量学以及计算机技术的进步使得新一代的语言测试技术开始出现。
此种测试形式相比于传统的笔试具有非常多的优势,例如,它能起到反馈的作用,在测试中加强了人性化和个性化,同时也提升了安全性。
它为受试者所提供的任务和题目在受试者能力范围之内,可以使他们提升兴趣,进而将他们将自己的最佳水平发挥出来,从而使受试者语言能力的测量更加准确。
(3)自动评分系统。
现如今,自动评分系统所应用的范围主要是写作部分。
尽管作文评分系统受到学者和专家的质疑,但在学生自我评估以及高风险考试中依旧得到了广泛的应用。
由于自动评分系统可以节省时间、人力和物力等相关资源,并且相较于人工评分其客观性和准确性还要更高一些。
以过程分析法研究TEM-4完型填空测试的结构效度
Ma v 2 01 3
No . 3
以过 程 分析 法 研 究 T E M. 4完 型 填 空测 试 的结构 效 度
包 蕾
( 湛 江 师 范 学 院 基础 教 育 学 院 , 广东 湛江 5 2 4 3 0 0 )
摘
要: 为丰 富英语 专业测 试 的结构 效度 的研 究 , 文章 用过程 分 析 法对 受试 者进行 英 语
一
、
引 言
任何 语 言测试 都必须 考量 其 效度 与信 度 。按 照 H e n n i n g的解 释 , 测 试 的 有效 程 度依 赖 其 在 多 大
程度上 测 出了预期 测量 的东西 。此外 , B a c h ma n提 到 , 测试 效度关 心 的问题 是 “ 测试 的分 数在 多 大
T E M一 4 完 型 填 空 的测 试 设 计 仍 需 改 进 以 达 到 更 高 的 结 构 效 度 。 关键词 : 英语 专业 四级 ; 完型填 空测试 ; 结构 效度 ; 回 顾 报 告 中 图分 类 号 : H 3 1 9 . 6 文 献标 识 码 : A 文 章编 号 : 2 — 0 0 1 8一 o 7
专业 四级 ( T E M. 4 ) 中的 完型填 空部 分模 拟 测试 , 并 采 用 回顾报 告 的 方 法与 阅读 和 应试 策 略 列表 来获取信 息和数 据 。 实验 结果 表 明 , T E M一 4中完 型填 空测 试很 好 地 考 察 了受 试 者在 词 汇和 句子层 面的 阅读 能 力 , 但 一 些应试技 巧却 影 响着 受试 者在 测试 过程 中的思 维方 式 , 因此
试 中 的思维 过程 , 前者 是 与测试 同时进 行 , 而 后 者 则在 测 试完 成 后 回顾 答 题 时 的思 考 过程 再 作 报 告 。 基 于此 , 本研 究使 用 回顾报 告 的方式 对 完型填 空 的结构 效度 进行 验证 。
浅谈语言测试中的效度问题
英 语 教学 大 纲 》 规定 的 教 学 目标 考 核 修完 大 学 英 语
。
以
。
大 学 英语 课 程 的 教
,
经 验 效 度 是指 语 言测 试 的 结 果 与对 应 试者 语 言 能 力 的 评估 在 多 大程 度 上相 一 致 为两 种 一 种 是共 时效 度
种 是 预 示 效度
,
学 目的 是 培 养 学 生 具 有 较 强 的 阅 读 能 力 和 一 定 的 听 说 写 译能 力 使学 生 能 以 英语 为 工 具 获 取 专 业 所 需 信 息 并 为 进一 步 提 高英 语水 平 打 下 较好 的
。
信度 但这 只 是 个 理想 化 的 目 标 因 为做 到这 一 点
往往 是不 可 能 的
。
在 编制试 题时 既 不 能为 了追 求
,
水平 测 试用来 衡量 学生 的 语 言 能 力 即 看学 生
是 否 达 到 某 一 水 平 从 而 决定其 是 否 能胜 任 某 一 任
,
,
信度 而忽 视 效 度 也 不 能 为 了 追 求 效 度 而 放 弃 信
学 习 语 言的 潜 力
度
。 。
高 的 信度 但 它却 能够考 查学生 实际 应 用 语 言的 能
力 具 有 较高 的 效 度
, 。
语 言潜 能 测 试 以 某种 语 言 行 为
,
因 此 一 套好 的 试题 应 包 括
, 。
,
理 论和 学 习 理 论 为 依 据 因 此 首 先 要 考 虑 编 制 效
,
标准
容
。
。
效 度 指测 试 是否 考查 了设 计 者想 要 考查 的
,
从“命题说话”探讨普通话水平测试的效度
从“命题说话”探讨普通话水平测试的效度【摘要】普通话水平测试采用计算机辅助测试的方式,信度固然有所提升,但效度有所下降。
本文以测试的第四项“命题说话”为例,从表面效度、内容效度、结构效度、反拨作用等方面,探讨普通话水平测试的效度。
【关键词】普通话水平测试;命题说话;效度;反拨作用普通话水平测试作为国家实施的汉语语言能力测试的载体,合理而准确的考试内容设计、精确严密的量化计分是完全必要的,也是不可缺少的。
如何让这种代表着普通话测试发展方向的测试方式能够更好地生存、发展,得到更多的认可和参与度,这里就不得不提到测试的效度。
普通话水平测试的效度是指测试是否考了它所要考的,是测试最重要的属性。
也就是说测试的形式和内容要有代表性,要能够准确、全面、充分地体现要测试所要达到的目的。
本文以普通话水平测试中第四项“命题说话”(以下简称“说话题”)为对象,对普通话水平测试的效度进行分析。
1 说话题的表面效度表面效度是指普通话测试从表面看上去是否有效以及被人接受的程度,表面效度高的测试容易引起应试者的兴趣,吸引他们参加测试。
“说话题”是普通话测试中唯一没有文字依据的一项,目的是测查应试人在脱离文字凭借的情况下说普通话所能达到的规范程度。
说话题的分值为40分,占普通话水平测试总分的40%,占重要地位,换句话说,普通话水平测试是否能够达到一定的水平,关键就看这一题。
测试的表面效度较高。
测试评分采用由测试中心将应试人说话题的考试电脑录音通过打分平台随机发给2-3位测试员,这几位测试员采用上网、背靠背打分的方式,在测试评分差别不大的情况下取其平均分作为应试人最后的得分。
一旦几位测试员的评分差别较大,超出了允许值,则请另外几位测试员再次打分,最大程度避免测试员主观因素对评分的影响,保证了说话题最后得分的公平公正,同时也保证了测试的有效性。
2 说话题的内容效度内容效度是指普通话水平测试的内容是否具有代表性,是否能够准确、全面而充分的展示要测试的内容,从而达到测试目的。
论英语语言测试的信度和效度
论英语语言测试的信度和效度摘要:信度和效度是英语语言测试中两个比较重要的评价标准,也是衡量测试是否有效且可靠的重要因素。
信度是指测试结果的可靠性,可信性以及稳定性;效度是指语言测试的科学性和有效性,即考试达到预定目标的程度。
本文将深入探讨信度和效度的两个概念,并进一步阐述两者之间的关系。
关键词:英语语言测试;信度;效度;语言测试是一门具有语言教学的综合性科学,并运用一系列科学而又具有实践性的方法来客观评估学生的语言运用能力。
语言测试的标准包括信度,效度,真实度,区分度,实用性等。
在这些衡量标准中,信度和效度是两个非常重要的衡量维度,也是必须在英语语言测试中应用到的两个衡量标准。
信度和效度这两个概念最初于1930年引进到语言测试这个领域中的。
以Lado为代表的结构主义测试者,他系统地阐述并论证了信度和效度这两个概念,认为语言测试已经形成了一个科学体系,成为一个独立的学科。
从整体上看,语言测试在理论和实践上都偏向于信度和效度。
此外,信度和效度是评价学业测试的重要依据。
两者之间的关系是学术考试的基本问题,学术考试的最终目标是为语言教学服务。
因此,两者的作用在于是否对英语教学产生重要影响,是否能够支撑英语教学,是否能够实现教学目标,又是否能和学习的过程相契合。
语言测试不仅能够检查学生掌握知识的能力和水平,还能够发现学生学习中存在的潜在问题,并能够为教师之后的教学提供有效的指导和帮助。
鉴于此,本文将深入探讨信度和效度的两个概念,并进一步阐述两者之间的关系。
1.语言测试中的信度和效度信度又称有效性,是指测试结果的可靠性、可信性和稳定性,要求其结果不受受试群体和试题的干扰,从而反映被测试者真实的语言行为。
简而言之,测试结果应当客观真实地反映,不受其他因素影响。
如果一份英语试卷了信度,也就不能客观公正地反映被测试者的语言行为,那么这份试卷就失去了它的使用价值。
因此,同一份测试题在不同场合下测试,得到的结果在很大程度上保持一致,则该测试的信度是比较高的(冯彤,2003)。
语言测试的效度与信度
2.信度在实施阶段的考虑 .
• 实施阶段的任务是制定具体的、可操作的考试大纲, 详细说明试题包 括的内容。换言之,在此阶段必须制作出 完整的试卷。图1所示, Bachrnan的语言模式把测试方法 作为影响测试成绩的三大类因素之 一。因此,对试卷中每 个部分所采用的测试方法必须做出严格的要求。 否则,不 恰当的测试方法将导致考生成绩的极大差异,使测试成绩 失去信度。 • 例如,多项选择方法(multiple-choice)的最明显的 优越性就是它的评 分具有很高的信度,属于客观测试方法。 但是,某些语言领域的技能 如写作、口语表达能力若采用 多项选择方法测试则很难测试出受试者 的真实语言能力, 测试信度有所降低。综合填空方法(Gloze-test)则 较适合 测试阅读能力。不难看出,正确的测试方法能够可信、有 效 地诱导出反映某种语言能力的行为。某些测试方法只适 用于测试特定 的语言能力,而无法用于其他语言能力。基 于我们对测试方法对成绩 的影响的了解还十分粗浅,我们 无法推荐究竟用何种测试方法去测试 具体的语言能力。 • Lyle F.Bachman(1990)在选定测试方法方面提出了 很好的建议。 “(1)测试任何一种语言能力时,至少采用两 种或更多的测试方法。 (2)如果一份试题可能重复使用时, 尽量有目的地变换测试方法。” 此举,一方面加深对测试方 法的理解,一方面降低由于测试方法选择 不当而导致的测 试结果不一致的误差源,从而提高试题的信度。在实 施阶 段,保证试题的信度还可以从其他方面人手。比如,尽可 能增 大试题量或严格限制考生自由选择的范围来提高信度。 由于上述做法 能够提高测试信度,因此在实施阶段的作用 应得到极大的重视。
3.信度在考后阶段的考虑 .
从考后阶段的主要任务来看,提高信度应把 重点放在 培训阅卷员上,同时必须提供详细准确的标准答 案。由 于任何考试的评分方法不可能全部使用多项选择, 对错 一目了然。因此,主观题的评分必须首先规定正确答 案。 另外,说明若遇到部分正确的答案时应如何打分。标 准 答案规定愈清楚、细致,就愈可提高评分信度,也就更 有助于提高整个测试成绩的信度。培训阅卷员也是一条保 证评分信度的有效途径。在评阅主观题时,阅卷员必须经 过严格的岗前培训,统一批改试卷,然后将各评卷员评阅 过的卷子进行比较,也可由有经验的专家对其评阅进行分 析审核,那些严重偏离标准答案的阅卷员或停用,或对其 所评试卷进行再次审核。阅卷员的评分差异性是影响考后 阶段测试信度的较大的误差源,应千方百计降低或杜绝, 从而提高信度。
浅谈语言测试效度
浅 谈 语 言测 试 效 度
郑 玮
( 长春金 融 高等专科 学校 基础 部 , 吉林 长春 1 3 0 0 2 2 )
摘要 : 测试效度是语 言测试 学领域至 关重要 的概念之 一 , 也是 众多语 言 学家科研 的重点 。它是测试 质量 审定 的主要依 据, 直接 关 系到测试质量 的高低。 因此有必要对语 言测试 的效度及相 关研 究成果进行 整理和 分析 ,  ̄z. 4 t 3 对 此的理解 , 以
总体 来讲 , 效度 是测 试 领 域里 最 为重 要 的 概念 之一 , 人们 以此 来 衡量 测 试 的得 体 性 。假 设 一 个 测 试准 确地 测试 出 了它 想要测 试 的受 试者 的真 实 的语 言水 平 和技巧 , 那 么 这 一测 试 就 是效 度 高 的。反 之
亦然 。
现 J 。这 种再 现越真 实 地 反 映受 试 者 的语 言 能 力 , 道 出了效度 的实质 , 简 而言 之 ,
就是考 试达 到其 预期测 试意 图的程 度 。如 果一 种测 试没 能测试 出预期 要 测试 的东西 , 那 么 这 一 测试 便 不具 有相应 的效 度 , 以至 于不 能 提供 关 于受 试 者语
测 量任 务 ,达到 了预期 测试 的 目标 。
我 们 也 从 后 来 的 测 试 效 度 研 究 成 果 中 看 到 了
H u g h e s 关 于效度 定义 的局 限性 。在 2 0 0 0年 , M c N a —
m a r a提 出了他 的独到 见解 , 他 强调 了受 试 者在 测 试 过 程 中的表 现应是他 真实语 言水 平 和技巧 的精 准再
素。 ’ ’[
量考 试科学 与 否 的标 准 。B a c h m a n 指 出, “ 效度 是 测
语言测试的信度和效度及其关系
科技信息 2008年第 17期 SCIENCE &TECHNOLOGY INFORMATION我们知道 , 测试是教与学的向导 , 而为了让它发挥出向导的作用 , 一份好的试卷是必不可少的 , 而且是至关重要的 . 一般情况下 , 我们判断一份试卷的好坏的主要标准是:是否有信度、效度、区分度、实用性、全面性、公正性及后期效应。
其中, 以信度和效度最为重要。
一、语言测试的信度语言测试的信度, 又叫可靠性, 是指考试结果的可靠性和稳定性。
即看学生的分数是否稳定, 如果同一个学生做同一套试卷 , 做的几次的结果都是一致的 , 那么我们说这次考试是有信度的; 反之 , 如果分数忽高忽低就说明信度不高 , 那么表明考试的信度不高。
信度可以分为复测的效度、判卷的效度和每一个测试项目的效度。
同一学生不管考多少次, 所得的分数都是一样, 那么就说这个分数有复测的可靠性。
影响分数的一个很重要的因素就是判卷人, 在判卷过程中, 不同的判卷人对同一试卷也会做出不同的反映; 同一个人在不同的时间对同一试卷给的分数也是不一样的。
试卷不仅要达到其整体的可靠性, 而且每一题都必须能达到这个标准, 那才是一份有信度的试卷。
与能力无关却又会影响试卷信度评判的因素有很多,例如:1. 考试条件差, 天气热、考场周围太吵闹等。
2. 考试条件不一样。
同一个学生在安静与吵闹的环境中做同一份试卷,其结果不一样。
3. 监考施策。
不同的老师对考生的松与严, 看见考生作弊或违纪不勒令禁止。
4. 题目要求不清, 学生根本无法弄清题义, 也就无法真实的反映考生的水平。
5. 保密工作做的不好, 泄题事件发生。
6. 评分。
主观测试的评分常常因评卷人而异, 难以达到较高的信度; 客观试卷的评分不受评卷人的影响因此信度较高。
7. 样品数量太小, 样本不足。
8. 身体及心理状态不好等等, 这些因素都会影响到信度。
因此, 为了提高信度, 我们必须对症下药, 采取各种措施。
英语测试信度与效度的多维分析
者的主观判断和 印象来 打分 。这是根据它 们各 自的评分 方 法而不是根据试题本 身的性质而命名 的。
英语 多项选择题通 过测试学生所 掌握 的语音 、 词汇 、 语
体系, 是语音、 语法和词汇的总和。此时的测试取消了作文
和翻译 , 而以多项 选择 和人 机 对话 的方式 取而 代之 。罗伯
学家海姆斯( y e) H m s发表了《 论交际功能》 强调了语言的 ,
社会功 能 , 在这一理论 影 响下产 生 了交 际教学 法 和交 际测
容。作为衡量学生英语水平的一种尺度 , 考试本身必须可
靠、 有效 。然 而 , 大学英语测试 中占有较大 比例 的多项选择 题是否能客观地衡量学生 的外语水 平?而对于 近年来分 数 比例 日益增大 的主观性试题 的信 度与效度又 是怎样 ?这两 类试题的优劣何在?这正是 本文所 要研究的 内容 。 二 、 言测试 史的回顾及信度 与效 度的发展 语 测试理论 的发展大 致 经历 了三个 阶段 , 一 阶段被 称 第 为“ 前科 学测 试 阶 段 ” pec nicp r d 。半 个 世 纪 以 ( rsi t e o ) e f i i 前, 传统的语言学家把语言作 为一种 孤立 的现象 加以研究 。 在这一基础上产生 了语法 、 翻译法 , 以语 法分 析 、 它 翻译 和 短文写作为 主体 。测试 内容严重偏 重 文法 , 视 口语 。此 忽 时的测试毫无信度 可言 , 虽有一定效 度 , 因其测试形 式和 但 评判标准 的极大 主观随意性 而大大减弱 。随后语言测试 进 入 了第二 阶段 , 即心理 、 结构测试 阶段 ( sco e i —s u - pyh m tc t t r r trlt e o ) ua sp r d 。结构主义语 言学 家们把语言看成一 个形式 i i
浅议高职英语测试中信度与效度的平衡
浅议高职英语测试中信度与效度的平衡" 论文关键词:高职英语测试信度效度平衡论文摘要:本文从介绍语言测试中的信度和效度入手,介绍了语言测试中两者的关系。
作者通过分析高职英语教学和测试的现状,指出了高职英语测试中存在的各种问题,并针对这些问题提出了平衡信度和效度的方法。
语言测试是语言教学的重要组成部分,高质量的语言测试能够很好地反映语言教学的效果,它的测试结果为教学实践提供参考,帮助教学者和学习者成功实现语言学习目标。
国内外语言测试领域的专家普遍认为:语言测试的评估标准主要包括信度、效度和可行性(难易度、区分度、可操作性、可重复性、有益的反拨性、分数的可解释性和经济上的可承受性等)。
专家们尤其认为:信度和效度是语言测试中两个非常重要的标准,低信度和低效度的语言测试是失败的语言测试。
作为高等教育重要组成部分的高职教育现在已占据了我国高等教育的半壁江山,其目的是培养适应社会发展要求的高素质、复合型、应用型人才。
与普通高等教育不同,高职教育强调培养学生对特定知识的应用能力和相关技能的动手能力。
因此,高职英语教学也应突出培养学生对英语的应用能力,高职英语测试要做到信度和效度的平衡,体现高职英语教学的目标,以提高教学水平。
一、语言测试的信度和效度1.信度(Reliability)国际著名语言测试专家Lyle F.Bachman把“信度”定义为“测试结果的一致性”。
信度也称测试结果的可靠性和稳定性,即在不同时间、地点和环境下对相同测量对象用同样的“尺子”进行重复测量时,总是能获得类似的结果。
一份试卷的测试结果如果缺乏信度就没有使用价值,也就削弱了考试的公正性。
要绝对消除测试的“不一致性”是不可能的,相对地将影响测试“一致性”的不利因素控制在最低水平才是提高测试的信度的方法。
评估信度系数的主要方法包括:再测信度、平行试卷信度和内部一致信度。
再测信度(Test Retest)指的是用同一测量工具(通常指试卷)在不同的时间内对同一受试对象重复测量两次,两次测量结果的相关系数即为再测信度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语言测试中结构效度的实现【语言学研究】沈阳师范大学学报(社会科学版)Journal of Shenyang Normal University(Social Science Edition)2012年第1期第36卷(总第169期)№1,2012Vol.36General,№169语言测试中结构效度的实现马蓉(辽宁省文化艺术职工大学基础部,辽宁沈阳110180)[摘要]作为一门独立学科,语言测试是检验和评估教学效果和学习效果的重要手段。
结构效度是实现语言测试目的的基础,决定了测试的目的和收集证据检验测试的有效性。
而针对不同的受试者测试会有所倾向,产生测试偏见,影响结构效度的实现。
科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见,实现结构效度,使语言测试更科学。
[关键词]语言测试;结构效度;测试偏见[中图分类号]H0-0[文献标识码]A[文章编号]1674-5450(2012)01-0117-02[收稿日期]2011-11-10[作者简介]马蓉(1977-),女,辽宁沈阳人,辽宁省文化艺术职工大学讲师,教育学硕士。
语言测试是检验语言水平和能力的重要途径,既受测试信度、效度和区分度的影响,也与受试者个人的特征密切相关。
而效度即是考查测试者想要测量的内容,是实现测试的重要方面。
在构建测试效度时应避免受试者个人特征对测试表现的影响,也就是避免测试偏见,才能测试出受试者语言能力的真实水平。
一、语言测试中的结构效度(一)结构效度的概念Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出:所谓结构效度,从属于对语言测试分数所作的解释的意义性和合理性,这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。
Bachman 认为通过结构效度,我们不仅可以评估想要测量的受试者的语言能力,还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。
结构效度的概念最早是由Cronbach 和M eehl 共同提出的,在Construct validity in psychological test 中,他们认为“结构是人们假想的属性,可以在测试的行为中反映出来。
”[2]这种结构是抽象的,反映了人类某些不能被直接测量的行为,如人的智力、态度和理解能力等。
所以,通过结构这一概念的使用,语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力,并通过测试成绩加以证明,实现结构效度。
简言之,结构效度就是对测试分数的解释,从而评估受试者的语言能力和测试任务的特点。
(二)结构效度的构建由于欲测的能力不能被直接观察到,测试者必须通过可直接被观察到的表现作出推断;并且,预测的能力是理论上的定义,测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现;所以在构建具有效度的结构时,测试者需要测试预先定义的测试分数和预测能力的假定关系。
那么,构建一个语言测试的结构效度,根据Popham 的理论:首先要提出一个假说性结构,假设用其解释测试表现;然后从产生结构的理论中推导出关于测试表现的若干假设;最后用逻辑和经验的方法检验这些假设[3]。
(三)结构效度对于语言测试的重要性“结构效度是所有的各种效度之本,是结构效度决定了整个考试的性质,决定了考试属于哪个体系。
”[4]结构效度决定了语言测试的方向和内容,关系到测试者对测试分数所作的解释的真实性和合理性,从而推断此次测试是否能够测量出受试者的真实语言能力,所以结构效度对于语言测试尤为重要。
二、影响结构效度的语言测试偏见(一)语言测试偏见的概念语言测试偏见(test bias)是指在测试过程中,由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同,这种不同可以影响测试者基于测试分数而对受试者的实际语言能力作出的评估[5]。
对于语言测试的受试者,其真实的语言能力和个人因素共同作用而影响其在测试中的表现。
受试者个人因素包括语言能力(语言知识、策略能力或元认知能力)、话题知识和情感图示。
测试偏见是形式多样的,如对测试分数的错误理解、性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。
在实际的语言测试中,由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开,导致测试偏见更为复杂。
·117·沈阳师范大学学报(社会科学版)2012年第1期(总第169期)【责任编辑赵伟】(二)可能出现的测试偏见在构建具有效度的结构时,测试者应全面考虑受试者的个性特征和测试任务特点对受试者的影响,避免测试倾向于部分受试者。
测试偏见可能涉及到受试者的文化背景、测试内容背景知识、认知特征、本土语言、民族、性别和年龄等方面;并且要具体考虑测试任务的特点是否会影响不同个体的测试表现,如在测试环境、仪式指导格式、输入、预期应试方式和输入与预期应试方式的关系方面。
(三)规避测试偏见对于实现结构效度的重要性合理地避免测试偏见,建立公平的测试环境,保证测试结果的有效性,加大语言能力对测试分数的影响,通过对测试分数的合理解释评估受试者的真实语言能力,增强语言测试的科学性。
三、合理规避测试中的偏见实现测试结构效度(一)受试者个性特征避免文化背景倾向。
Chen 和Henning 曾在研究选项反映理论时发现:在词汇选项测试中的某些测试选项会对具有特定语言和文化背景的个体有利。
如在测试中出现了决定选项答案的短语“meet one ’s Waterloo ”,对于具有欧美文化背景的受试者而言他们熟知滑铁卢之战的历史,在说起某人在某场官司或比赛中遭到失败时就会说某某遭遇了滑铁卢,如同汉语中的“败走麦城”,这就意味着这次测试对于这部分欧美文化背景的受试者具有倾向性,产生了测试偏见。
所以,在设计测试内容时,测试组织者要先调研受试者自然情况,了解其文化背景,避免出现测试倾向于部分特定文化背景的受试者。
避免测试内容背景知识倾向。
具有内容背景知识倾向的测试偏见是指在测试前受试者学习并了解某些测试内容的相关知识,特别是在阅读理解和完型填空题型中,从而导致测试中的不同表现。
如要考查综合阅读能力,测试者设计了与机械设计原理相关的阅读理解,这些测试内容对于机械设计专业的受试者具有倾向性,他们可能根据所学专业知识来解答部分选项,产生测试偏见。
测试者如果在测试中要检测总体的阅读能力,就意味着将内容知识定义成了不同于阅读能力的背景知识。
所以,在设计测试和解释测试分数时,测试者必须区分开语言熟练程度和背景知识,并且相信受试者的语言能力要在具体的语言环境中得以体现。
(二)测试任务特点合理的测试任务设置。
如果测试环境对某些受试者有利,结构效度就受到了破坏。
如在使用计算机的测试(TOEFL)中,某些受试者不熟悉操作或处理程序出现问题,测试对这些受试者不利,最后测试成绩会受测试设置的影响。
所以,测试者设计测试时要预先通知受试者测试的形式,确保设置形式每个受试者都是公平的,不会影响其语言能力的发挥。
合理的仪式指导格式。
首先测试者要预先通知受试者试题结构,如试题各部分的构成、题数、特点、顺序、重要性、分值和时间的分配;在设计试题指令时要简要清晰,指令过于复杂或使用目标语会对语言能力较强的受试者有利,影响其他受试者的表现;受试者要了解测试流程和具体时间安排;受试者了解评分机制、具体测试内容的标准答案和评分流程。
合理的输入。
如果测试者要考查写作能力,不同的作文题目会影响受试者的表现,产生测试偏见。
在测试任务的输入格式上,测试者要选择与测试内容和全体受试者语言水平相匹配的手段(音频、视频)、形式(语言、非语言或二者兼有)、语言(本土语言、目标语言或二者兼有)、长度、类型和速度;在测试任务的语言设计上,语言难易取决于对所有测试者的语言能力分析和考试的目的(是否是分级测试、水平测试或结业测试);同时要评估受试者的话题熟知程度,如在口语测试中,如果受试者了解房屋出租的业务和关键词句就会在相关话题的口语测试中表现出色,使测试具有倾向性。
合理的预期应试方式。
如果听力测试中,不是所有的受试者目标语言的写作能力都足以用来写出听力问题的答案,听力测试就对那些目标语写作不熟练的受试者具有不利的倾向。
所以,要求测试者设计与测试内容和全体受试者语言能力水平相适应的预期应试方式,而具体要求与上段中对合理测试任务输入相同。
合理的输入与预期应试方式的关系。
话题知识会影响受试者的表现,如口语测试中要求用目标语谈论西方心理学理论而非简单的天气,会影响部分受试者表现。
所以测试者处理测试任务输入和预期应试方式的关系时,要设计与测试内容和受试者总体语言水平相适应的反映形式(各试题是否相互关联、各受试者的表现是否相互影响和测试的连续性)、反映范围(受试者需要处理的测试任务输入量,如在阅读理解中回答文章大意就需要受试者处理整篇阅读文章,而在单项选择中受试者只需处理相对有限的测试任务输入)和反映方式(预期应试方式与测试任务直接还是非直接的关系)。
四、结语科学性的语言测试是使测试成为检测和评估教学效果的重要手段,通过对测试结果的科学分析,可以评估学生对语言知识的掌握情况、教师的教学情况和整个教学体系的设置是否合理,并通过反馈进一步完善教学体系[6]。
语言测试的科学性以结构效度的实现为基础。
结构效度贯穿测试始终,是连续而反复的过程。
在测试中,全面评估考察全体受试者的语言能力水平和个体特征差异,合理规避在实现结构效度过程中可能出现的测试偏见,营造公平的测试环境,使受试者最大程度地发挥语言能力水平,达到语言测试的目的。
[参考文献][1]Bachman,Lyle F.&Adrian /doc/0c16896669.html,nguage Testing in Practice [M ].Oxford :Oxford University Press ,1996.[2]Cronhach,L.J.and P. E.M eehl.Construct validity in psychological test [G]//A.W.Ward.H.W.Stoke and M .M urrav 一/doc/0c16896669.html,cational M /doc/0c16896669.html,nham:University Press of America.Inc.1955.[3]Popham,/doc/0c16896669.html,cational Evaluation.2nd ed [M ].Englewood Cliffs:Prentice-Hall,1988.[4]李筱菊.语言测试科学与艺术[M ].长沙:湖南教育出版社,1996.[5]Bachman,Lyle F.Fundamental Considerations in LanguageTesting[M ].上海:上海外语教育出版社,1999.[6]党明虎.论语言测试的科学性[J].宝鸡文理学院学报:社会科学版,1999(4).·118·。