语言测试中结构效度的实现

合集下载

谈语言测试的信度与效度

谈语言测试的信度与效度

2000年3月第8卷 第1期 西安外国语学院学报Journal of Xi an F oreign Languages U niversityM ar.2000Vol.8N o.1谈语言测试的信度与效度赵成发(复旦大学大学英语教学部上海200433)中图分类号:H0 文献标识码:A 文章编号:1008-4703(2000)01-0011-05信度与效度原是计量学中的两个重要概念,20世纪30年代被引入语言测试领域。

60年代,以L a-do等为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。

可以说,语言测试理论及实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试永恒的主题。

一、信度与效度的概念语言测试的信度是指测试结果的可靠程度。

语言测试信度的高低主要说明的是测试结果在多大程度上反映了受试者真实的语言行为。

影响信度的因素很多,它们存在于语言测试的每个环节中。

对试卷本身来说主要是样本的大小(size of sample)和区及各种组织之间的横向协作与联合。

这样一来,新亚欧大陆桥就不仅成为一条国际性贸易大通道,而且会成为一条经济、科技等多种领域使用和东西方文化交流的桥梁。

第二,充分发挥连云港市的桥头堡作用。

我国长江三角洲经济区的形成和迅速发展,有两个至关重要的因素,一是有黄金水道之称的长江,一是有中心城市上海的辐射作用。

上海凭着沿江与沿海交汇点独特的地理优势,率先发展起来,从而带动长江三角洲区域经济的发展。

陇兰经济带有一个协作与联合的纽带新亚欧大陆桥还不够,还必须有一个能像上海一样发挥作用的中心城市。

连云港作为沿线与沿海的交汇点,其地理位置的优势不亚于上海,完全可以把连云港市建设成为新亚欧大陆桥沿线省区共有的出口产品加工区,外贸基地和窗口。

连云港市也将对大陆桥沿线省区产生新的、更大的渗透力。

进一步增强新亚欧大陆桥东桥头堡和陇兰经济带的龙头地位。

语言测试中的效度问题

语言测试中的效度问题
代衷镪窖 强性试题覆 盏觇 氮识两广 采棒 多
一任务。水平 没有直接联系。 的语言能力 , 因 潜能测试 : 语言的天赋 。 它 关心学生目前 是通过考查学, I - 理论和学习理t 度。 诊断测试j 出补救的办法 。 首先要考虑内
参考文献:
一铨理想 蚋试 巷泣该 鼬 具南镊甍 懿议 葭 学习语言的潜
: 重要的 指标, 它
女 度很低的语 言

一莲 一 濑翔敢霞 越 ¨ 畸、 j li 一步提高英 c | 语z
是拿簪疆灏 聚 螽采 语言锈 力耦 匕 的即规定 了大 !
次大学入学考 较 或 后孚 学 咻 糨始 孺 出 i 的。与此相适 】 目是 : po 系数 题 I h一 s 镪妞, —缉学生兮年参 了我 包己设 粥 听力理解 、 讯 阅谤 这个题 目 要求 泓试 呗年 又叁弧 了 甏 镢考 试 聚礴 嵌得分慵 l 作 。复合式听! 掇
充令包括考试大 度较高 是语言测试不能完全 由客 观洼蠢 构 但 II . a 2.He 】 B t 则试就谈不上具 藏 i 盈包括以 餮 翻译以 及写 作为代表 的 茔 [ 英语测试) . 外{
j这是因为没有 。 观性试题 主观性试题虽然容易受评卷人的影 响 [ L lE 3 y B ] e
平的重要手段。 设
定 的标准 , 如效 个非常重要 的 十 者想要考查 的 r 想要考查 的内

游 聚 0 或 龋 学茔1 稚| 枢 譬 | 一点。 它根据《
I 辕雨 镰出鹋系 数’ 祸令值 啦也。 弧 一组 | 标考核 修完大 生黜 参 大学英语 缀考 疆着 又考羲讯 平 。 式≯ 大学英语词 自己设诗鹤—套题 ’ 弧果 贷 耦 似 强 的阅读 能力j 喂 我 稍 试然 较高甑 叛 霞 善m l 薯| 生能 以英 语为

语言测试构念效度

语言测试构念效度
持续改进测试
根据测试结果和反馈,对测试进行持续改进,优化试题设计、评分标 准和考试流程,进一步提高语言测试的构念效度和实用性。
05
结论和展望
主要结论汇总
语言测试构念效度是评估语言测试结 果是否真实反映被测者语言能力的重 要指标。
研究表明,有效的语言测试应该具备 清晰的目标、真实的任务、可靠的评 分方法等特征。
03
语言测试构念效度的 实证研究
研究设计
明确研究目标
首先,需要明确语言测试构念效 度的具体目标,例如,是要验证 某一特定语言测试的构念效度, 还是要比较不同语言测试的构念
效度。
选择适当的受试者
受试者的选择应当代表语言测试 的目标人群,以确保研究结果的 普遍性。同时,受试者的数量也 应足够,以满足统计分析的要求

设计测试任务
测试任务应能全面反映语言能力 的各个方面,包括听、说、读、 写等。任务的难度和长度应适中 ,以避免受试者产生疲劳或厌倦

Hale Waihona Puke 数据收集和分析方法数据收集
收集受试者在语言测试中的表现数据,包括得分、反应时间、错误类型等。同时,也可以收集一些背景信息,如 受试者的年龄、性别、母语等。
数据分析
可以采用定量和定性两种分析方法。定量分析可以通过统计方法,如相关分析、回归分析等,来探究语言测试和 语言能力之间的关系。定性分析可以通过对受试者的表现进行深入观察和分析,来获取更丰富的信息。
构念的理解
构念可以是理论构念,也可以是经验构念,它们都是对某一现象或事物的抽象描 述。
构念效度的评估方法
内容效度评估
通过检查测验内容是否充分、 全面地反映了所要测量的构念
来进行评估。
结构效度评估

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位,是从属于应用语言学这一学科的。

在过去语言测试在应用语言学中处于边缘地位,而在长达三十多年的发展中,语言测试现已发展成为一个相对独立的学科,已经在学术上占有了一席之地。

通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导,也可以衡量教学任务和教学大纲的执行情况,但是这些都是基于科学的语言测试能够得到良好的反馈情况,反之,如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率,所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。

一套设计比较科学的测试应该是具有信度,效度,难度和区分度四点特征,信度与效度是难度和区分度的基础,同时也是语言测试的两大根本要求,只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。

信度指的是测量的一致性,一个实验或测试的信度指它在重复测量时产生同样结果的程度,也就是说测量的稳定性是否一致。

影响信度的因素很多,其不仅存在于考试过程中的各个环节,也存在于阅卷的过程中,如试卷中的试题长度偏长,项目种类多,那么测试的信度就会提高,反之则会降低,考试分数集中于某一点或某一个区域时信度也会有所降低;考试期间考生时间充裕那么估算能力考试的信度也相对较高等等,这些都是存在于考试过程中各个环节的部分举例,在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一,如在评阅主观性的题目时(作文,口语等),阅卷者在评分时就具有很大的主观色彩,而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时,不容易取得一致,也会使得测试的信度不稳定。

效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断,也就是考试是否检测到了它所要检测的东西,是否达到了它的预定目标。

效度共分为三种不同的类型,其不同类型的效度测试有各自不同的测试着重面,内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的,如果测试的样本能够充分代表总体,那么测试在内容上就是有效的,反之效度则不高;预测效度和共时效度都是属于与标准有关的效度,预测效度是标志测试者将来能力的标准,如通过摸底考试分班,共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致,也就是说验证的是我们所做的假设是否有效。

交际语言测试的基本理论与评估原则

交际语言测试的基本理论与评估原则

交际语言测试的基本理论与评估原则敏≮if.2007.9(上旬刊)交际语言测试的墓牵理论与许结原则口洪丽燕(黄冈师范学院外国语学院大学英语教学部湖北?黄冈438000)摘要有教学必然有测试,本文探讨了交际语言测试的发展.交际能力的内涵和交际测试的评估原则,对我国广大外语教师有着重要的借鉴作用.关键词交际语言测试信度效度真实性中图分类号:HO文献标识码:A语言测试衡量学生对某一语言掌握的程度或所达到的水平.其作为--1'3学科,主要研究语言测试的原则,规律,内容,设计,评估及结果分析等方面,具有多科性的基础.作为一名语言教师,若要使自己的试题设计具有科学性,合理性,学习了解语言测试的基本理论与其评估标准是不无必要的.一,语言测试的体系的变迁纵观外语教学测试的历史,李筱菊从发展的角度提出了三代不同的测试体系:科学前测试体系,结构主义测试体系和交际测试体系.第一代体系在测试上体现为科学前语言测试.第一代外语教学和测试体系的语言观的内涵是语言是一套知识.到了2O世纪4O年代,以美国语言学家Bloomfield(1933)和Fries(1945),Lado(1957)等为代表的结构主义语言学派,在测试方法上吸取了心理学领域的心理测量学的科学方法,形成了心理测量学一结构主义语言学测试.从7O年代开始,以Savignon(1972)和Widdowson(1972)等为代表的语言学家提出了新的语言教学体系一交际语言教学.这个体系认为学语言不仅仅是学语音,语法,词汇知识,也不仅仅是训练操作形式符号的技能,而是获取人与人交际的一种能力.二,交际语言测试的基本理论:语言交际能力交际语言测试理论的核心是交际能力的学说,不同的语言学家对交际能力的阐述,代表了交际语言测试的三个发展阶段.1972年Hymes首次提出交际能力包括四个方面:可能性,可行性,确当性及有效性.CanaleandSwain(1980)~t1认为交际能力包括语法能力,社会语言能力,语篇能力和策略能力四个方面的知识和技能.2O世纪9O年代初,Bachman提出了新的交际能力理论模式. Bachman认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来的能力,由三部分组成:语言能力,策略能力和心理一生理机制.Bachman的交际测试理论不仅涵盖了这两大问题,而且提出了语言测试的"真实性程度"问题,把它作为开发,评价一项测试时的标准.三,交际语言测试的评价原则:信度,效度和真实性原则近年来随着测试理论和实践的发展,Bachman和Palmer(1996)提出了语言测试设计和评价的"有用性"原.~J](usefulness).这里我们主要讨论语言测试的信度,效度和真实性原则.1.信度(reliability)语言测试的信度是指测试结果的可靠性和稳定性.测试的信度高低,受试题的量和质,考试实施,评卷三方面的因素所牵制:试题要有足够的量,确保试题区分度高,难度适中,适宜于受试群;考试实施的各种条件对所有受试者应当一致;关于评分标准,要求评分员之间保持一致(inter—raterconsistency),也要求每个评分员自身保持前后一致(intra—raterconsistency).对考试信度的验证,测试管理者还可以通过以下方法进行评估:(1)试题分半法:考后将试题号按奇数偶数分为两半,计算两半所得分数的高低排列的相关;(2)考后复考法,同一套试题让同一个受试群在正式考后短时间内,再考一次,计算两次受试者分数高低文章编号:1672—7894(2007)09—225—01排序的相关;f3)评分一再评分法:在同一标准下两位教师对同一试卷进行评分,或同一教师对试卷进行两次或两次以上的评分;(4)信度系数公式评估法,指对测试的项目和其组成部分之间的一致性程度的测试.2.效度(validity)效度.又称有效性,它是指一套测试所考的是否就是设计人想要考的内容.(1)内容效度(ContentValidity).内容效度是指考试的内容是否具有代表性和综合性,或者说是否考了应考的内容.内容效度的确定, 一般不靠统计手段,而是命题人员或审题人员对试卷的内容,题目的难易度,区分度等进行严格的分析.(2)结构效度(ConstructValidity).结构效度指测试是否以有效的语言观(包括语言学习观和语言运用观)为依据.一项测试的结构效度的高低是指考试的结果能在多大程度上解释人的语言能力及与语言能力相关的心理特征.(3)预测效度(PredictiveValidity)和共时效度(ConcurrentValidity).预测效度是指考试的结果和预言是否有效.一份具有很好的预测效度的试卷,应该能够正确地预言学生未来的行为;共时效度是用来将新的考试和已经公认的考试作比较,以便证明新的考试的效度.3.真实性(authenticity)Bachman(1991)提出应该从两方面来定义测试的真实性:(1)情景真实性,指测试方法特征与将来某一特定目的与使用的情景特征相关的程度;f2)交际真实性,指考生在完成某一测试任务时,其语言能力的哪些方面参与了完成该测试任务的活动,参与的程度如何.语言测试的真实性这一标准有助于我们设计考题时打开思路,评估试题具有新的角度,提高测试的真实性和可信度.Bachmma还提出了用以提高语言测试交际真实性的四项措施:第一,提出要求.在设计考题时可以具体说明考生只有使用何种策略才能完成该任务.第二,提供机会.即给考生提供充足的时间,必要的信息和工具等.第三,考试任务要得当.任务太难,会影响考生策略的应用.第四,考试任务要由趣味性.通过提高考试任务的情景真实性可以提高考试任务的趣味性.交际测试法是迄今为止较为科学完善的外语测试方法,交际测试将在21世纪成为外语测试的主流.我们广大外语教师应当投身于外语测试的改革当中,从我国外语教学和测试的实际出发,借鉴和发展国外的交际测试理论,使测试真正为教学服务,不断提高语言教学的质量.参考文献:【1]Baehman,LyleF.FundamentalConsiderationsinI..anguageTestingOxford: OxfordUniversityPress,1990.[2]Bachman,LF.&AdrianS.PalmerLanguageTestinginPracticeOxford: OxfordUniversityPress,1996.[3】支润青,韩宝成.语言测试和它的方法E京:外语教学与研究出版社,2000. f41李筱菊.语言测试科学与艺术.湖南:湖南教育H{版社,2001.【5】徐强.交际法英语教学和考试评估.上海:上海外语教育H{版社,2000. f6】邹申.英语语言测试理论与操作.上海:上海外语教育出版社,1998.225。

语言测试之效度理论发展五十年

语言测试之效度理论发展五十年

研究如何平衡考试内容与构念效度的关系,以实现两者的最佳结合。此外, 也可以将研究范围扩展到不同类型、不同层次的语言测试中,以丰富和完善相关 理论体系和实践应用。
感谢观看
通过分析该测试的效度,发现其具有以下优点: 1、测试内容全面,涵盖多个领域,能够准确反映学生的综合英语能力;
2、采用交际性能力测试方法,贴近实际语言使用情况,能够评估学生在真 实语境中运用英语的能力;
3、通过智能化评分技术,确保评分的客观性和准确性,有效避免了人为因 素对评分的影响;
4、通过数据分析,能够对测试的效度进行深入研究和改进,进一步提升测 试的有效性和可靠性。
总的来说,结构效度是评估语言测试有效性的重要指标。提高语言测试的结 构效度需要从多个方面进行考虑和设计,包括明确测试目的、合理规划测试内容、 选择适当的测试方法和制定合理的评分标准等。只有这样,我们才能确保语言测 试的结果能够准确反映学生的实际语言知识和技能水平,从而为语言教育提供更 有价值的参考依据。
研究结果
通过文献综述,我们发现语言测试构念效度的研究已经取得了丰富的成果, 但同时也存在一些问题和挑战。例如,对于语言能力的定义和构成要素仍存在争 议;构念效度的评估标准也不够明确;以及如何平衡考试内容与构念效度的关系 等问题。案例分析则显示,一些语言测试在构念效度方面表现出较好的一致性和 可靠性,但也有一些测试存在较大的偏差和不一致。
关键词
语言测试效度理论、新发展、语 言能力、评估、应用
理论发展
语言测试效度理论的新发展主要包括以下几个方面:
1、综合效度框架:综合效度框架强调语言测试的整体性和综合性,测试内 容、测试方式和测试结果三个方面的效度。这一框架下的效度评估更加全面,有 助于提高测试的可靠性和有效性。

基于计算机语言测试及其效度验证

基于计算机语言测试及其效度验证

探究基于计算机的语言测试及其效度验证摘要:随着计算机技术与认知科学、语言学以及测量学等结合在一起,对成绩报道与分析、试题设计编写、评分、任务呈现、评估与语言测试管理等产生了异常重要的影响。

具备高真实性的测试题型以及计算机自动评分系统和测试技术的应用,是测试结果可靠性和测试概念代表性得到了提升。

所以,建立在计算机基础之上的语言测试也开始受到管理者和语言测试开发人员的青睐。

文中就基于计算机的语言测试进行了大致论述,并就其效度进行了验证,以期为我国语言测试的进步提供可供参考的意见和建议。

关键词:计算机;语言测试;效度验证中图分类号:tp391.1文献标识码:a文章编号:1007-9599 (2013) 06-0000-021基于计算机语言测试发展状况在语言评估和测试方面,计算机技术所引起的改变主要体现在如下两点:使测量准确度以及管理实施效率得到了提升。

建立在计算机基础之上的语言测试的发展状况大致可以归为如下几点:(1)初期计算机化的语言测试。

在计算机技术限制作用下,语言测试初期主要是运用计算机的管理语言进行测试又或者将传统笔试试题搬至计算机上。

它的特点在于,只改变了测试方式,而在测试构念和任务方面与笔试并无实质性的差别。

(2)适应性的计算机语言测试。

测量学以及计算机技术的进步使得新一代的语言测试技术开始出现。

此种测试形式相比于传统的笔试具有非常多的优势,例如,它能起到反馈的作用,在测试中加强了人性化和个性化,同时也提升了安全性。

它为受试者所提供的任务和题目在受试者能力范围之内,可以使他们提升兴趣,进而将他们将自己的最佳水平发挥出来,从而使受试者语言能力的测量更加准确。

(3)自动评分系统。

现如今,自动评分系统所应用的范围主要是写作部分。

尽管作文评分系统受到学者和专家的质疑,但在学生自我评估以及高风险考试中依旧得到了广泛的应用。

由于自动评分系统可以节省时间、人力和物力等相关资源,并且相较于人工评分其客观性和准确性还要更高一些。

浅谈语言测试中的效度问题

浅谈语言测试中的效度问题

英 语 教学 大 纲 》 规定 的 教 学 目标 考 核 修完 大 学 英 语



大 学 英语 课 程 的 教
,
经 验 效 度 是指 语 言测 试 的 结 果 与对 应 试者 语 言 能 力 的 评估 在 多 大程 度 上相 一 致 为两 种 一 种 是共 时效 度
种 是 预 示 效度
,
学 目的 是 培 养 学 生 具 有 较 强 的 阅 读 能 力 和 一 定 的 听 说 写 译能 力 使学 生 能 以 英语 为 工 具 获 取 专 业 所 需 信 息 并 为 进一 步 提 高英 语水 平 打 下 较好 的

信度 但这 只 是 个 理想 化 的 目 标 因 为做 到这 一 点
往往 是不 可 能 的

在 编制试 题时 既 不 能为 了追 求
,
水平 测 试用来 衡量 学生 的 语 言 能 力 即 看学 生
是 否 达 到 某 一 水 平 从 而 决定其 是 否 能胜 任 某 一 任
,
,
信度 而忽 视 效 度 也 不 能 为 了 追 求 效 度 而 放 弃 信
学 习 语 言的 潜 力

。 。
高 的 信度 但 它却 能够考 查学生 实际 应 用 语 言的 能
力 具 有 较高 的 效 度
, 。
语 言潜 能 测 试 以 某种 语 言 行 为
,
因 此 一 套好 的 试题 应 包 括
, 。
,
理 论和 学 习 理 论 为 依 据 因 此 首 先 要 考 虑 编 制 效
,
标准



效 度 指测 试 是否 考查 了设 计 者想 要 考查 的
,

从“命题说话”探讨普通话水平测试的效度

从“命题说话”探讨普通话水平测试的效度

从“命题说话”探讨普通话水平测试的效度【摘要】普通话水平测试采用计算机辅助测试的方式,信度固然有所提升,但效度有所下降。

本文以测试的第四项“命题说话”为例,从表面效度、内容效度、结构效度、反拨作用等方面,探讨普通话水平测试的效度。

【关键词】普通话水平测试;命题说话;效度;反拨作用普通话水平测试作为国家实施的汉语语言能力测试的载体,合理而准确的考试内容设计、精确严密的量化计分是完全必要的,也是不可缺少的。

如何让这种代表着普通话测试发展方向的测试方式能够更好地生存、发展,得到更多的认可和参与度,这里就不得不提到测试的效度。

普通话水平测试的效度是指测试是否考了它所要考的,是测试最重要的属性。

也就是说测试的形式和内容要有代表性,要能够准确、全面、充分地体现要测试所要达到的目的。

本文以普通话水平测试中第四项“命题说话”(以下简称“说话题”)为对象,对普通话水平测试的效度进行分析。

1 说话题的表面效度表面效度是指普通话测试从表面看上去是否有效以及被人接受的程度,表面效度高的测试容易引起应试者的兴趣,吸引他们参加测试。

“说话题”是普通话测试中唯一没有文字依据的一项,目的是测查应试人在脱离文字凭借的情况下说普通话所能达到的规范程度。

说话题的分值为40分,占普通话水平测试总分的40%,占重要地位,换句话说,普通话水平测试是否能够达到一定的水平,关键就看这一题。

测试的表面效度较高。

测试评分采用由测试中心将应试人说话题的考试电脑录音通过打分平台随机发给2-3位测试员,这几位测试员采用上网、背靠背打分的方式,在测试评分差别不大的情况下取其平均分作为应试人最后的得分。

一旦几位测试员的评分差别较大,超出了允许值,则请另外几位测试员再次打分,最大程度避免测试员主观因素对评分的影响,保证了说话题最后得分的公平公正,同时也保证了测试的有效性。

2 说话题的内容效度内容效度是指普通话水平测试的内容是否具有代表性,是否能够准确、全面而充分的展示要测试的内容,从而达到测试目的。

十一语言测试的效度

十一语言测试的效度

十一语言测试的效度1 效度(validity)● A measure is valid if it does what it is intended to do, which is typically to act as an indicatorof an abstract concept (for example height, weight, time, etc.) which it claims to measure. The validity of a language test therefore is established by the extent to which it succeeds in providing an accurate concrete representation of an abstract concept (for example proficiency, achievement, aptitude).●效度就是测验测到它打算测的东西的程度,或者说,是根据测验分数所作出的推论的恰当性程度。

一项语言测试,它测的到底是什么;对设计者打算测量的某种心理属性,它测得的程度如何;根据测试的结果,可以作出怎样的推论与解释。

诸如此类的问题都与测试的效度有关。

2 效度的种类效度通常有如下几种:●结构效度/构念效度/构想效度(construct validity)●内容效度(content validity)●效标关联效度(criterion-related validity),包括⏹同期效度/同时效度(concurrent validity)⏹预期效度(predictive validity)●表面效度/表层效度(face validity)(1)结构效度/构念效度/构想效度(construct validity)●概念构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。

论英语语言测试的信度和效度

论英语语言测试的信度和效度

论英语语言测试的信度和效度摘要:信度和效度是英语语言测试中两个比较重要的评价标准,也是衡量测试是否有效且可靠的重要因素。

信度是指测试结果的可靠性,可信性以及稳定性;效度是指语言测试的科学性和有效性,即考试达到预定目标的程度。

本文将深入探讨信度和效度的两个概念,并进一步阐述两者之间的关系。

关键词:英语语言测试;信度;效度;语言测试是一门具有语言教学的综合性科学,并运用一系列科学而又具有实践性的方法来客观评估学生的语言运用能力。

语言测试的标准包括信度,效度,真实度,区分度,实用性等。

在这些衡量标准中,信度和效度是两个非常重要的衡量维度,也是必须在英语语言测试中应用到的两个衡量标准。

信度和效度这两个概念最初于1930年引进到语言测试这个领域中的。

以Lado为代表的结构主义测试者,他系统地阐述并论证了信度和效度这两个概念,认为语言测试已经形成了一个科学体系,成为一个独立的学科。

从整体上看,语言测试在理论和实践上都偏向于信度和效度。

此外,信度和效度是评价学业测试的重要依据。

两者之间的关系是学术考试的基本问题,学术考试的最终目标是为语言教学服务。

因此,两者的作用在于是否对英语教学产生重要影响,是否能够支撑英语教学,是否能够实现教学目标,又是否能和学习的过程相契合。

语言测试不仅能够检查学生掌握知识的能力和水平,还能够发现学生学习中存在的潜在问题,并能够为教师之后的教学提供有效的指导和帮助。

鉴于此,本文将深入探讨信度和效度的两个概念,并进一步阐述两者之间的关系。

1.语言测试中的信度和效度信度又称有效性,是指测试结果的可靠性、可信性和稳定性,要求其结果不受受试群体和试题的干扰,从而反映被测试者真实的语言行为。

简而言之,测试结果应当客观真实地反映,不受其他因素影响。

如果一份英语试卷了信度,也就不能客观公正地反映被测试者的语言行为,那么这份试卷就失去了它的使用价值。

因此,同一份测试题在不同场合下测试,得到的结果在很大程度上保持一致,则该测试的信度是比较高的(冯彤,2003)。

第七章 语言测试的效度研究

第七章 语言测试的效度研究

第六章语言测试的效度研究本章将研究所有语言测试中最重要的问题:效度问题。

效度是测试评估中最重要的指标。

一项测试如果从设计目的角度讲不是有效的,那么测试分数的推断和解释自然不会准确(Alderson et al. 1995:170)。

Messick(1992:89指出,众多测试设计者承认其有义务提供证明测量结果富有价值的效度证据,但遗憾的是很少有人真正这样去做。

Hughes,Porter以及Weir认为提供令人满意的效度证据是任何严肃测试必不可少的条件。

第一节效度的概念效度是教育和心理测量学中的一个概念,由来已久。

Kelly(1927:14)指出“效度问题就是一项测试是否真正测量了它声称所要测量的东西”。

Lado(1961:321)提出了这样的问题:“一项测试测量了它应该测量的东西了么?如果是,那它就是有效的。

” 上述是对效度进行的概括性或普遍定义。

下面我们从不同维度解读效度概念。

Henning(1987:89)对效度的理解偏重测试的设计目的,该定义为:一般来说,效度是指一项测试或测试一部分测量它声称测量内容的合适性(appropriateness)。

测试有效是指它测量了它应该测量的东西。

当效度用来描述一项测试时,它应该与“for”连用。

任何一项测试只有针对特定的目的才有效。

该定义突出了测试研发和使用的目的性。

测试使用最普遍的问题之一就是测试误用,即测试不是本着最初的设计目的而得以运用,当然这并不是说一项测试不能有效于多个目的,无论它出于何种目的被运用,其有效性证据必须要建立并加以呈现。

我们不能简单地说“该测试有效”,而应回答下面的问题“你是怎么知道该测试有效的?”以及“该测试有效性体现在哪里?”Henning的定义中还考虑到了效度的程度问题:测试相对其设计目的或多或少是有效的,即效度不是一个“要么有要么无”的概念,而是一个相对概念(Alderson et al. 1995:170)。

Weir认为效度存在于测试分数的解释中,而非测试本身。

浅谈语言测试效度

浅谈语言测试效度

浅 谈 语 言测 试 效 度
郑 玮
( 长春金 融 高等专科 学校 基础 部 , 吉林 长春 1 3 0 0 2 2 )
摘要 : 测试效度是语 言测试 学领域至 关重要 的概念之 一 , 也是 众多语 言 学家科研 的重点 。它是测试 质量 审定 的主要依 据, 直接 关 系到测试质量 的高低。 因此有必要对语 言测试 的效度及相 关研 究成果进行 整理和 分析 ,  ̄z. 4 t 3 对 此的理解 , 以
总体 来讲 , 效度 是测 试 领 域里 最 为重 要 的 概念 之一 , 人们 以此 来 衡量 测 试 的得 体 性 。假 设 一 个 测 试准 确地 测试 出 了它 想要测 试 的受 试者 的真 实 的语 言水 平 和技巧 , 那 么 这 一测 试 就 是效 度 高 的。反 之
亦然 。
现 J 。这 种再 现越真 实 地 反 映受 试 者 的语 言 能 力 , 道 出了效度 的实质 , 简 而言 之 ,
就是考 试达 到其 预期测 试意 图的程 度 。如 果一 种测 试没 能测试 出预期 要 测试 的东西 , 那 么 这 一 测试 便 不具 有相应 的效 度 , 以至 于不 能 提供 关 于受 试 者语
测 量任 务 ,达到 了预期 测试 的 目标 。
我 们 也 从 后 来 的 测 试 效 度 研 究 成 果 中 看 到 了
H u g h e s 关 于效度 定义 的局 限性 。在 2 0 0 0年 , M c N a —
m a r a提 出了他 的独到 见解 , 他 强调 了受 试 者在 测 试 过 程 中的表 现应是他 真实语 言水 平 和技巧 的精 准再
素。 ’ ’[
量考 试科学 与 否 的标 准 。B a c h m a n 指 出, “ 效度 是 测

语言测试的信度与效度之间的关系

语言测试的信度与效度之间的关系

语言测试的信度与效度之间的关系李翌豪【摘要】测试的信度和效度是用来衡量一门考试是否有效和可靠的两个关键因素,任何测试的开发与评估都应当把二者纳入到重点考虑范围之内。

然而,一些研究者对于测试信度的定义往往过于理论化,甚至把其成立的基础建立在某些理想化的客观条件之上;同时他们在测量信度时所采取的过于机械化的统计方法,也导致了其结果不能准确地反映出试题的客观稳定性。

考虑到信度与效度之间不可避免的逆反关系,为了满足语言测试的首要目的,测试的开发者应当首先给予效度最大限度的重视。

由于“套题”中包含了复杂的“题内相关性”,所以它并不利于测试在数据上达到令人信服的“可靠性系数”值;但如果以此为依据就盲目地将其排除在外,我们就忽略了其在考查被测能力方面的作用,从而忽视了对测试整体效度的把握。

%There are lots of concerns involved in developing a test,especially a language test for second and foreign lan-guage learners,but the two most important ones that any test developer should take into consideration are reliability and validity.However,reliability and validity are not always mutually contributive to each other,and sometimes even an in-verse relationship could exist between them.Aiming at assessing and reflecting the true language ability of test-takers,I think any test-developing activities should be organized around how to make the test more valid,in other words,how to resolve the potential tension between reliability and validity and ensure the latter one at the same time.My article will dis-cuss how certain assumptions and suggestions underlying the theoretical definition and statistical measurement of reliabili-ty might distract testdevelopers'attention away from validity and negatively affect their decision concerning the selection and construction of test items conducive to validity.【期刊名称】《江苏师范大学学报(哲学社会科学版)》【年(卷),期】2016(042)005【总页数】5页(P88-92)【关键词】测试信度;测试效度;语言测试【作者】李翌豪【作者单位】江苏师范大学外国语学院,江苏徐州 221116【正文语种】中文【中图分类】H08众所周知,在一门测试的开发过程当中需要考虑诸多因素,尤其是对专门为第二语言或外语学习者所打造的语言能力测试而言,试题开发者对其信度和效度的把握无疑是试题开发当中最关键的两个环节。

浅谈语言测试效度

浅谈语言测试效度

浅谈语言测试效度作者:郑玮来源:《吉林省教育学院学报·上旬刊》2013年第06期摘要:测试效度是语言测试学领域至关重要的概念之一,也是众多语言学家科研的重点。

它是测试质量审定的主要依据,直接关系到测试质量的高低。

因此有必要对语言测试的效度及相关研究成果进行整理和分析,加深人们对此的理解,以期对语言测试起到积极的作用。

关键词:效度;表面效度;内容效度;结构效度;尺度相关效度中图分类号:GH319文献标识码:A文章编号:1671—1580(2013)06—0072—03语言测试的质量主要可以通过信度、效度、真实性、相互作用性、后效作用和可行性来进行评估。

其中,效度是所有出题人最为看重的测试质量审定的主要依据,它直接关系到测试质量的高低。

在语言测试这一领域里,这一概念被反复提及和讨论。

语言学家们普遍认为效度是测试中最为重要的用以衡量考试科学与否的标准。

Bachman指出,“效度是测试应用中最为重要的指标”。

[1]一、效度的定义在语言测试领域,许多语言学家致力于效度的研究,他们从不同的角度阐释了效度这一概念。

Bachman 的定义如下:测试的效度是指考试在多大程度上测出预期要测量的东西或者说考试在多大程度上完成了预期的测量任务,达到了预期测试的目标。

[2]Bachman 的定义道出了效度的实质,简而言之,就是考试达到其预期测试意图的程度。

如果一种测试没能测试出预期要测试的东西,那么这一测试便不具有相应的效度,以至于不能提供关于受试者语言能力真实水平的有价值的信息。

Henning (1987: 89)则这样诠释效度:测试效度所指的是测试的得体性,即测试的内容是否检测了想要检测的内容。

如果一种测试在某种程度上达到了它设计的预期目的,那么这一测试就是有效的。

而这种有效是相对的,仅对一些测试目的而言,并非所有测试目的。

[3]Henning的定义更加明确了效度与测试目的的关系。

效度并非万能的,它不是无所不包的。

语言测试的信度和效度及其关系

语言测试的信度和效度及其关系

科技信息 2008年第 17期 SCIENCE &TECHNOLOGY INFORMATION我们知道 , 测试是教与学的向导 , 而为了让它发挥出向导的作用 , 一份好的试卷是必不可少的 , 而且是至关重要的 . 一般情况下 , 我们判断一份试卷的好坏的主要标准是:是否有信度、效度、区分度、实用性、全面性、公正性及后期效应。

其中, 以信度和效度最为重要。

一、语言测试的信度语言测试的信度, 又叫可靠性, 是指考试结果的可靠性和稳定性。

即看学生的分数是否稳定, 如果同一个学生做同一套试卷 , 做的几次的结果都是一致的 , 那么我们说这次考试是有信度的; 反之 , 如果分数忽高忽低就说明信度不高 , 那么表明考试的信度不高。

信度可以分为复测的效度、判卷的效度和每一个测试项目的效度。

同一学生不管考多少次, 所得的分数都是一样, 那么就说这个分数有复测的可靠性。

影响分数的一个很重要的因素就是判卷人, 在判卷过程中, 不同的判卷人对同一试卷也会做出不同的反映; 同一个人在不同的时间对同一试卷给的分数也是不一样的。

试卷不仅要达到其整体的可靠性, 而且每一题都必须能达到这个标准, 那才是一份有信度的试卷。

与能力无关却又会影响试卷信度评判的因素有很多,例如:1. 考试条件差, 天气热、考场周围太吵闹等。

2. 考试条件不一样。

同一个学生在安静与吵闹的环境中做同一份试卷,其结果不一样。

3. 监考施策。

不同的老师对考生的松与严, 看见考生作弊或违纪不勒令禁止。

4. 题目要求不清, 学生根本无法弄清题义, 也就无法真实的反映考生的水平。

5. 保密工作做的不好, 泄题事件发生。

6. 评分。

主观测试的评分常常因评卷人而异, 难以达到较高的信度; 客观试卷的评分不受评卷人的影响因此信度较高。

7. 样品数量太小, 样本不足。

8. 身体及心理状态不好等等, 这些因素都会影响到信度。

因此, 为了提高信度, 我们必须对症下药, 采取各种措施。

语言测试的效度与信度

语言测试的效度与信度

2.信度在实施阶段的考虑 .
• 实施阶段的任务是制定具体的、可操作的考试大纲, 详细说明试题包 括的内容。换言之,在此阶段必须制作出 完整的试卷。图1所示, Bachrnan的语言模式把测试方法 作为影响测试成绩的三大类因素之 一。因此,对试卷中每 个部分所采用的测试方法必须做出严格的要求。 否则,不 恰当的测试方法将导致考生成绩的极大差异,使测试成绩 失去信度。 • 例如,多项选择方法(multiple-choice)的最明显的 优越性就是它的评 分具有很高的信度,属于客观测试方法。 但是,某些语言领域的技能 如写作、口语表达能力若采用 多项选择方法测试则很难测试出受试者 的真实语言能力, 测试信度有所降低。综合填空方法(Gloze-test)则 较适合 测试阅读能力。不难看出,正确的测试方法能够可信、有 效 地诱导出反映某种语言能力的行为。某些测试方法只适 用于测试特定 的语言能力,而无法用于其他语言能力。基 于我们对测试方法对成绩 的影响的了解还十分粗浅,我们 无法推荐究竟用何种测试方法去测试 具体的语言能力。 • Lyle F.Bachman(1990)在选定测试方法方面提出了 很好的建议。 “(1)测试任何一种语言能力时,至少采用两 种或更多的测试方法。 (2)如果一份试题可能重复使用时, 尽量有目的地变换测试方法。” 此举,一方面加深对测试方 法的理解,一方面降低由于测试方法选择 不当而导致的测 试结果不一致的误差源,从而提高试题的信度。在实 施阶 段,保证试题的信度还可以从其他方面人手。比如,尽可 能增 大试题量或严格限制考生自由选择的范围来提高信度。 由于上述做法 能够提高测试信度,因此在实施阶段的作用 应得到极大的重视。
3.信度在考后阶段的考虑 .
从考后阶段的主要任务来看,提高信度应把 重点放在 培训阅卷员上,同时必须提供详细准确的标准答 案。由 于任何考试的评分方法不可能全部使用多项选择, 对错 一目了然。因此,主观题的评分必须首先规定正确答 案。 另外,说明若遇到部分正确的答案时应如何打分。标 准 答案规定愈清楚、细致,就愈可提高评分信度,也就更 有助于提高整个测试成绩的信度。培训阅卷员也是一条保 证评分信度的有效途径。在评阅主观题时,阅卷员必须经 过严格的岗前培训,统一批改试卷,然后将各评卷员评阅 过的卷子进行比较,也可由有经验的专家对其评阅进行分 析审核,那些严重偏离标准答案的阅卷员或停用,或对其 所评试卷进行再次审核。阅卷员的评分差异性是影响考后 阶段测试信度的较大的误差源,应千方百计降低或杜绝, 从而提高信度。

语言测试中的构念效度研究

语言测试中的构念效度研究

知识文库 第14期64 语言测试中的构念效度研究王天予1.引言在考虑到语言测试发展、解释和使用时首要考虑的就是效度。

那么什么是构念效度?如何更好地理解构念效度?该效度与其他效度的不同之处是什么?2.构念及构念效度 2.1构念要想理解什么是构念效度,首先要明白什么是构念(construct)。

从心理学的角度来看,构念指的是人类头脑中存在的一种特质、水平、能力或技巧(Brown,2000:9)。

在教育测量领域,构念就是一种能力(Wiley,2002),“指成功完成特定任务所要求的人类特征”。

Ebel 和Frisbie(1991:108)将构念解释为“有关人类行为某一方面的心理构建或理论概念,是既不能够直接测量也不能够直接观察的。

”构念效度是指某个心理测验在多大程度上正确地验证编制测验的理论构想。

《标准》(APA,1999)将构念视为一个测验拟测的概念或特征。

这是从广义上将构念来指测验所涉及测量的概念或特征。

实际上,构念的选择对考试内容、考试方式和分数意义的解释息息相关,是效度研究的基础,也对考试的设计和评价起着重要的作用。

2.2 构念效度如何更好的理解构念效度呢?在教育测量领域,上述讨论的内容效度、准则关联效度和构念效度这三种类型效度都是作为整体构念效度的不同方面。

语言测试者认为这种把构念效度作为整体观点是一种新的发展。

理论界对构念的定义有不同的看法,因此,通过识别他们是如何解释应答一致性来定义构念(Messick 1981) 。

Loevinger(1957:636)最早提出要把构念效度作为整体效度来看待。

在80 年代, 这一观点逐渐得到人们的认同: 构念效度不再作为效度的一种证据,而应包括内容和标准证据、信度及其它与理论验证有关的方法 (Messick 1975, 1980, 1988, 1989; Anastasi 1986)。

其中影响最大的是 Messick 的“效度整体观”。

Messick (1988,1989)进一步丰富了效度理论,对测试的解释和使用提供了证据基础。

语言测试中的效度与信度

语言测试中的效度与信度

- 200-校园英语 /语言测试中的效度与信度西南科技大学/邹微 杨纾凡【摘要】语言测试是检验学生语言习得效果最直接的手段,是语言教学的有机组成部分。

本文旨在对语言测试的信度和效度进行分类阐释,并分析影响语言测试信度与效度的主要因素,同时,对二者的关系进行分析,以期为考题设计者命制考题提供借鉴和参考,使语言测试真正服务于语言教学。

【关键词】语言测试 语言教学 信度 效度一、引言随着语言教学的不断推进,语言测试逐渐从应用语言学中分离出来,成为一门独立的学科。

Bachman 曾说“在教育程序中,语言测试的基本运用是给教学评估提供重要的信息。

”测试是检验学生学习效果最直接的方式,有效、可靠的测试,其结果能够帮助教师了解学生的学习水平,是因材施教的一个重要参照。

同时,测试也是评估教师教学效果的重要手段之一,为教师下一步教学计划的制定、教学方法的调整、教学重难点、目标的明确提供了依据。

评估一项测试的指标主要有“信度、效度、区分度和实用性,其中以信度和效度最为重要。

”二、效度效度,简而言之就是测试的有效性,是指该测试是否测试出命题人想要检测的内容、达到命题人预期的测试目的。

它是测试最基本的出发点。

“波尔斯基和梅西克视效度为外语测试的主要问题,其范畴包括内容效度、标准相关效度、构卷效度和表面效度等。

”1.内容效度。

内容效度,是指试题的内容是否考查了出题人想要考查的语言技能及语言要素等。

如,一个专项的语法考试,出题人需按照教学大纲的要求,大纲里规定有哪些语法是必考,那么出题人在出题的时候就必须考虑到这些语法点,考题的内容必须要覆盖大纲里规定的所有必考点,这样的考试才能算的上是有内容效度的。

内容效度是衡量测试效度的一把重要的尺子,在教学过程中,通过内容效度较高的测试,教师能更好地制定教学计划,了解教学的重难点,进而明确语言教学的方向。

2.标准相关效度。

标准相关效度指的是“测试与某一个独立并且相当可靠的学生能力测量工具”之间的关联程度。

基于计算机的语言测试及其效度验证_李清华

基于计算机的语言测试及其效度验证_李清华

1.引言 在过去近一个 世 纪里 , 计 算机 技术 改变 着 人类 的生 活 、工作 和学 习 ( C h a l h o u b D e v i l l e 2002) ; 计算机技术的出现堪称人类文明发展新的转折点 ( P r o v e n z o , B r e t t &M c C l o s k e y 1999) 。 近五十年来 , 随着语言学 、认知科学和测量学等相关学科的不断发展 , 计算机技术对语言测试 与评估也产生了巨大影响 。 特别在测试管理 、试题设计编写 、 任务呈现 、 评分 、 成绩分析与报道 等方面 , 计算机的高效率受到越来越多大规模语言测试开发和管理者的青睐 ( A l d e r s o n &B a n e r j e e 2002) 。 现代语言测试的语言学基础经历了数次革新 , 测量学理论由经典测试理论 ( C l a s s i c a l T e s t T h e o r y ) 发展 到概化 理论 ( G e n e r a l i z a b i l i t yT h e o r y ) 和 项目 反应 理论 ( I t e mR e s p o n s e T h e o r y , I R T )( 李清华 2006a ) 。 计算机技术的发展促使语言测试的介质发生了变化 。 传统的 基于纸笔的语言测试 ( P a p e r a n d P e n c i l B a s e dL a n g u a g eT e s t i n g , P B L T ) 正在向基于计算机的语 ① 言测试 ( C o m p u t e r B a s e dL a n g u a g eT e s t i n g , C B L T ) 迈进 。 C B L T 由 机助 语言测 试 ( C o m p u t e r A s s i s t e dL a n g u a g e T e s t i n g ) 发展到计算机适应性语言测试 ( C o m p u t e r A d a p t i v e L a n g u a g eT e s t i n g ,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

【语言学研究】沈阳师范大学学报(社会科学版)Journal of Shenyang Normal University(Social Science Edition)2012年第1期第36卷(总第169期)№1,2012Vol.36General,№169语言测试中结构效度的实现马蓉(辽宁省文化艺术职工大学基础部,辽宁沈阳110180)[摘要]作为一门独立学科,语言测试是检验和评估教学效果和学习效果的重要手段。

结构效度是实现语言测试目的的基础,决定了测试的目的和收集证据检验测试的有效性。

而针对不同的受试者测试会有所倾向,产生测试偏见,影响结构效度的实现。

科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见,实现结构效度,使语言测试更科学。

[关键词]语言测试;结构效度;测试偏见[中图分类号]H0-0[文献标识码]A[文章编号]1674-5450(2012)01-0117-02[收稿日期]2011-11-10[作者简介]马蓉(1977-),女,辽宁沈阳人,辽宁省文化艺术职工大学讲师,教育学硕士。

语言测试是检验语言水平和能力的重要途径,既受测试信度、效度和区分度的影响,也与受试者个人的特征密切相关。

而效度即是考查测试者想要测量的内容,是实现测试的重要方面。

在构建测试效度时应避免受试者个人特征对测试表现的影响,也就是避免测试偏见,才能测试出受试者语言能力的真实水平。

一、语言测试中的结构效度(一)结构效度的概念Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出:所谓结构效度,从属于对语言测试分数所作的解释的意义性和合理性,这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。

Bachman 认为通过结构效度,我们不仅可以评估想要测量的受试者的语言能力,还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。

结构效度的概念最早是由Cronbach 和M eehl 共同提出的,在Construct validity in psychological test 中,他们认为“结构是人们假想的属性,可以在测试的行为中反映出来。

”[2]这种结构是抽象的,反映了人类某些不能被直接测量的行为,如人的智力、态度和理解能力等。

所以,通过结构这一概念的使用,语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力,并通过测试成绩加以证明,实现结构效度。

简言之,结构效度就是对测试分数的解释,从而评估受试者的语言能力和测试任务的特点。

(二)结构效度的构建由于欲测的能力不能被直接观察到,测试者必须通过可直接被观察到的表现作出推断;并且,预测的能力是理论上的定义,测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现;所以在构建具有效度的结构时,测试者需要测试预先定义的测试分数和预测能力的假定关系。

那么,构建一个语言测试的结构效度,根据Popham 的理论:首先要提出一个假说性结构,假设用其解释测试表现;然后从产生结构的理论中推导出关于测试表现的若干假设;最后用逻辑和经验的方法检验这些假设[3]。

(三)结构效度对于语言测试的重要性“结构效度是所有的各种效度之本,是结构效度决定了整个考试的性质,决定了考试属于哪个体系。

”[4]结构效度决定了语言测试的方向和内容,关系到测试者对测试分数所作的解释的真实性和合理性,从而推断此次测试是否能够测量出受试者的真实语言能力,所以结构效度对于语言测试尤为重要。

二、影响结构效度的语言测试偏见(一)语言测试偏见的概念语言测试偏见(test bias)是指在测试过程中,由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同,这种不同可以影响测试者基于测试分数而对受试者的实际语言能力作出的评估[5]。

对于语言测试的受试者,其真实的语言能力和个人因素共同作用而影响其在测试中的表现。

受试者个人因素包括语言能力(语言知识、策略能力或元认知能力)、话题知识和情感图示。

测试偏见是形式多样的,如对测试分数的错误理解、性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。

在实际的语言测试中,由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开,导致测试偏见更为复杂。

·117·沈阳师范大学学报(社会科学版)2012年第1期(总第169期)【责任编辑赵伟】(二)可能出现的测试偏见在构建具有效度的结构时,测试者应全面考虑受试者的个性特征和测试任务特点对受试者的影响,避免测试倾向于部分受试者。

测试偏见可能涉及到受试者的文化背景、测试内容背景知识、认知特征、本土语言、民族、性别和年龄等方面;并且要具体考虑测试任务的特点是否会影响不同个体的测试表现,如在测试环境、仪式指导格式、输入、预期应试方式和输入与预期应试方式的关系方面。

(三)规避测试偏见对于实现结构效度的重要性合理地避免测试偏见,建立公平的测试环境,保证测试结果的有效性,加大语言能力对测试分数的影响,通过对测试分数的合理解释评估受试者的真实语言能力,增强语言测试的科学性。

三、合理规避测试中的偏见实现测试结构效度(一)受试者个性特征避免文化背景倾向。

Chen 和Henning 曾在研究选项反映理论时发现:在词汇选项测试中的某些测试选项会对具有特定语言和文化背景的个体有利。

如在测试中出现了决定选项答案的短语“meet one ’s Waterloo ”,对于具有欧美文化背景的受试者而言他们熟知滑铁卢之战的历史,在说起某人在某场官司或比赛中遭到失败时就会说某某遭遇了滑铁卢,如同汉语中的“败走麦城”,这就意味着这次测试对于这部分欧美文化背景的受试者具有倾向性,产生了测试偏见。

所以,在设计测试内容时,测试组织者要先调研受试者自然情况,了解其文化背景,避免出现测试倾向于部分特定文化背景的受试者。

避免测试内容背景知识倾向。

具有内容背景知识倾向的测试偏见是指在测试前受试者学习并了解某些测试内容的相关知识,特别是在阅读理解和完型填空题型中,从而导致测试中的不同表现。

如要考查综合阅读能力,测试者设计了与机械设计原理相关的阅读理解,这些测试内容对于机械设计专业的受试者具有倾向性,他们可能根据所学专业知识来解答部分选项,产生测试偏见。

测试者如果在测试中要检测总体的阅读能力,就意味着将内容知识定义成了不同于阅读能力的背景知识。

所以,在设计测试和解释测试分数时,测试者必须区分开语言熟练程度和背景知识,并且相信受试者的语言能力要在具体的语言环境中得以体现。

(二)测试任务特点合理的测试任务设置。

如果测试环境对某些受试者有利,结构效度就受到了破坏。

如在使用计算机的测试(TOEFL)中,某些受试者不熟悉操作或处理程序出现问题,测试对这些受试者不利,最后测试成绩会受测试设置的影响。

所以,测试者设计测试时要预先通知受试者测试的形式,确保设置形式每个受试者都是公平的,不会影响其语言能力的发挥。

合理的仪式指导格式。

首先测试者要预先通知受试者试题结构,如试题各部分的构成、题数、特点、顺序、重要性、分值和时间的分配;在设计试题指令时要简要清晰,指令过于复杂或使用目标语会对语言能力较强的受试者有利,影响其他受试者的表现;受试者要了解测试流程和具体时间安排;受试者了解评分机制、具体测试内容的标准答案和评分流程。

合理的输入。

如果测试者要考查写作能力,不同的作文题目会影响受试者的表现,产生测试偏见。

在测试任务的输入格式上,测试者要选择与测试内容和全体受试者语言水平相匹配的手段(音频、视频)、形式(语言、非语言或二者兼有)、语言(本土语言、目标语言或二者兼有)、长度、类型和速度;在测试任务的语言设计上,语言难易取决于对所有测试者的语言能力分析和考试的目的(是否是分级测试、水平测试或结业测试);同时要评估受试者的话题熟知程度,如在口语测试中,如果受试者了解房屋出租的业务和关键词句就会在相关话题的口语测试中表现出色,使测试具有倾向性。

合理的预期应试方式。

如果听力测试中,不是所有的受试者目标语言的写作能力都足以用来写出听力问题的答案,听力测试就对那些目标语写作不熟练的受试者具有不利的倾向。

所以,要求测试者设计与测试内容和全体受试者语言能力水平相适应的预期应试方式,而具体要求与上段中对合理测试任务输入相同。

合理的输入与预期应试方式的关系。

话题知识会影响受试者的表现,如口语测试中要求用目标语谈论西方心理学理论而非简单的天气,会影响部分受试者表现。

所以测试者处理测试任务输入和预期应试方式的关系时,要设计与测试内容和受试者总体语言水平相适应的反映形式(各试题是否相互关联、各受试者的表现是否相互影响和测试的连续性)、反映范围(受试者需要处理的测试任务输入量,如在阅读理解中回答文章大意就需要受试者处理整篇阅读文章,而在单项选择中受试者只需处理相对有限的测试任务输入)和反映方式(预期应试方式与测试任务直接还是非直接的关系)。

四、结语科学性的语言测试是使测试成为检测和评估教学效果的重要手段,通过对测试结果的科学分析,可以评估学生对语言知识的掌握情况、教师的教学情况和整个教学体系的设置是否合理,并通过反馈进一步完善教学体系[6]。

语言测试的科学性以结构效度的实现为基础。

结构效度贯穿测试始终,是连续而反复的过程。

在测试中,全面评估考察全体受试者的语言能力水平和个体特征差异,合理规避在实现结构效度过程中可能出现的测试偏见,营造公平的测试环境,使受试者最大程度地发挥语言能力水平,达到语言测试的目的。

[参考文献][1]Bachman,Lyle F.&Adrian nguage Testing in Practice [M ].Oxford :Oxford University Press ,1996.[2]Cronhach,L.J.and P. E.M eehl.Construct validity in psychological test [G]//A.W.Ward.H.W.Stoke and M .M urrav 一cational M nham:University Press of America.Inc.1955.[3]Popham,cational Evaluation.2nd ed [M ].Englewood Cliffs:Prentice-Hall,1988.[4]李筱菊.语言测试科学与艺术[M ].长沙:湖南教育出版社,1996.[5]Bachman,Lyle F.Fundamental Considerations in LanguageTesting[M ].上海:上海外语教育出版社,1999.[6]党明虎.论语言测试的科学性[J].宝鸡文理学院学报:社会科学版,1999(4).·118·。

相关文档
最新文档