语言测试中结构效度的实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【语言学研究】
沈阳师范大学学报(社会科学版)
Journal of Shenyang Normal University(Social Science Edition)
2012年第1期第36卷(总第169期)
№1,2012Vol.36General,№169
语言测试中结构效度的实现
马蓉
(辽宁省文化艺术职工大学基础部,辽宁沈阳110180)
[摘要]作为一门独立学科,语言测试是检验和评估教学效果和学习效果的重要手段。结构效度是实现语言测试目的的基础,决定了测试的目的和收集证据检验测试的有效性。而针对不同的受试者测试会有所倾向,产生测试偏见,影响结构效度的实现。科学性的语言测试要求测试者在测试始终合理有效的规避测试偏见,实现结构效度,使语言测试更科学。
[关键词]语言测试;结构效度;测试偏见[中图分类号]H0-0
[文献标识码]A
[文章编号]1674-5450(2012)01-0117-02
[收稿日期]2011-11-10
[作者简介]马蓉(1977-),女,辽宁沈阳人,辽宁省文化艺术职工大学讲师,教育学硕士。
语言测试是检验语言水平和能力的重要途径,既受测试信度、效度和区分度的影响,也与受试者个人的特征密切相关。而效度即是考查测试者想要测量的内容,是实现测试的重要方面。在构建测试效度时应避免受试者个人特征对测试表现的影响,也就是避免测试偏见,才能测试出受试者语言能力的真实水平。
一、语言测试中的结构效度(一)结构效度的概念
Lyle F.Bachman 在他的Language Testing in Practice (《语言测试实践》)一书中指出:所谓结构效度,从属于对语言测试分数所作的解释的意义性和合理性,这就意味着对测试分数的解释就是对受试者语言能力的评估[1]。Bachman 认为通过结构效度,我们不仅可以评估想要测量的受试者的语言能力,还可以通过对测试分数的解释来判断测试所采用的目标语使用语域是否合理。结构效度的概念最早是由Cronbach 和M eehl 共同提出的,在Construct validity in psychological test 中,他们认为“结构
是人们假想的属性,可以在测试的行为中反映出来。
”[2]这种结构是抽象的,反映了人类某些不能被直接测量的行为,如人的智力、态度和理解能力等。所以,通过结构这一概念的使用,语言测试者可以设计一个合理的测试来测量欲测的受试者的语言能力,并通过测试成绩加以证明,实现结构效度。简言之,结构效度就是对测试分数的解释,从而评估受试者的语言能力和测试任务的特点。
(二)结构效度的构建
由于欲测的能力不能被直接观察到,测试者必须通过可直接被观察到的表现作出推断;并且,预测的能力是理论上的定义,测试者需预先假设预测能力会影响受试者使用语言的能力和其在语言测试中的表现;所以在构建具有效度的结构时,测试者需要测试预先定义的测试分数和预测
能力的假定关系。
那么,构建一个语言测试的结构效度,根据Popham 的理论:首先要提出一个假说性结构,假设用其解释测试表现;然后从产生结构的理论中推导出关于测试表现的若干假设;最后用逻辑和经验的方法检验这些假设[3]。
(三)结构效度对于语言测试的重要性“结构效度是所有的各种效度之本,是结构效度决定
了整个考试的性质,决定了考试属于哪个体系。”[4]
结构效度决定了语言测试的方向和内容,关系到测试者对测试分数所作的解释的真实性和合理性,从而推断此次测试是否能够测量出受试者的真实语言能力,所以结构效度对于语言测试尤为重要。
二、影响结构效度的语言测试偏见(一)语言测试偏见的概念
语言测试偏见(test bias
)是指在测试过程中,由于个性特征的不同和测试任务的特点而导致受试者在测试中的表现不同,这种不同可以影响测试者基于测试分数而
对受试者的实际语言能力作出的评估[5]。
对于语言测试的受试者,其真实的语言能力和个人因素共同作用而影响其在测试中的表现。受试者个人因素包括语言能力(语言知识、策略能力或元认知能力)、话题知识和情感图示。测
试偏见是形式多样的,如对测试分数的错误理解、
性别歧视、种族歧视、对受试者水平的错误评估、测试内容对部分受试者具有倾向性、不恰当的选拔程序、不充分的标准评估和不适宜的测试气氛和环境。在实际的语言测试中,由于不能清楚地将文化和教育背景与我们欲测的语言能力区分开,导致测试偏见更为复杂。
·117·
沈阳师范大学学报(社会科学版)2012年第1期(总第169期)
【责任编辑赵伟】
(二)可能出现的测试偏见
在构建具有效度的结构时,测试者应全面考虑受试者的个性特征和测试任务特点对受试者的影响,避免测试倾向于部分受试者。测试偏见可能涉及到受试者的文化背景、
测试内容背景知识、认知特征、本土语言、民族、性别和年龄等方面;并且要具体考虑测试任务的特点是否会影响不同个体的测试表现,如在测试环境、仪式指导格式、输入、预期应试方式和输入与预期应试方式的关系方面。(三)规避测试偏见对于实现结构效度的重要性合理地避免测试偏见,建立公平的测试环境,保证测试结果的有效性,加大语言能力对测试分数的影响,通过对测试分数的合理解释评估受试者的真实语言能力,增强语言测试的科学性。
三、合理规避测试中的偏见实现测试结构效度(一)受试者个性特征
避免文化背景倾向。Chen 和Henning 曾在研究选项反映理论时发现:在词汇选项测试中的某些测试选项会对具有特定语言和文化背景的个体有利。如在测试中出现了决定选项答案的短语“meet one ’s Waterloo ”,对于具有欧美文化背景的受试者而言他们熟知滑铁卢之战的历史,在说起某人在某场官司或比赛中遭到失败时就会说
某某遭遇了滑铁卢,如同汉语中的
“败走麦城”,这就意味着这次测试对于这部分欧美文化背景的受试者具有倾向
性,产生了测试偏见。
所以,在设计测试内容时,测试组织者要先调研受试者自然情况,了解其文化背景,避免出现测试倾向于部分特定文化背景的受试者。
避免测试内容背景知识倾向。具有内容背景知识倾向的测试偏见是指在测试前受试者学习并了解某些测试内容的相关知识,特别是在阅读理解和完型填空题型中,从而导
致测试中的不同表现。如要考查综合阅读能力,
测试者设计了与机械设计原理相关的阅读理解,这些测试内容对于机械设计专业的受试者具有倾向性,他们可能根据所学专业知识来解答部分选项,产生测试偏见。测试者如果在测试中要检测总体的阅读能力,就意味着将内容知识定义成了不
同于阅读能力的背景知识。所以,
在设计测试和解释测试分数时,测试者必须区分开语言熟练程度和背景知识,并且相信受试者的语言能力要在具体的语言环境中得以体现。
(二)测试任务特点
合理的测试任务设置。如果测试环境对某些受试者有利,结构效度就受到了破坏。如在使用计算机的测试(TOEFL)中,某些受试者不熟悉操作或处理程序出现问题,测试对这些受试者不利,最后测试成绩会受测试设置
的影响。
所以,测试者设计测试时要预先通知受试者测试的形式,确保设置形式每个受试者都是公平的,不会影响其语言能力的发挥。
合理的仪式指导格式。首先测试者要预先通知受试者试题结构,如试题各部分的构成、题数、特点、顺序、重要性、分值和时间的分配;在设计试题指令时要简要清晰,指令过于复杂或使用目标语会对语言能力较强的受试者有利,影响其他受试者的表现;受试者要了解测试流
程和具体时间安排;受试者了解评分机制、
具体测试内容的标准答案和评分流程。
合理的输入。如果测试者要考查写作能力,不同的作
文题目会影响受试者的表现,产生测试偏见。在测试任务
的输入格式上,测试者要选择与测试内容和全体受试者语言水平相匹配的手段(音频、视频)、形式(语言、非语言
或二者兼有)
、语言(本土语言、目标语言或二者兼有)、长度、
类型和速度;在测试任务的语言设计上,语言难易取决于对所有测试者的语言能力分析和考试的目的(是否是分级测试、水平测试或结业测试);同时要评估受试者的话题熟知程度,如在口语测试中,如果受试者了解房屋出租的业务和关键词句就会在相关话题的口语测试中表现出色,使测试具有倾向性。
合理的预期应试方式。如果听力测试中,不是所有的受试者目标语言的写作能力都足以用来写出听力问题的答案,听力测试就对那些目标语写作不熟练的受试者具
有不利的倾向。
所以,要求测试者设计与测试内容和全体受试者语言能力水平相适应的预期应试方式,而具体要求与上段中对合理测试任务输入相同。
合理的输入与预期应试方式的关系。话题知识会影响受试者的表现,如口语测试中要求用目标语谈论西方心理学理论而非简单的天气,会影响部分受试者表现。所以测试者处理测试任务输入和预期应试方式的关系时,要设计与测试内容和受试者总体语言水平相适应的反映
形式(各试题是否相互关联、
各受试者的表现是否相互影响和测试的连续性)
、反映范围(受试者需要处理的测试任务输入量,如在阅读理解中回答文章大意就需要受试者处理整篇阅读文章,而在单项选择中受试者只需处理相对有限的测试任务输入)和反映方式(预期应试方式与测试任务直接还是非直接的关系)。
四、结语
科学性的语言测试是使测试成为检测和评估教学效果的重要手段,通过对测试结果的科学分析,可以评估学生对语言知识的掌握情况、教师的教学情况和整个教学体
系的设置是否合理,并通过反馈进一步完善教学体系[6]。
语言测试的科学性以结构效度的实现为基础。结构效度贯
穿测试始终,是连续而反复的过程。在测试中,
全面评估考察全体受试者的语言能力水平和个体特征差异,合理规避在实现结构效度过程中可能出现的测试偏见,营造公平的测试环境,使受试者最大程度地发挥语言能力水平,达到语言测试的目的。
[参考文献]
[1]Bachman,Lyle F.&Adrian nguage Testing in Practice [M ].Oxford :Oxford University Press ,1996.
[2]Cronhach,L.J.and P. E.M eehl.Construct validity in psychological test [G]//A.W.Ward.H.W.Stoke and M .M urrav 一cational M nham:University Press of America.Inc.1955.
[3]Popham,cational Evaluation.2nd ed [M ].Englewood Cliffs:Prentice-Hall,1988.
[4]李筱菊.语言测试科学与艺术[M ].长沙:湖南教育出版社,1996.[5]Bachman,Lyle F.Fundamental Considerations in Language
Testing[M ].上海:
上海外语教育出版社,1999.[6]党明虎.论语言测试的科学性[J].宝鸡文理学院学报:社会
科学版,
1999(4).·118·