语言测试的效度研究:回顾与展望
语言测试构念效度
根据测试结果和反馈,对测试进行持续改进,优化试题设计、评分标 准和考试流程,进一步提高语言测试的构念效度和实用性。
05
结论和展望
主要结论汇总
语言测试构念效度是评估语言测试结 果是否真实反映被测者语言能力的重 要指标。
研究表明,有效的语言测试应该具备 清晰的目标、真实的任务、可靠的评 分方法等特征。
03
语言测试构念效度的 实证研究
研究设计
明确研究目标
首先,需要明确语言测试构念效 度的具体目标,例如,是要验证 某一特定语言测试的构念效度, 还是要比较不同语言测试的构念
效度。
选择适当的受试者
受试者的选择应当代表语言测试 的目标人群,以确保研究结果的 普遍性。同时,受试者的数量也 应足够,以满足统计分析的要求
。
设计测试任务
测试任务应能全面反映语言能力 的各个方面,包括听、说、读、 写等。任务的难度和长度应适中 ,以避免受试者产生疲劳或厌倦
。
Hale Waihona Puke 数据收集和分析方法数据收集
收集受试者在语言测试中的表现数据,包括得分、反应时间、错误类型等。同时,也可以收集一些背景信息,如 受试者的年龄、性别、母语等。
数据分析
可以采用定量和定性两种分析方法。定量分析可以通过统计方法,如相关分析、回归分析等,来探究语言测试和 语言能力之间的关系。定性分析可以通过对受试者的表现进行深入观察和分析,来获取更丰富的信息。
构念的理解
构念可以是理论构念,也可以是经验构念,它们都是对某一现象或事物的抽象描 述。
构念效度的评估方法
内容效度评估
通过检查测验内容是否充分、 全面地反映了所要测量的构念
来进行评估。
结构效度评估
语言测试研究综述
名来 自北京高校 ) ,其余 的论文作者均来 自南方 ; 4 .从研究方法上看 ,实证性研究有 2 7篇 ,理论性研究有 4 3篇。
三 、语言 测 试 的 发 展 历 程 1 .近 十 年 来 我 国语 言 测试 研 究 总 体 上 可 以 概 括 为 5个 方 面 :
.
10.语言研 究 1
语 言 测 试 研 究 综 述
林 秀 芝
( 西 师 范 大 学 外 国语 学 院 广 西 广 桂林 300 ) 50 0
摘 要 :语 言 测 试 是语 言教 学评 估 的 一 种 手段 。 一 方 面 ,测 试 能 够 帮 助 学 生 鉴 定 其 掌 握 的 各 项 语 言 能 力 ; 另一 方 面 ,语 言 测 试 也 会 反 过 来指 导 教 学 ,对 教 学 手段 和 方 法 的使 用起 反 拨 作 用 。 本 文是 一 篇 语 言测 试 的 研 究 综 述 , 总 结 了近 十年 来对 语 言测 试 理 论 和 实践 研 究成 果 , 同 时 ,也 展 望 了语 言 测 试研 究 的 未 来发 展 趋 势 。
1 语 言测 试 的 理 论 研 究 .
( ) 语 言 测试 的 理论 研 究 , 旨在 建 立 适 应 中 国英 语 学 习者 语 言 能 力 1 测 试 的 理 论依 托 。并 运 用 这 些 理论 来 指导 实践 ,进 行 各 种 类 型 语 言 测 试 模 式 的 探 索 ,对 实 践 结 果 进 行 审 视 ,提 出 改进 建 议 。
4 第 四 时期 : 交 际语 言能 力模 式 ( o muiav et g . C m n t eT sn ) ci i
语言测试构念效度研究
语言测试构念效度研究2005年的英语专业八级考试是根据2004年新的八级考试大纲设计和施测的第一次考试,考试的性质、构念领域、任务要求、分数权重等都发生了较大变化。
作为全国唯一的测量英语专业学生高年级英语水平的大规模考试,这些变化对个人、团体和社会将产生重大影响。
测试界认为,越是高风险考试,越要对考试的技术和应用方面进行评价,对考试的效度验证要求越高。
因此,运用先进的效度理念、分析技术和行业规范对我国的八级考试进行研究,不仅有理论价值,也具有现实意义。
在对测验的评价中,效度是最重要的考虑因素。
然而,在过去近一个世纪以来,效度的概念从多类效度发展到统一构念效度。
与效度概念发展相联系,效度验证的范式和方法也产生了变化。
因此,全面和准确地理解效度,具有十分重要具有理论意义。
而掌握效度验证的科学方法具有运用价值。
本研究的目的有二:一是对统一效度概念从本体论、认识论、方法论视角进行较全面的评述,旨在为八级考试效度验证提供一个理论和方法框架;二是在统一效度概念下,对八级考试的客观试题从实证的角度进行效度验证。
验证的问题包括四个:八级考试客观试题的测量学属性如何?客观题目实际测量的维度与考试设计的理念是否一致?客观试题分数的意义在不同的群体中是否具有类似的解释?新增加的人文知识分测验在是否存在考试偏差? 针对两个目的,采用两种研究方法。
对构念效度的理论和方法讨论采用文献综述方式;针对八级考试客观题目的效度验证是用定量的方式提供解释依据。
构念一致性问题是本研究中关于分数解释的切入点,解决的是测验所测量的构念在不同背景的考生的意义是否具有可比性问题。
当一个测验在一个组别(群体)中所测量的假设特质(或者心理构念)与另一组别相同,或者当一个测验在测量相同的特质而测量的准确程度相似时,构念具有可比性。
构念一致属于分数结构和效度概化问题。
它与考试偏差分析一起,为分数的可解释性和考试公正提供依据。
本研究的对象是446所大学参加2005年TEM 8考试的96696名考生。
英语口语测试的历史回顾与展望
一
2 世纪7 年代初 , 0 0 以海姆斯 为代 表的社 会语言学派 对乔姆斯基的语言观提出了尖锐 的批评 。 乔姆 斯基那种 脱离交 际环境 的语 言能 力远不 能满 足有效交际 的需要 。
为此 , 海姆斯首 先提 出了交 际能力 (o m n av o — cm u i t e r c i cn
【 其他综合】
英 语 口语测 试 的历 史 回顾 与展 望
金 畅 、
( 南通市第一初级 中学 , 江苏
南通
260 ) 2 00
摘要 : 英语 口语 测 试 已经 成 为 英语 教 学评 价 的 一 个 重要 组成 部 分 。英 语 测 试 经 历 了从 前 科 学 测 试 、 结构 主 义测 试 、 际测 试 三 个重 要 的 发 展 阶段 , 避 免 口试 、 接 测 试 到 面 对 面地 直接 口试 , 形 式 和 内容 上 不 断地 革 新 并 趋 于 交 从 间 在 完善 。本 文 旨在 通 过 对 英语 口语 测 试 的 历 史 回顾 与 展 望 , 英语 口语 教 学的 发展 和 革新 提 供 借 鉴 。 为 关 键 词 : 语 口语 测 试 ; 英 发展 阶段 ; 望 展
ptne这一全新的概 念。 际语言教学认为 , e c) e 交 学语言不 仅仅是学语音 、 语法 、 汇知识 , 词 也不 仅仅 是训练操作形 式符号 的技 能 , 而是获 取人与人交际的一种能力 。能力 不排 除知识 和技 能 , 但是 也不等 于知识加 技能 , 而是把 知识和技能包容进去 的 、 性质起 了变 化的综合体 。交际 语言教学不停留于教知识 , 教技能 , 而要教能力 。 掌握一 门外语是指在一定 的话境 中学生能够用外语 互通信息 , 交流思想感情 , 达到交 际 目的。交 际法 的教学 目的是培 养学生的交际能力 。 相应地 , 在测试领域 , 际语言测试 交 提 出语言测试所测试 的 , 不是某个语言技 能或某个语言 知识点 的掌握情 况 ,而是 学生完 成某个交 际任 务的能 力 。交际 口试更加重视语言 的社会交 际功能 , 即语言 的 准确性 、 得体性 和有效性 。交际性 口试 的特 点可 以归纳 如下 : 真实性 、 功能性 、 交互性 、 情景性 和综合性 。
语言测试标准研究_回顾_反思和启迪_范劲松
语言测试标准研究:回顾、反思和启迪3范劲松 金 艳提要:国内大规模语言测试自20世纪80年代以来取得了很大发展。
这些考试往往是超大规模的高风险考试,而且对教学产生了重大的反拨作用。
因此,这些考试本身的质量如何,考试的使用是否恰当,成为引人关注的问题。
如果能够建立一套符合中国国情、适合中国语言测试特点的标准,指导规范考试开发者和使用者在考试各个阶段的行为,必将能够使语言测试更为公平、有效,从而也能使测试对语言教学产生更为积极的反拨作用。
自20世纪50年代,尤其是近二十年来,世界各地的语言测试专家和教育工作者携手合作,在制定语言测试标准的研究和实践方面取得了许多重要成果。
本文回顾了近二十年来语言测试界在标准制定方面所取得的成果,并且对这些标准进行了反思,以期能够对我们制定适合中国国情的语言测试标准有所启迪。
关键词:语言测试;测试设计;实施;使用;标准制定Abstract:Large2scale standardized language tests have devel oped with great momentu m since the1980s in China. Most of these tests are high2stakes ones,exerting significantwashback effects on teaching and learning in the country. Therefore,whether these tests per se are scientifically designed and whether they are app r op riately used become i m2 portant concerns.I f we establish a set of standards which cater t o the s pecific circu m stances and the needs of language testing in China,direct and guide the p ractices of test devel opers and users in the entire testing p r ocess,then we can make these tests more scientific and objective and fairer t o stakeholders.Since the1950s,es pecially in the past20 years,language testers ar ound the world have collaborated with educati onalists t o establish many i m portant standards. This paper revie ws the achieve ments in the field of standard setting and reflects on these standard setting initiatives, which,hopefully,can p r ovide us with ins p irati ons f or our own standard setting endeavor.Key words:language testing;test design;test ad m inistrati on;test use;standard setting中图分类号:H319 文献标识码:B 文章编号:1004-5112(2010)01-0082-101.引言考试在现代生活中几乎无处不在。
语言测试之效度理论发展五十年
研究如何平衡考试内容与构念效度的关系,以实现两者的最佳结合。此外, 也可以将研究范围扩展到不同类型、不同层次的语言测试中,以丰富和完善相关 理论体系和实践应用。
感谢观看
通过分析该测试的效度,发现其具有以下优点: 1、测试内容全面,涵盖多个领域,能够准确反映学生的综合英语能力;
2、采用交际性能力测试方法,贴近实际语言使用情况,能够评估学生在真 实语境中运用英语的能力;
3、通过智能化评分技术,确保评分的客观性和准确性,有效避免了人为因 素对评分的影响;
4、通过数据分析,能够对测试的效度进行深入研究和改进,进一步提升测 试的有效性和可靠性。
总的来说,结构效度是评估语言测试有效性的重要指标。提高语言测试的结 构效度需要从多个方面进行考虑和设计,包括明确测试目的、合理规划测试内容、 选择适当的测试方法和制定合理的评分标准等。只有这样,我们才能确保语言测 试的结果能够准确反映学生的实际语言知识和技能水平,从而为语言教育提供更 有价值的参考依据。
研究结果
通过文献综述,我们发现语言测试构念效度的研究已经取得了丰富的成果, 但同时也存在一些问题和挑战。例如,对于语言能力的定义和构成要素仍存在争 议;构念效度的评估标准也不够明确;以及如何平衡考试内容与构念效度的关系 等问题。案例分析则显示,一些语言测试在构念效度方面表现出较好的一致性和 可靠性,但也有一些测试存在较大的偏差和不一致。
关键词
语言测试效度理论、新发展、语 言能力、评估、应用
理论发展
语言测试效度理论的新发展主要包括以下几个方面:
1、综合效度框架:综合效度框架强调语言测试的整体性和综合性,测试内 容、测试方式和测试结果三个方面的效度。这一框架下的效度评估更加全面,有 助于提高测试的可靠性和有效性。
国内英语测试研究评介与展望
的研 究也 正逐步 跟 进 与完 善 , 并 在语 言 测 试 的各 个
环节 ( 试题开发 、 施考 、 评 分、 反馈) 发 挥 着 重 要 作
作文 、 翻译 、 听力 ) 的文 章, 有 2 4篇 , 占 总 篇 数 的
1 9 %; 四是 计 算 机 化 语 言 测 试 方 面 的 研 究 文 章 1 O
测试 方 面 的研 究 , 所 以英 语 测 试 研究 者 可 以从 这 3
指出, 制定 口语 语 言能 力 等 级 量表 是 口语语 言测 试 和 口语语 言教 学 中 的基 础 研 究 工作 J l ; 张新 玲 等 认 为进行 计算 机化 、 网络 化 等 多模 态 情 景 下 的综 合
证研 究 指 借 助 于 内省 思 辨 对 一 些 现 象 进 行 评 介 。
1 2 6篇关 于英语测 试研 究 的文章 中实证 研究 与 非 实 证研 究 的 比例为 5 8: 6 8 。 二、 英语 测试研 究现 状 ( 一) 英语测 试研究 现状概 述 通过 对研究 对象 进 行统 计 分 析 , 2 0 0 8 -2 0 1 2年 的五年 间 , 8种外 语 类 核 心期 刊发 表 的关 于英 语 测 试 的文 章 的篇 数 以 2 0 0 9年 ( 3 0篇 ) 为分 水岭 先升 后 降 。一 方面 , 不 同期 刊 英 语测 试 类 文章 所 占的 比例
《 外语与外语教学》 、 《 外语教学与研究》 、 《 外语教 学》 、 《 现代外语》 、 《 外语教学理论与实践》 、 《 解放 军外国语学院学报》 、 《 外 国语文》 ) 5年间关于英语 测试 的文 章进行 统计 分 析 , 旨在对 国 内语 言测 试 研
究 的现状进 行评 述 , 并对 其 未 来 的发 展 趋 势做 出展 望, 以期能 为语 言教学 和测试 提供一 些参 考 。
我国外语测试实证研究回顾与展望基于外语类主要期刊的统计分析
我国外语测试实证研究回顾与展望基于外语类主要期刊的统计分析一、内容综述在外语测试的研究领域中,实证研究一直占据着举足轻重的地位。
它通过对实际测试场景的深入剖析,为外语测试的理论建设和实践应用提供了坚实的数据支撑和理论依据。
随着外语类主流期刊对实证研究的持续关注,这一领域的成果愈发丰富,研究水平也不断提高。
在实证研究的内容上,涉及了外语测试的多个重要方面。
首先是对考试内容的效度研究,研究者们通过对不同题材和难度级别的考试题目的分析,探讨了试卷内容的效度问题。
其次是对外语测试信度研究,通过多次测试结果的比较和分析,研究者们揭示了测试信度的稳定性。
还有对外语测试难度和区分度研究等,这些研究从不同角度对外语测试进行了全面的评估。
随着科技的进步,数字化和智能化测试工具的发展也为实证研究带来了新的机遇和挑战。
本文通过对中国外语类主要期刊中的相关论文进行统计分析,展示了外语测试实证研究的主要内容发展脉络和趋势。
近年来外语测试实证研究主要集中在以下几个方面:一是考试内容的效度研究,二是测试信度研究;三是测试难度和区分度研究;四是测试工具的研发与应用。
这些研究为我们理解外语测试的质量和效果提供了重要依据。
1. 外语测试的重要性与日俱增随着全球化进程的加快,外语测试的重要性与日俱增。
在外语教学中,良好的外语水平是学生进行跨文化交流的关键,测试在评估学生的学习效果、改进教学方法和促进教师专业发展等方面扮演着重要角色。
从幼儿园到高等教育,各级学校越来越重视对学生外语能力的检测与提升。
各类企事业单位也要求员工掌握一定水平的外语能力,以便在工作岗位上更好地与他人沟通与合作。
在国家政策层面,外语测试已成为衡量国家竞争力的重要指标。
我国大学英语六级考试(CET)已经成为非英语专业学生的标配,而雅思、托福等考试则成为了衡量我国学生出国留学或工作的重要标准。
外语测试已逐渐渗透到教育、企业和国家政策的多个层面,成为衡量个人语言水平和综合素质的关键因素。
浅谈语言测试中的效度问题
英 语 教学 大 纲 》 规定 的 教 学 目标 考 核 修完 大 学 英 语
。
以
。
大 学 英语 课 程 的 教
,
经 验 效 度 是指 语 言测 试 的 结 果 与对 应 试者 语 言 能 力 的 评估 在 多 大程 度 上相 一 致 为两 种 一 种 是共 时效 度
种 是 预 示 效度
,
学 目的 是 培 养 学 生 具 有 较 强 的 阅 读 能 力 和 一 定 的 听 说 写 译能 力 使学 生 能 以 英语 为 工 具 获 取 专 业 所 需 信 息 并 为 进一 步 提 高英 语水 平 打 下 较好 的
。
信度 但这 只 是 个 理想 化 的 目 标 因 为做 到这 一 点
往往 是不 可 能 的
。
在 编制试 题时 既 不 能为 了追 求
,
水平 测 试用来 衡量 学生 的 语 言 能 力 即 看学 生
是 否 达 到 某 一 水 平 从 而 决定其 是 否 能胜 任 某 一 任
,
,
信度 而忽 视 效 度 也 不 能 为 了 追 求 效 度 而 放 弃 信
学 习 语 言的 潜 力
度
。 。
高 的 信度 但 它却 能够考 查学生 实际 应 用 语 言的 能
力 具 有 较高 的 效 度
, 。
语 言潜 能 测 试 以 某种 语 言 行 为
,
因 此 一 套好 的 试题 应 包 括
, 。
,
理 论和 学 习 理 论 为 依 据 因 此 首 先 要 考 虑 编 制 效
,
标准
容
。
。
效 度 指测 试 是否 考查 了设 计 者想 要 考查 的
,
浅论语言测试的效度
浅论语言测试的效度[摘要] 信度与效度是语言测试两大基本要求,信度与效度的关系问题是语言测试的根本问题。
考试的效度指的是考试在多大程度上测出预期要测量的东西,信度指的是考试结果的可靠性。
本文重点介绍了效度的含义,对效度的测量方法以及效度与信度的关系等问题做了详细的阐述。
[关键词] 语言测试效度信度[Abstract] As a branch of applied linguistics, language testing has developed into a relative independent subject. Validity and reliability is the most important two criteria of language testing and the relationship of both is the ultimate issue. This article makes comments on the two criteria in detail. Validity is concerned with if a test measures accurately what it is intended to measure. Reliability means the quality of being reliable on consistency. This article puts emhasis on validity and also explains the testing methods of validity as well as the relation between validity and reliability.[Key words] Language testing validity reliability一、引言语言测试学作为应用语言学的一个分支,现已发展成一个相对独立的学科。
国内英语测试研究的十年回顾与展望
国内英语测试研究:十年回顾与展望□蒋显菊提要:本文对过去10年中(1996-2005)刊登在国内8种主要外语类核心期刊上有关英语测试研究的文章进行检索统计,结果显示:(1)在过去10年间,测试研究总体上呈上升趋势;(2)研究涵盖了测试的6个主要方面———测试信度、效度、测试类型、题型、测试的反拨作用、测试问题与改革等;(3)研究方法以非材料性研究为主,实证性研究为辅。
通过对研究现状的分析,我们发现,目前实证性研究比例有所上升但仍然偏低,研究内容层面存在不足,对学习主体———受试者的研究不够等。
最后,文章就进一步研究提出了建议。
关键词:测试研究;研究方法;研究内容;回顾;展望Abstract:A careful survey of articles concerning English testing in China,as published in eight of the domestic ma2 j or linguistic j ournals fr om1996t o2005,shows that there has been a steady increase in the nu mber of papers in the field of study.The researches cover a wide range of t op ics(which can be r oughly put int o six maj or categories,point2 ing t o reliability,validity,types of tests,back wash,p r oblem s and ref or m s in English testing,etc.).I n regard t o re2 search methods,non2material research p lays a dom inant r ole,with e mp irical studies taking up a s mall percentage. Further analysis reveals that certain p r oble m s exist in conte mporary researches,such as dis p r oporti onate use of the e mp irical research method,inadequate attenti on paid t o research on s ome areas of English testing and testees.Final2 ly,suggesti ons for further research are p r oposed.Key words:research on testing;research methods;research content;review;future directi ons中图分类号:H319 文献标识码:B 文章编号:1004-5112(2007)02-0089-081.引言在过去的半个多世纪里,作为外语的语言测试活动在国外受到学术界的格外关注,研究风起云涌,此起彼伏。
第七章 语言测试的效度研究
第六章语言测试的效度研究本章将研究所有语言测试中最重要的问题:效度问题。
效度是测试评估中最重要的指标。
一项测试如果从设计目的角度讲不是有效的,那么测试分数的推断和解释自然不会准确(Alderson et al. 1995:170)。
Messick(1992:89指出,众多测试设计者承认其有义务提供证明测量结果富有价值的效度证据,但遗憾的是很少有人真正这样去做。
Hughes,Porter以及Weir认为提供令人满意的效度证据是任何严肃测试必不可少的条件。
第一节效度的概念效度是教育和心理测量学中的一个概念,由来已久。
Kelly(1927:14)指出“效度问题就是一项测试是否真正测量了它声称所要测量的东西”。
Lado(1961:321)提出了这样的问题:“一项测试测量了它应该测量的东西了么?如果是,那它就是有效的。
” 上述是对效度进行的概括性或普遍定义。
下面我们从不同维度解读效度概念。
Henning(1987:89)对效度的理解偏重测试的设计目的,该定义为:一般来说,效度是指一项测试或测试一部分测量它声称测量内容的合适性(appropriateness)。
测试有效是指它测量了它应该测量的东西。
当效度用来描述一项测试时,它应该与“for”连用。
任何一项测试只有针对特定的目的才有效。
该定义突出了测试研发和使用的目的性。
测试使用最普遍的问题之一就是测试误用,即测试不是本着最初的设计目的而得以运用,当然这并不是说一项测试不能有效于多个目的,无论它出于何种目的被运用,其有效性证据必须要建立并加以呈现。
我们不能简单地说“该测试有效”,而应回答下面的问题“你是怎么知道该测试有效的?”以及“该测试有效性体现在哪里?”Henning的定义中还考虑到了效度的程度问题:测试相对其设计目的或多或少是有效的,即效度不是一个“要么有要么无”的概念,而是一个相对概念(Alderson et al. 1995:170)。
Weir认为效度存在于测试分数的解释中,而非测试本身。
浅谈语言测试效度
浅 谈 语 言测 试 效 度
郑 玮
( 长春金 融 高等专科 学校 基础 部 , 吉林 长春 1 3 0 0 2 2 )
摘要 : 测试效度是语 言测试 学领域至 关重要 的概念之 一 , 也是 众多语 言 学家科研 的重点 。它是测试 质量 审定 的主要依 据, 直接 关 系到测试质量 的高低。 因此有必要对语 言测试 的效度及相 关研 究成果进行 整理和 分析 ,  ̄z. 4 t 3 对 此的理解 , 以
总体 来讲 , 效度 是测 试 领 域里 最 为重 要 的 概念 之一 , 人们 以此 来 衡量 测 试 的得 体 性 。假 设 一 个 测 试准 确地 测试 出 了它 想要测 试 的受 试者 的真 实 的语 言水 平 和技巧 , 那 么 这 一测 试 就 是效 度 高 的。反 之
亦然 。
现 J 。这 种再 现越真 实 地 反 映受 试 者 的语 言 能 力 , 道 出了效度 的实质 , 简 而言 之 ,
就是考 试达 到其 预期测 试意 图的程 度 。如 果一 种测 试没 能测试 出预期 要 测试 的东西 , 那 么 这 一 测试 便 不具 有相应 的效 度 , 以至 于不 能 提供 关 于受 试 者语
测 量任 务 ,达到 了预期 测试 的 目标 。
我 们 也 从 后 来 的 测 试 效 度 研 究 成 果 中 看 到 了
H u g h e s 关 于效度 定义 的局 限性 。在 2 0 0 0年 , M c N a —
m a r a提 出了他 的独到 见解 , 他 强调 了受 试 者在 测 试 过 程 中的表 现应是他 真实语 言水 平 和技巧 的精 准再
素。 ’ ’[
量考 试科学 与 否 的标 准 。B a c h m a n 指 出, “ 效度 是 测
浅谈语言测试效度
浅谈语言测试效度作者:郑玮来源:《吉林省教育学院学报·上旬刊》2013年第06期摘要:测试效度是语言测试学领域至关重要的概念之一,也是众多语言学家科研的重点。
它是测试质量审定的主要依据,直接关系到测试质量的高低。
因此有必要对语言测试的效度及相关研究成果进行整理和分析,加深人们对此的理解,以期对语言测试起到积极的作用。
关键词:效度;表面效度;内容效度;结构效度;尺度相关效度中图分类号:GH319文献标识码:A文章编号:1671—1580(2013)06—0072—03语言测试的质量主要可以通过信度、效度、真实性、相互作用性、后效作用和可行性来进行评估。
其中,效度是所有出题人最为看重的测试质量审定的主要依据,它直接关系到测试质量的高低。
在语言测试这一领域里,这一概念被反复提及和讨论。
语言学家们普遍认为效度是测试中最为重要的用以衡量考试科学与否的标准。
Bachman指出,“效度是测试应用中最为重要的指标”。
[1]一、效度的定义在语言测试领域,许多语言学家致力于效度的研究,他们从不同的角度阐释了效度这一概念。
Bachman 的定义如下:测试的效度是指考试在多大程度上测出预期要测量的东西或者说考试在多大程度上完成了预期的测量任务,达到了预期测试的目标。
[2]Bachman 的定义道出了效度的实质,简而言之,就是考试达到其预期测试意图的程度。
如果一种测试没能测试出预期要测试的东西,那么这一测试便不具有相应的效度,以至于不能提供关于受试者语言能力真实水平的有价值的信息。
Henning (1987: 89)则这样诠释效度:测试效度所指的是测试的得体性,即测试的内容是否检测了想要检测的内容。
如果一种测试在某种程度上达到了它设计的预期目的,那么这一测试就是有效的。
而这种有效是相对的,仅对一些测试目的而言,并非所有测试目的。
[3]Henning的定义更加明确了效度与测试目的的关系。
效度并非万能的,它不是无所不包的。
语言测试的主要研究范式及其发展趋势
第41卷第1期2011年1月浙江大学学报(人文社会科学版)Journal of Zhejiang U niversity(H um anities and Social Sciences)Vol.41,No.1J an.2011[收稿日期]20100725[本刊网址・在线杂志]http :///soc [在线优先出版日期]20101013[基金项目]国家社会科学基金资助项目(10B YY092)[作者简介]1.何莲珍,女,浙江大学外国语言文化与国际交流学院教授,博士生导师,主要从事语言测试、外语教学及语料库语言学等方面的研究;2.李航,女,浙江大学外国语言文化与国际交流学院博士研究生,浙江大学外国语言文化与国际交流学院教师,主要从事语言测试研究。
主题栏目:跨文化语言研究DOI :10.3785/j.issn.10082942X.2010.07.251语言测试的主要研究范式及其发展趋势何莲珍 李 航(浙江大学外国语言文化与国际交流学院,浙江杭州310058)[摘 要]研究范式是指导某一领域研究的本体论、认识论和方法论的立场、观点的总和。
社会科学领域的四大研究范式,即实证主义、后实证主义、批判理论以及建构主义,对包括语言测试在内的社会科学各学科都有着极其重要的指导作用。
由于语言测试的核心活动是测量,因而长期以来,该领域一直受到实证主义范式的支配。
然而近年来,受社会科学领域研究范式发展的影响,语言测试领域的研究范式也开始呈现出多元化、综合化的特征。
但考虑到测试活动的本质属性等因素,实证主义和后实证主义范式仍将支配这一领域未来的研究;而批判理论和建构主义研究范式也将通过与传统范式相结合等方式,对测试研究产生持续的影响。
[关键词]语言测试;研究范式;实证主义;混合研究范式Major Inquiry Paradigms of Langu age T esting R esearch and Future T rendsHe Lianzhen Li Hang(S chool of I nternational S t u dies ,Zhej i an g U ni versit y ,H angz hou 310058,Chi na )Abstract :An inquiry paradigm is the sum of positions and beliefs on ontological ,epistemological and methodological levels that drive the research in a certain field.The four major research paradigms of social sciences ,namely ,positivism ,postpositivism ,critical theory and constructivism ,have a powerful influence over all research fields within social sciences ,including the field of language testing.With measurement as its core activity ,language testing has ,for a long time ,been dominated by positivism.However ,over the last few decades ,influenced by the development of inquiry paradigms in social sciences ,a richer variety of paradigms has appeared in language testing.However ,owing to factors such as the essential attribute of language testing ,in the future positivism and postpositivism will most likely retain their dominance in the field.Studies featuring a mixed 2paradigm ,namely a combination of alternative paradigms such as critical theory and constructivism ,and the more traditional paradigms ,will also have a lasting influence on language testing research.K ey w ords :language testing ;inquiry paradigm ;po sitivism ;mixed 2paradigm231浙江大学学报(人文社会科学版)第41卷近三十年来,语言测试研究经历了一系列变化,包括研究方法和工具的进一步丰富与改进,以及哲学视角和研究问题的不断拓展等。
语料库在语言测试中的应用:回顾与反思
彳祺珞峰大嗲学报_|^语料库在语言测试中的应用:回顾与反思邹绍艳〃(1.上海交通大学外国语学院,上海200240;2.青岛农业大学外国语学院,山东青岛266109)摘要:近年来,语料库在语言测试领域的应用得到广泛认可,其应用潜力和前景也备受关注。
本文首先回顾并梳理了语料库在国际语言测试领域四个方面的应用:考试开发、考试效度验证、自动评分系统、语言能力量表构 建,然后对语料库在国内语言测试领域的应用情况进行了反思,并以中国英语学习者写作能力量表的构建为例,阐述了语料库在构建写作能力量表中的应用。
关键词:语料库;语言测试;中国英语学习者写作能力量表中图分类号:H05 文献标识码:A文章编号:1672-335X(2016)06-0109-06—'弓I言自20世纪60年代第一个计算机化的语料库一Brown语料库在美国问世以来,语料库作为 一种新兴的研究方法逐渐渗透到语言学研究的相关 领域。
20世纪90年代中期,随着大型本族语者语 料库的建立(例如,英国国家语料库British National Corpus,以下简称BN C和美国国家语料库American National Corpus,以下简称 ANC),语料库在语 言测试领域的应用前景开始引起语言测试界的关 注。
Alderson在1996年就预测了语料库在语言测 试中的一系列用途:设计考试题目、确立考试构念、分数评定与报道等等。
[1]自此之后,语料库开始被频 繁地用于大规模标准化考试、整体性测评以及发展 性测评中。
2003年,在英国雷丁大学召开的第26 届国际语言测试研究大会专门就语料库和语言测试 的关系成立了一个专题研讨会,学者们分别聚焦本 族语者语料库和二语学习者语料库在写作测试、阅读测试以及口语测试中的应用,阐明语料库在语言 测试领域的应用前景。
[2]当前,我国正在调动英语教学和测试各方面的资 源制定中国英语能力等级量表(China S tan d ard s of E n g lish,简称C S E)。
语言测试的新进展基于任务的语言测试
2、强化学习在语言测试中的应 用
2、强化学习在语言测试中的应用
强化学习是一种通过试错学习的机器学习方法,它可以在一个动态环境中根 据反馈进行学习和改进。在语言测试领域,强化学习可以应用于自动化测试和个 性化反馈。例如,通过强化学习算法对学习者的语言输出进行评估和反馈,可以 帮助学习者更好地了解自己的不足之处并加以改进。
结论与建议
对于雅思语言测试,建议在保持现有题型的基础上,适当增加对英语应用和 西方文化的考察。职场和移民等实际场景的需求,优化测试内容,确保测试结果 能够更好地体现学习者的英语实用能力。
结论与建议
此外,随着技术的发展,可以考虑将计算机化自适应考试(CAT)等现代化考 试手段引入这两种语言测试中,以提高测试的效率和质量。加强与各国的教育机 构、考试机构和文化机构的合作,推动语言测试的国际化和标准化发展。
三、结论
三、结论
基于任务的语言测试是一种较为有效的语言测试方法,它能够真实地反映学 习者的语言水平和应用能力。近年来,随着和大数据技术的不断发展,深度学习、 强化学习等方法在语言测试中得到了广泛应用,基于机器学习的语言测试也成为 了新的发展趋势。这些新方法和技术可以提高语言测试的信度和效度,同时还可 以实现自动化评分、个性化反馈、自适应调整等功能,进一步提高语言测试的效 果和效率。
在题型方面,新HSK语言测试和雅思语言测试都采用了多种题型来考察听、读、 写、说四个方面的能力。新HSK语言测试的题型包括选择题、填空题、阅读理解、 听力和口语等,而雅思语言测试的题型包括单项选择、多项选择、判断正误、填 空题、写作和口语等。
测试结果对比
在难度方面,新HSK语言测试和雅思语言测试的难度大体相当。新HSK语言测 试的难度主要体现在汉语的复杂性上,而雅思语言测试的难度则主要体现在英语 的应用上。
二外德语语言测试信效度的实证分析
二外德语语言测试信效度的实证分析1. 引言1.1 研究背景二外德语语言测试是二外德语专业学生必须通过的一项重要考试,其结果直接影响着学生的学业发展和未来就业。
对于该语言测试的信效度问题一直是值得关注和探讨的话题。
在日常教学实践中,我们经常会发现一些学生在语言测试中表现不符合其平时学习水平,或者同一学生在不同时间的测试结果存在较大的波动。
这些现象引发了我们对二外德语语言测试的信度和效度问题的关注。
了解二外德语语言测试的背景及其信效度状况,不仅可以帮助我们更好地理解测试结果的准确性和稳定性,也有助于我们进一步提高语言测试的质量和有效性。
本研究旨在通过对二外德语语言测试的实证分析,探讨其信度和效度情况,为提高语言测试质量提供参考依据。
1.2 研究意义通过对二外德语语言测试的信度和效度进行实证分析,可以帮助我们更全面地了解该测试工具的优势和不足之处,为进一步提升测试工具的质量提供理论依据。
本研究还可以为相关领域的研究人员和教育者提供参考,促进德语教学和测试工作的发展。
通过对二外德语语言测试的信度和效度进行深入研究,将有助于提高测试工具的可靠性和科学性,为学生提供更好的学习体验和成长空间。
本研究具有重要的理论和实践意义。
1.3 研究目的本研究旨在对二外德语语言测试的信度和效度进行实证分析,以探究其在评估学生语言能力方面的可靠性和有效性。
具体来说,本研究将通过对已有的二外德语语言测试进行概述、信度分析和效度分析,探讨其在实际应用中的表现和可信度。
通过对测试的信度和效度进行分析,可以帮助教育机构和语言测试机构更好地评估和改进测试工具,提高测试的质量和准确性。
通过对信度和效度的实证研究,可以为二外德语语言测试的发展和改进提供科学依据,为教学和学习提供更加可靠和有效的评估工具。
本研究的目的是为了深入探讨二外德语语言测试的信度和效度情况,为相关研究和实践提供理论支持和指导。
2. 正文2.1 二外德语语言测试的概述德语是世界上使用范围广泛的语言之一,而在中国,学习德语的人群也在逐渐增加。
中国语言测试理论与实践发展40年—回顾与展望
3.思考社会问题,研究社会影响;
探索具有中国特色的社会学问题。首先,我们应更深入地探索考试对社会和教育的影响, 探索应试教育问题的根源和出路,尝试建立考试利益相关者之间的交流和沟通渠道,对 考试的误用进行有效的干预。其次,社会学研究还包括考试标准的建设。语言测试领域 有三大类标准:道德标准,行为准则,能力标准。
谢谢聆听
交际语言测试是随着交际教学法的发展而发展的,其理论基础是 交际能力理论,要求采用做事测试,通过观察学习者在真实语言 交际场景中的行为表现进行判断,“任务完成度”是一个重要的 评价标准。
第三阶段:社会学转向期
近10多年来,由考试使用引发的社会问受到越来越多的关注。因此,在这一阶段,我国 语言测试领域开始更加深入、系统地探索考试的社会学问题。
第二阶段:改革发展期
20世纪90年代后期至21世纪初,我国学者开始关注考试对课程设 计和实施、教学内容、教学方法和进度、学习态度、学习动机和 效果等方面的影响,开展了高考英语,大学英语四、六级考试等 大规模考试的反拨作用研究(如辜向东,2005;亓鲁霞,2004)。
在语言能力和测试方法上,这一阶段的考试主要体现了交际语言 测试的特征。
二、中国语言测试 40年的发展历程
(一)发展历程概述
国际
基于教育统计和心理测量等学科的现代语言测试是一 个年轻的学科领域,经历了近60年的发展历程。
我国
由于历史的原因,语言测试的起步晚了近20年时间, 至今经历了40年的发展历程。
(一)发展历程概述
我国40年来的语言测试发展大致分为三个主要阶段(见图2)。
2. 探索测试方法,实现技术创新;
第二,我们需要开展语言测试方法和技术的 研究,实现技术创新。未来的研发应更加充 分地运用人工智能技术和测量技术,推行计 算机化语言测试,改进测试任务设计,为测 试提供更真实的语境。我们还应开展人工智 能技术支持下的命题、预测、自动评分、诊 断和反馈等研究,提高考试效率,同时为考 生提供更加个性化的服务。此外,未来研究 还应探索 语言能力量表在考试设计、评分 和分数解释中的运用,包括量表与考试的对 接技术,量表在题型设计、命题和评分中的 运用,使考试分数更有解释力,更好地与国 际标准对接。
国内英语测试研究概述与展望
国内英语测试研究概述与展望摘要:本文通过对CNKI中国期刊全文数据库中8种国内外语核心期刊(2004-2008)的英语测试主题检索,并依照研究方法以及研究内容对其进行分类,旨在对5年间的国内英语测试研究进行概述和评介,并对其未来发展态势进行展望。
关键词:英语测试研究研究方法研究内容概述评介展望 1 国内英语测试研究的现状随着语言学理论的发展(历史比较语言学、结构主义语言学、转换生成语法、心理语言学、社会语言学),作为其重要组成部分的英语测试也必然要经历不断的理论变革;通过反拨作用,教学法也经历了从语法翻译法、听说法到交际法的发展过程。
通过对研究对象进行统计分析,2007-2011五年间,英语测试文章总篇数以2006年(15篇)为分水岭呈上升——下降趋势。
对于不同期刊,其分布又有所差异。
其中外语界英语测试文章篇数呈下降趋势,但其每年的篇数都位于8种核心期刊之首,说明由上海外国语大学主办的期刊外语界十分重视英语测试方面的研究。
外语与外语教学呈与总篇数类似的分布,其每年度的英语测试文章仅居外语界之后,这同样说明了主办方大连外国语学院对英语测试的重视程度。
期刊外语教学与研究也呈与总篇数类似的分布,其峰值年份为2006年,总计篇数为4篇。
由于其它5种期刊中英语测试文章数量较少,外语研究3篇,外语教学3篇,解放军外国语学院学报3篇,外国语1篇,外语学刊1篇,所以其分布不具有很好的解释力。
另一方面,54篇英语测试文章中不同测试内容呈现出不均匀分布,同时相同研究内容所采取的实证研究与非实证研究又是相对平衡的。
2 对英语测试现状研究的描述统计2.1大学英语四六级研究通过对15篇文章进行整理,发现关于大学英语四、六级的文章8篇,英语专业四、八级的7篇。
8篇四、六级文章中,评介性的文章6篇实证方面的文章2篇。
多年来,四、六级始终是语言测试领域备受关注和研究的热点,专家学者对此种大规模标准化考试众说纷纭。
王全、徐亚龙(2004)力主确立英语能力统一标准并且构建符合素质教育思想的多极化英语水平测试体制;唐雄英(2005)认为大学英语课程的评价应是多价值、多种评价手段、多方参与的心理构建过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 重庆 师 范大 学 外 国语 学院 , 重庆 4 0 1 3 3 1 )
摘 要: 效度 , 作 为衡量测试质量的重要指标之一 , 在 不断地科学探 索与研 究中, 发 生着翻天覆地的 变化 。首先 回顾效度
这一概念在语 言测试领域的发展 轨迹 ,接 着从社会 维度和研究范式两方面 阐述其 当前的研究现状 ,指 出其 中的不足之
中图 分 类 号 : H1 0 2 . 3
文5 — 9 6 9 9 ( 2 0 1 5 ) 0 4 - 0 0 5 4 - 0 6
一
、
引 言
( 2 0 1 2 : 3 - 1 7 ) 的观点 , 第 一 次世 界 大 战 之 后 , 语 言 测
呈 现 出 的 百 花 齐 放 的 局 面 极 力 要 求 语 言 测 试 界 的
学 者们 探索 一 个综 合 、 统 一 的效 度概 念 。
① 收 稿 日期 : 2 0 1 5 — 0 6 — 0 2 作者简介 : 杨 秀芬 , ( 1 9 8 7 一) , 女, 山西 朔 州 人 。在 读 研 究 生 , 主要 从 事 语 言 测 试 方 向研 究。
科 的有 力 保 障 , 像 效 度 这 样 的 专 业 术 语 亦 如 此 。本
效 的解 释 , 于 是 提 出 了构 念 效度 , 也 就 是 把 测试 分
数 与 构 念 的 理 论 定 义 联 系 起 来 。 测 量 某 种 构 念 的
一
项 测 试 是 否 有 效 关 键 要 对 该 构 念 的 理 论 定 义 进
第3 0卷 第 4期
2 0 1 5年 8月
景德镇学院学报
J o u r na l o f J i n gd e z h e n Un i v e r s i t y
Vo 1 . 3 O No . 4
Au g . 2 01 5
语 言 测试 的效 度研 究 : 回顾 与展 望
旨在 倡 导 语 言 测 试 领 域 的 一 切 利 益 相 关 者 与 研 究
计 程 序 和分 数 的 预期 解 释 或 者 使 用 之 间 建 立 或 多
或 少 的 直 接联 系 ( C u r e t o n 1 9 5 1转 引 自 K a n e 2 0 1 2 :
3 - 1 7 ) , 这就 是基 于 内容 的效 度 观 。 它 强调 可 以从 受 试者 完 成 测 试任 务的 实 际 行 为表 现 推 断 出他 们 在
几 十年 来 学 术 论 证 的 结果 并 且 仍 然 处 于再 发 展 的
状态( 邹申 2 0 1 2 : 1 4 0 ) 。本 文 首 先 对 语 言 测 试 效 度
的历 史发 展进 行 简 要 的 回 顾 ,接 着 以 当前 的效 度 研 究 现状 为 出发 点 ,从 社 会维 度 和 研 究 范 式 两个 方面 , 展 望 其未 来 的 发 展趋 势 。通过 梳 理 与 展 望 ,
处, 并展 望其 未来的发展 趋势 , 旨在提 高人们 对语 言测试的认 识度 , 启发研 究者们 不断探 索最前 沿、 科 学的研 究方法 , 解 决语 言测试关涉的社会 问题 , 促进语 言测试给社会 带来更 多的正面效应。
关键 词 : 语言测试 ; 效度 ; 社 会 维度 ; 研 究 范 式
的 概 念 , 即 两 个 关 于 同 一 目标 的 测 量 结 果 之 间 的
相关 。然 而 , 标 准效 度模 式 的 问题 在于 作 为标 准 的
测 试 的 效 度 又 该 如 何 得 以验 证 ? 为 了 解 决 该 疑 问 , 语 言 测 试 界 的 研 究 者 们 发 现 需 要 在 标 准 测 试 的 设
“ 效 度 是 评 价 一 项 测 试质 量 的 重 要 标 准 ” ( 韩 宝成 , 罗凯 洲 2 0 1 3 : 4 1 1 — 4 2 5 ) 。然而 , 效度 的 当代 定
义 并 不 是 一 蹴 而 就 的 。作 为 一 个 科 学 概 念 , 效 度 是
试开 始 被 用 于 预测 和 分 级 ,此 时提 出 了标 准 效 度
文 主要 基 于 K a n e ( 2 0 1 2 : 3 - 1 7 ) 的观点 , 对 语 言 测 试 效 度 这一 专 业术 语 的历 史发 展进 行 简要 的 回顾 。 较 为明确的效度概 念于 2 0世 纪 2 0年 代 出现 在教 育 与心 理 测 量 领 域 中 ,直 到 四 五 十 年 代才 盛 行 于语 言测 试领 域 ( 李清华 2 0 0 6: 8 7 — 9 5 ; 邹申2 0 1 2 : 1 4 0 ;韩 宝 成 ,罗 凯 洲 2 0 1 3 : 4 1 1 — 4 2 5 ) 。根 据 K a n e
行验证( C r o n b a c h& Me e h l 1 9 5 5 : 2 8 1 — 3 0 2 ) 。然 而 , 由
于 当 时 的 研 究 并 未 对 构 念 效 度 提 供 一 个 普 遍 的 组
织 框架 ,导致 构念 效 度 像 标 准效 度 、内容 效 度 一 样, 是 效度 的 一个 小小 类 别而 已 。不 同种 类 的效 度
目标 域 的 预 期 行 为 表 现 。尽 管 如 此 , 内 容 效 度 因 主
者们 能 够 以 全新 的视 角 和 前 沿 的效 验 方 法 重 新 审 视语 言 测 试 的 效度 问题 ,尤 其 是 其 关 涉 的社 会 维 度 ,从 而 保 证 语 言测 试 为 社 会 带 来 更 多 的正 面 效
应
观性 强 、 存 在验 证性 偏 见受 到 测试 界 的批 判 。 2 0世
纪 5 0年 代 ,人 们 认 识 到 不 管 是 标 准 效 度 还 是 内 容
效 度均 无 法 对 语 言测 试 中表 现 的 心理 特 质 进 行 有
二、 语 言 测 试 效 度 的历 史 回顾
掌 握 一 门学 科 的 历 史 发 展 轨 迹 是 学 好 这 门学