语言测试真实性的多维分析
大学英语教学中的多维评测模式研究
轻技能和“ 哑 巴英语 ” 现 象 的 出现 关键 词 :大学 英语 教 学 多维评 测模 式 教 学评 测 体 系
4 5 0 0 0 0 )
教 学 评 测 是 指 依 据 一 定 的 科 学 标 准 .通 过各 种 测 量 对 相 关 资料 的收 集 ,对 教 学 活 动 及 其 效 果进 行客 观衡 量 和 科 学 判 定 的 系统 过 程 , 是教 学 活 动 中 极 其 重要 的一 个 基 本 环 节 。 传 统 的 教 育评 测 手 段 局 限 于 笔 试 评 测 , 重知识轻能力 , 重 成 绩 轻 素 质, 忽视 对 学 生 学 习 过 程 的评 测 . 使部 分大学生 出现“ 哑 巴 英 语” 的现 象 , 严 重 阻 碍 学 生 的全 面 发 展 和 高 校 英 语 教 学 质 量 的 提 高 。 因此 , 改 革现 有 的 测试 模 式 , 采 取 多 维 度 的 教 学 评 测 体 系, 在 教 学 的 各 个 阶段 采 取 多 种形 式 对 学 生 进 行 考 核 和检 测 . 对 大学 英 语 教 学 水 平 的 提 高具 有 现 实 意 义 1 . 语 言 评 测 基 础 理 论 语 言测 试 是 外 语 教 学 和外 语 学 习过 程 中有 计 划 有 目的 的 个 重 要环 节 ,是 用 来 检 测 教 学 效 果 和 是 否 达 到 教 学 期 望 值 的手段。 作 为 语 言 教学 的重 要 组 成 部 分 . 语。 测 试 设 计 者 应 预 先 考 虑这 些 因 素 , 力 求 减 少 对 考 试信 度 的影 响 。所 有 与 教 学 有关 的测 试 对 教 学 都 有 反 拨 作 用 。 语 言测 试 的反 拨 作 用 , 即语 言 测 试 的 后 效 , 指 的是 语 言 测 试 对 教 与 学所 产 生 的 影 响 或 反 馈 作用 。 要 提 高 教 学 质量 . 培 养 学 生 的 外语 综合 能力 ,应 采 取 科 学 的措 施 提 高 正 面积 极 的反 拨 作 用 .避 免 或 减 少 测试 对 教 学 产 生 的 负 面 消极 的反 拨 作用 。 2 . 大 学 英语 教 学 多 维 评 测模 式 的构 建 我 国 传 统 的 外语 教学 评 测 体 系 着 重 描 述 个体 已形 成 的能 力, 来 评 测 学 习 的结 果 , 且 以评 测 者 为 中 心 , 因而没有发挥 出 课堂教学评测应有的诊断 、 导向、 激励等功能。这严重阻碍了 学生 的个 性 发 展 及 综 合 素 质 的 培 养 , 影 响 到教 育 目标 的 实 现 . 根本 无 法 满 足 现 代 社 会 发 展 对 外 语 人 才 的 需 求 。 外语 教 学 的 目的在 于 培 养 学 生 实 际 运 用 语 言 的 能 力 ,英 语 教 学评 测 体 系 除 了要 满 足 社 会 对 大 学 生 外 语 应 用 能 力 的 要 求 外 ,还 要 满 足 对大 学 生 其 他 业 务 素 质 的 要 求 ,实 现 评 测 主 体 和 评 测 内 容 的 多维 化 , 以及 评 测 方 法 和 手 段 的 多样 性 在 构建 新 的 英 语 多 维 评 测模 式 中 , 应 当做 到 以下 几 点 : ( 1 ) 体 现 学生 在 评 测 中 的 主 体 地 位 。以学 生 的综 合 语 言 运 用 能 力 发 展 为 出发 点 , 有 利 于 学 生 认 识 自我 、 树 立 自信 , 帮 助 学 生 反思 和调 控 自 己的 学 习 过 程 . 不 断 提 高学 习 自主性 , 从 而 促进 综 合 语 言 运 用 能 力 的不 断 发 展 。 ( 2 ) 建 立 主体 多 元 化 和 形 式 多样 性 的评 测 体 系 。 每 个 学 生 的认 知风 格 、 学 习方 式 及 阶 段 性 发 展 水平 是有 一 定 差 异 的 。 在 日常 教学 中 ,教 师 应 注 意 根 据 学 生 的差 异 采 取 适 当 的 评 价 方 式, 设 计 出不 同 层 次 的 评 价 目标 , 并 允 许 学 生 自主 选 择 适 合 自 己的 评价 方 式 , 让 水 平 不 同 的学 生 都 能 体 验 成功 。 ( 3 ) 注 重 形成 性 评 价 对 学 生 发 展 的 作 用 。 形 成性 评 价 的任 务 是 对学 生 日常 学 习过 程 中 的表 现 、所 取 得 的成 绩 及 所 反 映 出的 情 感 、 态度 、 策略等方面做 出评价 , 有 利 于 学 生 从 被 动 接 受 评 价转 变 成 为 评 价 的 主 体 和 积 极 参 与者 。无 论 是 采 用 描 述 性评价 、 等 级 评 定 或评 分 等 评 价 记 录 方 式 , 教 师 都 要 与 学 生 进 行 不 同形 式 的交 流 , 充分肯定学生的进步 , 鼓 励 学 生 不 断 提 高 自我 。 ( 4 ) 终 结 性 评 价要 注重 考 查 学 生 综 合 语 言 运用 能 力 。 学 期
从语言测试的真实性看TEM4听力的真实性
关键 词 : 言 测试 ; 力测试 ; 实性 ; 试材料 ; 试任务 语 听 真 测 测 中图分类 号 : 3 9 H 1 文 献标 识码 : A 文章 编号 :6 39 2 ( 0 9 0 - 5 -3 17 -3 9 2 0 ) 40 40 0 的特 征 。理解 听力 测 试 的 真 实性 应 该 以听 力测 试
角度加 以探 索 , 少 有 人从 微 观 的测 试 技 能本 身 , 很 如从 听力测试 的角度来 进行 探讨 。所 以 , 文 以语 本 言测试 的真 实性 为理论 依托 , 尝试 研 究 以 T M E 4为
对象 的英语 听力 测试 的真 实性 问题 。 二、 英语 听 力测试 的真 实性概 念
作者简介: 李
欧 , 17 (9 7一) 女 , , 汉族 , 辽宁沈阳人 , 硕士 , 阳师范大学外国语 学院讲 师 , 沈 研究方 向为语言测试 , 英语教学 ;
范晓郁 (9 1 , , 17 一) 女 辽宁沈阳人 , 士, 阳师范大学外 国语学院副教授 , 硕 沈 研究方 向为应用语言学 。
的发展 , 研究 范 围 已经 涉及 到 了各 个 测试 方 向 , 包
材 料 的真 实性 要 求 听 力材 料 本 身 与现 实 生 活 的相 似 , 这是否 意 味着 听力 的文本 材料 要源 于现 实 生 活材料 ?事 实上 , 即使 现 实生活 材料 被用 来作 为
括进来 才引起 学 者注 意的测 试 的真实性 这一 概念 , 但 多数 研究 只是从 宏观 的命题 、 度 和反拨 作用 等 效
力 , 处指 的是受 试 者 对 信 息 接 受 、 工 能力 以及 此 加
大学英语四、六级口语考试真实性分析
大学英语四、六级口语考试真实性分析周培树【摘要】语言测试的真实性问题是语言测试一个重要的概念,大学英语四、六级口语(CET-SET)在社会越来越引起大家的关注,最近几年来一些学者和研究人员对语言测试的真实性问题有所研究,却鲜有涉及CET-SET的真实性问题.本文将从语言测试真实性的概念入手,全面分析CET-SET各环节中真实性的体现.认为有必要提高语言测试真实性的理论研究水平,以期更好指导CET-SET的实践,保证其信度和效度.【期刊名称】《宁波教育学院学报》【年(卷),期】2013(000)002【总页数】5页(P62-66)【关键词】语言测试;真实性;大学英语四、六级口语考试【作者】周培树【作者单位】内江师范学院外国语学院,四川内江641000【正文语种】中文【中图分类】H310.42我们知道,语言测试(这里主要指外语测试)是随着外语教学的发展而出现的。
有了外语教学,便有了语言测试[1]19。
随着20世纪70年代交际语言教学的产生,Bachman于20世纪80-90年代提出了“交际语言测试模式(an interactional approach to la nguage testing)”,其焦点为真实性,因此,真实性成为交际语言测试一大标志,进而成为语言测试的“核心”[2]330。
关于语言测试真实性的问题,国内外测试界的专家学者都进行过激烈的探讨。
Bachman和Palmer[3]17认为,实用性(usefulness)作为指导测试的基本原则之一表现在六个方面:信度、理念效度、真实性、交互性、后效作用和实用性,其中真实性是语言测试的一个重要特征。
Morrow(1991)认为真实性问题是语言测试一个重要的问题,Wood(1993)认为语言测试的两个主要问题——信度和效度,可以归结为真实与不真实的问题。
国内一些专家也提到了语言测试的真实性问题,如邹申(2001)探讨过口试的真实性,孔文,李清华(2003)对语言测试真实性进行过多维度研究,黄大勇(2004)介绍过语言测试中的真实性概念,周胜(2006)对语言测试各环节真实性做过概述,近几年,汪顺玉,彭康洲(2009),李新博(2011),徐启龙(2012)等,也都探讨过语言测试真实性问题。
如何判断信息的真伪性
如何判断信息的真伪性在当今信息化时代,信息的获取和传播已经变得异常便捷,但是信息的真伪性却成为了一个非常严峻的问题。
假新闻、虚假信息频繁出现,对人们的思维和行为产生了严重影响。
因此如何判断信息的真伪性,也成为了当代人需要了解和掌握的基本能力。
下面从多个方面,让我们来了解一下如何正确判断信息的真伪性。
一、查看資料來源在面对某一条信息时,我们需要查看该信息的具体来源,例如媒体、社交媒体、政府机构、专家学者等。
其中,媒体机构是信息公正性较高的来源之一,而社交媒体则是来源不可信性较高的地方。
一旦发现某一消息来自不可靠的来源,我们就可以将其视为虚假、不可信的消息。
同时,政府机构、专家学者等权威机构的信息也是比较可靠的,值得信任。
二、分析信息全貌有时候某一条信息在真实性上是没问题的,但是如果这条信息被片面的报道或者被篡改,则可能会产生误导性的影响。
因此,我们需要以全貌的方式来了解和分析某一条信息。
全貌的方式,包括信息背景、信息来龙去脉等因素。
只有通过全面了解某一信息才能作出全面准确的判断,从而避免受到偏见和误导。
三、了解语言表述语言表述也是判断信息真伪的一个因素。
真实、可信的信息往往重视客观准确的表述,避免利用情感、偏见等因素来夸大事实。
而假新闻或虚假信息则采用大肆夸张、故意省略信息等手法来产生强烈的效果。
因此,在判断信息真伪时,我们需要了解消息的语言表述,避免受到情感因素的影响。
四、多样化的信息来源在判断信息真伪时,我们需要尝试着从多种渠道获取信息,并进行了解和分析。
不要轻易相信某一条信息,如果条件允许可以搜索多个来源,从中得出共性和差异性,判断出信息的可信性。
与此同时,我们也可以从不同的观点和立场来思考某一问题,避免偏见和篡改。
五、查看其它可靠信息验证平台在借助网络获取信息时,我们可以借助各种信息验证平台来搜集“中国验真网”、“麦克风”等。
这些平台提供了信息验证、事实查证等服务,验证信息的真伪性、真实性。
多特征/多维度分析法简介
多特征 / 多维度分析法 简介
姚
( 州工 业职 业技 术 学院 徐 I
琪
徐 州 210) 200
信 息 管理 学 院 ,江 苏
摘
要 :多特征 / 多维度分析 法, 通过分析语言特征的共现模式, 确定语域变异的维度, 对不同语篇类
型 进行 多维度 的 比较 分析 , 以求全 面地揭 示语体 之 间的 差异 。
a ayi 模 型 , n ls ) s 即多 特 征/ 维 度 分 析 法 , 于 描 述 多 用 口语 和 书面语 体裁 间 的语 篇关 系 。 种方 法使 用标 这 准化 的 以计 算 机 为基 础 的文本 语 料 库 和 自动 识 别
量 , 本研 究 中 即大量 语 言 特征 的频 率 , 在 被简 化 为
词 ; ) 问 词 ; ) 词 形 式 ; ) 动语 态 ; ) 格 (疑 D (名 E (被 F ( 属 G
形 式 ; ) 属 特 征 ; ) 词 短语 , 容 词 和副 词 ; ) (从 H (介 I 形 ( J
词 汇专 一 性 ; ) 汇 类 别 ;L情 态 ;M) 门动 词 ( 词 K () ( 专
据 中概括 或 总结 的一些领 域 。也 就是 说 , 每个 因子
代表 了高 度共 享差 异 的一 个 领域 , 一组 以高频率 共
现 的语言 特征 。这 些 因子是 原始 变量 的线 性组 合 , 从所 有变 量 的相关 矩 阵得 出。 下列 表列 出 了每个 因
、
维度 的确 立依 据
维 度 都包 括 两 组特 征 , 组 带 有正 负 荷值 , 一 一组 带 有 负负荷 值 。 因子 负荷 的正 和 非偏 好 结 构 ; ) 致 ; ) 定 。 ( 缩 (一 0 (否 P
语言测试学理论
语言测试学理论1. 简介语言测试学是应用语言学的一个分支领域,主要研究语言测量和语言测试的理论和方法。
语言测试学对于评估和衡量个人或群体的语言能力和发展具有重要意义。
本文将介绍语言测试学的重要理论和方法,并探讨其在教育和职业领域中的应用。
2. 语言测试学的重要理论2.1 难度理论难度理论是语言测试学中的一个重要理论,用于确定语言测试题目的难度级别。
根据受试者的能力和题目的难度,可以借助难度理论来确定合适的测试题目,以评估测试对象的语言能力水平。
难度理论基于概率统计方法,通过计算受试者答题的正确率和错误率,来推断受试者的语言能力水平。
2.2 信度理论信度理论用于评估语言测试的信度,即测试工具测量的稳定性和一致性。
在语言测试学中,信度评估是确保测试结果的可靠性和准确性的关键步骤。
常用的信度评估方法包括测试重测信度、平行测试信度和内部一致性信度。
2.3 效度理论效度理论用于评估语言测试的效度,即测试结果的准确性和适用性。
效度评估需要确保测量工具能够准确反映被测者的真实语言能力水平,并与所评估的实际目标相关联。
常见的效度评估方法包括内容效度、构效度和预测效度。
3. 语言测试学的方法3.1 传统测试方法传统的语言测试方法通常采用笔试形式,通过选择题、填空题、翻译题等方式来评估受试者的语言能力水平。
这些传统测试方法的优点在于评估结果直观、易于统计和分析,适用于大规模测试。
3.2 口语测试方法口语测试方法主要用于评估受试者的口语交际能力。
口语测试可以通过面试、对话等方式进行,以真实场景模拟语言使用环境,评估受试者的口头表达、交流和理解能力。
3.3 创新测试方法随着技术的发展,创新的语言测试方法逐渐应用于实际测试中。
这些方法包括基于计算机的自动评分、虚拟现实技术、游戏化测试等。
创新测试方法的优点在于能够提供更加真实、客观和全面的语言能力评估。
4. 语言测试学的应用4.1 教育领域语言测试学在教育领域具有广泛的应用。
大学英语教学中的多维评测模式研究
大学英语教学中的多维评测模式研究摘要:大学英语教学评测是基于语言测试理论的一种教学评测手段。
该研究旨在通过改革现有的测试模式,建立多维度的教学评测体系,在各阶段采取多种形式对学生进行考核和检测,对课堂教学和学习过程起到推动作用,避免重知识轻技能和“哑巴英语”现象的出现。
关键词:大学英语教学多维评测模式教学评测体系教学评测是指依据一定的科学标准,通过各种测量对相关资料的收集,对教学活动及其效果进行客观衡量和科学判定的系统过程,是教学活动中极其重要的一个基本环节。
传统的教育评测手段局限于笔试评测,重知识轻能力,重成绩轻素质,忽视对学生学习过程的评测,使部分大学生出现“哑巴英语”的现象,严重阻碍学生的全面发展和高校英语教学质量的提高。
因此,改革现有的测试模式,采取多维度的教学评测体系,在教学的各个阶段采取多种形式对学生进行考核和检测,对大学英语教学水平的提高具有现实意义。
1.语言评测基础理论语言测试是外语教学和外语学习过程中有计划有目的的一个重要环节,是用来检测教学效果和是否达到教学期望值的手段。
作为语言教学的重要组成部分,语言测试不仅能够评定学生的学习成绩,而且可以了解学生掌握语言的实际水平,借此检查教师讲授和学生学习的效果,从而改进教学方法,提高教学质量。
随着交际教学法的发展,l.f.bachman认为语言交际能力就是把语言知识和语言使用的场景特征结合起来的能力,因而语言测试必须在真实的语境中采用真实材料来进行,以观察学生在真实语境中使用语言交际的能力,并以此来判断学生的语言水平。
评测模式是否合理,需要综合考查它的效度、信度、实用性和反拨作用。
从总体上说,测试效度是指测试考查了原定需要考查的内容,考试的结果能用来评判预定要测试的语言能力。
除具有各项效度以外,测试还必须有信度,信度是指测试结果的稳定性,如果分数忽高忽低,就说明信度不高。
效度和信度关系密切,但不能混为一谈,它们之间的关系是单方面的,信度差一定效度差,但效度差不一定信度差。
语言测试的评析标准
语言测试的评析标准1、效度2、信度3、区分性4、可行性5、反馈作用(后效作用)效度•效度:又称有效性,指测试的有效程度,即测试的内容和方法是否能测出预定要测量的东西•效度分类:表面效度、内容效度、结构效度及效际关联效度。
表面效度/内容效度•表面效度是指某个测验或考试从表面看是否测量了它旨在测量的东西,有无缺漏的东西,有无偏题怪题。
这是观察者靠主观评价得来的效度。
这种对效度的主观评价能在一定程度上反映测试的质量。
•内容效度:指测试的内容是否是应该考查的,是否反映了这项测试的要求,或者说试题所包含的内容的代表性、准确度和覆盖面如何。
评价内容效度主要是采用逻辑方法进行定性分析,通常是由专家审定。
结构效度/校标关联效度•结构效度:又称理论效度。
指考试的结果在多大程度上符合我们根据某种理论做出的预测,而用这种理论来解释测试的成绩。
结构效度是效度的核心问题。
•校标关联效度:是指确定一种能反映测试效度的参照标准,然后考察某一考试与该标准之间的相关程度,这种效度标准通常是其他效度高的考试,尤其是大规模的标准化考试;也可能是受试者的平时成绩或能力表现,甚至是教师所做的等级评定等影响效度的因素:1、测试目的不明确2、命题方面的技术性问题会影响效度3、组织管理方面的问题也会影响效度信度:•信度:又称可靠性,指测试结果的可靠程度或稳定性,即考试成绩是否反映了受试者的实际水平考试分数越接近受试者的真实水平,考试的信度越大。
衡量信度的三个因素:•测试的稳定性:又称再测信度。
即相同一套题在较短的间隔和尽可能相似的环境中对同一批受试者连测两次,然后计算两次测试分数的相关系数,相关系数越大信度就越高。
•测试的等值性;也称复本信度即用同一考试的两份具体题目不同但题型内容等值的试卷,对同一批受试者在没有太多时间间隔的情况下进行测试,然后算出两次测试成绩的相关系数。
•测试的内部一致性:也称内部一致性信度,常用分半法,即用一份试卷施测,然后将该试卷按奇数和偶数分成题数相等的两份,求这两份的相关系数影响信度的因素:•测试的题量:题量大,代表性好,分布均匀,测试的信度就高,反之则低,题量是影响信度的主要因素。
语言测试的效度与信度
2.信度在实施阶段的考虑 .
• 实施阶段的任务是制定具体的、可操作的考试大纲, 详细说明试题包 括的内容。换言之,在此阶段必须制作出 完整的试卷。图1所示, Bachrnan的语言模式把测试方法 作为影响测试成绩的三大类因素之 一。因此,对试卷中每 个部分所采用的测试方法必须做出严格的要求。 否则,不 恰当的测试方法将导致考生成绩的极大差异,使测试成绩 失去信度。 • 例如,多项选择方法(multiple-choice)的最明显的 优越性就是它的评 分具有很高的信度,属于客观测试方法。 但是,某些语言领域的技能 如写作、口语表达能力若采用 多项选择方法测试则很难测试出受试者 的真实语言能力, 测试信度有所降低。综合填空方法(Gloze-test)则 较适合 测试阅读能力。不难看出,正确的测试方法能够可信、有 效 地诱导出反映某种语言能力的行为。某些测试方法只适 用于测试特定 的语言能力,而无法用于其他语言能力。基 于我们对测试方法对成绩 的影响的了解还十分粗浅,我们 无法推荐究竟用何种测试方法去测试 具体的语言能力。 • Lyle F.Bachman(1990)在选定测试方法方面提出了 很好的建议。 “(1)测试任何一种语言能力时,至少采用两 种或更多的测试方法。 (2)如果一份试题可能重复使用时, 尽量有目的地变换测试方法。” 此举,一方面加深对测试方 法的理解,一方面降低由于测试方法选择 不当而导致的测 试结果不一致的误差源,从而提高试题的信度。在实 施阶 段,保证试题的信度还可以从其他方面人手。比如,尽可 能增 大试题量或严格限制考生自由选择的范围来提高信度。 由于上述做法 能够提高测试信度,因此在实施阶段的作用 应得到极大的重视。
3.信度在考后阶段的考虑 .
从考后阶段的主要任务来看,提高信度应把 重点放在 培训阅卷员上,同时必须提供详细准确的标准答 案。由 于任何考试的评分方法不可能全部使用多项选择, 对错 一目了然。因此,主观题的评分必须首先规定正确答 案。 另外,说明若遇到部分正确的答案时应如何打分。标 准 答案规定愈清楚、细致,就愈可提高评分信度,也就更 有助于提高整个测试成绩的信度。培训阅卷员也是一条保 证评分信度的有效途径。在评阅主观题时,阅卷员必须经 过严格的岗前培训,统一批改试卷,然后将各评卷员评阅 过的卷子进行比较,也可由有经验的专家对其评阅进行分 析审核,那些严重偏离标准答案的阅卷员或停用,或对其 所评试卷进行再次审核。阅卷员的评分差异性是影响考后 阶段测试信度的较大的误差源,应千方百计降低或杜绝, 从而提高信度。
语言测试的信度和效度及其关系
科技信息 2008年第 17期 SCIENCE &TECHNOLOGY INFORMATION我们知道 , 测试是教与学的向导 , 而为了让它发挥出向导的作用 , 一份好的试卷是必不可少的 , 而且是至关重要的 . 一般情况下 , 我们判断一份试卷的好坏的主要标准是:是否有信度、效度、区分度、实用性、全面性、公正性及后期效应。
其中, 以信度和效度最为重要。
一、语言测试的信度语言测试的信度, 又叫可靠性, 是指考试结果的可靠性和稳定性。
即看学生的分数是否稳定, 如果同一个学生做同一套试卷 , 做的几次的结果都是一致的 , 那么我们说这次考试是有信度的; 反之 , 如果分数忽高忽低就说明信度不高 , 那么表明考试的信度不高。
信度可以分为复测的效度、判卷的效度和每一个测试项目的效度。
同一学生不管考多少次, 所得的分数都是一样, 那么就说这个分数有复测的可靠性。
影响分数的一个很重要的因素就是判卷人, 在判卷过程中, 不同的判卷人对同一试卷也会做出不同的反映; 同一个人在不同的时间对同一试卷给的分数也是不一样的。
试卷不仅要达到其整体的可靠性, 而且每一题都必须能达到这个标准, 那才是一份有信度的试卷。
与能力无关却又会影响试卷信度评判的因素有很多,例如:1. 考试条件差, 天气热、考场周围太吵闹等。
2. 考试条件不一样。
同一个学生在安静与吵闹的环境中做同一份试卷,其结果不一样。
3. 监考施策。
不同的老师对考生的松与严, 看见考生作弊或违纪不勒令禁止。
4. 题目要求不清, 学生根本无法弄清题义, 也就无法真实的反映考生的水平。
5. 保密工作做的不好, 泄题事件发生。
6. 评分。
主观测试的评分常常因评卷人而异, 难以达到较高的信度; 客观试卷的评分不受评卷人的影响因此信度较高。
7. 样品数量太小, 样本不足。
8. 身体及心理状态不好等等, 这些因素都会影响到信度。
因此, 为了提高信度, 我们必须对症下药, 采取各种措施。
论英语课堂语言的词句、情景、内容的真实性
学生 使用 的语 言 是现 实 生活 中实 际存 在 的语 言 ,而 不是
编 造 或 假 想 的 语 言 。 在 课 堂 教 学 中 使 用 真 实 话 语 具 有 以 下好处 。
( )能够使 用 学生 接 触和 学 习现 实生 活 中使 用 的语 1
言 ,为 日后 真 实 交 际 做 准 备 。 ( ) 有 利 于 激 发 学 生 的 学 习 动 机 。 当 学 生 感 觉 到 他 2
。
活动 的语 言 。还 是作 为语 言输入 ,英语 教 师的课 堂话语 都应该 尽 可能具 有真 实性 。英语教 师课 堂话语 的 真 实性 可 以从
情 景 真 实性 、 语 言 真 实性 和 内容 真 实性 三 个 角度 去 考 察 。
【 关键 词 】教 师 课 堂话 语 真 实性
t
学 以致用 ,起 到交 流 的作 用 。这样 使学 生 认识 到 了 自己
的 英 语 水 平 。 发 现 了英 语 学 习 的 不 足 之 处 。就 会 激 发 他
试【 . J 南北桥,0 8() J 20 , . 8 [] 2苏朝 兰. 浅谈 如何激 发学 生在英 语课 堂上 的学 习兴 趣 . 中 外教育研 究,0 9() 20真实性
的交 流都必 须是 因为真 实交 际需要 而产生 的交 流 。比如 ,
为 了 呈 现 某 个 语 言 项 目 ,教 师 需 要 创 设 一 个 语 境 。 教 师 创 设 情 景 本 身 不 是 因 为 真 实 交 流 的 需 要 而 创 设 的 , 而 是
互 动式师 生话 语 的特 点 ,其 中很 多特 点与 真 实 、 自然 话 语 的特 征 是一 致 的。 比如 ,在 真实 的师 生互 动 话 语 中 , 教 师针对 学生 发言 的 内容 提供 个人 的 反馈 意见 ,而不 是
什么是语言测试?它涉及哪些方面?
什么是语言测试?它涉及哪些方面?
语言测试是一种评估个人或群体语言能力的方法。
它通常包括听、说、读、写四个方面的技能,以及语法、词汇和发音等方面的内容。
以下是一些常见的语言测试方法:听力测试:这种测试要求被试者听取一段录音并回答问题。
测试内容可能包括与语音相关的单词、短语和句子等。
口语测试:在这种测试中,被试者需要口头表达自己的想法和观点。
这可能涉及到对话、演讲或写作等不同形式。
阅读测试:这种测试主要考察被试者的理解能力和阅读速度。
测试材料可能是文章、故事或其他类型的文本。
写作测试:这是一种考察被试者在书面交流中的表达能力的测试。
测试材料可以是作文、信件或其他形式的写作任务。
除了上述四种常见类型之外,还有其他类型的语言测试,如听力-口语测试(即听力和口语同时进行的测试)、语法测试、拼写测试等等。
每种类型的考试都有其特定的目的和要求,因此需要进行适当的准备和培训。
英语测试信度与效度的多维分析
者的主观判断和 印象来 打分 。这是根据它 们各 自的评分 方 法而不是根据试题本 身的性质而命名 的。
英语 多项选择题通 过测试学生所 掌握 的语音 、 词汇 、 语
体系, 是语音、 语法和词汇的总和。此时的测试取消了作文
和翻译 , 而以多项 选择 和人 机 对话 的方式 取而 代之 。罗伯
学家海姆斯( y e) H m s发表了《 论交际功能》 强调了语言的 ,
社会功 能 , 在这一理论 影 响下产 生 了交 际教学 法 和交 际测
容。作为衡量学生英语水平的一种尺度 , 考试本身必须可
靠、 有效 。然 而 , 大学英语测试 中占有较大 比例 的多项选择 题是否能客观地衡量学生 的外语水 平?而对于 近年来分 数 比例 日益增大 的主观性试题 的信 度与效度又 是怎样 ?这两 类试题的优劣何在?这正是 本文所 要研究的 内容 。 二 、 言测试 史的回顾及信度 与效 度的发展 语 测试理论 的发展大 致 经历 了三个 阶段 , 一 阶段被 称 第 为“ 前科 学测 试 阶 段 ” pec nicp r d 。半 个 世 纪 以 ( rsi t e o ) e f i i 前, 传统的语言学家把语言作 为一种 孤立 的现象 加以研究 。 在这一基础上产生 了语法 、 翻译法 , 以语 法分 析 、 它 翻译 和 短文写作为 主体 。测试 内容严重偏 重 文法 , 视 口语 。此 忽 时的测试毫无信度 可言 , 虽有一定效 度 , 因其测试形 式和 但 评判标准 的极大 主观随意性 而大大减弱 。随后语言测试 进 入 了第二 阶段 , 即心理 、 结构测试 阶段 ( sco e i —s u - pyh m tc t t r r trlt e o ) ua sp r d 。结构主义语 言学 家们把语言看成一 个形式 i i
大语言模型评估维度总结
大语言模型评估维度总结一、评估维度的选择在进行大语言模型的评估时,需要选择合适的维度进行评估,以全面准确地描述模型的性能和效果。
评估维度的选择应该根据模型的特点和评估目标来确定,可以从多个角度出发,如准确度、流畅度、语义一致性、多样性等方面进行评估。
此外,还可以考虑模型在不同任务和场景下的表现,例如问答系统中的准确度、生成对话中的流畅度等。
二、维度的具体内容评估维度的具体内容需要细化和具体化,以便进行实质性的评估。
在评估大语言模型时,可以选择以下维度进行具体评估:1. 准确度:评估模型在生成文本时的准确性和正确性,包括语法正确性、事实准确性等;2. 流畅度:评估模型生成的文本是否通顺流畅,是否符合自然语言的表达习惯;3. 语义一致性:评估模型生成的文本是否在逻辑上保持一致,是否能够理解上下文的语义;4. 多样性:评估模型生成的文本的多样性程度,是否能够产生丰富多样的表达方式;5. 实用性:评估模型生成的文本在实际应用中的可用性和实用性,是否符合用户需求。
三、维度的权重分配在维度总结中,评估维度的权重分配非常重要。
不同维度对于模型的评估结果有不同的影响,因此需要根据评估目标和需求来合理分配权重。
一般来说,准确度和流畅度在大语言模型的评估中较为重要,因为准确度关乎模型的正确性,而流畅度则关系到用户体验。
其他维度的权重可以根据具体情况进行调整。
在进行维度总结时,可以采用加权平均的方法,将各个维度的评估结果进行加权求和,得到最终的评估分数。
通过维度总结,可以对大语言模型的性能进行全面、综合的评估,为模型的改进和优化提供参考。
大语言模型的评估维度总结对于评估模型的性能和效果至关重要。
评估维度的选择应根据模型特点和评估目标确定,维度的具体内容需要细化和具体化,维度的权重分配需要合理考虑。
通过维度总结,可以全面、准确地评估大语言模型的性能,为模型的改进和优化提供指导。
英语语言测试的有效性与可靠性探讨
英语语言测试的有效性与可靠性探讨在当今全球化的时代,英语作为一门国际通用语言,其重要性不言而喻。
无论是在教育领域、职业发展还是国际交流中,英语语言能力的评估都至关重要。
而这一评估主要通过英语语言测试来实现。
然而,要确保这些测试能够准确、公正地衡量考生的英语水平,就必须关注其有效性和可靠性。
有效性是指一个测试能够准确测量出它所要测量的内容的程度。
对于英语语言测试来说,这意味着它应该能够真实反映考生在实际生活中运用英语进行听说读写的能力。
如果一个测试重点考查的是语法规则和词汇记忆,而忽略了实际的交流能力,那么它的有效性就值得怀疑。
例如,某些传统的英语测试可能过于注重选择题和填空题,考生可以通过死记硬背知识点来获得高分,但在实际的交流场景中却无法自如地运用英语。
这样的测试结果并不能真实反映考生的语言能力,也就无法为教育决策、职业选拔等提供有价值的参考。
可靠性则是指测试结果的一致性和稳定性。
一个可靠的测试在不同的时间、不同的地点、由不同的考官进行评分,都应该能够得到相对一致的结果。
如果一个测试的评分标准模糊不清,或者考题的难度波动过大,那么测试结果就可能会出现较大的偏差。
比如,同一位考生在两次参加相同的英语测试时,如果成绩相差悬殊,而期间其英语水平并没有明显变化,那么就说明这个测试的可靠性存在问题。
为了提高英语语言测试的有效性,测试设计者需要明确测试的目的和目标受众。
是为了评估学生在学校的英语学习成果?还是为了筛选求职者的英语能力?不同的目的需要不同的测试内容和形式。
例如,对于学校的英语测试,应该涵盖课程大纲中的重点知识和技能,同时也要注重考查学生对语言的综合运用能力。
而对于职业英语测试,可能更侧重于与工作相关的英语场景,如商务写作、会议交流等。
此外,采用多样化的测试题型也是提高有效性的重要手段。
除了常见的选择题、填空题,还应该增加主观题,如写作、口语表达等。
这样可以更全面地考查考生的语言输出能力。
同时,结合真实的语言材料,如新闻报道、学术文章、影视作品等,让考生在实际的语境中运用英语,也能增强测试的有效性。
普通话水平测试的真实性研究
第54卷第2期江西师范大学学报(哲学社会科学版)Vol.54No.22021年3月Journal of Jiangxi Normal University(Philosophy and Social Sciences Edition)Mar.2021普通话水平测试的真实性研究黄乙玲1,2,姚喜双2(1.江西师范大学国际教育学院,江西南昌330022;2.中国社会科学院研究生院,北京102488)摘要:真实性是现代语言测试研究中的核心问题之一。
真实性保证了测试结果能够有效地表征应试者在目标语域中的语言运用能力,是衡量测试质量的重要依据。
目前,学界对真实性的概念界定及其在测试各环节中的应用实践尚有争议。
开展普通话水平测试中的真实性研究有助于提升测试对汉语普通话学习的反拨效用,为未来新兴技术在测试领域的开发、利用及测试向不同界域发展提供了参考依据。
首先,通过探索学界三种主流测试真实观在汉语普通话测试领域的适用性,对普通话测试真实性进行了概念界定,提出真实性与信度、效度等因素共同构成评价普通话测试质量的依据;其次,从普通话水平测试活动的基本要素出发,分析测试各环节的真实性因素,探索如何提升普通话水平测试的真实性程度以提高测试质量;最后,探讨了真实性研究在汉语普通话测试中的发展前景。
关键词:语言测试;普通话;真实性中图分类号:H102文献标志码:A文章编号:1000-579(2021)02-0134-06A Study on the Authenticity of Putonghua Proficiency Test. All Rights Reserved.HUANG Yiling1,2,YAO Xishuang2(1.School of International Studies,Jiangxi Normal University,Nanchang,Jiangxi330022;2.Graduate School of Chinese Academy of Social Sciences,Beijing102488,China)Abstract:Authenticity is one of the core issues in modern language testing research.Authenticity en-sures that the test results can effectively represent the examinee’s language performance in the targetdomain,which is an important basis for measuring the test quality.At present,the definition of au-thenticity and its application in testing are still controversial in academic circles.The research on theauthenticity of Putonghua proficiency test is helpful to improve the backwash effect of the test on thelearning of Putonghua,and provide a reference for the development and utilization of new technolo-gies in the field of testing and the development of testing in different fields in the future.Firstly,thispaper explores the applicability of three mainstream testing concepts in the field of Putonghua tes-ting,defines the concept of authenticity of Putonghua testing,and proposes that authenticity,reliabili-ty,validity and other factors constitute the basis for evaluating the quality of Putonghua testing;Sec-ondly,starting from the basic elements of the Putonghua proficiency test,this paper analyzes the au-thenticity factors of each link of the test,and explores how to improve the authenticity of the Putong-收稿日期:2020-10-22作者简介:黄乙玲(1979-),女,江西上饶人,江西师范大学副教授,中国社会科学院研究生院博士研究生。
大语言模型评估维度总结
大语言模型评估维度总结引言大语言模型是一种基于深度学习的自然语言处理技术,能够生成具有上下文连贯性的文本。
在大语言模型的开发和应用过程中,评估模型的性能至关重要。
本文将针对大语言模型的评估维度进行总结和讨论,旨在帮助研究者和开发者更好地评估和改进大语言模型的性能。
一、语言准确性语言准确性是评估大语言模型的关键维度之一。
一个好的大语言模型应该能够生成准确且合理的语句,避免出现歧义、错误或无意义的信息。
评估语言准确性可以通过人工标注数据集,对生成的文本进行评分或评估者判断的方式进行。
同时,还可以利用自动化评估指标,如BLEU、ROUGE等,对生成的文本与参考文本进行比较,计算其相似性得分。
二、语言流畅度语言流畅度是评估大语言模型的另一个重要维度。
一个好的大语言模型应该能够生成流畅、自然的语句,避免出现语法错误、不连贯或难以理解的表达。
评估语言流畅度可以通过人工评估者对生成的文本进行判断,评估其流畅性和可读性。
此外,还可以利用自动化评估指标,如困惑度(Perplexity),对生成的文本进行评估,计算其语言模型的复杂度。
三、多样性与创新性多样性与创新性是评估大语言模型的另一个重要维度。
一个好的大语言模型应该能够生成多样化的文本,避免出现重复、模板化或过度使用常见词汇的问题。
评估多样性与创新性可以通过计算文本的词汇丰富度、独特性和创新性指标等进行。
同时,可以利用评估者的主观评价来判断生成文本的多样性和创新性。
四、上下文理解与一致性上下文理解与一致性是评估大语言模型的另一个关键维度。
一个好的大语言模型应该能够准确理解上下文,并在生成文本时保持一致性。
评估上下文理解与一致性可以通过人工评估者对生成的文本与上下文的关联性进行判断,评估其一致性和连贯性。
此外,还可以利用自动化评估指标,如上下文相似度等,对生成的文本与上下文进行比较,计算其一致性得分。
五、实用性与适应性实用性与适应性是评估大语言模型的最终目标。
一个好的大语言模型应该能够在实际应用中发挥作用,并满足用户的需求。
准确性、流利性、复杂性——二语学习者产出水平评估的三要素
Vol.33No.8Aug.2012第33卷第8期2012年8月赤峰学院学报(汉文哲学社会科学版)Journal of Chifeng University (Soc.Sci )一、研究背景学习者的二语产出能力是二语教学中的目的之一。
学习者不仅要能听懂、读懂,还应会写、会说。
近年来,国内研究者对于写作和口语的教学研究给予了广泛关注,但对如何全面的评估学习者产出能力却研究不足。
现阶段我国的大部分写作和口语考试仍然采用整体评分法,如高考英语口试评分采取印象法,虽然在评分表上两个部分均列出数个单项,如语音、语调、语法等,但最后成绩仍根据考官对考生口语的总体印象给出。
Ellis 认为,从语言准确性、复杂性和流利性3个方面来分析学习者语言能使我们更全面、更平衡地得到关于学习者语言的信息。
其原因为:学习者在完成二语产出任务时(包括口头和书面的语言产出),都会在这3个方面有所侧重。
因此,从语言的这3个方面入手,能为我们分析学习者的语言行为表现提供有效的手段和方法。
根据Ellis 的观点,本文将从准确性、流利性和复杂性3方面入手,试图构建中国二语学习者产出能力的评估体系。
二、术语界定二语学习者产出水平的构成是多方面的,而准确性、流利性和复杂性是其主要的方面,可以充分、全面的衡量二语学习者产出水平。
尽管对于准确性、流利性和复杂性的研究引起国外学者的兴趣,但对于这三者的定义至今没有统一的答案。
通过对国内外文献的梳理,以下分别对准确性、流利性和复杂性的定义做一归纳。
(一)准确性界定Brumfit 首次对流利性和准确性做了区分,并设计了基于流利性的口语活动和基于准确性的口语活动。
准确性关注二语产出中的语法形式。
Wolfe-Quintero 将准确性定义为偏离特定规则的程度。
偏离规则也就是通常所说的“错误”。
Housen and Kuiken 指出准确性即是学习者产出无错误语言的能力。
在Skehan 看来,准确性是语言产出接近目标语语言规则的程度。
如何进行多语言软件测试
如何进行多语言软件测试多语言软件测试是指对软件在不同语言环境下进行测试,以确保软件在各种语言环境下的正常运行和表现一致。
随着全球化和国际化的发展,多语言软件测试变得越来越重要。
下面将介绍如何进行多语言软件测试的步骤和注意事项。
一、国际化准备在进行多语言软件测试之前,首先需要确保软件已经进行了国际化准备。
国际化准备是指将软件设计和开发成适应不同语言环境的能力。
在软件设计和开发阶段,需要考虑以下几个核心要素:1. 字符编码和本地化支持:确保软件能够正确处理各种字符编码,并能够支持不同语言的本地化。
2. 文本外部化:将软件中的所有文本信息提取出来,存放在外部的资源文件中,以便进行翻译和本地化。
3. 布局和界面调整:对软件的布局和界面进行灵活的设计,以适应不同语言环境的文字长度和排列方向。
二、多语言翻译在进行多语言软件测试之前,需要进行多语言的翻译工作。
翻译工作应该由专业的翻译人员进行,并且需要经过严格的校对和审校。
以下是一些翻译的注意事项:1. 选择合适的翻译工具:可以使用翻译记忆工具或者机器翻译工具来辅助翻译工作,提高翻译效率和一致性。
2. 保持上下文一致性:翻译人员需要了解软件的上下文信息,以保证翻译的准确性和一致性。
3. 校对和审校:翻译完成后,需要进行校对和审校,确保翻译的准确性和质量。
三、多语言软件测试步骤1. 软件本地化测试:在进行多语言软件测试之前,首先需要进行软件本地化测试。
本地化测试是指对软件在不同语言环境下进行测试,以确保软件的功能和用户界面在各语言环境下的正常表现。
2. 语言功能测试:在多语言环境下,对软件的不同语言功能进行测试。
例如,对于多语言界面,需要测试各语言的显示、布局和输入是否正常。
3. 字符编码测试:针对不同字符编码的语言,测试软件的字符编码处理是否正确,包括输入、显示和存储等方面。
4. 数据校验测试:测试软件对不同语言的数据校验是否有效,例如对于电话号码、邮政编码等数据的校验。
语言翻译软件准确性测试报告
语言翻译软件准确性测试报告本报告旨在对语言翻译软件进行准确性测试,评估其在不同语言翻译任务中的表现。
通过对软件进行多项测试和数据分析,我们能够得出结论并提供对软件性能的评价和建议。
1. 引言语言翻译软件是现代社会中的重要工具,在国际交流、跨文化交流以及商业合作中起到了关键作用。
然而,随着全球化的进一步发展,对于语言翻译软件准确性的要求也越来越高。
因此,针对该软件进行准确性测试成为不可或缺的任务。
2. 测试方法为了评估语言翻译软件的准确性,我们选择了多个不同的语言对进行测试,覆盖了英语、中文、法语、西班牙语等常见语言。
每个语言对都包含了百分之五十的句子涵盖了常见的日常用语、专业术语和文化特定表达。
3. 测试结果通过对语言翻译软件进行测试,我们对其准确性进行了评估。
在不同的语言对下,软件的准确性表现如下:3.1 英语-中文翻译在英语-中文翻译中,语言翻译软件表现出较高的准确性。
在涵盖了常见日常用语和基本句式的情况下,软件能够以准确、流畅的方式进行翻译。
然而,在处理复杂的专业术语和文化特定表达时,软件的准确性略有下降。
3.2 英语-法语翻译在英语-法语翻译中,语言翻译软件同样表现出较高的准确性。
软件在处理常见的日常用语和基本句式时表现出色,但在处理一些复杂的句子结构和文化特定表达时,软件准确性有所下降。
3.3 英语-西班牙语翻译在英语-西班牙语翻译中,语言翻译软件的准确性较为一致。
软件在处理各类句式和专业术语时表现稳定,准确性较高。
4. 评价与建议根据测试结果,我们对语言翻译软件的准确性进行评价和建议,以帮助开发者改进软件:4.1 提高对复杂句子结构的处理能力:当前软件在处理复杂句子结构时的准确性不及预期,开发者应该加强对这种情况的测试和改进。
4.2 加大对专业术语和文化特定表达的学习与支持:由于不同领域的专业术语和文化差异,软件在处理这些内容时准确性有所下降。
开发者应该加强对各个领域的专业术语和文化差异的学习,并提供相应的学习和支持手段。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语言测试真实性的多维分析孔文1,李清华2(1.宁波大学科技学院,浙江宁波315211;2.绍兴文理学院外语系,浙江绍兴312000)摘要:语言测试中的“真实性”一直是个颇具争议的概念。
虽然其重要性已受到语言教师和测试研究者的关注,但对其构成成分及其在测试中可实现的程度意见不一,主要有真实生活观、巴克曼的双维分析以及斯彭斯和布朗的多维分析观点。
当前在真实性研究中存在的主要问题是建构更全面的理论框架并进行更多的实证性研究。
关键词:语言测试;真实性;多维分析中图分类号:H09文献标识码:A文章编号:1002-722X (2003)01-0055-04Multidimensional Analysis of Authenticity in Language TestingKONG Wen 1,LI Oing-hua 2(1.Science &technoIogy CoIIege ,Ningbo University ,Ningbo ,Zhejiang Prov.,315211,China ;2.Foreign Languages Department ,Shaoxing University ,Shaoxing ,Zhejiang Prov.,312000,China )Abstract :Authenticity in Ianguage testing has aIways been a controversiaI concept.AIthough many Ianguage teachers and test researchers have recognized its importance ,there is disagreement about what constitutes authenticity and about the IeveI of authenticity that can be reaIisti-caIIy achieved in Ianguage tests.the theories incIude the reaI Iife approach ,Bachmanfs bi-dimensionaI anaIysis and Spence-Brownfs muItidi-mentionaI view.A more comprehensive framework and more empiricaI researches are needed before the probIem of authenticity can be soIved.Key words :Ianguage testing ;authenticity ;muItidimentionaI anaIysis1.引言巴克曼和帕尔默(Bachman &PaImer ,1996:17)提出,作为指导测试的基本原则之一的实用性(use-fuIIness )表现在六个方面:信度、理念效度、真实性、交互性、后效作用和适用性,并且把这六个特征作为评价一项测试质量的主要依据。
但“真实性作为试题质量的关键标准之一,虽在语言测试研究者之间争论了十几年,但在语言测试课本中却鲜有提及”。
(1996:23)在国内,有的学者也谈及测试的真实性问题,(李筱菊,1997;韩宝成,2000)邹申(2001)和李清华(2001)分别探讨过口试及交际测试的真实性问题。
但对真实性的全面研究尚嫌缺乏。
因此,本文拟就测试真实性作进一步探讨。
2.语言测试真实性的研究背景70年代初,海默斯(Hymes ,1972:218)“交际能力”说使人们认识到语境及社会文化因素在交际中的重要作用。
到了80年代,卡纳尔和斯温(CanaIe &Swain ,1980;CanaIe ,1983)对交际能力进行了补充,90年代,巴克曼(Bachman ,1990:81-107)的“交际语言能力”(简称CLA )说进一步完善了交际能力理论。
CLA 由三个部分组成:语言能力、策略能力和心理生理机制。
其中,策略能力把语言能力与语言使用者的世界知识和真实的语境联系起来。
语境成为交际语言使用中不可缺少的一部分。
这些理论对语言教学和测试都产生了深刻影响。
在语言教学方面,日益普及的交际教学强调语言材料应是现实生活中所使用的真实材料,学生之间的交流也应符合真实交际的特点。
语言观和语言教学观的变化必然引起语言测试发生相应变革。
近年来迅速发展的交际语言测试要求测试内容、方法、手段等都尽可能地复现真实交际的特点。
这样,语言测试中的真实性问题被提上日程。
语言学家对测试中收稿日期:2002-09-10作者简介:1.孔文(1970-),女,山东曲阜人,宁波大学科技学院讲师,硕士,主要研究方向为语言测试、语用学;2.李清华(1965-),男,山东金乡人,绍兴文理学院讲师,硕士,主要研究方向为语言测试、英语教学法。
第26卷第1期2003年1月解放军外国语学院学报JournaI of PLA University of Foreign Languages VoI.26No.1Jan.2003的真实性的关注始于卡罗尔(CarroII,1961)关于综合测试和分离式测试的论述。
《语言测试》(Language Testing)第二期(1985)对测试中的真实性问题出专号进行了讨论。
下面就有关测试真实性的几种主要观点加以探讨。
3.国内外学者对真实性的研究3.1真实生活观(reaI Iife approach,简称RL 观)RL观认为真实性指“测试行为复现某种特定的非测试语言行为的程度”。
(Bachman1990:301)这种观点强调两个方面:(1)测试卷面真实性及其对受试者的影响,即测试的卷面效度;(2)测试行为预测非测试行为的准确性,即测试的预测效度。
RL 观有三条相互联系的基本原则:(1)测试对象即真实生活行为;(2)真实性的标准即真实生活行为本身;(3)卷面效度、内容相关性和预测效度足以证明测试的整体效度。
巴克曼和许多其他的测试研究者都意识到这种真实性观点存在着不少问题。
首先,在外语测试中,作为真实性标准的真实生活是目的语使用者的真实生活,还是外语学习者的真实生活?其次,把真实生活作为测试的对象可行吗?在多数情况下,真实生活中的任务一旦被用来作为测试任务,或多或少会失去一些特征。
造成这些困惑的主要原因在于RL观没有区分语言能力和语言行为。
但RL观却把能力的行为表现看做能力本身。
RL观把能力与行为等同起来,就严重限制了真实性的可操作性及测试成绩的解释和使用。
(李清华,2001:69)在口试方面,表面效度不等于测试的真实性,真实性不局限于现实语言运用情景,因而口试不一定要出现模仿现实口语活动的特定场合。
(邹申,2001:77-78)此外,仅仅根据卷面效度、内容相关性和预测效度就能说明某项测试效度的高低吗?卷面效度尽管有一定的实用价值,却带有很大的主观性。
因此,斯坎(Skehan,1987)、巴克曼(Bachman,1990)等测试研究者均不赞同把卷面效度作为评价测试的根据。
怎样证明直接测试内容的代表性和预测效度呢?肖汉姆和里夫斯(Shohamy&Reves,1985)、斯波克斯(SpoIsky,1985)、徐强(1992)等都曾经探讨过直接测试所面临的两难处境。
“我们不可能罗列一份我们能从中取样的全面清单。
”(SpoIsky,1985:150)具有一定主观性的取样又怎能保证测试有较高的预测效度呢?由此可见,把真实生活作为语言测试的对象和评价标准都存在一些难以解决的问题。
3.2巴克曼对语言测试真实性的双维分析巴克曼及帕尔默(Bachman,1990,Bachman& PaImer,1996)在两部测试专著中对语言测试真实性问题作了较为全面的阐述,可概括为两种观点:交互能力观(interactionaI abiIity approach,简称IA观)和一致观(correspondence approach)。
3.2.1交互能力观IA观把测试的真实性看做是受试者与测试任务之间的互动。
所谓互动是指“在完成测试任务中受试者个人特征参与的程度与类型”。
(Bachman& PaImer,1996:25)互动程度愈强,试题的真实性程度就愈高。
与测试相关的个人特征包括受试者的语言能力(语言知识和策略能力/元认知策略)、话题知识和情感图式。
概括起来,IA观有以下特点:(1)强调交际语言使用的区别性特征,即语言使用者与语境和语篇之间的交互作用;(2)强调利用影响测试行为的诸多因素的理论框架来编写包括语言使用特征的测试。
因而人们的注意力就从如何在非测试行为中取样转移到选择合适的测试方法,从而有效地激发考生与测试环境、语篇之间的充分的交互作用。
IA观的关键问题在于建构一个涵盖影响测试行为的诸多因素的理论框架。
巴克曼(1990)提出了解释语言测试行为的一般模式。
该模式包括四个范畴:交际语言能力、测试方法层面、个人特征和难以控制的测量错误。
测试的目的是衡量考生的交际语言能力,因此在测试中要充分考虑其他几种因素的作用,尽量减少它们对测试行为及测试成绩的不利影响。
3.2.2一致观巴克曼和帕尔默对测试的真实性的进一步研究融入到了测试的两大基本原则(一致性原则和实用性原则)的探讨之中,把真实性定义为“特定测试任务的特征与目标语使用任务特征的一致性程度”。
(1996:23)这一定义使真实性在测试中的可操作性大大增强:首先,既然特征的一致性是真实性的关键,那么,只要使测试任务尽可能具有目的语使用任务的特征,该测试就具有较高的真实性;其次,目的语使用任务的特征主要涉及交际能力、语言环境及其他测试方法层面的因素,而这些因素可以根据巴克曼的模式总结出来;第三,真实性是一个相对的、动态的概念。
巴克曼的交互能力观及巴克曼和帕尔默的一致观加深了人们对测试真实性本质的认识。
不过,IA 观涉及受试者特征与测试任务的交互作用,一致性原则涉及测试任务特征与目标语使用任务特征,都·65·解放军外国语学院学报2003年属于真实性的双维分析。
笔者认为,这两位专家的观点至少有两点应加以修正:第一,作为实用性特征之一的交互性应视为真实性的一个方面;第二,他们提出的“一致性”原则应置于真实性的范畴之内。
可见,真实性尚需在更广泛的层面加以研究。
3.3斯彭斯和布朗对语言测试真实性的四维分析斯彭斯和布朗对巴克曼等人的观点进行了扩展,他们从四个角度展开对测试真实性问题的探讨,即:(1)测试任务的真实性;(2)受试者与测试任务之间互动的真实性;(3)参与者之间互动的真实性;(4)评分标准及其应用方式的真实性。