2第一章语言测试的性质,目的及其类别概述
语言测试的分类
第一章语言测试的分类
语言测试的分类决定着测试的形式,题目的类型。语言测试大体上可以从用途、构建、考察重点、评分方式、对测试分数的解释等方面进行分类。正如Henning(2001)指出的,语言测试有多少个目的,就会有多少种测试类别。语言测试的分类能够帮我们弄清“为什么测试?”、“测试什么?”、“怎样测试?”等问题。对于语言测试类型的了解能够帮助教师更有效地组织测试,更好地实现英语语言测试的信度和效度,更科学地根据测试的目的权衡信度、效度之间的关系。
第一节以测试用途为标准的分类
从测试用途角度进行分类,大致可以将语言测试分为五种测试形式,即水平测试(proficiency tests)、成绩测试(achievement tests)、分级测试(placement tests)、潜能测试(apititude tests)和诊断性测试(diagnostic tests)。
1. 水平测试(proficiency tests)
水平测试是用来测量人们的某一语言能力,往往与被测试者先前所受的语言训练无关。水平测试多针对于来自不同学校,不同国家,不同语言背景的受试者,因此水平测试与他们过去的学习内容、课程目标、课程大纲等没有直接联系。这里的水平更强调以某一特定目标为基础的,对于语言的充分驾驭。水平测试的目的之一是用来选拔。这种选拔可以是为某一工作岗位进行的招聘,此时的测试目标着重于受试者能否胜任某一工作,测试内容往往与这一工作中的实际场景相关,如联合国译员考试。这种选拔也可以是升学选拔,此时的测试内容是向前看的,如测量学生是否具有足够的语言能力来跟上大学中的课程和学业,如美国的托福考试,英国的剑桥英语水平证书测试(University of Cambridge Certificate of Proficiency in English)等。大多数试题内容来自国外大学本科生教材。升学选拔水平测试在范围上有所区分,有的只是针对于大学中某一具体专业,如艺术专业;而有的则是针对于所有专业,如牛津EFL考试。现以雅思考试为例对水平测试做一具体说明。雅思即国际英语水平测试(International English Language Testing System),简称IELTS。IELTS的考试中心遍布全球105个国家。考试可分为两种类型,学术类和培训类。学术类IELTS(Academic IELTS)适合于计划申请报读国外高校本科或研究生课程的考生,专门测试考生是否具备一定的英语语言能力完成本科或研究生课程。因此如果计划出国留学深造或接受高等教育,应选择学术类IELTS考试。普通培训类IELTS(General Training)是针对去英语国家完成中学教育,学习非学位培训课程,以及赴加拿大、澳大利亚、新西兰等国移民定居的人员,主要测试在一般的社会和教育情景下的基本生存技能(basic survival skills)。因此如果计划完成初级教育,接受非学术类培训,工作或移民到英语国家,应选择培训类IELTS考试。IELTS考生需要参加听力、阅读、写作和口语四项测试。每项测试不同的技能。听力要求考生理解日常生活中的口语和非正式场合的口语,比如在讲座,研讨时使用的口语,雅思的听力部分就是测试考生在这方面做得如何;阅读部分主要考察考生从许多信息来源中快速、准确地收集找到主要信息的能力,此部分主要针对日后学习中常面对的问题,即在学习中没有时间阅读书单上所有的书。写作部分测试考生在收集和组织信息后,以文章或报告的形式表述想法的能力;口语部分测试考生谈论自己的情况,表达对各种问题看法的能力。总之,雅思的所有考试都面对今后学习中常出现的情况,即在时间紧迫的情况下寻找信息,快速思维,并恰当地做出反应。
测试的目的和类别
2、测试命题方式
(1)分离性测试 指将汉语分离成语音、词汇、语法、汉字等各个构成要素,把言 语技能分离成听、说、读、写等分项技能,逐一进行测试。 优点:考查汉语项目和分项技能多,测试成绩容易进行量化分析, 测试结果能准确反映学生的具体困难,便于教师对症下药,有针 对性地帮助学生。 不足:孤立地考查汉语学习者的某一项汉语知识或技能,难以反映 他综合运用汉语的水平,特别是汉语交际水平。
(3)分班测试 分班测试又称为安置测试或分级测试,指在学习者入学时进行的, 用来考查其当时的实际水平,以便安排他们进入不同层次学习班的 测试。 目的是为了尽量让汉语水平相同或大体相当的学习者组成一个班, 既便于老师施教,也利于学生学习。 (4)潜能测试 潜能测试又称学能测试、性能测试,指用来预测学习者是否具有学 习汉语的潜力或衣服的一种测试。 目的是为了了解汉语学习者是否具有学习汉语的潜在素质。 (5)诊断测试 指用来检查汉语教学进程中,教和学两个方面所存在的问题,以便 弥补缺漏的一种测试。 诊断测试内容自由、方式灵活、时间没有统一要求。
2)综合性测试 指将各种汉语知识和语言技能综合在一份试卷或一个试题中,以 全面地考查汉语学习者的语言能力的一种测试。 优点:可以全面考查汉语学习者的语言能力,尤其是综合运用汉语 的能力。 不足:评分标准不好掌握,实施过程费时费力。
3、判卷评分方式
(1)主观性测试 指试题的答案比较灵活,可能不止一个,评分时 需要评卷人对考生的做大情况做出主观性判断的测试。 比如:留学生的写作测试、口语测试。 优点:便于深度性的汉语考查,命题方便,题量少,耗时短;利于防止 猜测得分。 不足:考查范围受到限制;评阅工作量大;评分结果难以达到高度 一致。 (2)客观性测试 指试题有固定的标准答案,评分客观可靠,不受 评阅人主观因素影响的测试。 比如:多项选择题、判断题。
2第一章语言测试的性质,目的及其类别
7
3.评价
Weiss(1972)认为,―评价(evaluation)是指为作出某 种决策而收集资料,并对资料进行分析,作出解释的系统 过程。‖与测量、测试相比,评价的含义更广、综合性更 强。Bachman(1990)指出,决策的正确与否,一方面取 决与决策者本身的能力,另一方面则取决于收集到的信息 的质量。在其它条件等同的情况下,如果收集到的信息越 可靠,相关性越强,那么,作出正确决策的可能性就越大。 所以说,评价的一个很重要的方面就是要获得可靠的、相 关的信息。在谈到评价与测量及测试的关系时,Bachman 指出,在对个体(学生)作出评价时,我们可以从质量和 数量两个方面进行描述,或只描述其中一个方面。所谓质 量方面的描述是指对学生的行为作出定性的描述,如 某 某学生的口头表达能力优秀,书面表达能力优等; 数量方面的描 述则是指某次测验的分数等。
8
测量,测试和评价的关系?
评价 1 测量
2
测试 3 4
5
9
测量,测试和评价的关系?
1.我们在对某教育目标(或学生的行为)作出评价时不一定用到测试或 测量(如面积1所示),这种评价属于质量评价,或叫定性评价。 2.如指出学生在学习方面存在的问题。有时在作出评价时只需测量,而 无需测试(如面积2所示),对学生的口头表达能力定出级别就属于这 种性质的评价。 3.如果要检查学生学习的进步情况,通常就要对学生实施测试,这又是 另一种性质的评价,即只通过测试对学生的成绩作出评价(如面积3所 示)。 4.许多情况下,测试只是作为一种科研的工具或手段,而不是用来作出 评价(如面积4所示), 5.在外语教学、第二语言习得研究领域,我们经常拿水平测试作为研究 的工具。不用测试便可进行测量的情况(如面积5所示)
语言测试与理论PPT课件
-
5
Rather, it is based on a specification of what candidates have to be able to do in the language in order to be considered proficient.
-
6
What do we mean by the word ‘proficient’?
The Oxford EFL examinations (Preliminary and Higher)
-
9
Are there any other tests like this? Please give some examples.
-
10
The function of these tests it to show whether candidates have reached a certain standard with respect to certain specified abilities. Such examining bodies are independent of the teaching institutions and so can be relied on by potential employers etc. to make fair comparisons between candidates from different institutions and different countries.
语言测试与成绩分析
读困难影响听力能力的表现。
一、分散测试和综合测试
根据测试内容和项目的不同而进行分类
(一)分散测试 用不同的语言项目分别检测学生不同的知识和技能。 (二)综合测试 全面检测学生综合运用语言的能力,如问答、对话等。
二、主观测试和客观测试
根据评判成绩的方式不同进行的分类
(一)主观测试 主要取决于教师对学生回答的反应。比如高考的作文,有 些高分有些低分。 (二)客观测试
第一节 语言测试的性质和目的
一、测试与评估
(一)测试
语言测试是对被试的语言能力做出科学评定的一种测量, 需要特定的行为样本。 (二)评估 评估是做出判断和决策的全过程,在其他条件相同的情
况下,信息越可靠,做出正确决策的可能性就越大。
二、语言测试的基本要素
检验第二语言知识 (一)代表性 例:我已经A开始B做C饭D。(“了”应该在哪里?) (二)客观性 测试题目的难易度和区分度,测试的信度和效度 (三)科学性 测试题目、测试过程、分数评定和解释等都要具有科学性 测试语言技能
16
语言测试的基本类别
水平测验
语言水平通常指人们对目的语运用的熟练程度或熟巧程度, 所以水平测验又叫熟巧程度测验,考察的是学习者综合运用 语言的能力。
水平测验所关心的是学习者是否听懂目的语这的讲话;是否 看懂用目的语所写的文章,是否可以用目的语与别人自如地 进行口头交际或者书面表达。
典型的水平测验:1、美国的“托福(TOEFL)”
依据:以教学单位所规定的学 习者需要掌握的教材内容,教 程内容,教学大纲为依据。
需要注意:测试的内容不应该超 过教材,教程和大纲的范围。
分类:最后成绩测验(期末考试,结业考试)
进步测验(阶段性的测验)
评价:
成绩测验除了可以用来评估个别学习者自身 学业成就以外,还可以用来对各个教学单位的学习 情况或教师的教学成效进行比较,从而为教学提供 反馈。所关心的是内容效度问题。
2、汉语水平测试(HSK)
3、我国出国人员外语水平考试(WSK)
第一、所关心的方面不同,成绩测验测试的内容 以特定的教材,教程,和教学方法为依据,而水 平测验关心的是考生 是否能使用目的语完成特定 的任务或实现特定的任务。
第二、测试内容范围不同,成绩测验是学什么考 什么,不会超出所学范围,但是,水平测验是设 计者首先对学习者的需求进行分析,在此基础上 来确定命题原则,制定命题大纲,和命题细则, 然后在编制测试题目。
第三、成绩测验追求的是内容效度,水平测验追 求的则是测验的构想效果。
语言测试教案1
一语言测试的性质
1 测量
语言测试是一种测量
1.1测量的要素:测度、数字系统、测量单位、零点、手段
●测度测量的对象所具有的可测量的属性。如,方桌可以测量其长度、宽度、高度;
西瓜可以测量其大小或重量。
●数字系统测量事物所得的结果必须用某个数字来表示,可以是正数、负数、零,
也可以是小数。
●测量单位测量对象的性质不同,测量所得的数字往往用不同的单位来表示。测量
长度可以用米、公分等做单位,测量重量则用千克、克等做单位,商品的价格用元、角等做单位。
●零点测量事物计算数量的起点(不等于“没有”或“无”)。两条不知起点的道路
是不能测量长短的,也是不能比较长短的。
●手段测量事物所凭借的工具、方法。测量长度用尺子(“一箭之地”),测量重量
用天平(“重如泰山”),测量语言水平用什么?
以上诸要素中,测度是本质、根本,是所有的测量所必需的。
1.2四种量表(scale):称名量表、顺序量表、等距量表、比率量表
●称名量表(nominal scale)把测量对象分成不同的类别。
●顺序量表(ordinal scale)不仅把测量对象分成不同的类别,而且要将不同的
对象进行排序,建立起大小、高低的顺序关系。
●等距量表(interval scale)不仅把测量对象分成不同的类别、进行排序,而且
表示出不同对象之间距离的大小,距离用一定的数量单位表示,还须要规定一个相
对的零点。
●比率量表(ratio scale)比率量表与其他量表的最大区别是它具有绝对的零点。
测量重量、长度、面积或体积所得到的量表就是比率量表。
四种量表性质的比较:
语言教学中语言测试初探
.
Fra Baidu bibliotek
力, 这样我们可以达到诊断与反馈的目的, 看 看 学生 的语 言能力 、 言水平 在 哪些 方 面强 , 语 在 哪些方 面弱 。也 可 以帮助 教师 反馈 教 学信 息, 改进 教学 方法 , 教学 效果 。从 更 高的 提高 水准 看 , 言测 试还 有助 于科 学研 究 , 们 在 语 人 二语 习得 的过程 中进 行 调查 与研 究 ,从 而 得
! Q Q :
文化与教 育技 术
C iaNe e h oo isa d Po u t h n w T c n lge n rd cs
语 言教学 中语 言测试 初探
赵 园
( 黑龙江电力职 工大学, 黑龙江 哈 尔滨 10 3 ) 5 00 摘 要: 语言测试是语言教学 的重要教学手段 , 大地促进 了语言教学。语言测试分为多项选择题 、 极 完形填 空题、 语音测试、 词汇潮
试、 语法 测试 、 阅读理 解测试 、 力测试 、 听 口语 测 试 写作 测试 、 听写测 试 、 翻译测 试 。
关键 词 : 言测 试 ; 语 语音 ; 汇 ; 法 词 语
1语 言测试 的性质 、 目的 及类别 11语 言测试 的性 质 . 教学离 不开 测试 。 言教学 更是 如此 。 语 素 质教 育 , 调发挥 学 生的 主观 能动 性 , 调 因 强 强 材施 教 , 都离 不 开教学 效果 的 检验 , 不 这些 离 开对 学生进 行测试 。 测 试 实质上 是 “ 对行 为样本 所 做 的客 观 的标 准化 的测量 。”A a ai18 ) 为样本 ( ns s 9 2行 t 是 指测试 选 取一 部分有 代表 性 的抽样 进 行测 量 。 观是 指测试 的客 观性程 度 的标准评 价 。 客 标 准化是 指 测试有 统一 的标准 , 具有 可 比性 。 1 . 言 测试 的 目的 2语 我们 设计 一份 试卷 来测 试学 生 的语 吾能
普通话水平测试概述
一、测试的性质、目的
普通话水平测试 ( PUTONGHUA SHUIPING CESHI ,缩写为 PSC ) 是在教育部、国家语言文字工作委员会领导下,根据《普通话水平测试大纲》规定的统一标准和要求,在全国范围内开展的一项测试。
普通话水平测试测查应试人的普通话规范程度、熟练程度,认定其普通话水平等级,属于标准参照性考试。它为应试人提供普通话水平测试等级证书,是应试人使用单位对其普通话水平进行评价的依据。
二、测试的内容、范围
普通话水平测试的内容包括普通话语音、词汇和语法。
普通话水平测试的范围是国家测试机构编制的《普通话水平测试用普通话词语表》、《普通话水平测试用普通话与方言词语对照表》、《普通话水平测试用普通话与方言常见语法差异对照表》、《普通话水平测试用朗读作品》、《普通话水平测试用话题》。
三、测试方式、项目和等级划分
普通话水平测试以口试方式进行。江苏省测试项目有四项:读单音节字词,读多音节词语,朗读短文和命题说话。总分 100 分。
等级划分:普通话水平等级分为一级、二级、三级,一级最高,每一级中又分甲等和乙等两个等次。
一级甲等( 简称“一甲” ):97 分以上(含 97 分)
朗读和自由交谈时,语音标准,词语、语法正确无误,语调自然,表达流畅。
一级乙等( 简称“一乙” ):92—— 96.9 分
朗读和自由交谈时,语音标准,词语、语法正确无误,语调自然,表达流畅。偶然有字音、字调失误。
二级甲等( 简称“二甲” ):87 分—— 91.9 分
朗读和自由交谈时,声韵调发音基本标准,语调自然,表达流畅。少数难点音 (平翘舌音、前后鼻尾音、边鼻音等)有时出现失误。词语、语法极少有误。
语言测验的一般原理
三、对任务的描写:语言测试中应考虑的语言用途
(一)语言使用任务和目标语言使用领域: 语言使用任务:涉及个体为了在一特定情境或背景下 达到特定目的或宗旨时在使用语言时的活动。
目标语言使用领域:受试者很可能在测试本身外来自百度文库碰
到的要求使用语言的一系列特殊任务及其伴随场景。
分为:现实生活领域
交际用途
语言传授领域
影响:对社会、教育制度以及处于这个制度下的个人的影响。 Bachman :“反溅作用” 可实践性:涉及将测试付之实施的方法,涉及一项测试能否开发和使用。
(三)三个基本原则:
1.强调测试的整体有用性; 2.测试的个别性质须在测试的整体有用性的共同影响进行评估; 3.测试有用性应根据每一个特定的测试情况决定。
语言教学
三、对任务的描写:语言测试中应考虑的语言用途
(二)语言使用领域的特征:
1.场景:物质环境; 2.测试成规:测试的结构; 3.投入:一项已知测试任务或目标使用任务所含的材料; 4.期待反应:区别于实际反应; 5.投入与反应之间的关系:反应性、范围、直接性
(一)测试的有用性: 有用性:语言测试的各种性质 Bachman 的观点:要认识到各种性质的互补性,从 中求得平衡,根据不同情况又可有所侧重,以取得某 一测试在整体上的有用性。
(二)有用性的六个性质:
信度、效度、真实性、交互作用、影响、可实践性。
汉语语言测试方法
3、心理语言学—社会语言学时期(后现代时期)(70年 代初-80年代初)
(1)理论基础:社会语言学和转换生成语法理论。 (2)把语用能力纳入测试范畴。更多地关注如何从功能性、社 会性和语言应用的角度进行考查。 整体综合理论认为:语言不仅是一个可以分解的整体,更是一 种动态的、具有创造性的功能体系。在语言的实际应用过程中,人 们对语言符号的结构的选用,其实具有很大的冗余性,同一种思想 或意义往往可以用多种形式来表达,对于某一项语言知识的匮乏基 本不会影响语言交际的照常进行。测试应当对受试者的语言能力进 行测试,而不要局限于对孤立的语言点的测试。重视效度。 (3)代表人物: 约翰· 奥勒(John Oller)“一元能力”假说。认为语言是一 个单一的能力。 (4)主要测试方法: 综合式。 (5)主要题型: 完形填空;综合改错;听写;口试;作文等。 这些题型在重视语言形式正确性的同时,也种种对受试者的分析、 综合、信息转换等语言应用能力的考查。
50年代初) 测试形式确立的标志:18世纪剑桥大学的荣誉学 位考试。 测试特点:(1)内容:很强的文学性;(2)测试方式: 论文写作式的短文写作,翻译,口试等。 没有科学的语言理论的指导,也没有统一的客观 评估标准,测试结果完全凭考官的主观判断来决定。 缺乏科学性、系统性,是语言测试发展的雏形时期。
语言测试主要内容资料讲解
语言测试主要内容
考试信度:考分的一致性。考试效度:考试达到其预期测试意图的程度。交互性:指在考试所设计的任务中学生的参与程度。直接考试:学生被要求直接运用被试的技能或能力。间接考试:测试那些相关技能、以达到评估能力的目的。诊断考试:此类考试旨在了解学生在某个阶段中学习上的长处与短处,其最终目的是为了给教师提供教学效果或质量方面的信息。整体评分法:把作文视作一完整的篇章,根据对其总体印象打分。原始分数:未经处理或未加权重的分数。考试:用来获取某些行为的方法,其目的是从这些行为中推断出个人具有的某些特征。
1.根据考试的方式,考试的分类:1直接考试(①侧重考试形式的真实性②便于从总体上考查产出性技能,如口语能力、写作能力、翻译能力等③从命题人员的角度出发,直接考试具有比较明确的测试目标)2间接考试(①不强调考试形式上的真实性,即考试形式无需与实际语用环境相一致②由于不受语用环境的限制,所选择测试的技能可以更具有代表性和概括性③间接考试可选用多项选择题型,可以提高考试信度。)
2.常用的口试形式及特点:①朗读:学生事先在规定时间里浏览朗读材料,然后朗读。材料的长度视考试难度或学生水平而定,可以是单句,也可以是段落。但是,朗读作为口试形式只测试学生的语音语调等,无法检查整体口语能力。②看图说话:给学生一幅或多幅图片,让他们描绘或叙述图中所发生的事件。③简短说话:是一种弹性口试形式,即在难度上有伸缩性,可以是一个三言两语的形式,也可以是一个时间较长的形式。④对话:在一个假设情景中进行,学生之间或学生与考官之间根据情景要求进行对话。对话者既要运用一些常用会话技能,同时还要运用解决沟通问题的技能。⑤小组讨论:学生们就一个话题展开交流,一般控制在三四个人左右。⑥面试型口试:基本上采取问答形式,但又不同于简单的一问一答形式。考官通过各种提问技巧,从多个层面来观察学生的口语能力。
语言测试学
语言测试学
1. 简介
语言测试学是指通过科学的方法和工具,对某个个体或群体的语言能力进行评估和测量的学科。它旨在了解个体在特定语言方面的知识、运用和技能水平,为语言学习和教学提供科学依据。语言测试学的研究内容包括测试工具的设计与开发、测试过程的管理与执行、测试结果的解释与应用等方面。
2. 语言测试的意义
语言测试在语言学习和教学中具有重要意义:
2.1 语言学习指导
语言测试可以帮助学习者了解自己在语言方面的强项和弱项,从而有针对性地进行学习。通过测评结果,学习者可以了解自己的词汇量、语法水平、听说读写能力等方面的情况,从而制定学习计划和目标。
2.2 教学评估
语言测试可以评估语言教学的效果和质量。通过对学生进行测试,教师可以了解学生学习的进展和难点,及时调整教学策略,并为学生提供有针对性的反馈和指导。
2.3 职业认证
语言测试结果在职场中具有一定的认证作用。许多企事业单位、国际组织和学术机构要求员工或申请人具备一定的语言能力,通过语言测试可以评估候选人是否符合要求。
3. 语言测试的类型
语言测试可以根据不同的目的和评估对象分为多种类型,常见的包括:
3.1 笔试
笔试是通过书面形式进行的测试,主要评估人们的阅读和写作能力。其特点是标准化、客观性较强,适用于大规模的语言能力评估。
3.2 口试
口试主要评估人们的口语沟通能力,将候选人置于实际语境中,通过对话和演讲等形式进行评估。口试更加贴近实际语言运用环境,能够更直观地反映个体的实际能力。
3.3 听力测试
听力测试用于评估人们对于听力输入的理解能力,通过听取录音材料并回答问题的形式进行。听力测试能够评估个体对于不同听力材料的理解程度。
语言测试
(1)多项选择题
优点: 优点: A.可以测试各个层面的语言知识和技能;B.具有良好的 A.可以测试各个层面的语言知识和技能;B.具有良好的 可以测试各个层面的语言知识和技能 诊断作用。多选可以将要测试的内容分解为若干项目进 诊断作用。 行,老师可以通过分析考生在各个项目中出现的错误及 时发现问题,予以纠正;C.答案固定 评分客观, 答案固定, 时发现问题,予以纠正;C.答案固定,评分客观,可以 机器阅卷,省时省力;D.试题覆盖面广 试题覆盖面广, 机器阅卷,省时省力;D.试题覆盖面广,适用于大规模 测试,测试信度高。 测试,测试信度高。 缺点: 缺点: A.题目很难设计,费时费力;B.不能测量考生的表达能 A.题目很难设计 费时费力;B.不能测量考生的表达能 题目很难设计, 力和推理、论证能力;C.对教学和学习的反拨作用不明 力和推理、论证能力;C.对教学和学习的反拨作用不明 显。 19
5
诊断测试和成绩测试
诊断测试可以用来考查单个的语言项目( 诊断测试可以用来考查单个的语言项目(如语 可以用来考查单个的语言项目 ),也可以是综合性的 也可以是综合性的, 序),也可以是综合性的,其目的是为了改进 教学,调整教学计划,进行个别指导。 教学,调整教学计划,进行个别指导。 成绩测试是回顾以前, 成绩测试是回顾以前,水平测试主要是展望未 是回顾以前 同时也注意过去, 潜能测试只是预见未 来,同时也注意过去,而潜能测试只是预见未 来。
测试的目的和类别
二、测试的类别
不同的分类标准有: 1、测试目的 2、测试命题方式 3、判卷评分方式 4、反应成绩的方式 其中最主要的划分标准是测试目的。
1、测试目的
(1)成绩测试 成绩测试是考查学生学习学习某一汉语课程一段时间后,对所学 课程内容掌握程度的测试。其突出特点是测试内容不超过教学大 纲、教学计划及所用教材范围,教什么,考什么。 (2)水平测试 水平测试的内容和范围不受某一课程教学大纲、教学计划化和使 用教材的限制,也不考虑不同学习者学习时间、学习地点和学习 程度的不同。它关心的是学习者现有的汉语熟练程度能否保证他 在未来完成特定的汉语交际任务。 测试内容广泛,涉及汉语的语音、词汇。语法、汉字等各语言要 素和汉语的听、说、读、写等各项技能。
2、测试命题方式
(1)分离性测试 指将汉语分离成语音、词汇、语法、汉字等各个构成要素,把言 语技能分离成听、说、读、写等分项技能,逐一进行测试。 优点:考查汉语项目和分项技能多,测试成绩容易进行量化分析, 测试结果能准确反映学生的具体困难,便于教师对症下药,有针 对性地帮助学生。 不足:孤立地考查汉语学习者的某一项汉语知识或技能,难以反映 他综合运用汉语的水平,特别是汉语交际水平。
相同点:都以一定的标准来解释被测者的测试成绩。 区别:参照物性质不同。常模参照性测试用的是当次考 试的全体被测者的平均分与标准差;标准参照性测试用 的是事先规定好的标准。 通途不同。常模参照性测试广泛用于选拔性、择 优性的招生考试、录用考试等等;标准参照性测试常用 于职业考核和等级证书考试。
语言测试与评估
语言测试与评估
第一节语言测验的基本原理
一、语言测验的作用和目的
作用:科学地测量出学习者的语言能力。
目的:我们使用测量工具时要达到的目的。
1、选拔
2、诊断
3、评估
4、研究
二、怎样用科学方法测量语言能力
1、测量的定义:测量是给人或事物的某种属性确定数和量的过程。
2、测量的四个要素:测度(测量的对象、可测量的
属性)、测量单位、数字(实数)系统、零点(0)。
3、四种测量水平和四种量表
称名测量——称名量表顺序测量——顺序量表
等距测量——等距量表比率测量——比率量表
4、测量对象及其性质显性隐性
5、自我测量工具非自我测量工具
6、测量中心:以主体为中心以刺激为中心以反映为中心测量水平和测量中心语言测验的中心
7、怎样使不可测的东西变为可测的——虚构测度(可测量的属性)
三、测验的种类
1、按用途分
水平测验——能力测验或熟练程度测验
语言水平指学习者能够使用目的语完成听课、做翻译、经商、旅游等目的的语言能力。如汉语水平考试(HSK)。其特点是不以教材为基础,没有明确的内容范围,一般是标准化测验。
成绩测验——以教材为依据的测验,不一定是标准化测验。
能力倾向测验——教学前的测验,了解被试是否具有学习语言的潜在能力。
分班测验——教学前的测验,了解被试的语言水平等级,以确定进高、中、初级班。
诊断测验——教学中的测验,为了发现问题,改进教学。
2、按测验方式或评分方式分
主观测验和客观测验:在评分过程中需要评分员自己作出判断的,就是主观测验;评分时不需要评分员做出判断的就是客观测验。
分立式测验和综合式测验
笔试和口试
纸笔测验和计算机辅助测验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
测量,测试和评价的关系?
评价 1 测量
2
测试 3 4
5
9
测量,测试和评价的关系?
1.我们在对某教育目标(或学生的行为)作出评价时不一定用到测试或 测量(如面积1所示),这种评价属于质量评价,或叫定性评价。 2.如指出学生在学习方面存在的问题。有时在作出评价时只需测量,而 无需测试(如面积2所示),对学生的口头表达能力定出级别就属于这 种性质的评价。 3.如果要检查学生学习的进步情况,通常就要对学生实施测试,这又是 另一种性质的评价,即只通过测试对学生的成绩作出评价(如面积3所 示)。 4.许多情况下,测试只是作为一种科研的工具或手段,而不是用来作出 评价(如面积4所示), 5.在外语教学、第二语言习得研究领域,我们经常拿水平测试作为研究 的工具。不用测试便可进行测量的情况(如面积5所示)
2) 指派数字或符号。
所谓指派数字或符号,就是用数字或符号来代表某一事物或事物的某 一属性的量。如张三在本次阅读考试中得了87分,李四得了92分,我 们说李四比张三多考了5分。数字本身没有意义,只是一种符号。我 我们用它来代表考生的阅读成绩,这时它就变成了量化的数,可以对 其进行解释和分析。在一定的条件下,还可以对数据进行运算从而对 事物的属性进行推测。
语言测试及方法
李君丽
● 湖南涉外经济学院外国语学院 ● 2017.02.16
一、语言测试的性质、目的
作为老师,几乎天天和测试打交道。如: 讲新课之前,要抽出几分钟的时间复习一 下上一课学过的内容,或者听写单词或者 听写句子等; 每学完一课书,要检查学生对本课掌握的 情况; 学期中间,一般要进行期中考试,期末有 期末考试,等等。 因此,教学离不开测试。
7
3.评价
Weiss(1972)认为,“评价(evaluation)是指为作出某 种决策而收集资料,并对资料进行分析,作出解释的系统 过程。”与测量、测试相比,评价的含义更广、综合性更 强。Bachman(1990)指出,决策的正确与否,一方面取 决与决策者本身的能力,另一方面则取决于收集到的信息 的质量。在其它条件等同的情况下,如果收集到的信息越 可靠,相关性越强,那么,作出正确决策的可能性就越大。 所以说,评价的一个很重要的方面就是要获得可靠的、相 关的信息。在谈到评价与测量及测试的关系时,Bachman 指出,在对个体(学生)作出评价时,我们可以从质量和 数量两个方面进行描述,或只描述其中一个方面。所谓质 量方面的描述是指对学生的行为作出定性的描述,如 某 某学生的口头表达能力优秀,书面表达能力优等; 数量方面的描 述则是指某次测验的分数等。
4
3) 法则
法则是指测量所依据的规则和方法,是测量的关键。法则不好或不可 靠,得到的测量结果就会出偏差,失去测量的意义。简单来说,尺子 不准,测量的结果就无法使人信服。对客观世界的物体进行测量时, 由于有公认的测量法则或尺度,如测量物体的高度、重量等;一般不 会出现大的偏差。而对人的某些特性(心理特征)进行测量时,则往 往会出现较大的偏差。举例来讲,有几个评委对某学生的英语口语进 行评定。评委A认为一个人的口语要好,必须发音准确,而该学生的 发音好,所以他给打了个5分。评委B认为流利性最能体现一个人的 口语水平,该同学尽管发音不错,但流利性差一些,所以她给他3分。 同一名学生,让不同的评委去打分,成绩出现了偏差。这也很自然, 原因是他们没有按照一个评定口语成绩的统一法则(rules)去给这名 学生打分,结果造成了偏差。这个例子提醒我们,在对人的某些心理 特征,如口语表达能力、阅读理解能力等等进行测量时,首先要制定 一个便于操作的,稳定的法则或标准。这样得到的测量结果才可靠, 才具有可比性。
1.1 几个基本概念
1.测量 (Measurement) 2.考试(Test) 3. 评价( Evaluation )
1.测量。 什么是测量? Stevens(195)认为,“广义而言,测量(measurement) 就是根据法则赋予事物数量。”也就是说,按照一定的规则给事物的 属性指派数字或符号的过程就是测量。这是迄今为止公认的测量定义。 举例来讲,要测量一下桌子的高度,我们可以拿尺子来量一量,看 看它有多高。尺子是人们根据一定的法则制定的量具,利用它就可以 把事物的属性,即桌子的高度用数字表示出来,如,0.75米。这种测 量属于客观测量,因为它基本上不受观察者的主观判断的影响。
3
测量这一定义包含三个要素
来自百度文库
1) 事物及其属性。
这是测量的对象或目标。上面提到的对桌子的高度进行测量,属于对 物体进行测量,其属性——高度,是可以观察到的,可以进行客观测 量的。在外语教学领域,我们感兴趣的是学生的语言能力,而学生的 语言能力属于人的心理特征,是无法直接测量的,但是人的心理活动 会在人的具体活动和行为中体现出来,所以只能通过测量其外显行为 或外在表现特征来推论一个学生语言能力的高低
5
2.测试 测试(test)又称测验。
不同的心理学家对此下的定义不同。Anastasi(1982)认为,“测试实 质上是对行为样本所做的客观的标准化的测量。”这个定义是人们公 认的最权威的定义,它包含以下三个基本要素:
1) 行为样本
语言测试的目的是要测量受试者的语言能力。上面提到,语言能力 是无形的,如何测量?只能测量它的有形表现,这里所说的有形表 现,是指语言表现,如说出来的话,写出来的句子,对测试题目所 做的各种反应等等、这些行为,都是无形的语言能力的有形表现, 用心理学术语叫“表征”(manifestation)。所谓行为样本,是指对语 言能力表现行为的有效的抽样。我们知道,一个人的语言能力的表 现行为会有各种各样的形式,测试时不可能也没有必要把它的全部 表现行为都测到,只能选取一部分有代表性的抽样进行测量,然后 据此对受试者的语言能力作出推测。
6
2 ) 客观的测量 所谓客观的测量是指测量的标准是否符合实际。对于一项 测试的客观性程度可以从这么几个方面去评价:⑴ 测试 题目的难易度和区分度如何;⑵ 测试结果的可靠性程度 如何?⑶ 测试结果的有效性如何?这几项指标是衡量一 项测试质量的重要指标。 3) 标准化的测量 标准化的测量是指在测试题目的编制、测试的实施、记分 以及对分数的解释等方面有一套严密的系统的程序。只有 这样,测试才有统一的标准,对不同人的测量结果才有可 比性。凡是不标准化的测量,都没有可比性。