2第一章语言测试的性质,目的及其类别

合集下载

应用语言学语言测试理论知识点整理

应用语言学语言测试理论知识点整理在应用语言学领域，语言测试理论是一个重要的分支，它对于评估语言学习者的语言能力、指导教学实践以及推动语言教育的发展都具有关键意义。

以下将对应用语言学语言测试理论的一些重要知识点进行整理。

一、语言测试的定义与目的语言测试是对语言学习者的语言能力进行测量和评估的一种手段。

其主要目的包括：1、为教育决策提供依据，例如确定学生的升级、留级或毕业。

2、评估教学效果，帮助教师了解教学方法的有效性和学生的学习进展。

3、为学生提供反馈，让他们了解自己的语言水平和不足之处，以便进一步改进学习策略。

二、语言测试的类型1、水平测试（Proficiency Test）旨在测量考生对某种语言的整体掌握程度，不考虑考生之前的学习经历或特定的课程内容。

常见的水平测试如雅思（IELTS）、托福（TOEFL）等。

2、成绩测试（Achievement Test）侧重于检测考生在特定课程或学习阶段所掌握的语言知识和技能，与教学内容紧密相关。

比如学校的期末考试、单元测验等。

3、诊断测试（Diagnostic Test）主要用于发现考生在语言学习中存在的具体问题和薄弱环节，以便为后续的教学和学习提供针对性的指导。

4、潜能测试（Aptitude Test）预测考生学习语言的潜力和能力，而非对现有语言水平的评估。

三、语言测试的质量评估标准1、效度（Validity）指测试能够准确测量出其所要测量的语言能力或语言知识的程度。

效度分为内容效度、结构效度、预测效度等。

内容效度：测试内容是否涵盖了所要考查的语言技能和知识点。

结构效度：测试结果是否与语言能力的理论结构相一致。

预测效度：测试成绩能否有效地预测考生在未来语言学习或实际语言运用中的表现。

2、信度（Reliability）反映测试结果的稳定性和一致性。

包括重测信度、复本信度、分半信度等。

重测信度：对同一批考生在不同时间进行相同测试，两次测试结果的相关性。

复本信度：使用两份内容相似但不完全相同的试卷对同一批考生进行测试，两次结果的相关性。

语言测试的基本理论

语音词语连接表达功能对方言或变体的语感
词汇修辞结构控制功能对语域差异的语感
词法教诲功能对自然地道语言的语感
句法想象功能对文化含义或比喻的理解
1.2.3Language measurementrefers to the meaningful and appropriate interpretations thatEnglishteachers make on the basis of a given test scores. As we know that learners’language ability is psychological behaviors, and is difficult to measure. Therefore, we have to use somequantitative scores or criteria to measure learners’language production.
d.HavingTest 2to know whether the learners have arrived at the expected learning targets
e.Graduation (if the learners have arrivedatthe targets, they will be allowed to graduate, otherwisecertainremedial measures should be added to help learners to reach the expected targetsbefore graduation.
1.3
l
1
1.3.4
a.Enrolment of new students

2第一章语言测试的性质,目的及其类别概述

3

测量这一定义包含三个要素
1) 事物及其属性。
这是测量的对象或目标。上面提到的对桌子的高度进行测量，属于对物体进行测量，其属性——高度，是可以观察到的，可以进行客观测量的。在外语教学领域，我们感兴趣的是学生的语言能力，而学生的语言能力属于人的心理特征，是无法直接测量的，但是人的心理活动会在人的具体活动和行为中体现出来，所以只能通过测量其外显行为或外在表现特征来推论一个学生语言能力的高低
语言测试及方法
李君丽
● 湖南涉外经济学院外国语学院 ● 2017.02.16
一、语言测试的性质、目的

作为老师，几乎天天和测试打交道。如：讲新课之前，要抽出几分钟的时间复习一下上一课学过的内容，或者听写单词或者听写句子等；每学完一课书，要检查学生对本课掌握的情况；学期中间，一般要进行期中考试，期末有期末考试，等等。因此，教学离不开测试。
4

3) 法则

法则是指测量所依据的规则和方法，是测量的关键。法则不好或不可靠，得到的测量结果就会出偏差，失去测量的意义。简单来说，尺子不准，测量的结果就无法使人信服。对客观世界的物体进行测量时，由于有公认的测量法则或尺度，如测量物体的高度、重量等；一般不会出现大的偏差。而对人的某些特性（心理特征）进行测量时，则往往会出现较大的偏差。举例来讲，有几个评委对某学生的英语口语进行评定。评委A认为一个人的口语要好，必须发音准确，而该学生的发音好，所以他给打了个5分。评委B认为流利性最能体现一个人的口语水平，该同学尽管发音不错，但流利性差一些，所以她给他3分。同一名学生，让不同的评委去打分，成绩出现了偏差。这也很自然，原因是他们没有按照一个评定口语成绩的统一法则（rules）去给这名学生打分，结果造成了偏差。这个例子提醒我们，在对人的某些心理特征，如口语表达能力、阅读理解能力等等进行测量时，首先要制定一个便于操作的，稳定的法则或标准。这样得到的测量结果才可靠，才具有可比性。

语言测试的基本类别

水平测验和成绩测验的区别
第三、成绩测验追求的是内容效度，水平测验追
求的则是测验的构想效果。
学能测验

学能测验也叫能力倾向测验、性向测验、潜能测验以及禀赋测验等。
学能测验的目的就是了解考生学习目的语的潜力，测验编制者希望根据测验结果来预测学习者在未来学习目的语是否成功。基本假设：人跟人在学习语言方面的天分或潜能是不同的，有些人比别人更善于或适合学习语言。因此学能测验关心的只是学习者将来在学习目的语是会怎么样。
水平测验

语言水平通常指人们对目的语运用的熟练程度或熟巧程度，所以水平测验又叫熟巧程度测验，考察的是学习者综合运用语是否听懂目的语这的讲话；是否看懂用目的语所写的文章，是否可以用目的语与别人自如地进行口头交际或者书面表达。
典型的水平测验：1、美国的“托福（TOEFL）” 2、汉语水平测试（HSK） 3、我国出国人员外语水平考试（WSK）

就目前来看，学能测验测试的内容主要集中在一下几个方面：语音解码编码能力（考生模仿语音和听辨语音的能力）；
语法解码编码能力（辨认语法类型和利用语法形式的能力）；
综合归纳能力（猜测词语或句子意义的能力）；
语言记忆能力（短时记忆有用信息的能力）；
语言表达能力（口齿是否伶俐）。
评价
学能测验完全是基于理论的测验，但是

第一、所关心的方面不同，成绩测验测试的内容以特定的教材，教程，和教学方法为依据，而水平测验关心的是考生是否能使用目的语完成特定的任务或实现特定的任务。第二、测试内容范围不同，成绩测验是学什么考什么，不会超出所学范围，但是，水平测验是设计者首先对学习者的需求进行分析，在此基础上来确定命题原则，制定命题大纲，和命题细则，然后在编制测试题目。

测试的目的和类别

2）综合性测试指将各种汉语知识和语言技能综合在一份试卷或一个试题中，以全面地考查汉语学习者的语言能力的一种测试。优点：可以全面考查汉语学习者的语言能力，尤其是综合运用汉语的能力。不足：评分标准不好掌握，实施过程费时费力。
3、判卷评分方式
（1）主观性测试指试题的答案比较灵活，可能不止一个，评分时需要评卷人对考生的做大情况做出主观性判断的测试。比如：留学生的写作测试、口语测试。优点:便于深度性的汉语考查，命题方便，题量少，耗时短;利于防止猜测得分。不足：考查范围受到限制；评阅工作量大；评分结果难以达到高度一致。（2）客观性测试指试题有固定的标准答案，评分客观可靠，不受评阅人主观因素影响的测试。比如：多项选择题、判断题。
2、测试命题方式
（1）分离性测试指将汉语分离成语音、词汇、语法、汉字等各个构成要素，把言语技能分离成听、说、读、写等分项技能，逐一进行测试。优点：考查汉语项目和分项技能多，测试成绩容易进行量化分析，测试结果能准确反映学生的具体困难，便于教师对症下药，有针对性地帮助学生。不足：孤立地考查汉语学习者的某一项汉语知识或技能，难以反映他综合运用汉语的水平，特别是汉语交际水平。
测试的目的和类别
—史聪101120212
一、测试的目的对外汉语测试的目的，概括的讲，就是为考查
汉语作为第二语言的应试者是否具备完成某项特定任务所需的汉语能力。不同类型的测试有着不同的测试目的，比如潜能测试的目的，在于预测汉语作为第二语言的学习者是否具备学习汉语的潜在素质，即看他是否具备学习汉语的潜力和天赋。成绩测试的目的，在于衡量学习者对某一汉语课程内容的掌握程度。水平测试的目的，则是考查学习者的汉语能力是否达到了规定的标准和要求。

汉语语言测试方法1

（1）语音编码解码能力。（2）语法敏感性。（3）强记能力。（4）综合归纳能力。还有人提出：语言表达能力、性格等。
已有的学能测试：
① 卡罗尔和萨彭：1959. 现代语言学能测试
② 卡罗尔和萨彭：1967. 初级现代语言学能测试 ③ 平斯勒：1966. 语言学能考试开发语言学能测试的意义（1）为语言教学解决问题；
论文写作式的短文写作，翻译统一的客观
评估标准，测试结果完全凭考官的主观判断来决定。
缺乏科学性、系统性，是语言测试发展的雏形时期。
2、心理测量—结构主义时期（科学时期）（1950s-1970s）
（1）理论体系：以结构主义语言学为理论基础；
心理学的行为主义理论以及心理测量学的原则和方法对语言测
4、语言测试的定义：
语言测试是根据一定的评估目的，以抽样方式通过有限试题来诱导出受试者的言语行为，然后借助于定量描述来推断受试者所掌握的语言知识和能力。
5、测试的任务：
设法有效地诱导出体现受试者语言知识和能力的言语行为，并对这种行为进行量化和说明解释。
6、影响测试科学性的因素：
（1）间接性。语言知识和能力无法直接测量，只能通过诱导出的言语行为来测量。测试提供一种条件或刺激，使掌握了某种语言规则或语言结构的受试者能立即使用出来，而没掌握的则使用不出来。制造这样的条件——命题，是进行测试
（4）偶然性。测试的命题、受试者的临场发挥以及评卷等过程中总有一些偶然性的因素。特别是学校的一般性考试，常出现命题不合理、受试者猜中试题，或受试者自身原因，临场未能正常发挥，使具有相同语言能力的人言语表现出了差异。
二、语言测试的环节
1、规划设计阶段 2、操作实施阶段 3、阅卷评分 4、后效研究

2第一章语言测试的性质,目的及其类别

15
诊断测试和成绩测试
诊断测试可以用来考查单个的语言项目（如语序），也可以是综合性的，其目的是为了改进教学，调整教学计划，进行个别指导。

成绩测试是回顾以前，水平测试主要是展望未来，同时也注意过去，而潜能测试只是预见未来。
16

3.按考试方式来分：
分离式测试（discrete-point test）:把知识和能力分解为若干小的单位，如集中考查语言的某一方面，或考查学生单方面的技能。综合性测试（integrative test）：听写、完形填空、写作、翻译。
在外语教学领域我们感兴趣的是学生的语言能力而学生的语言能力属于人的心理特征是无法直接测量的但是人的心理活动语言能力属于人的心理特征是无法直接测量的但是人的心理活动会在人的具体活动和行为中体现出来所以只能通过测量其外显行为会在人的具体活动和行为中体现出来所以只能通过测量其外显行为或外在表现特征来推论一个学生语言能力的高低或外在表现特征来推论一个学生语言能力的高低指派数字或符号
语言测试及方法
李君丽
● 湖南涉外经济学院外国语学院 ● 2017.02.16
一、语言测试的性质、目的

作为老师，几乎天天和测试打交道。如：讲新课之前，要抽出几分钟的时间复习一下上一课学过的内容，或者听写单词或者听写句子等；每学完一课书，要检查学生对本课掌握的情况；学期中间，一般要进行期中考试，期末有期末考试，等等。因此，教学离不开测试。
11
1.2 语言测试的目的

具体用途：
1.诊断及反馈 2 . 筛选或选拨 3 .编班 4 .科研或调查 ......
12
1.3 语言测试的类别

语言测试教案1

一语言测试的性质1 测量语言测试是一种测量1．1测量的要素：测度、数字系统、测量单位、零点、手段●测度测量的对象所具有的可测量的属性。

如，方桌可以测量其长度、宽度、高度；西瓜可以测量其大小或重量。

●数字系统测量事物所得的结果必须用某个数字来表示，可以是正数、负数、零，也可以是小数。

●测量单位测量对象的性质不同，测量所得的数字往往用不同的单位来表示。

测量长度可以用米、公分等做单位，测量重量则用千克、克等做单位，商品的价格用元、角等做单位。

●零点测量事物计算数量的起点（不等于“没有”或“无”）。

两条不知起点的道路是不能测量长短的，也是不能比较长短的。

●手段测量事物所凭借的工具、方法。

测量长度用尺子（“一箭之地”），测量重量用天平（“重如泰山”），测量语言水平用什么？以上诸要素中，测度是本质、根本，是所有的测量所必需的。

1．2四种量表（scale）：称名量表、顺序量表、等距量表、比率量表●称名量表（nominal scale）把测量对象分成不同的类别。

●顺序量表（ordinal scale）不仅把测量对象分成不同的类别，而且要将不同的对象进行排序，建立起大小、高低的顺序关系。

●等距量表（interval scale）不仅把测量对象分成不同的类别、进行排序，而且表示出不同对象之间距离的大小，距离用一定的数量单位表示，还须要规定一个相对的零点。

●比率量表（ratio scale）比率量表与其他量表的最大区别是它具有绝对的零点。

测量重量、长度、面积或体积所得到的量表就是比率量表。

四种量表性质的比较：property nominal ordinal interval ratio Distinctiveness ＋＋＋＋Ordering －＋＋＋Equal interval －－＋＋Absolute zero point －－－＋2 语言测试的对象语言测试所测的是人的语言能力，它表现为人使用（包括接受和产出）语言时的心理活动及其表现。

汉语普通话水平测试第一部分

（2）词汇语法规范程度，共10分。分三档：一档：词汇、语法很规范，不扣分。二档：偶有词汇、语法不规范情况，扣1-2分。三档：多次出现词汇、语法不规范情况，扣3-4 分。（3）自然流畅程度，共5分。分三档：一档：自然流畅，不扣分。二档：基本流畅，口语化程度较差，扣0.5-1分。略显背稿，扣分从轻；明显背稿，扣分从重。三档：语言不连贯，语调生硬，扣2-3分。说话停滞，经提示，能继续，扣分从轻；间隔时间长，扣分从重。
共同语：民族内部共同使用的语言。通常是在政治、经济、文化较发达地区方言的基础上发展起来的。现代汉民族的共同语是普通话。标准语：有一定规范的民族共同语，是全民族的交际工具，如汉语的普通话。（《现汉》2005版）
普通话不仅是汉民族共同语的标准语,也是中华民族的共同语。
（中华人民共和国政府网: ）
二、PSC的测试内容、测试范围
测试内容包括：普通话语音、词汇和语法
范围：国家测试机构编制的《PSC用普通话词语表》《 PSC用普通话与方言词语对照表》《 PSC用朗读作品》《 PSC用话题》
第三讲 PSC的试卷构成及评分试卷包括四个部分。（一）读单音节字词 100个音节，不含轻声、儿化音节；限时3.5分，共 10分。 1.目的：测查应试人声母、韵母、声调的标准程度。 2.要求：（1）字词的70%选自《 PSC 用普通话词语表》“表一”，另30%选自“表二”。
（四）命题说话，限时3分钟，共40分。 1.目的：测查应试人在无文字凭借的情况下说普通话的水平，重点测查语音标准程度，词汇、语法规范程度和自然流畅程度。 2.要求：（1）说话话题从《PSC用话题》中选取。由应试人从给定的两个话题中选定一个，连续说一段话。（2）应试人单向说话。

《语言测验基本概念》完整版资料

┃性质 ┃┃ 被试比较┃ 分布
┃ 预先┃制定的内容比较
┃┃
┠──────╂─┠────────────╂───────────╂──────────╂───────────────┨────┨
┃
┃┃检验分的布目的 ┃ 区分一切被试的才┃干
┃ 看被试掌握了多少教学 ┃ ┃
┃内容效度〔cont┃┠┃e┃n─检t ─v验常─a的l─id─内模i─ty容╂〕参──┃ ┃─照─被─试──不─知─道──或─很╂少─┃知──道标───准┃┃──参─内被─容试─照完─┨全知道
和评分程序都一样，不能随意改动； • 第三，都经过实验，在进展了大量的阅历性研讨之后
第二讲：言语检验的根本概念
❖言语检验的作用和目的 ❖言语检验的种类 ❖言语检验的质量规范
言语检验的作用和目的
• 作用：科学地丈量出学习者的言语才干 • 目的： • 选拔 • 诊断 • 评价 • 预测 • 研讨
检验的种类
• 按用途〔目的〕划分
• 才干检验〔或程度检验〕proficiency test、
言语检验的作用和目的是什么？
干作用：科学地丈量出学习者的言语才干
难易度〔facility value〕 ┣━━━━━━╋━━━━━━━━━━━━╋━━━━━━━━━━━━┫
• 按照参照系统划分想象效度(construct validity)
• 常模参照检验(norm-referenced test)：所谓常模〔norm〕是指规范化样本中检验的分数分布
东西。 • 内容效度〔content validity〕 • 效标关联效度〔criterion-related validity 〕 • 共时效度(concurrent validity) • 预测效度(predictive validity) • 想象效度(construct validity) • 外表效度(face validity)

语言教学中语言测试初探

出一些科学的结论。
１．３语言测试的类别
１．．１随堂测试３教学过程中每教完一课书之后进行的小型测验。种测试份量小，间短，可为：这时形式拼写、听写、填空、义、释翻译等。题目不宜过难，目的是为了复习课本知识。然这种测其虽试很短小，是设计题目应从长计划、课安但分排，随堂测试的连续与系统，全部一学保证将期的内容分散到几次随堂测试中进行，使教学重点得到体现。这样有助于帮助学生明确重点，高教学效果。提１．中测试．２期３期中测试要体现教学大纲，突出重点项目，随堂测试的基础上，一定的综合性和在要系统性。要做到综合性与系统性，要全部铺开，面取题，可集中于哪几课的内容，全不同时要注意有所侧重，重点、有所难点。１．．３期末测试３期末测试能帮助学生巩固一个学期所学知识，价教师一个学期的教学效果。订期评设末考试题，以教学大纲为依据，面而且突要全出重点，材料与按教科书相结合，查学变化考生的实际水平与解决问题的能力。１．水平测试．４３水平测试主要是用来测量学生的语言水平。这种测试与过去的教学内容和学习方式没有直接联系。这种测试试题规范而且敞开，主要是测试学习者的真实的运用语言的水平。１．．５综合性测试３综合性测试是指一次同时考查语言的多方面的知识和技能。常用的听写、完形填空、翻译、作文等都属于综合性测试。１．．６主观性测试３主观性测试是指对考生的作答情况作出

测试的目的和类别

一、测试的目的对外汉语测试的目的，概括的讲，就是为考查
汉语作为第二语言的应试者是否具备完成某项特定任务所需的汉语能力。不同类型的测试有着不同的测试目的，比如潜能测试的目的，在于预测汉语作为第二语言的学习者是否具备学习汉语的潜在素质，即看他是否具备学习汉语的潜力和天赋。成绩测试的目的，在于衡量学习者对某一汉语课程内容的掌握程度。水平测试的目的，则是考查学习者的汉语能力是否达到了规定的标准和要求。
二、测试的类别
不同的分类标准有: 1、测试目的 2、测试命题方式 3、判卷评分方式 4、反应成绩的方式其中最主要的划分标准是测试目的。
1、测试目的
（1）成绩测试成绩测试是考查学生学习学习某一汉语课程一段时间后，对所学课程内容掌握程度的测试。其突出特点是测试内容不超过教学大纲、教学计划及所用教材范围，教什么，考什么。（2）水平测试水平测试的内容和范围不受某一课程教学大纲、教学计划化和使用教材的限制，也不考虑不同学习者学习时间、学习地点和学习程度的不同。它关心的是学习者现有的汉语熟练程度能否保证他在未来完成特定的汉语交际任务。测试内容广泛，涉及汉语的语音、词汇。语法、汉字等各语言要素和汉语的听、说、读、写等各项技能。
2）综合性测试指将各种汉语知识和语言技能综合在一份试卷或一个试题中，以全面地考查汉语学习者的语言能力的一种测试。优点：可以全面考查汉语学习者的语言能力，尤其是综合运用汉语的能力。不足：评分标准不好掌握，实施过程费时费力。
3、判卷评分方式
（1）主观性测试指试题的答案比较灵活，可能不止一个，评分时需要评卷人对考生的做大情况做出主观性判断的测试。比如：留学生的写作测试、口语测试。优点:便于深度性的汉语考查，命题方便，题量少，耗时短;利于防止猜测得分。不足：考查范围受到限制；评阅工作量大；评分结果难以达到高度一致。（2）客观性测试指试题有固定的标准答案，评分客观可靠，不受评阅人主观因素影响的测试。比如：多项选择题、判断题。

语言测试与理论

2) A test used to determine whether a student‟s English is good enough to follow a course of study at a British university.
contrast, do not have any occupation or course of study in mind. For them the concept of proficiency is more general. e.g. Cambridge examinations (First Certification Examination and Proficiency Examination); The Oxford EFL examinations (Preliminary and Higher)
The purpose of language testing is to measure the language competence of a candidate.
3. Kinds of test and testing Kinds of test: Proficiency tests 水平测试 Achievement tests 成绩测试 Diagnostic tests 诊断测试 Placement tests 编班测试
Progress achievement tests, as their name suggests, are intended to measure the progress that students are making.
Hale Waihona Puke Since ‘progress’ is towards the achievement of course objectives, these tests too should relate to objectives.

第二讲语言测讲义验基本概念

语言测验的质量标准（二）
• 难易度（facility value） • 区分度 (discrimination index)
▪ 标准化 (standardized test)：标准化测验的特点有三个：
第一，有固定的、标准的内容，其内容不因测验有不同版本而改变；
第二，施测和评分按标准程序进行，每次测验的考务和评分程序都一样，不能随意改变；
不高低
不大小
常模参照和标准参照的区别
┏━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃
┃常模参照
┃标准参照┃Fra bibliotek┣━━━━━━╋━━━━━━━━━━━━╋━━━━━━━━━━━━┫
┃测验的性质 ┃ 一般语言能力或水平 ┃ 特定的语言点
┃
┠──────╂────────────╂────────────┨
(P&P) (CBT) ✓ 主观测验/客观测验（就评分方法而言） ✓ 分立式测验(discrete-point) / 综合式测验
(integrative) ✓ 速度测验（speed test）/难度测验（power test） ✓ 高风险测验（high-stake test ）/ 低风险测验
（low-stake test ）
┃测验的目的 ┃ 区分所有被试的能力 ┃ 看被试掌握了多少教学 ┃
┃
┃
┃ 内容
┃
┠──────╂────────────╂────────────┨
┃测验的内容 ┃ 被试不知道或很少知道 ┃ 被试完全知道
┃
┗━━━━━━┻━━━━━━━━━━━━┻━━━━━━━━━━━━┛
标准正态分布
语言测验的质量标准（一）

语言测试

潜能测试、诊断测试潜能测试、
潜能测试主要是测试受试者是否具备将来学习语潜能测试主要是测试受试者是否具备将来学习语言的天赋，设计的题目往往多一些，言的天赋，设计的题目往往多一些，目的是通过考查受试者模仿、记忆等方面的能力，考查受试者模仿、记忆等方面的能力，判断其学习语言的潜力。习语言的潜力。诊断测试的目的与成绩测试相反，诊断测试的目的与成绩测试相反，成绩测试所关的目的与成绩测试相反注的是学习成功的程度，注的是学习成功的程度，而诊断测试关注的是失败的程度，即学习者在哪些方面犯了错误，败的程度，即学习者在哪些方面犯了错误，并借此找出补救的办法。此找出补救的办法。
8
常模参照性测试
常模是指一群类型相同的人在一类考试中的成绩，常模是指一群类型相同的人在一类考试中的成绩，这个是指一群类型相同的人在一类考试中的成绩常模一般用该考试的平均分与标准差来表示。常模一般用该考试的平均分与标准差来表示。常模参照性测试是指参照某一个常模来对某考生的分数常模参照性测试是指参照某一个常模来对某考生的分数作出解释。作出解释。实际上是结合其他考生的得分情况来反映一个考生的分数，说明他在这群人当中的位置。个考生的分数，说明他在这群人当中的位置。如：某次HSK成绩的平均分是分标准差为66，某次HSK成绩的平均分是512分，标准差为66，某考生成绩的平均分是512 在这次考试中得了578，在这次考试中得了578，比平均分正好多出一个单位的即一个标准差的分数（512+66=578）。）。按照正态分值，即一个标准差的分数（512+66=578）。按照正态分布的原理， 84.13%的考生成绩低于得分的考生的考生成绩低于得578分的考生。布的原理，有84.13%的考生成绩低于得578分的考生。这种测试有利于选拔学生。这种测试有利于选拔学生。

语言测试的功能与分类

1
-3 -2 -1 标准正态分布
x 0
。
1 2 3
Z=
x 0 x 5 x 5 不同平均值的正态分布
T 10 Z 50
x - x 78 - 70 = = 1.6 s 5
0.5
Z ?
GRE = 100 Z + 500 IQ = 15Z + 100
1
x = 70
信息尺度定类定序定距定比类别 √ √ √ √
信息类型顺序间距 √ √ √
比例
√ √
√
分布的集中趋势(central tendency)

算术平均数(Mean)
1 X = å xi N i=1
N
1 x = å xi n i =1
n
X 为总体平均数， x
为样本平均数，
xi
N 为总体容量，n 为样本容量, 为第 i 次观测值
拒绝区间 α/2 p/2
两类错误
决策 H0为真 H0为假
拒绝H0
接受H0
弃真（Type I error）
决策正确
决策正确
纳伪（Type II error）
• 弃真的概率为显著性水平α，弃真也称α错误。由于α为一个很小的概率，所以犯弃真错误的可能性很小。 • 纳伪的概率用β表示，纳伪也称β错误。 • “拒绝才有说服力”：H0通常为大概率事件，对于大概率事件，通过逻辑推理即可得出结论而没有必要进行假设检验，所以假设检验中的H0通常是用来被拒绝的，并且弃真的可能性很小。 • 小概率原理：若能证实小概率事件（H1），证明一般情况下不可能发生的事情确实发生了，那就意味假设中的“小概率”事实上很可能不是小概率，H1的发生肯定是有原因的。

语言测试及它的方法复习大纲内容全面,尊重原创!!

消极词汇是指学生在阅读时应能够认知的词汇。
2. 词汇测试的效度、信度、区分度，主要依据词汇的代表性和档次的划分。
3. 词汇测试的题型：配对型、取代型、填空型。
词的使用牵涉三方面的因素：意义、搭配、语法。
4. 语法测试常见题型：多项选择、识别错误、填空、句型转换、配对。
5. 测试阅读能力的方法：正误判断、完成句子、简答题、组句成段、多项选择、完形填空。
多项选择的命题要求：语言正确、地道、得体、简洁；避免试题的偏颇性；选择项与题干的相容性问题；尽可能保持选择项的相似性；题干或者干扰项不要为答题提供线索；避免出现轨迹题。
4. 填充题：测量的是语言的运用能力，而不是辨认能力，测试效度高。综合填充题型又称完形填空。
3. 制定考试细目表：包括考试内容所占比重、题型、题量、考试时间分配。
第三代：交际语言测试，Bachmann，CLA
2． Bachman 的语言测试模式
特点：对于语言能力的认识更加全面深刻；指出了测试工具与目标语言语境的关系。
构成：语言能力；策略能力；心理生理机制
语言能力：语言组织能力（语法能力，语篇能力）；语言使用能力（语义能力，功能能力，社会语言能力）
策略能力：评估策略；确定目标策略；制定计划策略；执行计划策略
3. 口语测试的评分方法：分析法、综合法。
第十一章如何设计写作测试
1. 写作测试的最大优点是效度高，它不仅能考察考生的输出性技能，同时也能考察考生的接受性技能，同时能测试语言的各个层次和范畴，对教学有很好的反拨作用。缺点是信度低，因为它属于主观测试，评分无法客观化。
2. 写作测试的评分方法：机械法、印象法、分析法。
曲线越抖说明分数越集中，越缓说明分数越分散。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

11
1.2 语言测试的目的

具体用途：
1.诊断及反馈 2 . 筛选或选拨 3 .编班 4 .科研或调查 ......
12
1.3 语言测试的类别
பைடு நூலகம்

1. 按学习阶段来分：分班测试（placement test）随堂测试（classroom test）期中测试（mid-term test）期末测试（end-of-term test）
3

测量这一定义包含三个要素
1) 事物及其属性。
这是测量的对象或目标。上面提到的对桌子的高度进行测量，属于对物体进行测量，其属性——高度，是可以观察到的，可以进行客观测量的。在外语教学领域，我们感兴趣的是学生的语言能力，而学生的语言能力属于人的心理特征，是无法直接测量的，但是人的心理活动会在人的具体活动和行为中体现出来，所以只能通过测量其外显行为或外在表现特征来推论一个学生语言能力的高低
潜能测试、诊断测试

潜能测试主要是测试受试者是否具备将来学习语言的天赋，设计的题目往往多一些，目的是通过考查受试者模仿、记忆等方面的能力，判断其学习语言的潜力。
诊断测试的目的与成绩测试相反，成绩测试所关注的是学习成功的程度，而诊断测试关注的是失败的程度，即学习者在哪些方面犯了错误，并借此找出补救的办法。
2017/2/25 20
常模是指一群类型相同的人在一类考试中的成绩，这个常模
一般用该考试的平均分与标准差来表示。常模参照性测试是指参照某一个常模来对某考生的分数作出解释。实际上是结合其他考生的得分情况来反映一个考生的分数，说明他在这群人当中的位置。如：某次HSK成绩的平均分是512分，标准差为66，某考生在这次考试中得了578，比平均分正好多出一个单位的值，即一个标准差的分数（512+66=578）。按照正态分布的原理，有 84.13%的考生成绩低于得578分的考生。这种测试有利于选拔学生。

总而言之，并非所有的测量都是测试，并非所有的测试都属于评价，而且并非所有的评价活动都涉及到测试或测量。
10
1.2 语言测试的目的

目的：科学地测量出学习者的语言能力作用：选拔、诊断、评估、预测、研究。
测试具有信息反馈、成绩评定及人才选拔的功能。作为教师，应充分重视测试所起到的信息反馈作用，及时调节教学内容及教学手段，改进教学方法。此外，还应尽力发挥考试的后效作用，增强学生的学习动机。
4

3) 法则

法则是指测量所依据的规则和方法，是测量的关键。法则不好或不可靠，得到的测量结果就会出偏差，失去测量的意义。简单来说，尺子不准，测量的结果就无法使人信服。对客观世界的物体进行测量时，由于有公认的测量法则或尺度，如测量物体的高度、重量等；一般不会出现大的偏差。而对人的某些特性（心理特征）进行测量时，则往往会出现较大的偏差。举例来讲，有几个评委对某学生的英语口语进行评定。评委A认为一个人的口语要好，必须发音准确，而该学生的发音好，所以他给打了个5分。评委B认为流利性最能体现一个人的口语水平，该同学尽管发音不错，但流利性差一些，所以她给他3分。同一名学生，让不同的评委去打分，成绩出现了偏差。这也很自然，原因是他们没有按照一个评定口语成绩的统一法则（rules）去给这名学生打分，结果造成了偏差。这个例子提醒我们，在对人的某些心理特征，如口语表达能力、阅读理解能力等等进行测量时，首先要制定一个便于操作的，稳定的法则或标准。这样得到的测量结果才可靠，才具有可比性。

2) 指派数字或符号。
所谓指派数字或符号，就是用数字或符号来代表某一事物或事物的某一属性的量。如张三在本次阅读考试中得了87分，李四得了92分，我们说李四比张三多考了5分。数字本身没有意义，只是一种符号。我我们用它来代表考生的阅读成绩，这时它就变成了量化的数，可以对其进行解释和分析。在一定的条件下，还可以对数据进行运算从而对事物的属性进行推测。
5

2．测试测试（test）又称测验。
不同的心理学家对此下的定义不同。Anastasi（1982）认为，―测试实质上是对行为样本所做的客观的标准化的测量。”这个定义是人们公认的最权威的定义，它包含以下三个基本要素：
1) 行为样本

语言测试的目的是要测量受试者的语言能力。上面提到，语言能力是无形的，如何测量？只能测量它的有形表现，这里所说的有形表现，是指语言表现，如说出来的话，写出来的句子，对测试题目所做的各种反应等等、这些行为，都是无形的语言能力的有形表现，用心理学术语叫―表征‖（manifestation）。所谓行为样本，是指对语言能力表现行为的有效的抽样。我们知道，一个人的语言能力的表现行为会有各种各样的形式，测试时不可能也没有必要把它的全部表现行为都测到，只能选取一部分有代表性的抽样进行测量，然后据此对受试者的语言能力作出推测。

17

按对考试分数的解释来分：
常模参照性测试（norm-referenced test）

标准参照性测试(criterion-referenced test)
18
随着交际教学法在语言教学领域日渐盛行，从20世纪80年代起语言测试界也逐步受到其影响，并出现了一系列旨在测试交际能力的探索性考试，这类考试大概有以下几个特点： 1.考试内设计“信息沟”（information gap)，要求学生通过各种已馈入的信息来获取未知信息。 2.考试任务或项目之间存在关联性（task dependency), 即一个项目要基于前一个项目完成的基础上，比如学生先听一个电话交谈，然后根据交谈的内容写一封信。 3.考试强调针对性，根据学生的具体需求设计考试内容，比如在专门用途英语（English for Specific purpose)考试中，要根据学生的具体语言要求，确定测试内容、所需语言交际模式及其相关语言技能。 4.侧重更广泛地测试语言能力，包括语言知识、语言功能，语言使用的合适性等。 5.考试采用定性评估方式（qualitative modes of assessment),以取代纯粹的定量评估方式（quantitative modes of assessment)或作为其补充。前者属于标准参照性质（criterion-referenced),后者属于常模参照性质（norm-referenced).
8
测量，测试和评价的关系？
评价 1 测量
2
测试 3 4
5
9
测量，测试和评价的关系？

1.我们在对某教育目标（或学生的行为）作出评价时不一定用到测试或测量（如面积1所示），这种评价属于质量评价，或叫定性评价。 2.如指出学生在学习方面存在的问题。有时在作出评价时只需测量，而无需测试（如面积2所示），对学生的口头表达能力定出级别就属于这种性质的评价。 3.如果要检查学生学习的进步情况，通常就要对学生实施测试，这又是另一种性质的评价，即只通过测试对学生的成绩作出评价（如面积3所示）。 4.许多情况下，测试只是作为一种科研的工具或手段，而不是用来作出评价（如面积4所示）， 5.在外语教学、第二语言习得研究领域，我们经常拿水平测试作为研究的工具。不用测试便可进行测量的情况（如面积5所示）
Norm—referenced (常模参照式)vs criterion– referenced(标准参照式) testing

Example 1: student A obtained a score that placed her or him in the top ten per cent of the candidates who have taken the test, or student B in the bottom five per cent. A test, which is designed to give this kind of information, is said to be Norm—referenced test. It relates one candidate’s performance to that of other candidates’. We are not told directly what the student is capable of doing in the language.

7

3．评价
Weiss（1972）认为，―评价（evaluation）是指为作出某种决策而收集资料，并对资料进行分析，作出解释的系统过程。‖与测量、测试相比，评价的含义更广、综合性更强。Bachman（1990）指出，决策的正确与否，一方面取决与决策者本身的能力，另一方面则取决于收集到的信息的质量。在其它条件等同的情况下，如果收集到的信息越可靠，相关性越强，那么，作出正确决策的可能性就越大。所以说，评价的一个很重要的方面就是要获得可靠的、相关的信息。在谈到评价与测量及测试的关系时，Bachman 指出，在对个体（学生）作出评价时，我们可以从质量和数量两个方面进行描述，或只描述其中一个方面。所谓质量方面的描述是指对学生的行为作出定性的描述，如某某学生的口头表达能力优秀，书面表达能力优等；数量方面的描述则是指某次测验的分数等。
语言测试及方法
李君丽
● 湖南涉外经济学院外国语学院 ● 2017.02.16
一、语言测试的性质、目的

作为老师，几乎天天和测试打交道。如：讲新课之前，要抽出几分钟的时间复习一下上一课学过的内容，或者听写单词或者听写句子等；每学完一课书，要检查学生对本课掌握的情况；学期中间，一般要进行期中考试，期末有期末考试，等等。因此，教学离不开测试。
13

2第一章语言测试的性质,目的及其类别

应用语言学语言测试理论知识点整理

语言测试的基本理论

2第一章语言测试的性质,目的及其类别概述

语言测试的基本类别

测试的目的和类别

汉语语言测试方法1

2第一章语言测试的性质,目的及其类别

语言测试教案1

汉语普通话水平测试第一部分

《语言测验基本概念》完整版资料

语言教学中语言测试初探

测试的目的和类别

语言测试与理论

第二讲语言测讲义验基本概念

语言测试

语言测试的功能与分类

语言测试及它的方法 复习大纲 内容全面,尊重原创!!

语言测试及它的方法复习大纲内容全面,尊重原创!!