高职高专英语作文自动评分指标探索

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

高职高专英语作文自动评分指标探索
李恩亮
（江苏海事职业技术学院外语系，江苏南京211170）
【摘要】高职高专英语教学突出“实用为主、够用为度”的原则，英语课程不仅应打好语言基础，更要注重培养实际使用语言的技能，特别是使用英语处理日常和涉外业务活动的能力。

然而,在高校扩招背景下,基础相对薄弱的高职高专学生在英文写作方面反映出的问题尤为突出，远达不到规定的要求。

由于高职高专学生英语基础较差和自主学习能力不够，所以老师监督和反馈就显得非常重要，但是部分高职高专院校英语教师的师生比已经达到了130:1，所以采用计算机辅助批改作文对于高职高专教师来说就变得越来越重要。

目前针对大学英语作文的自动评分方法已经有大量的研究成果，比如北京外国语大学的梁茂成教授、北京语言大学的葛诗利博士以及国外的ETS等机构，但是针对高职高专领域的专门研究还比较少，本文尝试在已有英语作文自动评分研究为基础上，通过研究教育部高职高专英语课程的写作要求，以及以2012年（第三届）全国高职高专英语写作大赛江苏省赛区参赛作文作为测试样本，探索符合高职高专特点的英语作文自动评分指标。

【关键词】高职高专；英语写作；自动作文评分；评分指标
一、引言
全国高职高专英语写作大赛已经举办过三届，前两届参赛作文均采用人工批改与评审，在这过程中发现人工批改英语作文存在一定的问题。

主要的问题包括：
第一、主观性强，不同的阅卷教师对同一篇作文可能会给出完全不一样的评价。

第二、一致性差，同一篇作文阅卷教师在不同的时候评分可能不一样，比如心情好的时候分数可能会高一些，心情不好的时候可能会差一些。

第三、工作量大，以2012年（第三届）全国高职高专英语写作大赛（江苏赛区）为例，每个评阅教师要在3个小时内看300篇作文，平均每篇
作文的批改时间不到1分钟，阅卷教师这么短的时间下很容易疲劳，
导致给出不完全客观的评价。

近年来英语作文自动评分（Automated Essay Scoring，简称为AES）已经逐渐成为语言测评中的热点方向，成熟的系统已有十余个，文章与著述也比较多，但大多数针对英语母语作文评分，涉及英语作为外语（EFL）作文评价并不多见（葛诗利，2010）。

自动作文评分就是把作文跟标准语料库进行对比后分解成一定的评价指标，将评价指标映射成相应的分数。

自动作文评分相比人工评分具有以下优点：一、客观，机器在评分的时候不会受到情绪的影响；二、一致，机器评分在任何时间的评分标准都是一样的；三、实时，机器可以在提交作文后立即给出反馈；四、不知疲倦，机器一天可以评阅几百万篇文章不会感觉到疲倦。

当前计算机自动评分也有很多缺点，比如计算机没有思想，计算机并不能像人一样评判一篇作文，这就导致在比较作文的内容创新这些方面计算机不能很好的区分；同时计算机也不了解语义，比如文章之间的结构关系，计算机识别出来也比较困难。

但这些缺点并不妨碍计算自动评分技术在外语教学中的广泛应用，因为计算机的定位是辅助教师批改而不是替代教师批改。

针对中国英语学习者的自动评分技术在国内已经有北京外国语大学的梁茂
成教授、北京语言大学的葛诗利博士在做这方面的研究，但是梁茂成教授的研究主要是指英语专业作文、葛诗利博士主要针对大学英语作文，目前专门针对高职高专英语作文评分的研究还比较少。

本文尝试在已有英语作文自动评分研究的基础上，通过分析教育部高职高专英语写作的课程要求，以及2012年（第三届）全国高职高专英语写作大赛江苏省赛区参赛作文作为测试样本，探索符合高职高专特点的英语作文自动评分指标体系。

二、英语作文自动评分指标比较
目前英语作文自动评分技术相关的研究比较多，比如北京外国语大学的梁茂成教授在《国外作文自动评分系统评述及启示》一文中介绍了PEG、IEA和E-Ra ter三个系统。

教育部的韩宁研究员在《几个英语作文自动评分系统的原理与评述》中除了这三个系统外还介绍了Criterion（基于E-Rater）、IntelliMetri c、My Access和Bayesian Essay Test Scoring System（BETSY）。

梁茂成教授和葛诗利博士分别针对英语专业和大学英语提出了各自的英语作文自动评分指标体系。

由于公开数据有限，这里仅选择了梁茂成教授、葛诗利博士和ETS的E-Rater V.2.0的评分指标，分别代表英语专业、大学英语和英语本族语作文的评价指标进行对比，供后面提出高职高专英语作文的评分指标作为参考。

从上表的指标对比可以看出，梁茂成教授比较侧重从语言的角度来划分评价指标，葛诗利博士侧重从计算机可识别的角度来划分指标，E-Rater相对来说是混合式的，既考虑了语言的角度也考虑了计算机识别的角度。

梁茂成教授根据Purves (1985)，Blok & de Glopper (1992)以及Wolfe-Qu intero etal.(1998)对于外语写作质量的研究，结合中国学生的英语学习特点，从语言（流利度、准确度、复杂度）、内容（主题相关性）和组织（全局以及局部）三方面入手，构建了中国学生英语作文自动评分模型。

梁茂成认为对于中国学生英语作文的评估，语言最重要，其次是组织，再者是内容。

因此，对于语言的评估是其评分指标的重点。

葛诗利建立的自动评分模型主要针对中国大学生英语作文的评判。

他从语言（词汇和短语）和内容（相似度）两方面设计了自动评分指标。

E-Rater是由ETS的Burstein等人在上世纪九十年代末开发的，目前正用于GMAT和托福考试作文评分，当前最新的版本是V.2.0版。

E-Rater从句法、篇章、主题三个模块设计评分指标。

表一中的E-Rater评分指标是E-Rater V.2公布的指标，但在Yigal Attali & Jill Burstein 发表的Automated Essay Scoring With E-Rater V.2一文中，并未对文章主题这一部分的评分指标做出详细介绍。

表一中列举的三种评分指标的共同点在于：
1）从语言、内容这两大分类出发。

2）语言分析指标所占比例较大。

由于计算机评阅的特殊性，对于文章内容等主观板块的评阅难度大，而对于语言的固定用法和搭配的评阅就可以充分利用计算机的高效、便捷与稳定。

3）语言部分均包含对词汇、固定用法和作文长度的考量。

不同点在于：
1）在葛诗利的指标以及他所提出的六个进一步研究课题中，均没有涉及对作文组织结构的考察。

由于他所设计的指标针对非英语专业大学生在我国人数众多、水平偏低、师资不足的状况，所以葛诗利想要设计一种通用的方法，使之适用于非特定题目的作文评阅。

因为这个原因，其指标并未将作文组织纳入考量范围，而将重点放在语言和内容上。

2）尽管梁茂成与E-Rater的指标均将组织结构纳入考量，但指标却不尽相同。

梁茂成的指标设计针对中国英语专业学生作文，涵盖范围广，所以他的指标对于组织结构的考量包括全局（段落数）和局部（代词数、连接词数）两部分，这些指标可以用于对任意一种文章组织结构的考量。

而E-Rater被用作GMAT和托福考试的作文阅卷，它默认作文要有Introductory Paragraph、至少三段正文、一个Concluding Paragraph。

而且每段正文必须要有主要观点以及论据。

所以，Missing Discourse Elements是E-Rater在考察组织结构时的一个重要指标。

三、高职高专英语课程教学要求分析
分析高职高专教育英语课程教学基本要求（教育部高教司，2006）对英语写作部分的要求以及与大学英语课程教学要求的进行对比，从中可探索出高职高专英语写作和大学英语写作评价的指标的差异。

高职高专英语写作A级的要求是：“能就一般性题材，在30分钟内写出80－100词的命题作文；能填写和模拟套写简短的英语应用文，如填写表格与单证，
套写简历、通知、信函等，词句基本正确，无重大语法错误，格式恰当，表达清楚。

”，要求中附录的语言技能表对写作技能的要求包括：
1)正确使用所学的词、词组和句型；
2)语法及标点使用正确，句子结构完整；
3)句子意思清楚，符合逻辑顺序；
4)注意连贯性，正确使用连接手段：如first、second等；
5)正确套用或使用常见的应用文格式。

同时高职高专英语A级词汇要求是：“认知3400个英语单词（包括入学时要求掌握的1600个词）以及由这些词构成的常用词组，对其中2000个左右的单词能正确拼写，英汉互译。

学生还应结合专业英语学习，认知400个专业英语词汇。

”
而大学英语课程教学要求（教育部高教司，2007）中较高要求对英语书面表达能力的要求是：“能基本上就一般性的主题表达个人观点，能写所学专业论文的英文摘要，能写所学专业的英语小论文，能描述各种图表，能在半小时内写出不少于160词的短文，内容完整，观点明确，条理清楚，语句通顺。

”
同时大学英语对词汇量的要求是：“掌握的词汇量应达到约6395个单词和1 200个词组(包括中学和一般要求应该掌握的词汇)，其中约2200个单词(包括一般要求应该掌握的积极词汇)为积极词汇。

”
对两个要求进行对比，可以总结出高职高专作文要求具有的几个特点：第一、词汇要求明显偏低；第二、词句仅要求基本正确；第三、语言表达上不出现重大语法错误；第四、强调格式，尤其是应用文的格式。

基于上述分析，可以确定高职高专英语教学遵循的是“实用为主、够用为度”原则。

根据以上分析的结果，可以提出设计高职高专英语作文自动评分指标的几个原则。

⏹原则1：语言的重要性大于结构和内容的重要性，高职高专学生一般都
是以应用文写作为主，应用文一般结构都有固定的格式，内容都需要按
照明确的要求来撰写，不会有太多的创新，所以对于高职高专学生来说
语言的重要性是要远大于结构和内容。

⏹原则2：语言准确度的重要性大于语言流利度和复杂度，这里准确度表
示“无错误的产出（error-free production）”，流利度是指“语言的
快速产出”，复杂度是指“多变而复杂的结构（秦晓晴、文秋芳，2007）”。

从课程要求可以看出对于高职高专的学生来说，语言准确度比语言流利
度和复杂度更重要。

总的原则就是要设计出简单、实用、易于计算的指标来衡量高职高专学生的写作质量。

四、高职高专英语作文自动评分指标的探索
本研究的语料来源于2012年（第三届）全国高职高专英语写作大赛江苏省赛区参赛作文公共组222篇和专业组90篇，每位参赛学生提交两篇作文分别是Part1和Part2，公共组的Part1和Part2分别是Memo和Report，专业组的Pa rt1和Part2分别是说明文和议论文。

按照最终获奖的情况，对学生进行简单的
对于自动评分指标的选择原则是与写作质量密切相关的，能够对作文评价起指导意义并且容易计算的评价维度，而后者往往决定了研究的可操作性和能否投入实际应用。

根据这个原则，我们选择了21个指标来做计算，指标的来源参考了梁茂成、葛诗利和E-Rater评分指标体系，同时也结合了高职高专英语教学中的一些经验判断。

具体的指标包括词平均难度、从句数、句子数、谓词前占比、段落数、过程性词汇、内相关性、动词短语占比、拼写正确率、正确句子比例、语法正确的比例、篇章连词数、形容词占比、动词占比、副词占比、学术词汇占比、类符形符比、简单词汇、7+词汇占比、平均句长、The占比等。

分别计算四批作文21个指标的平均值、最大值、最小值和均方差，然后分析哪些指标能够明显区分一等奖、二等奖、三等奖和优胜奖四组学生，分析的标准是指标的平均值是否跟学生分组正相关，以公共组Part1为例，得出如下数据分析结果。

最终分析四组数据后得出的自动分析评分指标组合如下表所示，因为分析过程比较长，在文中就不一一列出。

五、进一步工作
尽管本文的研究结果在小样本情况下有一定的参考价值，但由于语言本身的复杂性，本研究实际上还处于探索阶段，需要在以下几个方面提高。

第一、需要更大的样本来验证自动评分指标的有效性。

第二、内容方面是所有自动评分技术都面临的难题，还需要挖掘更好的指标来体现对内容质量的评测，比如对于跑题作文的检测。

第三、高职高专英语作文大多数都是应用文，而应用文的格式是评价应用文写作很重要的指标，未来需要加强对这方面的探索和研究。

【参考文献】
1.葛诗利.面向大学英语教学的通用计算机作文评分和反馈方法研究[D].北京
语言大学,2008.
2.梁茂成.中国学生英语作文自动评分模型的构建[D].南京大学,2005.
3.梁茂成. 国外作文自动评分系统评述及启示[J].外语电化教学.2007(5):18
-23.
4.韩宁.几个英语作文自动评分系统的原理与评述[J].中国考试.2009(3):38-
44.
5.秦晓晴、文秋芳.中国大学生英语写作能力发展规律与特点研究［M］.北京：
中国社会科学出版社,2007年4月.
6.Yigal Attali & Jill Burstein. Automated Essay Scoring with E-rate
r® V.2.0[J],Volume 4,Number3.February 2006.
7.教育部高教司. 高职高专教育英语课程教学基本要求（试行），第1版.北
京：高等教育出版社,2006年12月.
8.教育部高教司. 大学英语课程教学要求.上海：上海外语教育出版社,2007
年10月.。