大学英语作文智能评估与人工评估的对比分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表 4 学生英语作文反馈途径意愿统计
书面批阅
智能批阅
同学互评
41%
14.2%
12.8%
全班集体评阅 7.8%
表 5 学生希望的作文反馈方式
指出错误
打分数
源自文库
写评语
27.2
11.2
25.1%
表扬优点 12.4
表 6 学生对待错误方式认知统计表
指出 / 改正每个错误指出部分错误改正部分错误
象征性地指出 / 改正错误
语法 11.5%
表 2 学生对英语写作的困难的看法统计表
词汇
写作技巧
表达方式中英文化差异
33.7%
12.8%
27.4%
14.6%
词汇结构 34.5%
表 3 学生希望作文评阅的重点
语法
篇章结构思想内容
连贯
24.6%
13.4%
11.6%
9.1%
标点拼写 6.8%
当面批阅 24.2%
改正错误 24.1
自动评阅大批量学生作文的服务产品。目前，很多国内高校都在使用该系统。使用者普遍反馈，该系统能评出学生的实际写作水平。人工评估时，我们采用的是整体评估法，要求教师对学生的作文从语言、内容、篇章结构三个方面进行整体评分，并给出评语。
我们首先对教师进行简单的培训，教会教师如何使用冰果智能评分系统。英语教师将作文题目和写作要求输入到系统中，每隔两周给学生布置1篇作文，作文体裁包括议论文、图表作文、书信作文和故事叙述。
一、研究背景要学好英语，写作起着极其重要的作用。国外的很多研究者也都认为写作是评价学习结果最有用的工具。学生需要通过不断的修改和练习，提高写作能力，但是作文评分与批改既费时又费力，给英语教师增加了沉重的负担。部分教师并没有足够的时间去批阅全部学生的作文，只能采取批阅部分学生的作文的方法，导致一些学生对写作作业采取敷衍的态度，打消了他们认真完成作业的积极性；还有的教师虽然能全部批阅学生作文，但是减少了学生练习写作的作业量，使学生不能充分应用其所学的语言及语篇知识。随着计算机多媒体技术在大学英语教学中的广泛使用，英语作文自动评分系统已成为广大英语教师改革英语教学手段和方法的切入点。英语作文自动评分系统在英语教学中的应用在一定程度上缓解了英语教师人工批阅作文的工作量，因而受到很多教师的青睐。然而，智能评估与人工评估是否具有一致性？二者是否都能满足学生的学习需求？人工评估是否能被智能评估完全替代？针对这些问题，我们对北京工业大学实验学院学生的英语作文进行教学实证研究。二、研究设计 1.研究对象北京工业大学实验学院08级355名非英语专业大学二年级本科生和5位英语教师参与了本次实验活动。参与实验活动的学生经过一年多的大学英语学习，掌握了基本的英语段落展开方式，系统地学习了语篇知识和组织结构。参与实验活动的5名英语教师则一直工作在教学一线，积累了一定的教学经验，能够正确把握作文的命题与水平，并且公正地予以评估。 2.研究工具我们这次实验研究的工具之一是学生调查问卷。问卷内容包括两个方面，共八个问题。第一部分调查学生对待智能评阅的看法，第二部分调查学生在写作评阅中的需求。调查问卷中的这八个问题都是封闭性问题，为多项选择题形式，要求学生根据自己的意愿做出选择。我们的另一个研究工具就是学生的作文样本。教师和自动评分系统会对这些作文分别进行评阅。分数等级是0～15分，评阅方式是整体评分。 3.研究方法我们采用的作文自动评分系统是冰果英语智能评阅系统。冰果英语智能作文评阅系统是针对高等院校英语写作教学推出的机器
关键词：英语作文自动评分系统；智能评估；人工评估
作者简介：吴丹（1979-），女，湖北鄂州人，北京工业大学实验学院，讲师；张青妹（1972-），女，黑龙江哈尔滨人，北京工业大学实验学
院，副教授。（北京 100024）
中图分类号：G642.0
文献标识码：A
文章编号：1007-0079（2011）01- 0177-02
题目 3 355 0.002 0.648 8.06 0.968 7.96 0.984 0.69
题目 4 355 0.002 0.693 8.17 0.955 8.09 1.014 0.72
题目 5 355 0.002 0.652 7.86 0.943 8.07 1.005 0.66
均值
0.002 0.672 8.03 0.953 8.02 1.005 0.68
表1中的数据都可证明人工评阅与智能评阅系统评阅具有较高相关性。（1）平均数。统计学认为，平均数比中值更有效，因此作者
177
选择两种测评工具的平均数作为一项指标。表中的两种评估工具的平均分差额均小于为0.2，可证明两者的相关性。（2）皮尔逊相关系数。皮尔逊相关系数>=0.01即为具有相关性，数字越大，相关性越强。我们从表中看到人工评估和电子软件评估的皮尔逊相关系数均大于0.6，显然二者之间具有显著的相关性。（3）意义指数。统计学指出，意义指数与相关性成反比，意义指数越高则相关性越低，完全正相关意义指数为0.001。本研究的意义指数0.002趋近于完全正相关意义指数0.001，可证明两种测评工具的相关性很高。（4）相关系数。相关系数是以往语言写作测试研究中较多采用的数据标准。Kroll指出相关系数0.8被普遍认定为语言写作测试中满意的标准，因此本研究的相关系数均值0.68可证明人工测评与电子软件测评具有较高相关性。
提高，自然语言处理等技术获得了长足的发展，国内外一批作文自动评分系统相继问世，并被应用到英语写作测评中。本研究将作文自动评分系
统给出的智能评估与人工评估进行对比分析，旨在探讨二者之间的吻合度以及二者对学生学习需求的满足程度，提出只有使电子智能有效地辅
助人工评估，才能真实地测试出学生的实际语言应用能力，并帮助学生有效提高写作能力。
学生的这些需求反映出他们对教师如何评阅作文的渴求。尽管他们的有些观念需要转变，但这些需求间接地告诉了教师应该如何帮助学生提高他们的写作水平。作文评阅的过程实际上是师生之间的一个交流的过程。如果把这种交流的机会完全让给冷冰冰的智能评分软件，如何能达到教学相长的目的？
现以一篇作文为例就不难看出完全依赖电脑来给作文一个准确的评判还不具备可行性。我们要求学生完成的一篇作文写作标题为“Shopping on the Internet”，要求学生按照以下汉语提示“网上购物逐渐兴起；阐述利弊”完成一篇120词左右的作文。某生得分10分（15分制），附加评语： A good piece of work. Your essay has some minor problems in accuracy but it is still mostly readable. You have a wide range of sentence structure and vocabulary. It's evident that you have covered the points required in your writing and showed strong writing skill. 这些评语乍看似乎很有针对性，但是对应作文中的句子 “shopping on the Internet is cheaper than the real-shop，that is the reason why people buy something on the Internet.” 以及 “And you can not touch the clothes or look it closely so that you might regret to buy it.” 等，系统给出的评语“对句子结构和词汇有很好的把握”是不科学的。另外，该系统未能指出作文中的句子语法结构和单词拼写的错误。由此看来，尽管智能评估能够进行个性化评价，但是人工评阅更加具体，更能满足学生在写作评阅中的学习需求。
忽略
35.2%
31.5%
21.2%
13.1%
0
从以上表格中，我们不难发现学生在英语写作中的需求：学生认为他们写作中最大的困难是词汇和表达方式，希望教师在作文反
178
2011年第1期
馈中将它们置于首位；书面批阅是大多数学生的首选，还有略多于三分之一的学生希望能和老师直接交流；大部分学生不欣赏仅仅对他们的作文进行表扬或批评的方式，指出错误、改正错误和写评语是学生可以接受的评改方式。学生的学习需求差异很大，教师需要区别对待，有的学生偏爱指出错误，有的学生偏爱改正错误；略多于一半的学生在对待错误上达成共识，即没有必要对作文中的每一个错误做出反馈，但希望作文评阅是能重点指出部分错误。
表 1 五个作文题目人工评阅与智能评阅的对比
题目
N=
意义指数
皮尔逊相关系数
人工评阅
智能评阅
均值标准偏差均值标准偏差相关系数
题目 1 355 0.002 0.661 7.95 0.973 8.08 1.025 0.71
题目 2 355 0.002 0.708 8.12 0.925 7.88 1.045 0.64
英语教师将布置的作文题目和要求输入到冰果智能评分系统后，会有一个相应的作文编号。学生可根据编号查到作文题目和要求。按要求完成作文后，学生将文章的电子版提交到系统中。在作文提交截止日期之后24小时内，系统会对学生的作文进行1分至15 分的整体评分。而英语教师也将对学生所提交的英语作文进行评阅，教师只需在相应部分的分数后画勾，之后给出学生总体分数和各部分评语。为了保证人工评阅不受到作文智能平分系统的影响，智能评分系统的评分成绩由1名教师保管，只有在人工评阅全部完成后，教师们才能查阅智能系统的评分成绩。我们利用SPSS软件对这两种评估结果进行分析，探讨二者之间的相关性。对学生调查问卷的分析将有助于推断智能评估是否能完全取代人工评估。
总第188期
外语教学与研究
DOI编码：10.3969/j.issn.1007-0079.2011.01.090
大学英语作文智能评估与人工评估的对比分析
吴丹张青妹
摘要：作文是大规模语言考试中的一种必考题型。通过作文可以检测应试者综合运用语言的能力。然而，由于疲劳因素、情感因素和不一致
性，人工评阅作文具有很强的主观性，人工评估成绩在信度和效度方面存在着不可避免的问题。近几十年来，随着计算机硬件和软件性能快速
三、数据收集与分析 1.智能评阅与人工评阅结果的对比分析我们收集了北京工业大学实验学院355名学生的1775份作文的电子文本，由智能评分系统和英语教师分别以整体评分的方式进行评分。为得到智能评阅系统与人工评阅之间的相关系数，我们比较了学生5篇作文的平均成绩，运用SPSS数据统计软件分析结果如表1。
2.调查问卷结果分析我们共发放学生问卷 3 5 5 份，收回有效问卷 3 3 2 份。调查结束后，根据每一项的次数分布和百分比，进行了简单的统计分析。（1）智能评阅与人工评阅的受欢迎度。就这一个方面我们为学生和教师设计了三个同样的问题：您最喜欢哪一种批阅方式？您对智能评分系统评阅作文的看法？您对智能评分系统评改作文的作用的看法？学生喜欢的评阅方式中，41. 2 %的学生表示喜欢教师批阅； 55.1%的学生喜欢教师和智能评分系统分别批阅，还有3.7%的同学喜欢智能评分系统批阅作文。学生对于智能评分系统评阅作文的作用的看法有惊人的相似，98.6%的学生认为可以节省教师的时间，另有1.4%的学生认为智能评分系统可以促进写作。对于智能评分系统评阅作文的看法，有2.5%的学生认为是教师不负责任，27.2%的学生认为无所谓，70.3%的学生希望智能评阅能够坚持数年。由此可见，大部分学生能够接受由智能评分系统来评阅他们的作文，也认可智能评分系统的评分结果，但是对于智能评分系统是否真的能帮助他们提高写作能力持怀疑态度，学生仍然比较信任他们的老师。（2）学生的学习需求。就这一方面我们给学生设计了五个问题：您在英语写作中的困难是什么？您认为教师应对作文的哪些方面做出反馈？您希望作文的反馈途径是什么？您希望作文的反馈方式是什么？您希望教师如何对待您作文中的错误? 具体数据以百分比的形式，归纳在表2、表3、表4、表5、表6中。