大学英语作文智能评估与人工评估的对比分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表 4 学生英语作文反馈途径意愿统计
书面批阅
智能批阅
同学互评
41%
14.2%
12.8%
全班集体评阅 7.8%
表 5 学生希望的作文反馈方式
指出错误
打分数
源自文库
写评语
27.2
11.2
25.1%
表扬优点 12.4
表 6 学生对待错误方式认知统计表
指出 / 改正每个错误 指出部分错误 改正部分错误
象征性地指出 / 改正错误
语法 11.5%
表 2 学生对英语写作的困难的看法统计表
词汇
写作技巧
表达方式 中英文化差异
33.7%
12.8%
27.4%
14.6%
词汇结构 34.5%
表 3 学生希望作文评阅的重点
语法
篇章结构 思想内容
连贯
24.6%
13.4%
11.6%
9.1%
标点拼写 6.8%
当面批阅 24.2%
改正错误 24.1
自动评阅大批量学生作文的服务产品。目前,很多国内高校都在使 用该系统。使用者普遍反馈,该系统能评出学生的实际写作水平。 人工评估时,我们采用的是整体评估法,要求教师对学生的作文从 语言、内容、篇章结构三个方面进行整体评分,并给出评语。
我们首先 对 教 师进 行 简单的培训,教会 教 师如 何使 用冰 果 智 能评分系统。英语教师将作文题目和写作要求输入到系统中,每隔 两周给学生布置1篇作文,作文体裁包括议论文、图表作文、书信作 文和故事叙述。
一、研究背景 要学好英语,写作起着极其重要的作用。国外的很多研究者也 都认为写作是评价学习结果最有用的工具。学生需要通过不断的修 改和练习,提高写作能力,但是作文评分与批改既费时又费力,给英 语教师增加了沉重的负担。部分教师并没有足够的时间去批阅全部 学生的作文,只能采取批阅部分学生的作文的方法,导致一些学生 对写作作业采取敷衍的态度,打消了他们认真完成作业的积极性; 还有的教师虽然能全部批阅学生作文,但是减少了学生练习写作的 作业量,使学生不能充分应用其所学的语言及语篇知识。随着计算 机多媒体技术在大学英语教学中的广泛使用,英语作文自动评分系 统已成为广大英语教师改革英语教学手段和方法的切入点。英语 作文自动评分系统在英语教学中的应用在一定程度上缓解了英语 教师人工批阅作文的工作量,因而受到很多教师的青睐。然而,智 能评估与人工评估是否具有一致性?二者是否都能满足学生的学习 需求?人工评估是否能被智能评估完全替代?针对这些问题,我们 对北京工业大学实验学院学生的英语作文进行教学实证研究。 二、研究设计 1.研究对象 北京工业大学实验学院08级355名非英语专业大学二年级本科 生和5位英语教师参与了本次实验活动。参与实验活动的学生经过 一年多的大学英语学习,掌握了基本的英语段落展开方式,系统地 学习了语篇知识和组织结构。参与实验活动的5名英语教师则一直 工作在教学一线,积累了一定的教学经验,能够正确把握作文的命 题与水平,并且公正地予以评估。 2.研究工具 我们这次实验研究的工具之一是学生调查问卷。问卷内容包括 两个方面,共八个问题。第一部分调查学生对待智能评阅的看法, 第二部分调查学生在写作评阅中的需求。调查问卷中的这八个问题 都是封闭性问题,为多项选择题形式,要求学生根据自己的意愿做 出选择。我们的另一个研究工具就是学生的作文样本。教师和自动 评分系统会对这些作文分别进行评阅。分数等级是0~15分,评阅方 式是整体评分。 3.研究方法 我们采用的作文自动评分系统是冰果英语智能评阅系统。冰果 英语智能作文评阅系统是针对高等院校英语写作教学推出的机器
关键词:英语作文自动评分系统;智能评估;人工评估
作者简介:吴丹(1979-),女,湖北鄂州人,北京工业大学实验学院,讲师;张青妹(1972-),女,黑龙江哈尔滨人,北京工业大学实验学
院,副教授。(北京 100024)
中图分类号:G642.0
文献标识码:A
文章编号:1007-0079(2011)01- 0177-02
题目 3 355 0.002 0.648 8.06 0.968 7.96 0.984 0.69
题目 4 355 0.002 0.693 8.17 0.955 8.09 1.014 0.72
题目 5 355 0.002 0.652 7.86 0.943 8.07 1.005 0.66
均值
0.002 0.672 8.03 0.953 8.02 1.005 0.68
表1中的数据都可证明人工评阅与智能评阅系统评阅具有较高 相关性。(1)平均数。统计学认为,平均数比中值更有效,因此作者
177
选择两种测评工具的平均数作为一项指标。表中的两种评估工具的 平均分差额均小于为0.2,可证明两者的相关性。(2)皮尔逊相关系 数。皮尔逊相关系数>=0.01即为具有相关性,数字越大,相关性越 强。我们从 表中看 到人 工评 估和电子 软件评 估的皮 尔逊相关 系数 均大于0.6,显然二者之间具有显著的相关性。(3)意义指数。统计 学指出,意义指数与相关性成反比,意义指数越高则相关性越低, 完全正相关意义指数为0.001。本研究的意义指数0.002趋近于完全 正相关意义指数0.001,可证明两种测评工具的相关性很高。(4)相 关系数。相关系数是以往语言写作测试研究中较多采用的数据标 准。Kroll指出相关系数0.8被普遍认定为语言写作测试中满意的标 准,因此本研究的相关系数均值0.68可证明人工测评与电子软件测 评具有较高相关性。
提高,自然语言处理等技术获得了长足的发展,国内外一批作文自动评分系统相继问世,并被应用到英语写作测评中。本研究将作文自动评分系
统给出的智能评估与人工评估进行对比分析,旨在探讨二者之间的吻合度以及二者对学生学习需求的满足程度,提出只有使电子智能有效地辅
助人工评估,才能真实地测试出学生的实际语言应用能力,并帮助学生有效提高写作能力。
学生的这些需求反映出他们对教师如何评阅作文的渴求。尽 管他们的有些观念需要转变,但这些需求间接地告诉了教师应该如 何帮助学生提高他们的写作水平。作文评阅的过程实际上是师生之 间的一 个交流的过 程。如 果 把 这种交流的 机会完 全 让 给冷冰冰的 智能评分软件,如何能达到教学相长的目的?
现以一篇作文为例就不难看出完全依赖电脑来给作文一个准 确的评判还不具备可行性。我们要求学生完成的一篇作文写作标 题为“Shopping on the Internet”,要求学生按照以下汉语提示“网 上购物逐渐兴起;阐述利弊”完成一篇120词左右的作文。某生得 分10分(15分制),附加评语: A good piece of work. Your essay has some minor problems in accuracy but it is still mostly readable. You have a wide range of sentence structure and vocabulary. It's evident that you have covered the points required in your writing and showed strong writing skill. 这些评语乍看似乎很有针对性,但是对应作文中的句 子 “shopping on the Internet is cheaper than the real-shop,that is the reason why people buy something on the Internet.” 以及 “And you can not touch the clothes or look it closely so that you might regret to buy it.” 等,系统给出的评语“对句子结构和词汇有很好的把握”是不科学 的。另外,该系统未能指出作文中的句子语法结构和单词拼写的错 误。由此看来,尽管智能评估能够进行个性化评价,但是人工评阅 更加具体,更能满足学生在写作评阅中的学习需求。
忽略
35.2%
31.5%
21.2%
13.1%
0
从以上表格中,我们不难发现学生在英语写作中的需求:学生 认为他们写作中最大的困难是词汇和表达方式,希望教师在作文反
178
2011年第1期
馈中将它们置于首位;书面批阅是大多数学生的首选,还有略多于 三分之一的学生希望能和老师直接交流;大部分学生不欣赏仅仅对 他们的作文进行表扬或批评的方式,指出错误、改正错误和写评语 是学生可以接受的评改方式。学生的学习需求差异很大,教师需要 区别对待,有的学生偏爱指出错误,有的学生偏爱改正错误;略多 于 一 半的学生在 对 待 错 误 上 达 成 共识,即没有必 要对作 文中的每 一个错误做出反馈,但希望作文评阅是能重点指出部分错误。
表 1 五个作文题目人工评阅与智能评阅的对比
题目
N=
意义指数
皮尔逊相 关系数
人工评阅
智能评阅
均值 标准偏差 均值 标准偏差 相关系数
题目 1 355 0.002 0.661 7.95 0.973 8.08 1.025 0.71
题目 2 355 0.002 0.708 8.12 0.925 7.88 1.045 0.64
英语教师将布置的作文题目和要求输入到冰果智能评分系统 后,会有一个相应的作文编号。学生可根据编号查到作文题目和要 求。按要求完成作文后,学生将文章的电子版提交到系统中。在作 文提交截止日期之后24小时内,系统会对学生的作文进行1分至15 分的整体评分。而英语教师也将对学生所提交的英语作文进行评 阅,教师只需在相应部分的分数后画勾,之后给出学生总体分数和 各部分评语。为了保证人工评阅不受到作文智能平分系统的影响, 智能评分系统的评分成绩由1名教师保管,只有在人工评阅全部完 成后,教师们才能查阅智能系统的评分成绩。我们利用SPSS软件对 这两种评估结果进行分析,探讨二者之间的相关性。对学生调查问 卷的分析将有助于推断智能评估是否能完全取代人工评估。
总第188期
外语教学与研究
DOI编码:10.3969/j.issn.1007-0079.2011.01.090
大学英语作文智能评估与人工评估的对比分析
吴 丹 张青妹
摘要:作文是大规模语言考试中的一种必考题型。通过作文可以检测应试者综合运用语言的能力。然而,由于疲劳因素、情感因素和不一致
性,人工评阅作文具有很强的主观性,人工评估成绩在信度和效度方面存在着不可避免的问题。近几十年来,随着计算机硬件和软件性能快速
三、数据收集与分析 1.智能评阅与人工评阅结果的对比分析 我们收集了北京工业大学实验学院355名学生的1775份作文的 电子文本,由智能评分系统和英语教师分别以整体评分的方式进行 评分。为得到智能评阅系统与人工评阅之间的相关系数,我们比较了 学生5篇作文的平均成绩,运用SPSS数据统计软件分析结果如表1。
2.调查问卷结果分析 我们 共发 放 学 生 问 卷 3 5 5 份,收回有 效 问 卷 3 3 2 份。调 查 结 束 后,根据每一项的次数分布和百分比,进行了简单的统计分析。 (1)智能评阅与人工评阅的受欢迎度。就这一个方面我们为学 生和教师设计了三个同样的问题:您最喜欢哪一种批阅方式?您对 智能评分系统评阅作文的看法?您对智能评分系统评改作文的作 用的看法? 学 生喜欢 的 评 阅方 式中,41. 2 %的 学 生 表 示喜欢 教 师 批阅; 55.1%的学生喜欢教师和智能评分系统分别批阅,还有3.7%的同学 喜欢智能评分系统批阅作文。学生对于智能评分系统评阅作文的作 用的看法有惊人的相似,98.6%的学生认为可以节省教师的时间,另 有1.4%的学生认为智能评分系统可以促进写作。对于智能评分系统 评阅作文的看法,有2.5%的学生认为是教师不负责任,27.2%的学 生认为无所谓,70.3%的学生希望智能评阅能够坚持数年。 由此可见,大部分学生能够接受由智能评分系统来评阅他们 的作文,也认可智能评分系统的评分结果,但是对于智能评分系统 是否真的能帮助他们提高写作能力持怀疑态度,学生仍然比较信任 他们的老师。 (2)学 生的 学习需 求。就 这一方面 我们给 学 生 设 计了五个 问 题:您在英语写作中的困难是什么?您认为教师应对作文的哪些方 面做出反馈?您希望作文的反馈途径是什么?您希望作文的反馈方 式是什么?您希望教师如何对待您作文中的错误? 具体数据以百分 比的形式,归纳在表2、表3、表4、表5、表6中。
相关文档
最新文档