作文自动评分总结
英语作文电脑智能自动评分系统的使用和启示

英语作文电脑智能自动评分系统的使用和启示作者:杨学前来源:《教育界》2012年第30期【摘要】英语作文电脑智能自动评分系统是指对已经输入电脑的英语作文进行自动评分的电脑软件,是对人工评分的有力补充,可以大大提高教师的工作效率。
本人以IntelliMetric 系统为例,介绍目前智能评分系统的原理,为探索在我国各级各类英语教学和考试中使用智能评分系统提供一些依据和参考。
【关键词】英语作文自动评分系统在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。
但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。
在大规模语言考试中,作文又是必不可少的题型,阅卷工作量和阅卷的信度等问题一直以来都不能让我们如意。
针对这一难题,电脑智能自动评分系统提供了可以信赖、值得期盼的解决方案。
在PEG、IEA、E-rater、冰果、MY Access、IntelliMetric等几种智能评分系统中,本文选取IntelliMetric系统进行研究,对其评价标准进行理论分析,对其所评分的作文进行跟踪评析,发现其通过对学生作文按照若干评分标准问题进行回应和打分的方法能够快速、有效地解决了作文评分的效率问题,可靠性和准确性不亚于人工评分的水平,完全可以作为人工评分的补充手段。
由此看来,智能评分系统的发展值得期盼。
一、IntelliMetric系统概述IntelliMetric系统发布于1998年1月,是第一个提供给教育机构的智能作文评分软件,相比传统的人工评阅具有许多优点,如:准确度大于个人评分,尤其大于单人人工评分;提供即时反馈等等。
发布以后,系统得到了广泛的应用。
IntelliMetric系统作为一个智能评分系统,充分模拟了人工评分的过程。
系统开发时经过了大量的测试培训,即不断通过人工纠正其自动认定的给分点,直至契合。
值得提出的是,系统不是将所有的给分点简单地相加,而是通过分析给分点之间的聚合关系,模拟人工从整体上看待作文并给出判断,这一点上跟人工评分的过程是一致的。
高考作文自动评分技术的研究与应用

高考作文自动评分技术的研究与应用随着科技的不断发展,在教育领域,尤其是高考领域,人工智能技术已经被广泛应用。
其中,高考作文自动评分技术的研究与应用也引起了人们的关注。
本文将从技术原理、应用现状、优缺点三个方面进行探讨。
一、技术原理高考作文自动评分技术主要基于自然语言处理和机器学习技术。
首先,通过对大量标注好的样本进行训练,让机器学习英语作文的特征与分值之间的关系。
然后,根据文字的语法、语义、词汇等各个方面对作文进行分析,提取出对应的特征,并利用已经训练好的模型,来预测作文的分数。
最终,根据多尺度分析、综合评测等方法,可以得到作文的最终得分。
二、应用现状目前,高考作文自动评分技术已经在一些省市的高考中得到了应用。
例如在江苏省2018年高考中,高考英语作文自动评卷技术已经被引入。
此外,国内的一些知名在线英语学习平台(如VIPKID)也利用该技术来进行作文的批改。
三、优缺点(一)优点1. 提高效率:传统人工批阅需要专门的批改人员投入巨大人力成本,而自动评分技术可以实现大幅度减少评分的人工成本,提高评分工作效率。
2. 避免主观性:自动评分技术可以对全部学生作品进行公平、客观评分,避免了传统的人工批改中存在的个人情感、偏见等主观影响。
(二)缺点1. 精度有限:目前实现的自动评分技术,在分析作文时无法充分理解人类的信息,如调皮幽默、语言技巧等语言细节,可能会导致评分的偏低或者偏高。
2. 无法代替阅卷人员:自动评分技术只是一个辅助工具,无法完全代替人工批改,因为一些需要人类判断和思考的问题,如对于一些特殊的作文主题或者语言背景,可能需要人工批改。
综上,高考作文自动评分技术虽然有其局限性,但是在提高评分效率和减少人工批改成本方面却具有非常积极的意义。
未来,高考作文自动评分技术的发展将需要更加深入的研究与优化,提升自动评分系统的分析能力和准确性,使其更加全面客观地评判英语作文,为高考评卷工作的科学化、规范化创造更加便捷的条件。
大学英语作文自动评分系统中文本聚类的应用

大学英语作文自动评分系统中文本聚类的应用作者:柯育强来源:《电子技术与软件工程》2017年第05期摘要自动作文评分研究在我国尚处于起步阶段。
对于大学英语作文教学来说,评分需要针对不特定题目,具有通用性。
在作文内容评价方面,可以通过文本聚类按照作文词汇等的相似度进行分类从而聚集到一起。
本文通过研究大学英语作文评分难题,结合文本聚类理论,完善其应用,将聚集不到一起差异性较大的可能跑题作文交由老师评判,可大大减少教师工作力量,提高作文评判的准确性和效率,对大学英语作文教学具有良好的促进作用。
【关键词】自动作文评分大学英语文本聚类1 引言近几十年来,作文自动评分在国外得到了长足发展,并广泛应用于实践中。
自动作文评分( Automated Essay Scoring,AES)近年来已渐成为自然语言处理研究中的热点和重点研究对象。
自动评分即非人工的,通过计算机对作文进行评分。
不同于其他客观题目,作文评分必须包含内容评价。
AES 系统当然也包含这方面的评价,只是在针对不同人群、不同种类作文其内容评价侧重点不同,有的甚至只依靠内容评价。
为了更好地对大学英语作文评价,一般来说通过内容和语言来进行分贝评判。
而其中评判内容则可以采取聚类的数据分析(exploratory data analy-sis),用此系统进行相似度聚类评价,可对跑题作文鉴别很有帮助。
2 自动评分系统的意义在我国大学英语写作训练中,由于一个老师带的学生数量多,批改作文负担重,导致学生训练不足,作文水平得不到提升。
这时,运用自动作文评分修改作文不失为一个好方法。
与人工修改相比,自动作文评分系统修改作文具有以下优点:(1)电脑不会疲倦,更加持续高效。
会比人工更仔细、客观地评好每一篇作文,且不带思想感情,更公正客观,有利于学生进步。
(2)可大大降低老师的批改工作量,使老师能有更多时间进行备课,讲解。
且自动评分系统在评分时能方便统计出学生的薄弱地点,让老师可更有针对性地教学。
英语作文电脑智能自动评分系统的使用和启示

英语作文电脑智能自动评分系统的使用和启示英语作文电脑智能自动评分系统的使用和启示内容简介:英语作文电脑智能自动评分系统的使用和启示在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。
但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。
在大规模语言考试中,作文又是必不可少的题论文格式论文范文毕业论文英语作文电脑智能自动评分系统的使用和启示在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。
但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。
在大规模语言考试中,作文又是必不可少的题型,阅卷工作量和阅卷的信度等问题一直以来都不能让我们如意。
针对这一难题,电脑智能自动评分系统提供了可以信赖、值得期盼的解决方案。
在PEG、IEA、E-rater、冰果、MY Aess、IntelliMetri等几种智能评分系统中,选取IntelliMetri系统进行研究,对其评价标准进行理论分析,对其所评分的作文进行跟踪评析,发现其通过对学生作文按照若干评分标准问题进行回应和打分的方法能够快速、有效地解决了作文评分的效率问题,可靠性和准确性不亚于人工评分的水平,完全可以作为人工评分的补充手段。
由此看来,智能评分系统的发展值得期盼。
一、IntelliMetri系统概述IntelliMetri系统发布于1998年1月,是第一个提供给教育机构的智能作文评分软件,相比传统的人工评阅具有许多优点,如:准确度大于个人评分,尤其大于单人人工评分;提供即时反馈等等。
发布以后,系统得到了广泛的应用。
IntelliMetri系统作为一个智能评分系统,充分模拟了人工评分的过程。
系统开发时经过了大量的测试培训,即不断通过人工纠正其自动认定的给分点,直至契合。
值得提出的是,系统不是将所有的给分点简单地相加,而是通过分析给分点之间的聚合关系,模拟人工从整体上看待作文并给出判断,这一点上跟人工评分的过程是一致的。
写作自动评价系统在大学英语教学中的应用研究

1、实时反馈:写作自动评价系统能够实时对学生的英语作文进行评估,并 提供即时的反馈。这种实时的反馈模式有助于学生及时纠正写作中的错误,提高 语言运用的准确性。
2、个性化教学:系统通过对每位学生的学习数据进行分析,能够为不同的 学生提供个性化的学习建议。教师可根据这些数据调整教学策略,实现个性化教 学。
3、促进学习:写作自动评价系统不仅可以帮助学生提高英语写作能力,还 可以通过及时的反馈和建议,激发学生的学习兴趣和动力,促进他们的自主学习。
四、优势与挑战
写作自动评价系统在大学英语教学中的应用具有以下优势:
1、提高工作效率:写作自动评价系统可以快速准确地对学生的英语作文进 行评分和反馈,减轻了教师的工作负担,提高了工作效率。
1、技术局限性:目前的写作自动评价系统在技术上还存在一定的局限性, 例如无法完全准确地识别学生的语法错误和拼写错误等。
2、成本效益:写作自动评价系统的应用需要一定的资金投入,包括设备购 置、技术维护、数据资源等,这可能会给一些高校带来经济压力。
3、教师接受度:一些教师可能对写作自动评价系统的应用持怀疑态度,认 为它无法完全替代人工评价,也可能对学生的学习产生负面影响。
参考内容
随着科技的飞速发展,教育领域也在经历着一场深远的变革。作为这场变革 的重要一环,写作自动评价系统(Automatic Writing Evaluation,简称 AWE) 在英语教学中的应用日益广泛。该系统利用先进的自然语言处理(NLP)和机器 学习(ML)技术,对学生的英语写作进行自动评估和反馈,极大地提升了教学效 率,同时也为个性化教学提供了可能。
在数据收集和分析方法方面,研究者们运用统计分析、文本分析、深度学习 等方法对系统生成的反馈、评价和学生作文进行了细致的分析。
作文自动评分 综述

作文自动评分综述
作文自动评分,这玩意儿听起来挺酷的,对吧?不过,它真的
能替代老师给我们的手写评语吗?说实话,自动评分系统确实快,
写完作文立马就能知道分数,不用等老师改完。
但总觉得少了点什么,可能是那种温暖的感觉吧。
话说回来,这自动评分系统到底是个啥玩意儿?简单来说,就
是通过电脑程序来评判我们的作文。
听说它用了什么自然语言处理、机器学习之类的高科技。
听起来很高大上,但真的靠谱吗?有时候,它会误判一些词语或句子,给出不太准确的分数。
别看自动评分系统这么高科技,它也有短板。
比如,它可能不
太擅长评估我们的创意和深度思考。
毕竟,电脑可不像老师那样了
解我们,知道我们的想法和感受。
所以,有时候,它的评分可能跟
我们的预期不太一样。
总的来说,作文自动评分系统是个好东西,但也有它的局限性。
我们不能完全依赖它,还得靠自己的努力和老师的指导来提高写作
水平。
当然,如果能结合人工和自动评分,那就更完美了!。
作文互评自评模板

作文互评自评模板作文互评自评是学习和提高写作能力的重要方法,通过互相评价和自我评价,可以发现自己的不足之处,找到提高的方向。
下面是一个作文互评自评的模板,希望能够对大家有所帮助。
一、作文互评模板。
1. 作文标题,____________________。
2. 作者姓名,____________________。
3. 评价人姓名,__________________。
4. 评价时间,____________________。
5. 评价内容:(1)结构是否合理,是/否。
(2)内容是否充实,是/否。
(3)语言是否地道,是/否。
(4)逻辑是否清晰,是/否。
(5)表达是否流畅,是/否。
(6)总体评价,__________________。
二、自评模板。
1. 作文标题,____________________。
2. 作者姓名,____________________。
3. 自评时间,____________________。
4. 自评内容:(1)结构是否合理,是/否。
(2)内容是否充实,是/否。
(3)语言是否地道,是/否。
(4)逻辑是否清晰,是/否。
(5)表达是否流畅,是/否。
(6)总体评价,__________________。
三、作文互评自评要点。
1. 结构是否合理,作文是否有清晰的开头、中间和结尾,是否有适当的过渡句和连接词。
2. 内容是否充实,作文是否围绕主题展开,是否有具体的论据和例子支撑。
3. 语言是否地道,作文中是否有错误的用词、语法错误或者不通顺的句子。
4. 逻辑是否清晰,作文中的论点是否有条理,是否有逻辑关系,是否能够说服读者。
5. 表达是否流畅,作文中的表达是否生动、形象,是否能够吸引读者。
四、作文互评自评方法。
1. 互评方法,可以找一个同学或者老师互相交换作文,进行评价。
2. 自评方法,可以在完成作文后,先放一段时间,然后再回头看,进行自我评价。
3. 修改方法,根据互评和自评的结果,对作文进行修改,不断提高自己的写作水平。
国外作文自动评分系统评述及启示

第 117期 2007年 10月
语言技术与外语教学研究
外语电化教学 CA FL E
No. 117 Oct. 2007
3 版权所有 文责自负 3
国外作文自动评分系统评述及启示
梁茂成 ,文秋芳
(北京外国语大学 中国外语教育研究中心 ,北京 100089)
摘 要 : 本文依据语言测试领域的作文评分要素 ,对国外具有代表性的三种作文自动评分系统进
将潜伏语义分析用于学生作文自动评分时 ,待评 分的作文与预先选定的范文 (训练集 )被视作为矢量 , 对矢量进行比较之后 ,可以得到每一篇待评分作文与 范文在内容上的相似度得分 ( sim ilarity score) 。该得 分被直接视为机器评分或经过转换后得到机器评分 ( Foltz et al. , 1999) 。根据 Landauer et al. ( 2000)的 报告 ,该系统所评出的作文得分与人工评分之间的相 关性达到 r = 0. 85。 1. 3 E2ra ter,一个模块结构的混合评分系统
本文对国外最具代表性的三种作文自动评分系统 进行述评 。这三种系统是 : PEG ( Project Essay Grade) 、 IEA ( Intelligent Essay A ssessor)和 E2rater。 PEG重语言 形式 , IEA 重作文内容 , E2rater则既重形式又重内容 。 一般说来 ,作文评分应形式和内容并重 ,围绕作文的语 言质量 、内容质量和篇章结构质量三个主要方面进行
英语作文自动评分

英语作文自动评分English:Automated essay scoring (AES) is a technology that evaluates and scores essays written by students using artificial intelligence algorithms. These algorithms analyze various linguistic features of the text, such as vocabulary usage, sentence structure, coherence, and argumentation. AES has gained popularity in educational settings due to its efficiency in providing quick and consistent feedback to students. By eliminating the need for manual grading, AES saves time for educators and allows them to focus more on teaching. However, there are debates surrounding the effectiveness and fairness of AES, as it may not fully capture the complexity and creativity of human writing. Critics argue that AES may favor formulaic or superficially structured essays over those with originality and depth of thought. Additionally, there are concerns about the potential biases embedded in the algorithms, particularly regarding language proficiency, cultural background, and writing style. Despite these challenges, AES continues to evolve with advancements in natural language processing and machine learning, aiming toaddress its limitations and enhance its accuracy and fairness in evaluating student writing.中文翻译:自动作文评分(AES)是一种利用人工智能算法评估和打分学生写作的技术。
作文自动评分 综述

作文自动评分综述
作文自动评分技术,真是个教育界的神奇助手!有了它,老师
们再也不用为批改海量作文而头疼了。
这技术啊,用计算机算法给
作文打分,快得让人咋舌,而且公平得很,再也不怕“人情分”了。
说到这技术,自然语言处理(NLP)可是个大佬。
它让电脑能读
懂我们的文字,跟人类交流似的。
通过分词、句法分析、语义理解
这些高级操作,NLP技术能精准地抓住作文里的语言亮点,给出一
个靠谱的分数。
作文自动评分系统,用处大着呢!在学校里,老师们可以轻松
搞定一堆作文,再也不用熬夜批改啦。
而且,评分公正,大家都心
服口服。
在作文竞赛和考试中,组织者也能用这系统快速给出成绩,省时又省力。
不过啊,这技术也不是万能的。
语言这东西,复杂得很,多样
性也强,想让电脑完全理解并准确评价一篇作文,那可不容易。
更
何况,作文评价不只是看语言,内容、结构、逻辑都得考虑,这些
可不好量化。
再加上电脑评分总是缺少那么点人情味和创造力,有
时候给出的分数就让人有点儿摸不着头脑了。
好在啊,研究者们没闲着。
他们搞出了深度学习技术,让电脑
更能理解文本,评分也更准确了。
还有啊,他们还把NLP和人工智
能结合起来,通过机器学习不断优化评分模型,让系统越来越聪明,越来越靠谱。
作文自评评语大全

一、自我认知
我在写作过程中深感自己的认知水平不够深入,缺乏对所ቤተ መጻሕፍቲ ባይዱ题材的深入了解和思考。在今后的写作中,我会更加注重对题材的研究,增加自己的知识储备,提升认知水平。
二、逻辑结构
在这篇作文中,我意识到自己在逻辑结构上还有提升空间。在展开论述时,我常常存在前后矛盾或逻辑跳跃的问题。下次写作时,我会更加注意段落之间的过渡,保持思路清晰,逻辑完整。
五、细节描写
细节描写是我写作中的薄弱环节。在这篇作文中,我发现自己缺乏对细节的把握和运用,导致文章平淡无味。下次写作时,我会更加注重细节描写,运用生动具体的描写手法,使文章更加生动有趣。
六、修辞手法
修辞手法是我需要加强的方面之一。在这篇作文中,我发现自己在修辞手法的运用上较为单薄,缺乏多样性和灵活性。为了提升修辞手法,我会多加练习,积累更多的修辞技巧,使文章更具文采和情趣。
三、观点立论
我的观点立论能力还有待加强。在写作中,我常常表达不够明确,观点不够鲜明。下一次写作时,我会更加明确自己的观点,并给出充分的论据加以支撑,使文章更具说服力。
四、语言表达
语言表达是我需要重点提高的方面。在这篇作文中,我发现自己的表达方式较为单一,词汇量有限,句式结构较为呆板。为了提升语言表达能力,我会多读优秀作品,模仿优秀的语言风格,提升自身写作技巧。
七、总结反思
通过这篇作文的自评,我发现自己在写作中存在着诸多不足之处,但也看到了自己的提升空间。在未来的写作中,我将更加努力,改正不足,提升自身写作能力,争取写出更加优秀的作品。
作文自动评分系统在大学英语写作教学中的应用——以句酷批改网为例

作文自动评分系统在大学英语写作教学中的应用——以句酷
批改网为例
唐芳;庄翠娟;巩艺超
【期刊名称】《海外英语(上)》
【年(卷),期】2017(000)010
【摘要】写作是语言学习者的一项重要的综合技能.传统的写作反馈不及时容易造成学生写作动机缺失.该文探讨应用作文自动评分系统进行大学英语写作教学的方法.首先以应用中的实际例子说明该自动评分系统的一些优缺点,然后提出如何有效利用自动评分系统进行大学英语写作教学.
【总页数】3页(P48-49,51)
【作者】唐芳;庄翠娟;巩艺超
【作者单位】海口经济学院外国语学院,海南海口571127;海南师范大学外国语学院,海南海口571158;海南师范大学外国语学院,海南海口571158
【正文语种】中文
【中图分类】G642
【相关文献】
1.在线写作自动评改系统在大学英语写作教学中的应用研究——以句酷批改网为例[J], 石晓玲
2.作文自动评价系统在大学英语写作教学中的实证研究——以句酷批改网为例 [J], 李霞;钟兰凤
3.基于语料库的机改作文系统在大学英语写作教学中的应用--以批改网为例 [J], 麻建学
4.作文自动评分系统在大学英语写作教学中的应用——以句酷批改网为例 [J], 唐芳;庄翠娟;巩艺超
5.作文自动评分系统在大学英语写作教学中的应用——以句酷批改网为例 [J], 唐芳;庄翠娟;巩艺超
因版权原因,仅展示原文概要,查看原文内容请购买。
作文自动评分综述

作文自动评分综述摘要:自动作文评分( AES )是利用计算机技术对中文或者英文作文进行评分的任务。
近年来随着人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)与深度学习(Deep Learning,DL)的迅速发展,自然语言处理(Natural Language Processing,NLP)作为人工智能领域重要分支也得到了学术界和产业界的充分重视,越来越多的基于NLP技术的应用出现在人们的视野当中。
随着全世界大部分国家对教育的重视程度越来越高,教育领域内的NLP应用得到了国内外研究机构与产业界的重点关注。
关键字:作文自动评分,自然语言处理,机器学习PEG(Project Essay Grader,PEG)[1]作文自动评分系统最早由Ellis Batten Page与他的同事于1960年代引入。
该系统是收集了两批作文样本中的其中一批用于作文评分模型的构建,另一批用于模型评估,每个样本都经过了多个评分者的评价。
在构建该模型时,利用评分的字段分布或者字数等浅层特征,通过人工评分员提取作文的外部浅层特征,使用模型对作文进行打分。
IEA(Intelligent Essay Assessor,IEA)[2]作文自动评分系统是皮尔逊公司在1989年成功研发。
智能作文评阅器(IEA)对作文内容质量进行评价,IEA利用潜在语义分析( Latent Semantic Analysis,LSA )[3]对文章进行评分。
IEA与其他自动打分模型的有所不同,其他打分模型都是基于作文外部非内容性特征得到分数,而基于LSA得到的分数与人类评分者更接近。
E-rater[4]由美国教育考试服务中心(Educational Test Service, ETS )的Burstein等人自1999年开发并开始投入使用。
此系统主要是专门为分析学生作文量身定做的基于统计人工智能和NLP相结合的打分系统,结合了PEG和IEA的优点,并为研究生管理招生考试写作部分进行打分。
英文作文自动评分系统的研究

英文作文自动评分系统的研究英语写作是学习英语时必须具备的能力之一.更是大规模语言考试中的一种必备题型.随着科学技术的发展,英文作文自动处理系统的建立也逐渐成为现实。
对于英文自动评分系统的建立,首先我们考察的作文评判因素,主要包括词汇句子、错误、发展、词频、例子方面。
其次是对因素的分类与量化,主要运用到了正态标准化、聚类分析、TF词频等方法,得到每项特征因子对应的分数。
并列表展示了出来。
最后就是对每项特征因子权重的赋值,我们主要基于模糊聚类分析技术和粗糙集理论的信息熵原理,对多因素权重分配进行了研究。
标签:自动作文评分正态标准化特征提取TF词频模糊聚类分析信息熵原理一、国内外研究现状.Page是最初几个在自动作文评分领域进行研究的人,他在1966年开发了Project Essay Grader(PEG)系统。
1990年,自然语言处理与信息提取技术取得了很大的进展。
到90年代末,三个新的自动评分系统面世:其一是Intelligent Essay Assessor(IEA ),是在潜在语义分析的基础上开发的一款主要面向文章内容的自动评分系统;另一个是Electronic Essay Rater(E-rater),它结合了自然语言处理和统计技术,能够综合衡量篇章组织、句子结构和内容;还有一个是IntellMetric,是第一套基于人工智能的能够对文章形式与内容进行评分的自动作文评分系统。
另一条研究路线是基于文本分类技术、文本复杂性特征、以及线性回归方法。
类似的还有Rudner and Liang (2002:3-21 )建立的基于统计分析的Bayesian Essay Test Scoring sY stem(BETSY )系统。
与此同时,PEG 在很多方面也得到改进,整合了很多分析器、词典与各种资源,评分效果也得到很大改善。
国内自动作文评分研究仍然不够完善。
其中梁茂成在05年进行了初步的研究。
他以提取浅层文本特征为主,结合针对内容的潜在语义分析,进行线性回归,得到了与人工评分较高的相关度。
作文自动评分总结

李艳老师和葛诗利老师《大学英语作文自动评分中分级词表的效度研究》中提出了作文分级词表的思想,而这可以通过改进或者调整已有的词表来获得。
目前自然语言处理中准确率最高的、也是最基本的研究就是词汇分析,词汇分析一般包括词长分布、词汇分布和词汇丰富性等。
词汇分布:一篇作文中的词汇占某一分级词表每个级别词汇的比例。
Laufer&Nation的3个级别的词表。
CLEC中国学习者英语语料库SPSS软件包的单因素方差分析(ANOV A)SPSS多元线性回归分数档的精确率和召回率,总体准确率和误判率个分数精确率=本为X档作文并且被评为X档作文的数量/所有被评为X档作文的总数*100 精确率越高,说明作文被评为该分数档的可信度越高Laufer&Nation 以词族为计算单位,词频概貌文秋芳以类符为计算单词,称为词频广度倪岚以形符为计算单位词频分布准确率都是30%左右徐剑和梁茂成《对集中英汉机器翻译系统的测评》翻译系统在译文输出方面已经比较成熟,源语言的语义识别方面还不如人意。
80年代,机器翻译研究863智能型英汉翻译系统—“译星一号”评估标准:系统功能,操作的难易度及译文质量(包括译文的忠实度、译语的可懂度和译文的可接受性)欧共体评估:识别(译文的得懂度、忠实度、连贯度、有用性、读取速度和译文的可接受性)和语言方面(句子结构和语义的连贯性、词汇评价、翻译错误)可懂度、忠实度和译文的可接受性梁茂成和李刚《英汉机器翻译中人称代词的处理》徐州师范大学外语系汉语术语分析语,词序、虚词等来表达各种语法关系;英语属于综合语,通过词本身的形态变化来表示英语中人称代词的使用频率要远远高于汉语汉语属于孤立性语言,英语为粘着性语言原因:1.汉语表示所属关系的物主代词往往可以省略2.英语中大量使用反身代词反身代词:(译星对反身代词处理较为得当)1.英语较汉语大量使用反身代词2.汉语反身代词具有独立的指称功能,英语则依附于其他代词或名次,无独立的指称功能。
自动作文评阅系统评分效度验证及教学启示

究(MBXH19YB016)”及全国高校外语教学科研项目“教育信息化背景下大学英语写作教学模式的 构建及其有效性研究(2019JX0014B)”的阶段性研究成果。
- 67 -
语 言 与 文 化 论 坛 2020 年( 第一辑)
效度论证纬度
表 1 AWE 系统效度论证框架 主要研究问题
评分 泛化 外推
影响
1. AWE 系统与人工评阅者所衡量的文章特征是否相同? 2. 作文的系统分数与人工分数是否一致?
1. 系统提供的写作任务是否充分表征写作构念? 2. 学生在完成类似的写作任务时,系统给出的分数是否相似?
作文的系统分数与其他写作任务(如多项选择题等)的分数之间存在何种关系?
- 69 -
语 言 与 文 化 论 坛 2020 年( 第一辑)
工、机器分数建立回归模型,结果表明系统评分效度低可能是因其内部缺陷所致,机器 评分主要依据浅层文本特征,不能像人工评阅那样分析深层文本特征,机器无法真正阅 读、欣赏和判断文章,并且在分析深层句型结构或词汇搭配方面的能力不足。
国内 AWE 系统开发者在不同场合多次提到系统在英语作文评阅方面十分可靠,因 此大部分高校都将此类系统融入写作教学中。但是,一个不容忽视的问题是:这些自 动系统打出的分数与人工评阅者给出的分数是否真的高度一致?现有的研究结果并不一 致。因此本研究将对国内某 AWE 系统的评分效度进行验证,以丰富该领域的研究,并 探讨研究结果对大学英语写作教学的启示。
尽管国外研究大多报道 AWE 系统效度、信度均较高,但由于多数结果由开发者提 供,鲜有独立的学者给出,因此结果的真实性不得而知。国内某系统开发者也验证了其 开发的 AWE 系统的评分效度,比较了 1456 篇 15 分制作文的机器分和人工分的结果, 发现 92.03% 的作文的分数差在 3 分以内,换言之,其相邻吻合一致性在 90% 以上。但 这一结果亦是由开发者提供,真实情况如何,有待独立研究的进一步证实。
英语作文自动评分

英语作文自动评分Automatic grading of English essays has become increasingly prevalent in educational settings due to the advancements in natural language processing technology.This automated process offers several benefits, including efficiency, consistency, and objectivity.One advantage of using automatic grading systems istheir efficiency. Traditional manual grading requires a considerable amount of time and effort from educators. However, with automatic grading, essays can be evaluated rapidly, allowing teachers to focus their attention on providing personalized feedback and instruction to students.Moreover, automatic grading systems ensure consistencyin the evaluation process. Human graders may vary in their interpretation of grading criteria, leading to inconsistencies in scoring. In contrast, automated systems apply predefined algorithms consistently, resulting infairer and more reliable assessments.Additionally, automatic grading promotes objectivity in evaluating essays. Human graders may be influenced by subjective factors such as mood, bias, or personal preferences. In contrast, automated systems assess essays based on predetermined criteria, eliminating the potential for bias and providing impartial evaluations.However, it is essential to acknowledge the limitations of automatic grading systems. While they excel in evaluating certain aspects of writing, such as grammar, spelling, and syntax, they may struggle with more nuanced elements like creativity, critical thinking, and depth of analysis. Therefore, automated grading should be complemented with human oversight to ensure a comprehensive evaluation of student writing.Furthermore, automatic grading systems may face challenges in accurately assessing essays that deviate significantly from standard conventions or contain unconventional language structures. In such cases, human intervention may be necessary to provide a nuancedevaluation that considers the context and intent of the writing.In conclusion, automatic grading of English essays offers significant advantages in terms of efficiency, consistency, and objectivity. However, it is essential to recognize its limitations and supplement it with human oversight to ensure a comprehensive evaluation of student writing. As technology continues to advance, automated grading systems may further improve, providing valuable support to educators in assessing and providing feedback on student writing.。
自动作文评分研究综述

参考内容
基本内容
基本内容
随着计算机技术的不断发展,在许多领域得到了广泛应用。其中,中文作文 自动评分技术的研究与应用也越来越受到。本次演示将介绍中文作文自动评分技 术的研究现状、技术手段和发展趋势。
一、研究现状
一、研究现状
中文作文自动评分技术的研究起步较晚,但近年来发展迅速。国内外的学者 针对该技术进行了大量的研究,提出了许多评分方法和模型。其中,基于机器学 习的评分方法和基于深度学习的评分模型是研究的热点。
三、发展趋势
1、跨领域应用
1、跨领域应用
随着中文作文自动评分技术的不断发展,其应用领域也将越来越广泛。除了 教育领域外,该技术还可以应用于文学创作、新闻写作等领域。跨领域应用将有 助于技术的普及和应用范围的扩大。
2、结合情感分析
2、结合情感分析
情感分析是自然语言处理中的一个重要研究方向。结合情感分析的中文作文 自动评分技术将能够更好地评估作文的情感色彩和表达效果,从而更准确地反映 作者的意图和水平。
3、自动作文评分技术的优缺点及争议点
自动作文评分技术的应用场景非常广泛,不仅限于教育领域,还可以应用于 文学评论、情感分析、智能写作等领域。在教育领域,自动作文评分技术可以用 于学生的平时练习、考试、竞赛等场景中,帮助学生快速了解自己的作文水平和 需要改进的地方。在文学评论领域,该技术可以对作家的作品进行自动分析和评 价,为文学研究和评论提供新的方法和工具。
3、个性化评分
3、个性化评分
每个人的语言风格和写作特点都不同,因此中文作文自动评分技术的未来发 展将更加注重个性化评分。通过学习每个学生的写作特点和习惯,可以为每个学 生量身定制评分模型,从而更好地反映其真实水平和进步情况。
4、智能化辅助教学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
李艳老师和葛诗利老师《大学英语作文自动评分中分级词表的效度研究》中提出了作文分级词表的思想,而这可以通过改进或者调整已有的词表来获得。
目前自然语言处理中准确率最高的、也是最基本的研究就是词汇分析,词汇分析一般包括词长分布、词汇分布和词汇丰富性等。
词汇分布:一篇作文中的词汇占某一分级词表每个级别词汇的比例。
Laufer&Nation的3个级别的词表。
CLEC中国学习者英语语料库SPSS软件包的单因素方差分析(ANOV A)SPSS多元线性回归分数档的精确率和召回率,总体准确率和误判率个分数精确率=本为X档作文并且被评为X档作文的数量/所有被评为X档作文的总数*100 精确率越高,说明作文被评为该分数档的可信度越高Laufer&Nation 以词族为计算单位,词频概貌文秋芳以类符为计算单词,称为词频广度倪岚以形符为计算单位词频分布准确率都是30%左右徐剑和梁茂成《对集中英汉机器翻译系统的测评》翻译系统在译文输出方面已经比较成熟,源语言的语义识别方面还不如人意。
80年代,机器翻译研究863智能型英汉翻译系统—“译星一号”评估标准:系统功能,操作的难易度及译文质量(包括译文的忠实度、译语的可懂度和译文的可接受性)欧共体评估:识别(译文的得懂度、忠实度、连贯度、有用性、读取速度和译文的可接受性)和语言方面(句子结构和语义的连贯性、词汇评价、翻译错误)可懂度、忠实度和译文的可接受性梁茂成和李刚《英汉机器翻译中人称代词的处理》徐州师范大学外语系汉语术语分析语,词序、虚词等来表达各种语法关系;英语属于综合语,通过词本身的形态变化来表示英语中人称代词的使用频率要远远高于汉语汉语属于孤立性语言,英语为粘着性语言原因:1.汉语表示所属关系的物主代词往往可以省略2.英语中大量使用反身代词反身代词:(译星对反身代词处理较为得当)1.英语较汉语大量使用反身代词2.汉语反身代词具有独立的指称功能,英语则依附于其他代词或名次,无独立的指称功能。
英汉第二人称代词的差异You是你还是你们?英语代词的预指功能人称代词在机器翻译中的处理1.调整语法信息库(代词的主要作用是代替名词)2.条件句自动评分技术陆军,梁颖红,陆玉清,李斌,姚建民《多分类器融合技术在自动作文评分中的应用》 分类器:贝叶斯、K 近邻和支持向量机自动作文评分(Automated Essay Scoring ,AES )国外主观题自动评分系统:E-rater 、IEA(Intelligent Essay Assessor)、PEG(Project Essay Grade) 国内最早涉足作文评分领域:梁茂成教授中国学习者英语语料库(Chinese Learner English Corpus )对作文中的错误进行了详细标注、分类和统计作文内容的特征(作文中的单词和短语,即通常的Uni-Gram 、Bi-Gram 和Tri-Gram 模型)考察作文的主题和内容语言学特征:浅层的语言学特征(句子个数、句子平均长度、单词平均长度、单词个数)考察作文的形式 复杂的语言学特征(作文中的语法、单词的词性、连接词、各种类型错误个数)考察作文的语法、连贯性和错误特征筛选:文档频率(Document Frequency ,DF )、信息增益(Information Gain ,IG )、统计量(Chi-square Statistic, CHI )文本分类算法朴素贝叶斯(Naïve Bayes )假定各种特征之间相互独立。
性能不稳定,易受分类任务的影响。
K 近邻(K-Nearest Neighbor )要求有较高质量的训练集,K 值确定比较难支持向量机(Support Vector Machine ,SVM )基于结构风险最小化理论评价分类结果的好坏:准确率p 、召回率r 和F1测度)/(21r p r p F +⨯⨯=E-rater 商用机器评分系统,准确率计入相邻分数所有分类方法的效果都要低于它们在其他方面的分类效果原因:四级作文本身的特点和各分数作文的篇章数的分布情况结束语:语言学特征更能体现作文的水平 NLP 技术曹亦微,杨晨《使用潜语义分析的汉语作文自动评分研究》评分方式1. 依靠精确的分析和提取反映文章质量的指标进行评分,指标大多是语法层面上的;(PEG )2. 另一种是整体评分,综合使用了文章的词语使用、论述结构、句法结构以及内容和语义等方面的特征(e-rater :统计方法+自然语言处理技术)。
潜语义(LSA ,latent Semantic Analysis )葛诗利,陈潇潇《文本聚类在大学英语作文自动评分中应用》文本聚类把作文按内容的相似程度聚集到一起,形成一棵内密外疏的聚类树。
识别跑题作文 文秋芳:“作文内容能够解释作文总体质量56%的差异”内容评价:采用文本自动层级聚类优点:不需要事先基于大规模标注训练集构建评价模型PEG侧重结构分析,较高的评分准确率,忽略内容,更多地注重表面结构IEA 只基于潜伏语义分析测量的是“文本的内容和学生作文中所传达的只是,而不是作文的风格或语言”,适用于本族语作文(基本没有较大语言失误)—单独的潜伏语义分析用于外语作文评分显然不够BETSY基于文本分类技术E-rater,IntelliMetric,语言质量和内容兼顾,适用外语作文自动评分E-rater内容分析采用了向量空间模型,作文首先转化为词频的向量,再合并语言质量得分层级聚类:自底向上(Bottom-up合并聚类)和自顶向下(Top-down分割聚类)常见文档聚类算法:k-means算法(分割)凝聚层级算法(Hierarchical Agglomerative Clustering,HAG 层级算法)建立特征向量TF-IDF(Term Frequency-Inverse Document Frequency)葛诗利,陈潇潇《大学英语作文自动评分研究中的问题及对策》四个难题:评分标准、针对性、通用性和人机界面的划分作文自动评分研究使用技术:计算机统计技术、自然语言处理技术、信息检索技术和人工智能技术马希文计算机解决问题前提条件:第一,必须把待解决的问题形式化第二,这种问题必须是可计算的第三,这种问题必须有一个合理的复杂度,要避免指数爆炸语言:人工选取特征和机器统计加权非英语专业大学生作文语言使用特征:词汇、短语、句法、搭配和错误PEG统计文章长度、各种词类的数量、词长的变化(浅层文本特征)IEA使用词汇统计,实义词的统计E-rater基于词汇统计(内容),浅层文本特征(语言)把内容评分转换为词汇向量的统计比较针对语言使用的评分,低分段评分准确率非常高,中、高分段,尤其是高分段准确率较低梁茂成、文秋芳《国外作文自动评分系统评述及启示》信度(reliability)效度(validity)PEG(Project Essay Grade)重语言形式实现步骤:变量提取—多元回归分析—多元回归得到的beta值代入计算机程序换算出作文得分IEA(Intelligent Essay Assessor)重作文内容矢量空间模型(Vector Space Model VSM)过滤干扰信息,提取数据中的潜在语义结构潜在语义结构词汇项(即词汇)—文档矩阵term-by-document matrix之后对矩阵进行奇异值分解(Singular Value Decomposition,SVD)把原来矩阵分解为三个不同矩阵,再重建一个新的维度较少的矩阵E-rater既重形式又重内容—一个模块结构的混合评分系统基于线性回归模型三个模块:第一模块,话语(discourse)结构,即篇章结构,依靠搜索提示词(In summary…)实现第二模块,句法多样性(syntactic variety)—分析语言质量第三模块,内容(content)分析模块,通过矢量空间模型,观察作文中是否包含了足够的与作文题目高度相关的主题词。
不足:a)对语言质量的分析主要考虑的知识作文的句法多样性,(语言质量的分析应该包括:词汇、句法、语言的准确性)b)与IEA相比,内容质量分析模块显然尚有提高的余地(E-rater基于主题词分析技术,IEA使用潜伏语义分析法是一种降维技术,可以有效去除文本中的干扰信息)c)篇章结构分析模块靠搜索作文中的In conclusion等话语标记语,容易被考生识破,导致不利的反拨作用(wash back effect)评价评分的合理:评分的效度评分模型中的内核技术问题多元回归统计技术,以多个文本特征作为自变量,以人工评分作为因变量(基本技术)自然语言处理技术,挖掘变量信息检索技术—分析学生作文的内容质量韩宁《几个英语作文自动评分系统的原理与评述》PEG最早目标变量trin,相关变量proxIEA 需要较少的训练集E-rater(ETS Education Testing Service,目前正在使用)和CriterionCriterion作文评分和评价服务系统,综合了E-rater和Critique(诊断文章中的语法和用法错误)IntelliMetric,核心技术是基于人工智能理论开发的,是一种模仿人脑思考的过程并将专家的智慧合成起来的学习机器分析和每篇文章每个具体分数点相伴随的语言的特征—分数量表和评分规则分析的变量多非线性,多维度,建立在多个数学模型之上并且支持语言的作文评分My Access!为语言教学服务针对美国的教育体系和教育环境的写作评价工具,学生可以得到迅速的结构化的反馈和诊断报告BETSY目前属于管理学研究生招生委员会GMAC(Graduate of Management Admission Council)核心原理是:贝叶斯方法反垃圾邮件:所有受到的邮件要与经分类的邮件进行相似性比较,凡和垃圾邮件非常相似的要被拒之门外;文献分类:多元贝努利模型(将每篇作文看做是所关注的作文的优劣特征的特例,关注是否一个特定的特征在一篇文章中存在)和多项模型(把每篇作文看做是我们所关注的作文的优劣特征的样本,关注一个特定的特征在一篇文章中是否多次出现)共同点:第一,需要大量训练集第二,除了给出总分之外,强调在写作各个方面提供尽可能详细的反馈信息第三,与人工评分之间的一致性葛诗利,陈潇潇《中国EFL学习者自动作文评分探索》Write认识Workbench(WWB)工具包,给读者在拼写、措词及可读性方面提供反馈,包括拼写检查程序,措词程序和计算可读性程序E-rater采用了基于NLP的工具包,如:词性标注器、句法分析器、篇章分析器和词汇相似性度量器,采用了基于语料库的方法建模。
前三个模块+第四个模块(用来选择和加权对作文评分具有预测力的特征)+第五个模块(计算最后得分)E-rater仍然侧重于内容AES目标:为学生提供一个基于网络的写作环境,反馈很重要IEA前提条件:100篇已评分的作文作为训练预料;样板作文和知识源材料;未评分作文集的内部比较陈潇潇,葛诗利《自动作文评分研究综述》作文自动评分系统:基于统计、自然语言处理以及人工智能(1999年付诸实用)优点:可靠性、客观性、经济性、及时性、互动性PEG 标准多元回归—回归系数评分特征:1.作文长度—写作的流畅性;2.介词、关系代词—表明句子结构的复杂性、多样性;3.词长变化—表明文章的措辞情况(因为非常用词一般都比较长)评分原理:1.从经过人工评分的作文中统计出上述prox指标,2.然后以这些prox指标为自变量,和人工分数3.做标准多元回归,得出回归系数,建立回归方程。