作文自动评分总结
英语作文自动评价反馈对学生词汇修改的影响——以批改网为例
71英语作文自动评价反馈对学生词汇修改的影响*——以批改网为例黄爱琼 张文霞(清华大学 外文系,北京 100084)摘要:文章通过对调查问卷、总结报告和访谈记录的分析,对37名学生基于英语作文自动评价(Automated Writing Evaluation ,AWE )反馈的写作过程进行了探讨,并以批改网为例,重点研究了AWE 提供的词汇反馈点和AWE 提供的反馈对学生的词汇修改的影响这两个问题。
文章研究的结果表明,批改网提供的词汇反馈点主要为学习资源反馈点,给予的词汇警示和词汇错误反馈点主要集中于名词、冠词、动词和搭配错误;学生比较关注批改网反馈给予的词汇错误和词汇警示,反馈有助于提升文本词汇的多样性和复杂性,学生对涉及单词、搭配/短语的反馈比较满意。
此外,文章还讨论了AWE 反馈影响学生词汇修改的相关因素,以期有针对性地发挥AWE 反馈的积极作用,提升学生的英文写作水平,更好地开展大学英语写作教学。
关键词:作文自动评价反馈;大学英语;词汇修改;批改网【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097(2018)07—0071—08 【DOI 】10.3969/j.issn.1009-8097.2018.07.011在当前国内的英语写作教学中,教师批改作文的工作量大,无法提供及时有效的反馈[1]。
杨永林等[2]提到英语教师批改作文的三项基本功是“准确判断、精准修改、合理建议”,而要满足这三项标准需要3~5年的严格训练,因此“有必要借助智能化的文章批改利器,来缓解这个问题”。
相较于传统的教师反馈,人工智能(Artificial Intelligence ,AI )辅助批改作文和计算机辅助语言测试具有既省时又省力的经济价值[3],因而在当代英语教学中得以迅速推广。
随着AI 的不断开发利用,尤其是利用计算机技术对作文进行评估和记分[4]的AWE 的研发和应用,使计算机辅助英语教学和测试的局限性得以逐渐突破,说和写的潜力(即输出性能力)得以深入挖掘和利用。
英语作文电脑智能自动评分系统的使用和启示
英语作文电脑智能自动评分系统的使用和启示作者:杨学前来源:《教育界》2012年第30期【摘要】英语作文电脑智能自动评分系统是指对已经输入电脑的英语作文进行自动评分的电脑软件,是对人工评分的有力补充,可以大大提高教师的工作效率。
本人以IntelliMetric 系统为例,介绍目前智能评分系统的原理,为探索在我国各级各类英语教学和考试中使用智能评分系统提供一些依据和参考。
【关键词】英语作文自动评分系统在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。
但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。
在大规模语言考试中,作文又是必不可少的题型,阅卷工作量和阅卷的信度等问题一直以来都不能让我们如意。
针对这一难题,电脑智能自动评分系统提供了可以信赖、值得期盼的解决方案。
在PEG、IEA、E-rater、冰果、MY Access、IntelliMetric等几种智能评分系统中,本文选取IntelliMetric系统进行研究,对其评价标准进行理论分析,对其所评分的作文进行跟踪评析,发现其通过对学生作文按照若干评分标准问题进行回应和打分的方法能够快速、有效地解决了作文评分的效率问题,可靠性和准确性不亚于人工评分的水平,完全可以作为人工评分的补充手段。
由此看来,智能评分系统的发展值得期盼。
一、IntelliMetric系统概述IntelliMetric系统发布于1998年1月,是第一个提供给教育机构的智能作文评分软件,相比传统的人工评阅具有许多优点,如:准确度大于个人评分,尤其大于单人人工评分;提供即时反馈等等。
发布以后,系统得到了广泛的应用。
IntelliMetric系统作为一个智能评分系统,充分模拟了人工评分的过程。
系统开发时经过了大量的测试培训,即不断通过人工纠正其自动认定的给分点,直至契合。
值得提出的是,系统不是将所有的给分点简单地相加,而是通过分析给分点之间的聚合关系,模拟人工从整体上看待作文并给出判断,这一点上跟人工评分的过程是一致的。
高考作文自动评分技术的研究与应用
高考作文自动评分技术的研究与应用随着科技的不断发展,在教育领域,尤其是高考领域,人工智能技术已经被广泛应用。
其中,高考作文自动评分技术的研究与应用也引起了人们的关注。
本文将从技术原理、应用现状、优缺点三个方面进行探讨。
一、技术原理高考作文自动评分技术主要基于自然语言处理和机器学习技术。
首先,通过对大量标注好的样本进行训练,让机器学习英语作文的特征与分值之间的关系。
然后,根据文字的语法、语义、词汇等各个方面对作文进行分析,提取出对应的特征,并利用已经训练好的模型,来预测作文的分数。
最终,根据多尺度分析、综合评测等方法,可以得到作文的最终得分。
二、应用现状目前,高考作文自动评分技术已经在一些省市的高考中得到了应用。
例如在江苏省2018年高考中,高考英语作文自动评卷技术已经被引入。
此外,国内的一些知名在线英语学习平台(如VIPKID)也利用该技术来进行作文的批改。
三、优缺点(一)优点1. 提高效率:传统人工批阅需要专门的批改人员投入巨大人力成本,而自动评分技术可以实现大幅度减少评分的人工成本,提高评分工作效率。
2. 避免主观性:自动评分技术可以对全部学生作品进行公平、客观评分,避免了传统的人工批改中存在的个人情感、偏见等主观影响。
(二)缺点1. 精度有限:目前实现的自动评分技术,在分析作文时无法充分理解人类的信息,如调皮幽默、语言技巧等语言细节,可能会导致评分的偏低或者偏高。
2. 无法代替阅卷人员:自动评分技术只是一个辅助工具,无法完全代替人工批改,因为一些需要人类判断和思考的问题,如对于一些特殊的作文主题或者语言背景,可能需要人工批改。
综上,高考作文自动评分技术虽然有其局限性,但是在提高评分效率和减少人工批改成本方面却具有非常积极的意义。
未来,高考作文自动评分技术的发展将需要更加深入的研究与优化,提升自动评分系统的分析能力和准确性,使其更加全面客观地评判英语作文,为高考评卷工作的科学化、规范化创造更加便捷的条件。
大学英语作文自动评分系统中文本聚类的应用
大学英语作文自动评分系统中文本聚类的应用作者:柯育强来源:《电子技术与软件工程》2017年第05期摘要自动作文评分研究在我国尚处于起步阶段。
对于大学英语作文教学来说,评分需要针对不特定题目,具有通用性。
在作文内容评价方面,可以通过文本聚类按照作文词汇等的相似度进行分类从而聚集到一起。
本文通过研究大学英语作文评分难题,结合文本聚类理论,完善其应用,将聚集不到一起差异性较大的可能跑题作文交由老师评判,可大大减少教师工作力量,提高作文评判的准确性和效率,对大学英语作文教学具有良好的促进作用。
【关键词】自动作文评分大学英语文本聚类1 引言近几十年来,作文自动评分在国外得到了长足发展,并广泛应用于实践中。
自动作文评分( Automated Essay Scoring,AES)近年来已渐成为自然语言处理研究中的热点和重点研究对象。
自动评分即非人工的,通过计算机对作文进行评分。
不同于其他客观题目,作文评分必须包含内容评价。
AES 系统当然也包含这方面的评价,只是在针对不同人群、不同种类作文其内容评价侧重点不同,有的甚至只依靠内容评价。
为了更好地对大学英语作文评价,一般来说通过内容和语言来进行分贝评判。
而其中评判内容则可以采取聚类的数据分析(exploratory data analy-sis),用此系统进行相似度聚类评价,可对跑题作文鉴别很有帮助。
2 自动评分系统的意义在我国大学英语写作训练中,由于一个老师带的学生数量多,批改作文负担重,导致学生训练不足,作文水平得不到提升。
这时,运用自动作文评分修改作文不失为一个好方法。
与人工修改相比,自动作文评分系统修改作文具有以下优点:(1)电脑不会疲倦,更加持续高效。
会比人工更仔细、客观地评好每一篇作文,且不带思想感情,更公正客观,有利于学生进步。
(2)可大大降低老师的批改工作量,使老师能有更多时间进行备课,讲解。
且自动评分系统在评分时能方便统计出学生的薄弱地点,让老师可更有针对性地教学。
英语作文电脑智能自动评分系统的使用和启示
英语作文电脑智能自动评分系统的使用和启示英语作文电脑智能自动评分系统的使用和启示内容简介:英语作文电脑智能自动评分系统的使用和启示在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。
但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。
在大规模语言考试中,作文又是必不可少的题论文格式论文范文毕业论文英语作文电脑智能自动评分系统的使用和启示在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。
但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。
在大规模语言考试中,作文又是必不可少的题型,阅卷工作量和阅卷的信度等问题一直以来都不能让我们如意。
针对这一难题,电脑智能自动评分系统提供了可以信赖、值得期盼的解决方案。
在PEG、IEA、E-rater、冰果、MY Aess、IntelliMetri等几种智能评分系统中,选取IntelliMetri系统进行研究,对其评价标准进行理论分析,对其所评分的作文进行跟踪评析,发现其通过对学生作文按照若干评分标准问题进行回应和打分的方法能够快速、有效地解决了作文评分的效率问题,可靠性和准确性不亚于人工评分的水平,完全可以作为人工评分的补充手段。
由此看来,智能评分系统的发展值得期盼。
一、IntelliMetri系统概述IntelliMetri系统发布于1998年1月,是第一个提供给教育机构的智能作文评分软件,相比传统的人工评阅具有许多优点,如:准确度大于个人评分,尤其大于单人人工评分;提供即时反馈等等。
发布以后,系统得到了广泛的应用。
IntelliMetri系统作为一个智能评分系统,充分模拟了人工评分的过程。
系统开发时经过了大量的测试培训,即不断通过人工纠正其自动认定的给分点,直至契合。
值得提出的是,系统不是将所有的给分点简单地相加,而是通过分析给分点之间的聚合关系,模拟人工从整体上看待作文并给出判断,这一点上跟人工评分的过程是一致的。
写作自动评价系统在大学英语教学中的应用研究
1、实时反馈:写作自动评价系统能够实时对学生的英语作文进行评估,并 提供即时的反馈。这种实时的反馈模式有助于学生及时纠正写作中的错误,提高 语言运用的准确性。
2、个性化教学:系统通过对每位学生的学习数据进行分析,能够为不同的 学生提供个性化的学习建议。教师可根据这些数据调整教学策略,实现个性化教 学。
3、促进学习:写作自动评价系统不仅可以帮助学生提高英语写作能力,还 可以通过及时的反馈和建议,激发学生的学习兴趣和动力,促进他们的自主学习。
四、优势与挑战
写作自动评价系统在大学英语教学中的应用具有以下优势:
1、提高工作效率:写作自动评价系统可以快速准确地对学生的英语作文进 行评分和反馈,减轻了教师的工作负担,提高了工作效率。
1、技术局限性:目前的写作自动评价系统在技术上还存在一定的局限性, 例如无法完全准确地识别学生的语法错误和拼写错误等。
2、成本效益:写作自动评价系统的应用需要一定的资金投入,包括设备购 置、技术维护、数据资源等,这可能会给一些高校带来经济压力。
3、教师接受度:一些教师可能对写作自动评价系统的应用持怀疑态度,认 为它无法完全替代人工评价,也可能对学生的学习产生负面影响。
参考内容
随着科技的飞速发展,教育领域也在经历着一场深远的变革。作为这场变革 的重要一环,写作自动评价系统(Automatic Writing Evaluation,简称 AWE) 在英语教学中的应用日益广泛。该系统利用先进的自然语言处理(NLP)和机器 学习(ML)技术,对学生的英语写作进行自动评估和反馈,极大地提升了教学效 率,同时也为个性化教学提供了可能。
在数据收集和分析方法方面,研究者们运用统计分析、文本分析、深度学习 等方法对系统生成的反馈、评价和学生作文进行了细致的分析。
作文自动评分 综述
作文自动评分综述
作文自动评分,这玩意儿听起来挺酷的,对吧?不过,它真的
能替代老师给我们的手写评语吗?说实话,自动评分系统确实快,
写完作文立马就能知道分数,不用等老师改完。
但总觉得少了点什么,可能是那种温暖的感觉吧。
话说回来,这自动评分系统到底是个啥玩意儿?简单来说,就
是通过电脑程序来评判我们的作文。
听说它用了什么自然语言处理、机器学习之类的高科技。
听起来很高大上,但真的靠谱吗?有时候,它会误判一些词语或句子,给出不太准确的分数。
别看自动评分系统这么高科技,它也有短板。
比如,它可能不
太擅长评估我们的创意和深度思考。
毕竟,电脑可不像老师那样了
解我们,知道我们的想法和感受。
所以,有时候,它的评分可能跟
我们的预期不太一样。
总的来说,作文自动评分系统是个好东西,但也有它的局限性。
我们不能完全依赖它,还得靠自己的努力和老师的指导来提高写作
水平。
当然,如果能结合人工和自动评分,那就更完美了!。
作文互评自评模板
作文互评自评模板作文互评自评是学习和提高写作能力的重要方法,通过互相评价和自我评价,可以发现自己的不足之处,找到提高的方向。
下面是一个作文互评自评的模板,希望能够对大家有所帮助。
一、作文互评模板。
1. 作文标题,____________________。
2. 作者姓名,____________________。
3. 评价人姓名,__________________。
4. 评价时间,____________________。
5. 评价内容:(1)结构是否合理,是/否。
(2)内容是否充实,是/否。
(3)语言是否地道,是/否。
(4)逻辑是否清晰,是/否。
(5)表达是否流畅,是/否。
(6)总体评价,__________________。
二、自评模板。
1. 作文标题,____________________。
2. 作者姓名,____________________。
3. 自评时间,____________________。
4. 自评内容:(1)结构是否合理,是/否。
(2)内容是否充实,是/否。
(3)语言是否地道,是/否。
(4)逻辑是否清晰,是/否。
(5)表达是否流畅,是/否。
(6)总体评价,__________________。
三、作文互评自评要点。
1. 结构是否合理,作文是否有清晰的开头、中间和结尾,是否有适当的过渡句和连接词。
2. 内容是否充实,作文是否围绕主题展开,是否有具体的论据和例子支撑。
3. 语言是否地道,作文中是否有错误的用词、语法错误或者不通顺的句子。
4. 逻辑是否清晰,作文中的论点是否有条理,是否有逻辑关系,是否能够说服读者。
5. 表达是否流畅,作文中的表达是否生动、形象,是否能够吸引读者。
四、作文互评自评方法。
1. 互评方法,可以找一个同学或者老师互相交换作文,进行评价。
2. 自评方法,可以在完成作文后,先放一段时间,然后再回头看,进行自我评价。
3. 修改方法,根据互评和自评的结果,对作文进行修改,不断提高自己的写作水平。
英语作文自动评分
英语作文自动评分English:Automated essay scoring (AES) is a technology that evaluates and scores essays written by students using artificial intelligence algorithms. These algorithms analyze various linguistic features of the text, such as vocabulary usage, sentence structure, coherence, and argumentation. AES has gained popularity in educational settings due to its efficiency in providing quick and consistent feedback to students. By eliminating the need for manual grading, AES saves time for educators and allows them to focus more on teaching. However, there are debates surrounding the effectiveness and fairness of AES, as it may not fully capture the complexity and creativity of human writing. Critics argue that AES may favor formulaic or superficially structured essays over those with originality and depth of thought. Additionally, there are concerns about the potential biases embedded in the algorithms, particularly regarding language proficiency, cultural background, and writing style. Despite these challenges, AES continues to evolve with advancements in natural language processing and machine learning, aiming toaddress its limitations and enhance its accuracy and fairness in evaluating student writing.中文翻译:自动作文评分(AES)是一种利用人工智能算法评估和打分学生写作的技术。
作文自动评分 综述
作文自动评分综述
作文自动评分技术,真是个教育界的神奇助手!有了它,老师
们再也不用为批改海量作文而头疼了。
这技术啊,用计算机算法给
作文打分,快得让人咋舌,而且公平得很,再也不怕“人情分”了。
说到这技术,自然语言处理(NLP)可是个大佬。
它让电脑能读
懂我们的文字,跟人类交流似的。
通过分词、句法分析、语义理解
这些高级操作,NLP技术能精准地抓住作文里的语言亮点,给出一
个靠谱的分数。
作文自动评分系统,用处大着呢!在学校里,老师们可以轻松
搞定一堆作文,再也不用熬夜批改啦。
而且,评分公正,大家都心
服口服。
在作文竞赛和考试中,组织者也能用这系统快速给出成绩,省时又省力。
不过啊,这技术也不是万能的。
语言这东西,复杂得很,多样
性也强,想让电脑完全理解并准确评价一篇作文,那可不容易。
更
何况,作文评价不只是看语言,内容、结构、逻辑都得考虑,这些
可不好量化。
再加上电脑评分总是缺少那么点人情味和创造力,有
时候给出的分数就让人有点儿摸不着头脑了。
好在啊,研究者们没闲着。
他们搞出了深度学习技术,让电脑
更能理解文本,评分也更准确了。
还有啊,他们还把NLP和人工智
能结合起来,通过机器学习不断优化评分模型,让系统越来越聪明,越来越靠谱。
作文自评评语大全
一、自我认知
我在写作过程中深感自己的认知水平不够深入,缺乏对所ቤተ መጻሕፍቲ ባይዱ题材的深入了解和思考。在今后的写作中,我会更加注重对题材的研究,增加自己的知识储备,提升认知水平。
二、逻辑结构
在这篇作文中,我意识到自己在逻辑结构上还有提升空间。在展开论述时,我常常存在前后矛盾或逻辑跳跃的问题。下次写作时,我会更加注意段落之间的过渡,保持思路清晰,逻辑完整。
五、细节描写
细节描写是我写作中的薄弱环节。在这篇作文中,我发现自己缺乏对细节的把握和运用,导致文章平淡无味。下次写作时,我会更加注重细节描写,运用生动具体的描写手法,使文章更加生动有趣。
六、修辞手法
修辞手法是我需要加强的方面之一。在这篇作文中,我发现自己在修辞手法的运用上较为单薄,缺乏多样性和灵活性。为了提升修辞手法,我会多加练习,积累更多的修辞技巧,使文章更具文采和情趣。
三、观点立论
我的观点立论能力还有待加强。在写作中,我常常表达不够明确,观点不够鲜明。下一次写作时,我会更加明确自己的观点,并给出充分的论据加以支撑,使文章更具说服力。
四、语言表达
语言表达是我需要重点提高的方面。在这篇作文中,我发现自己的表达方式较为单一,词汇量有限,句式结构较为呆板。为了提升语言表达能力,我会多读优秀作品,模仿优秀的语言风格,提升自身写作技巧。
七、总结反思
通过这篇作文的自评,我发现自己在写作中存在着诸多不足之处,但也看到了自己的提升空间。在未来的写作中,我将更加努力,改正不足,提升自身写作能力,争取写出更加优秀的作品。
作文自动评分综述
作文自动评分综述摘要:自动作文评分( AES )是利用计算机技术对中文或者英文作文进行评分的任务。
近年来随着人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)与深度学习(Deep Learning,DL)的迅速发展,自然语言处理(Natural Language Processing,NLP)作为人工智能领域重要分支也得到了学术界和产业界的充分重视,越来越多的基于NLP技术的应用出现在人们的视野当中。
随着全世界大部分国家对教育的重视程度越来越高,教育领域内的NLP应用得到了国内外研究机构与产业界的重点关注。
关键字:作文自动评分,自然语言处理,机器学习PEG(Project Essay Grader,PEG)[1]作文自动评分系统最早由Ellis Batten Page与他的同事于1960年代引入。
该系统是收集了两批作文样本中的其中一批用于作文评分模型的构建,另一批用于模型评估,每个样本都经过了多个评分者的评价。
在构建该模型时,利用评分的字段分布或者字数等浅层特征,通过人工评分员提取作文的外部浅层特征,使用模型对作文进行打分。
IEA(Intelligent Essay Assessor,IEA)[2]作文自动评分系统是皮尔逊公司在1989年成功研发。
智能作文评阅器(IEA)对作文内容质量进行评价,IEA利用潜在语义分析( Latent Semantic Analysis,LSA )[3]对文章进行评分。
IEA与其他自动打分模型的有所不同,其他打分模型都是基于作文外部非内容性特征得到分数,而基于LSA得到的分数与人类评分者更接近。
E-rater[4]由美国教育考试服务中心(Educational Test Service, ETS )的Burstein等人自1999年开发并开始投入使用。
此系统主要是专门为分析学生作文量身定做的基于统计人工智能和NLP相结合的打分系统,结合了PEG和IEA的优点,并为研究生管理招生考试写作部分进行打分。
英语作文自动评分系统研究与实现
潜在语法分析等技术,实现英语作文自动评分功能。本系统可通过添加自定义的停用词词典,而扩展运用到更多的场景。
关键词:自动评分;潜在语义分析;文本特征提取
中图分类号:TP319
文献标识码:A
最早的英语作文自动评分(AutomatedEnglishScoring, 简称 AES)系统是 1966 年由美国杜克大学的 Ellis Batten
收稿日期:2018-12-17 基金项目:江苏省基础教育资源网络化工程 技术中心开放项目:英语学习智能考评关键技术研 究(项目编号:BM2013123);南京晓庄学院科研 项目:E-learning 个性化学习评价和指导关键技 术 研 究( 项 目 编 号:2016NXY46); 江 苏 省 大 学 生创新创业训练计划项目:英语作文自动评分关键 技术研究(项目编号:201711460031Y)。
Abstract:With the development of artificial intelligence technology in recent years,computer technology has been more and more applied to the field of education. The automatic scoring of English composition is also one of the aspects to achieve automatic scoring of English composition. In order to meet the requirement of automatic scoring of English compositions,the system extracts a series of features such as the content of the compositions for comprehensive evaluation,and uses natural language processing,text feature extraction,potential grammar analysis and other technologies to achieve automatic scoring of English compositions. The system can be extended to more scenarios by adding a custom dictionary of stop words.
英文作文自动评分系统的研究
英文作文自动评分系统的研究英语写作是学习英语时必须具备的能力之一.更是大规模语言考试中的一种必备题型.随着科学技术的发展,英文作文自动处理系统的建立也逐渐成为现实。
对于英文自动评分系统的建立,首先我们考察的作文评判因素,主要包括词汇句子、错误、发展、词频、例子方面。
其次是对因素的分类与量化,主要运用到了正态标准化、聚类分析、TF词频等方法,得到每项特征因子对应的分数。
并列表展示了出来。
最后就是对每项特征因子权重的赋值,我们主要基于模糊聚类分析技术和粗糙集理论的信息熵原理,对多因素权重分配进行了研究。
标签:自动作文评分正态标准化特征提取TF词频模糊聚类分析信息熵原理一、国内外研究现状.Page是最初几个在自动作文评分领域进行研究的人,他在1966年开发了Project Essay Grader(PEG)系统。
1990年,自然语言处理与信息提取技术取得了很大的进展。
到90年代末,三个新的自动评分系统面世:其一是Intelligent Essay Assessor(IEA ),是在潜在语义分析的基础上开发的一款主要面向文章内容的自动评分系统;另一个是Electronic Essay Rater(E-rater),它结合了自然语言处理和统计技术,能够综合衡量篇章组织、句子结构和内容;还有一个是IntellMetric,是第一套基于人工智能的能够对文章形式与内容进行评分的自动作文评分系统。
另一条研究路线是基于文本分类技术、文本复杂性特征、以及线性回归方法。
类似的还有Rudner and Liang (2002:3-21 )建立的基于统计分析的Bayesian Essay Test Scoring sY stem(BETSY )系统。
与此同时,PEG 在很多方面也得到改进,整合了很多分析器、词典与各种资源,评分效果也得到很大改善。
国内自动作文评分研究仍然不够完善。
其中梁茂成在05年进行了初步的研究。
他以提取浅层文本特征为主,结合针对内容的潜在语义分析,进行线性回归,得到了与人工评分较高的相关度。
自动作文评阅系统评分效度验证及教学启示
究(MBXH19YB016)”及全国高校外语教学科研项目“教育信息化背景下大学英语写作教学模式的 构建及其有效性研究(2019JX0014B)”的阶段性研究成果。
- 67 -
语 言 与 文 化 论 坛 2020 年( 第一辑)
效度论证纬度
表 1 AWE 系统效度论证框架 主要研究问题
评分 泛化 外推
影响
1. AWE 系统与人工评阅者所衡量的文章特征是否相同? 2. 作文的系统分数与人工分数是否一致?
1. 系统提供的写作任务是否充分表征写作构念? 2. 学生在完成类似的写作任务时,系统给出的分数是否相似?
作文的系统分数与其他写作任务(如多项选择题等)的分数之间存在何种关系?
- 69 -
语 言 与 文 化 论 坛 2020 年( 第一辑)
工、机器分数建立回归模型,结果表明系统评分效度低可能是因其内部缺陷所致,机器 评分主要依据浅层文本特征,不能像人工评阅那样分析深层文本特征,机器无法真正阅 读、欣赏和判断文章,并且在分析深层句型结构或词汇搭配方面的能力不足。
国内 AWE 系统开发者在不同场合多次提到系统在英语作文评阅方面十分可靠,因 此大部分高校都将此类系统融入写作教学中。但是,一个不容忽视的问题是:这些自 动系统打出的分数与人工评阅者给出的分数是否真的高度一致?现有的研究结果并不一 致。因此本研究将对国内某 AWE 系统的评分效度进行验证,以丰富该领域的研究,并 探讨研究结果对大学英语写作教学的启示。
尽管国外研究大多报道 AWE 系统效度、信度均较高,但由于多数结果由开发者提 供,鲜有独立的学者给出,因此结果的真实性不得而知。国内某系统开发者也验证了其 开发的 AWE 系统的评分效度,比较了 1456 篇 15 分制作文的机器分和人工分的结果, 发现 92.03% 的作文的分数差在 3 分以内,换言之,其相邻吻合一致性在 90% 以上。但 这一结果亦是由开发者提供,真实情况如何,有待独立研究的进一步证实。
英语作文自动评分发展历程的探究
2 0 1 5年 3月
武 汉 冶金 管理 干部学 院学 报
J O U R N A L O F WU H A N M E T A L L U R G I C A L M A N A G E R ' S I N S q T I ' U T E
V 0 1 . 2 5 N o . 1
C I A) 的 发展 。
1 . 作 文 测试评 估 的发展
.
( 1 ) 作文 评估 浪 潮 。教 学 理论 往 往 影 文 自动 评 分 ( A u t o m a t e d
E n g l i s h S c o i r n g , 简称 A E S ) 系 统 相 继 在 美 国 的 大 规模考试 中得 到 应用 。我 国已经 自主研 发 了一 些
关 键词 : 作 文 自动评分 ; A E S系统 ; 测试 ; C I A
中 图分 类 号 : G 6 4 1 文献标识码 : A 文章编号 : 1 0 0 9—1 8 9 0 ( 2 0 1 5 ) o i 一 0 0 8 3— 0 4
一
、
引言
辅 助 教学 ( C o m p u t e r A i d e d I n s t r u c t i o n ,以下 简称
的研究 主要体现 在三个方 面 : 英语作 文 自动评 分 系 统 的总体介 绍 、 基 于各 种 自动 评分系统 的效 度 和信
期, 写作 的 客观题 测试 题 仍然 存在 , 第三 个浪 潮时 期, 作文 全 面评估 和 客 观题 测 试 题 依 然 用 于写 作
评 估 的方式 。
度研究 和 自动评分 系统 的技术介 绍。本文 将从
美 国 的 埃 利 斯 ・巴 滕 ・佩 吉 ( E l l i s B a t t e n P a g e ) 在6 0年 代 提 出了使 用计 算机 批 改作 文 的想
作文自动阅卷评分技术研究
随着自然语言处理技术的日益成熟、应用的日益广泛,自然语言处理在教育领域的研究也呈现逐步上升的趋势。作文写作考评在中国教育领域的作用越来越大,并且每年参加各类型考试的人群愈发庞大,如何减轻专家对作文审阅工作和避免主观意识可能会带来的不公平性随之成为亟待解决的问题,使用智能化技术来解决问题是我们这个时代的趋势。
主要研究重点包括:(1)针对作文跑题检测模型的研究,提出一种基于LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)耦合空间模型的作文跑题检测模型,利用LDA主题提取技术分别对作文题目和待评分作文进行主题词抽取,然后将主题词的向量表示放入耦合空间内生成泛语义矩阵,利用主题词相关性进行合题程度的判断,从而判断出待评分作文是否存在跑题问题。(2)针对语篇连贯性这一特征进行特征提取,通过仔细研究大量作文以及评分标准,认为语篇连贯性是衡量作文优劣的一项重要指标,所以尝试使用基于框架的实体网格方法将语篇连贯性进行量化,随之作为其中之一的特征对作文整体评分进行预测。
作文自动评分(Automatic EssayScoring,AES)技术是利用计算机对各种语言的作文进行自动评分,并反馈给用户相关特征评分以使得用户获得相应地指导或建议。通过计算机特定程序的帮助,可以在一定程度上减轻评卷老师的工作负担同时更能提高阅卷评分的公平性和准确性。
这是因为在人工阅卷评分的过程中,由于评分老师的主观因素可能会导致在评分过程中有所偏差,导致考试公平性受到挑战,因此使用计算机对作文评分进行辅助参考,是有很重大的现实意义的。本文通过对国内外作文自动评分技术的相关成果的研究,并且结合中文作文考试的特点及评分标准,尝试使用作文主题相关性以及语篇连贯性等特征对中文作文自动评分进行有效表征和预测。
自动作文评分研究综述
参考内容
基本内容
基本内容
随着计算机技术的不断发展,在许多领域得到了广泛应用。其中,中文作文 自动评分技术的研究与应用也越来越受到。本次演示将介绍中文作文自动评分技 术的研究现状、技术手段和发展趋势。
一、研究现状
一、研究现状
中文作文自动评分技术的研究起步较晚,但近年来发展迅速。国内外的学者 针对该技术进行了大量的研究,提出了许多评分方法和模型。其中,基于机器学 习的评分方法和基于深度学习的评分模型是研究的热点。
三、发展趋势
1、跨领域应用
1、跨领域应用
随着中文作文自动评分技术的不断发展,其应用领域也将越来越广泛。除了 教育领域外,该技术还可以应用于文学创作、新闻写作等领域。跨领域应用将有 助于技术的普及和应用范围的扩大。
2、结合情感分析
2、结合情感分析
情感分析是自然语言处理中的一个重要研究方向。结合情感分析的中文作文 自动评分技术将能够更好地评估作文的情感色彩和表达效果,从而更准确地反映 作者的意图和水平。
3、自动作文评分技术的优缺点及争议点
自动作文评分技术的应用场景非常广泛,不仅限于教育领域,还可以应用于 文学评论、情感分析、智能写作等领域。在教育领域,自动作文评分技术可以用 于学生的平时练习、考试、竞赛等场景中,帮助学生快速了解自己的作文水平和 需要改进的地方。在文学评论领域,该技术可以对作家的作品进行自动分析和评 价,为文学研究和评论提供新的方法和工具。
3、个性化评分
3、个性化评分
每个人的语言风格和写作特点都不同,因此中文作文自动评分技术的未来发 展将更加注重个性化评分。通过学习每个学生的写作特点和习惯,可以为每个学 生量身定制评分模型,从而更好地反映其真实水平和进步情况。
4、智能化辅助教学
一种汉语二语作文自动评分方法
一种汉语二语作文自动评分方法一、为啥要有这个方法呢。
咱都知道,现在学汉语的外国人那是越来越多啦。
他们写作文的时候,老师要给评分可不容易呢。
要是人工一篇一篇仔细地看,那得多累呀,而且还特别费时间。
就像我有个当汉语老师的朋友,他每次给外国学生改作文都要熬好几个通宵,眼睛都快熬成熊猫眼了。
所以呀,有个自动评分的方法就超级方便啦。
这样老师就可以把更多的精力放在教学内容上,而不是一直在那儿改作文。
二、这个方法可能的原理。
我猜哦,这个方法说不定是从好多好多已经被老师认真批改过的作文里找规律呢。
比如说,那些语法用得特别好的作文,它就会把里面的语法结构记下来。
像“我吃了一个苹果”这种很正确的表达,它就知道这是好的语法。
然后要是作文里出现“我吃一个苹果了”这种不太对的,它就能发现。
还有词汇方面呀,那些高级的、用得很准确的词汇,肯定是加分项。
如果一篇作文里老是用很简单的词,可能分数就不会太高。
另外呢,内容的连贯性也很重要。
它可能会分析句子和句子之间是怎么连接的。
就像我们写作文的时候,不能东一句西一句的。
如果一个句子接着一个句子就像小火车一样,一节连着一节很顺溜,那这个作文在连贯性上就会得高分。
而且呀,我觉得这个自动评分方法可能还会看文章的主题是不是明确。
要是写着写着跑题了,就像一匹马突然不受控制乱跑一样,那肯定不行。
三、这个方法的好处。
这个方法对学生来说也很有好处呢。
学生可以很快知道自己的作文大概是个什么水平。
要是用人工批改,可能要等好几天才能拿到分数和评语,但是这个自动评分的话,可能一下子就出来结果了。
这样学生就可以趁热打铁,赶紧修改自己的作文。
对于那些比较害羞的学生来说,也不用担心被老师当面指出很多错误会不好意思啦。
而且呀,这个方法还可以让教学更有针对性。
老师通过这个自动评分系统的分析结果,就可以知道学生们普遍在哪些地方容易出错,是语法问题呢,还是词汇量不够呢。
这样就可以针对这些问题去调整教学内容啦。
就像医生知道病人哪里生病了,就可以对症下药一样。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
李艳老师和葛诗利老师《大学英语作文自动评分中分级词表的效度研究》中提出了作文分级词表的思想,而这可以通过改进或者调整已有的词表来获得。
目前自然语言处理中准确率最高的、也是最基本的研究就是词汇分析,词汇分析一般包括词长分布、词汇分布和词汇丰富性等。
词汇分布:一篇作文中的词汇占某一分级词表每个级别词汇的比例。
Laufer&Nation的3个级别的词表。
CLEC中国学习者英语语料库SPSS软件包的单因素方差分析(ANOV A)SPSS多元线性回归分数档的精确率和召回率,总体准确率和误判率个分数精确率=本为X档作文并且被评为X档作文的数量/所有被评为X档作文的总数*100 精确率越高,说明作文被评为该分数档的可信度越高Laufer&Nation 以词族为计算单位,词频概貌文秋芳以类符为计算单词,称为词频广度倪岚以形符为计算单位词频分布准确率都是30%左右徐剑和梁茂成《对集中英汉机器翻译系统的测评》翻译系统在译文输出方面已经比较成熟,源语言的语义识别方面还不如人意。
80年代,机器翻译研究863智能型英汉翻译系统—“译星一号”评估标准:系统功能,操作的难易度及译文质量(包括译文的忠实度、译语的可懂度和译文的可接受性)欧共体评估:识别(译文的得懂度、忠实度、连贯度、有用性、读取速度和译文的可接受性)和语言方面(句子结构和语义的连贯性、词汇评价、翻译错误)可懂度、忠实度和译文的可接受性梁茂成和李刚《英汉机器翻译中人称代词的处理》徐州师范大学外语系汉语术语分析语,词序、虚词等来表达各种语法关系;英语属于综合语,通过词本身的形态变化来表示英语中人称代词的使用频率要远远高于汉语汉语属于孤立性语言,英语为粘着性语言原因:1.汉语表示所属关系的物主代词往往可以省略2.英语中大量使用反身代词反身代词:(译星对反身代词处理较为得当)1.英语较汉语大量使用反身代词2.汉语反身代词具有独立的指称功能,英语则依附于其他代词或名次,无独立的指称功能。
英汉第二人称代词的差异You是你还是你们?英语代词的预指功能人称代词在机器翻译中的处理1.调整语法信息库(代词的主要作用是代替名词)2.条件句自动评分技术陆军,梁颖红,陆玉清,李斌,姚建民《多分类器融合技术在自动作文评分中的应用》 分类器:贝叶斯、K 近邻和支持向量机自动作文评分(Automated Essay Scoring ,AES )国外主观题自动评分系统:E-rater 、IEA(Intelligent Essay Assessor)、PEG(Project Essay Grade) 国内最早涉足作文评分领域:梁茂成教授中国学习者英语语料库(Chinese Learner English Corpus )对作文中的错误进行了详细标注、分类和统计作文内容的特征(作文中的单词和短语,即通常的Uni-Gram 、Bi-Gram 和Tri-Gram 模型)考察作文的主题和内容语言学特征:浅层的语言学特征(句子个数、句子平均长度、单词平均长度、单词个数)考察作文的形式 复杂的语言学特征(作文中的语法、单词的词性、连接词、各种类型错误个数)考察作文的语法、连贯性和错误特征筛选:文档频率(Document Frequency ,DF )、信息增益(Information Gain ,IG )、统计量(Chi-square Statistic, CHI )文本分类算法朴素贝叶斯(Naïve Bayes )假定各种特征之间相互独立。
性能不稳定,易受分类任务的影响。
K 近邻(K-Nearest Neighbor )要求有较高质量的训练集,K 值确定比较难支持向量机(Support Vector Machine ,SVM )基于结构风险最小化理论评价分类结果的好坏:准确率p 、召回率r 和F1测度)/(21r p r p F +⨯⨯=E-rater 商用机器评分系统,准确率计入相邻分数所有分类方法的效果都要低于它们在其他方面的分类效果原因:四级作文本身的特点和各分数作文的篇章数的分布情况结束语:语言学特征更能体现作文的水平 NLP 技术曹亦微,杨晨《使用潜语义分析的汉语作文自动评分研究》评分方式1. 依靠精确的分析和提取反映文章质量的指标进行评分,指标大多是语法层面上的;(PEG )2. 另一种是整体评分,综合使用了文章的词语使用、论述结构、句法结构以及内容和语义等方面的特征(e-rater :统计方法+自然语言处理技术)。
潜语义(LSA ,latent Semantic Analysis )葛诗利,陈潇潇《文本聚类在大学英语作文自动评分中应用》文本聚类把作文按内容的相似程度聚集到一起,形成一棵内密外疏的聚类树。
识别跑题作文 文秋芳:“作文内容能够解释作文总体质量56%的差异”内容评价:采用文本自动层级聚类优点:不需要事先基于大规模标注训练集构建评价模型PEG侧重结构分析,较高的评分准确率,忽略内容,更多地注重表面结构IEA 只基于潜伏语义分析测量的是“文本的内容和学生作文中所传达的只是,而不是作文的风格或语言”,适用于本族语作文(基本没有较大语言失误)—单独的潜伏语义分析用于外语作文评分显然不够BETSY基于文本分类技术E-rater,IntelliMetric,语言质量和内容兼顾,适用外语作文自动评分E-rater内容分析采用了向量空间模型,作文首先转化为词频的向量,再合并语言质量得分层级聚类:自底向上(Bottom-up合并聚类)和自顶向下(Top-down分割聚类)常见文档聚类算法:k-means算法(分割)凝聚层级算法(Hierarchical Agglomerative Clustering,HAG 层级算法)建立特征向量TF-IDF(Term Frequency-Inverse Document Frequency)葛诗利,陈潇潇《大学英语作文自动评分研究中的问题及对策》四个难题:评分标准、针对性、通用性和人机界面的划分作文自动评分研究使用技术:计算机统计技术、自然语言处理技术、信息检索技术和人工智能技术马希文计算机解决问题前提条件:第一,必须把待解决的问题形式化第二,这种问题必须是可计算的第三,这种问题必须有一个合理的复杂度,要避免指数爆炸语言:人工选取特征和机器统计加权非英语专业大学生作文语言使用特征:词汇、短语、句法、搭配和错误PEG统计文章长度、各种词类的数量、词长的变化(浅层文本特征)IEA使用词汇统计,实义词的统计E-rater基于词汇统计(内容),浅层文本特征(语言)把内容评分转换为词汇向量的统计比较针对语言使用的评分,低分段评分准确率非常高,中、高分段,尤其是高分段准确率较低梁茂成、文秋芳《国外作文自动评分系统评述及启示》信度(reliability)效度(validity)PEG(Project Essay Grade)重语言形式实现步骤:变量提取—多元回归分析—多元回归得到的beta值代入计算机程序换算出作文得分IEA(Intelligent Essay Assessor)重作文内容矢量空间模型(Vector Space Model VSM)过滤干扰信息,提取数据中的潜在语义结构潜在语义结构词汇项(即词汇)—文档矩阵term-by-document matrix之后对矩阵进行奇异值分解(Singular Value Decomposition,SVD)把原来矩阵分解为三个不同矩阵,再重建一个新的维度较少的矩阵E-rater既重形式又重内容—一个模块结构的混合评分系统基于线性回归模型三个模块:第一模块,话语(discourse)结构,即篇章结构,依靠搜索提示词(In summary…)实现第二模块,句法多样性(syntactic variety)—分析语言质量第三模块,内容(content)分析模块,通过矢量空间模型,观察作文中是否包含了足够的与作文题目高度相关的主题词。
不足:a)对语言质量的分析主要考虑的知识作文的句法多样性,(语言质量的分析应该包括:词汇、句法、语言的准确性)b)与IEA相比,内容质量分析模块显然尚有提高的余地(E-rater基于主题词分析技术,IEA使用潜伏语义分析法是一种降维技术,可以有效去除文本中的干扰信息)c)篇章结构分析模块靠搜索作文中的In conclusion等话语标记语,容易被考生识破,导致不利的反拨作用(wash back effect)评价评分的合理:评分的效度评分模型中的内核技术问题多元回归统计技术,以多个文本特征作为自变量,以人工评分作为因变量(基本技术)自然语言处理技术,挖掘变量信息检索技术—分析学生作文的内容质量韩宁《几个英语作文自动评分系统的原理与评述》PEG最早目标变量trin,相关变量proxIEA 需要较少的训练集E-rater(ETS Education Testing Service,目前正在使用)和CriterionCriterion作文评分和评价服务系统,综合了E-rater和Critique(诊断文章中的语法和用法错误)IntelliMetric,核心技术是基于人工智能理论开发的,是一种模仿人脑思考的过程并将专家的智慧合成起来的学习机器分析和每篇文章每个具体分数点相伴随的语言的特征—分数量表和评分规则分析的变量多非线性,多维度,建立在多个数学模型之上并且支持语言的作文评分My Access!为语言教学服务针对美国的教育体系和教育环境的写作评价工具,学生可以得到迅速的结构化的反馈和诊断报告BETSY目前属于管理学研究生招生委员会GMAC(Graduate of Management Admission Council)核心原理是:贝叶斯方法反垃圾邮件:所有受到的邮件要与经分类的邮件进行相似性比较,凡和垃圾邮件非常相似的要被拒之门外;文献分类:多元贝努利模型(将每篇作文看做是所关注的作文的优劣特征的特例,关注是否一个特定的特征在一篇文章中存在)和多项模型(把每篇作文看做是我们所关注的作文的优劣特征的样本,关注一个特定的特征在一篇文章中是否多次出现)共同点:第一,需要大量训练集第二,除了给出总分之外,强调在写作各个方面提供尽可能详细的反馈信息第三,与人工评分之间的一致性葛诗利,陈潇潇《中国EFL学习者自动作文评分探索》Write认识Workbench(WWB)工具包,给读者在拼写、措词及可读性方面提供反馈,包括拼写检查程序,措词程序和计算可读性程序E-rater采用了基于NLP的工具包,如:词性标注器、句法分析器、篇章分析器和词汇相似性度量器,采用了基于语料库的方法建模。
前三个模块+第四个模块(用来选择和加权对作文评分具有预测力的特征)+第五个模块(计算最后得分)E-rater仍然侧重于内容AES目标:为学生提供一个基于网络的写作环境,反馈很重要IEA前提条件:100篇已评分的作文作为训练预料;样板作文和知识源材料;未评分作文集的内部比较陈潇潇,葛诗利《自动作文评分研究综述》作文自动评分系统:基于统计、自然语言处理以及人工智能(1999年付诸实用)优点:可靠性、客观性、经济性、及时性、互动性PEG 标准多元回归—回归系数评分特征:1.作文长度—写作的流畅性;2.介词、关系代词—表明句子结构的复杂性、多样性;3.词长变化—表明文章的措辞情况(因为非常用词一般都比较长)评分原理:1.从经过人工评分的作文中统计出上述prox指标,2.然后以这些prox指标为自变量,和人工分数3.做标准多元回归,得出回归系数,建立回归方程。