电子评分E

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

托福电子评分E-rater
从这些材料之中，我们可以发现有几个点是要因此我们注意的：
第一：人工评分依然存在，人工在托福考试评分的过程之中，起到的是对于内容的监督作用，而e-rater则是起到了对于逻辑，语法，以及连接词的识别。

所谓语法，一个很简单的例子，你不能在复数名词前面加上不定冠词，类似于a/an之类的单词，这就是对于语法的检查，除此之外连接词也是重要的考察点，如果我们在托福考试之中多运用类似于however，and，whereas这样的单词，系统就会默认我们有很强的逻辑性，因此也会给我们相对更好的分数，因为这些单词的本身就代表逻辑吗。

而且ETS为了防止有人利用这样的漏洞，他们为了防止有人写出“我妈妈很爱我，但是（however）我爸爸也很爱我”的这样的话，而依然坚持要一内容的部分是由人工来进行评分。

2 E-Rater也有自身的弱点，如果我们多用连词，而且语法没有任何瑕疵，自然会给E-Rater 系统一个好印象，要知道E-Rater系统我们其实可以把它想象为一个身处糖果店的孩子，这个孩子对于你糖纸里面的糖果，其实一无所知，只要他们看好了你的糖纸，就会毫不犹豫的给你更多的分数，这里的语法和连词就是起到了糖纸的作用，至于糖果是否甜美，也就是是否言之有物则是由人工来进行评分的。

总结来说就是：重语法，加连词。

3 在研究报告里还提到了“单词向量”，所谓单词向量，其实非常简单，指的就是，在相同意思的情况下，你后面换用的单词与前面相同意思的单词意思相匹配的程度，理论有一点抽象，我们举一个生动的例子，比如说我们都知道soil指的是“土地”的意思，那么我们就会知道earth这个单词与soil这个单词就是一个正项量，换句话说就是一个好的换用，但是continent“大陆”就与soil的意思，里的就比较远，就不是一个恰如其分的替换。

因此在这里面也有一个小窍门就是：多背同义词。

4 总结很重要，我们再次把E-Rater当做一个小朋友，这次把它扔到京剧王国里，我们给他们看无数的京剧，然后问他们喜欢谁呀？E-Rater小朋友就晕了，但是我们如果告诉他，白脸的都是坏人，于是小朋友们就笑了，他们知道曹操啊，赵高啊，陈水扁啊，就都是坏人。

^_^因此，我们要多总结，在每一个段落的开始都要标明First，All in all之类的，这是我们再告诉E-Rater小朋友，我们在干嘛，免得他一头雾水。

这里的一个小窍门就是：必总结！我们也有了一个毕姥爷^_^，大家都能上春晚了。

因此想跟E-Rater小朋友搞好关系的话，就要记住这个口诀：重语法——加连词——多背同义词——大家都有毕姥爷！（无老师突然觉得自己好幼稚-_-!!!!!!）
接下来，我们还应该注意一些小细节，其实据国内媒体报道，国内在几年之前，也就是新托福刚刚进入国内的时候，已经有些机构引入了E-Rater这个评分系统，但是在这次“无老师”搜集资料的过程中发现这些国内提供E-Rater评分的系统，几乎全部都进入瘫痪，换句话说，这个评分系统，其实没有带来什么实质性的改变，也没有给我们带来什么价值，除了ETS这个E-Rater的老东家还对E-Rater情有独钟外，很少有这个系统报以兴趣的机构。

好了为了打高分，再次让我们背一遍口诀：重语法——加连词——多背同义词——大家都有毕姥爷！（无老师确实觉得自己好幼稚-_-!!!!!!）
这个本来是发表在我的校内日志上的，现转发于此。

荒废啊荒废，今天又不想学习了，于是翻出从ETS下载的一篇研究报告，名称是Automated Essay Scoring With E-rater v2.0，读了一读，挺解闷的。

下面把阅读所得和大家分享相关研究成果和提到的商标名词均属于ETS及两名作者。

这个决定大家考试分数一半的系统是怎么研发的呢？据我理解，它首先(1)规定了几个指标，然后(2)评判海量文章，得到每篇文章各指标的分值，再(3)和真人考官做出的评分比对，对程序参数进行“训练”，最后得到各指标所占的权值。

那么有那些指标呢？下面就是论文提到的2.0版E-rater着重的指标
1.在语法、用法(usage)、拼写、风格(style)里面存在的33种错误归结到以上四项之一的数量，再除以文章长度，得出四项指标
2.主体句(thesis)，结尾段(conclusion)，三个分论点(three main points)，以及支持论点的论据。

起始分0分，每缺一项扣一分，最低-8分，作为一个指标(Development)。

3.表达每个观点(discourse elements)所用的单词数(称作AEL)。

4.出现的单词种类（包括变形）除以文章单词数
5.根据文章出现的单词属于的“Breland标准词频指数”下属五个等级中的等级评定的词
汇量等级
6.单词的平均字母长度
7.一篇文章和1-6分文章的相似性。

这是通过每个单词在各得分段中的词频与所有单词的平均词频之比，与此单词在一篇文章词频与这篇文章所有单词平均词频之比再通过向量分析得到的(这个向量分析方法的三个提出者里有两个中国人:)) 通俗来将，就是尽量用那些高分文章里出现的单词。

8.文章总长度！
中间的回归分析啊什么的懒得看了(我看到了可爱的条件概率了耶)，也没时间和精力看，就把最后几个表格和大家说一下吧。

有一个表格展现了训练软件时人工评分中各个分值文章在各个指标上的差距。

指标数字越小越好，从1到0。

1-2 主要差在语法(从1到0.39)和拼写(从1到0.46)还有文章长度(1-0.46)上了。

2-3 语言风格(0.70-0.49)，Development(0.76-0.53)，其他相差不多。

3-4 语言用法，development
4-5 5-6 语言风格！还有Development也相差一些。

总体看法：字数在2分以上就不重要了，别太少就行。

语法、语法和拼写在低分段(1-2)跳变，其它呈直线分布，区别不大。

风格和行文是区分度很大的指标。

用法(usage)也很重要，但即使6分也还剩(0.3)
单词平均长度似乎用处不大，6分还剩0.92
那个“向量和余弦分布”什么的我也没仔细看，就不说了。

“重复单词”到6分还剩0.75，所以用一些重复单词还是没太大问题，别太多就行。

“词汇”6分还剩0.68，所以词汇量不高的同学也不用太担心。

最后还给了一个各个指标的权重以及和人工判卷的“可靠性”表其中权重最高的是Development 0.21(这个我不用多说什么了吧) 然后是AEL 0.12(使用长句子并尽量把观点表达得详细一些吧) 然后是风格和单词平均长度都是0.08(我也不清楚具体算法，所以也不清楚长单词有没有用)。

给自己和其它人的备考建议：
1.看北美范文
3.练习写三个论点的长文章。