基于自然语言处理的主观题智能阅卷技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于自然语言处理的主观题智能阅卷技术
作者:柏雪
来源:《计算机光盘软件与应用》2013年第07期
摘要:本文主要探讨使用自然语言处理技术来实现主观题智能阅卷的方法,使用到的关键技术包括分词、句法分析、词语相似度计算以及句子相似度计算。文章对如何使用这些关键技术来实现主观题智能阅卷系统进行了详细的阐述。
关键词:智能阅卷;分词;词语相似度计算;句子相似度计算
中图分类号:TP391.7文献标识码:A文章编号:1007-9599 (2013) 07-0000-02
随着计算机技术和通信技术的高速发展,计算机已经应用到人们生活中的各个领域。在教育领域中,计算机实现试卷自动评阅是教育系统智能化必备的功能。一方面,计算机智能阅卷能避免人为的误差,能够更客观的反映出评阅结果,保证了阅卷的客观公正性。另一方面,电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力用在教学工作中。
主观题智能阅卷主要采用的技术路线是自然语言处理技术。按照主观题的评分流程,阅卷系统主要分为五个部分:分句、分词、句法分析、词语相似度计算以及句子的相似度计算。
1分句
将答案分句是评分的第一个步骤,分句的粒度大小也将影响评分结果。本文将根据特定的标点符号(句号、问号、分号、感叹号)作为句子的分隔符,将句子分为若干子句。在对参考答案进行分句的时候,需要将之前录入的权值赋值给对应的每个子句。最后题目的得分应该是各子句相似度的加权求和,用S具体计算如式(1):
(1)
Simi表示第i句的相似度,ßi表示第i句的权值,i取值范围为[0,n],n为子句的个数。值得注意的是,参考答案每句话的权重是根据句子结束的标点符号来分配的,因此参考答案录入和学生答题的时候每句话的标点符号必须正确填写。
2分词
由于分词及词性标注对准确率要求较高,如果这两个步骤出现错误,将会对后续步骤产生严重影响。因此本文初步考虑使用已经相对成熟得分词工具来进行分词和词性标注。本文选择的分词工具是中科院计算机研究所开发的ICTCLAS系统,它是最早的中文开源分词项目之一。ICTCLAS提供了无词典分词及词性标注接口。它的分词速度单机可达966KB/S,分词精
确度达到了98.45%。在国内专家组组织的测评中获得了第一名。由于ICTCLAS没有考虑到特定领域的专业名词,常常误把专业名词切分成多个词汇,分词就会出现一定的误差。因此为实现对专业词汇识别,我们需要把这些相邻的被切分的词语重新组合成新词。本文最终采用的是分词工具ICTCLAS结合最大匹配算法来实现分词,即在使用分词工具分好词的基础上,在通过字符串匹配算法将词组重新匹配一次。这种方法大大提高了分词的精确度。
3句法分析
本文采用语言技术平台(Language Technology Platform,LTP)作为句法分析器和谓词识别工具。LTP是哈工大社会计算与信息检索研究中心历史十年开发的中文语言处理系统。它的语义角色标注模型是一种浅层语义分析技术,它可以标注句子中某些短语为给定谓词的论元,并可以识别出句子的谓语中心词。LTP的句法分析是建立在分词和词性标注基础上的。它通过对句子结构的分析,可以识别出句子的谓语动词。在LTP的句法树种,HED标注指向的词语一般可作为句子的谓语动词。
4词语相似度计算
本文采用的是基于《知网》的词语相似度算法。《知网》是董振东先生在1988年提出来的。它是一个人类语言信息处理所必需的世界知识系统,是应用与文本的意义和内容计算的强大工具。《知网》揭示了概念与概念之间的关系以及概念的属性与属性之间的关系。知网中有两个主要的内容:“概念”和“义原”。在《知网》中,一个词语有n个概念,一个概念有n个义原。所有义原按照父子关系形成了一个森林。基于知网的词语相似度计算可以通过计算词语对应概念和义原的相似度得到。
4.1词语的相似度计算。W表示词语,S表示词语的概念,W={S1,S2,…,Sn},其中Sk表示词语W的第K个概念。Sim(W1,W2)表示两个词语的相似度,它的取值是两个词语各概念相似度的最大值,如式(2):
(2)
其中S1i表示词语w1的概念集,i=1…n(n为w1概念的个数);S2j表示词语w2的概念集,j=1…n(j为w2概念的个数)。
4.2概念的相似度计算。计算两个概念之间的相似度,就是计算概念对应义原的相似度,并加权求和。《知网》中的义原共分为四类:第一基本义原、其他基本义原、符号义原、关系义原等。计算两个义原集合相似度有多种方法,如:均值法、Fuzzy运算等。考虑到义原集合中义原先后关系影响不大,因此此处采用的是均值法。如式(3)所示:
(3)
其中S表示义原,Sim1表示第一基本义原相似度,Sim2表示其他基本义原相似度,Sim3表示符号义原相似度,Sim4表示关系义原相似度,ßi(i=1…4)是可调节参数,分别表示四类义原的权重。
4.3义原的相似度计算。概念都是用义原来表示的,因此计算概念的相似度首先要计算义原的相似度。在《知网》中,义原是通过树状的义原层次体系(义原树)来表示。通过计算两个义原在义原树中的距离可以计算两个义原的相似度。用p表示义原,d表示两个义原在义原树中的距离,S表示两个义原的相似度,如式(4)所示:
(为可调节的参数)(4)
5句子相似度计算
在本系统中句子的相似度计算主要分为两个层级:词语级的相似度计算和句子级的相似度计算。词语级的相似度计算采用的是基于《知网》的词语相似度算法。句子级的相似度计算需要通过句法分析对得到句子的各个组成成分,然后根据一定的规则计算出句子的相似度。图1是句子相似度计算的基本思想模型图。
图1句子相似度计算模型
本系统考虑使用基于《知网》的词语相似度算法与句法分析相结合的方法来进行句子的相似度计算。在计算句子相似度时,我们可以将句子的成分划分为三个部分:主语块,谓语中心词和宾语块。用S表示句子,Simi表示句子每个模块的相似度,则计算句子的相似度如式(5)所示:
(5)
6结语
主观题智能阅卷系统的主要优点是评分结果比较客观,不会受到人主观因素的影响,同时使用计算机阅卷的效率远远高于人工阅卷。本论文以自然语言处理技术为基础探讨了实现主观题智能阅卷系统的一些关键技术。对于汉语来说,自然语言处理技术实现难度很大,迄今为止,在国内还没有一个实用化的、能真正实现的主观题智能阅卷系统还没有。推动自然语言处理技术的发展,进一步完善主观题智能阅卷系统将是一个非常重要的课题。
参考文献:
[1]肖雪莲.基于HNC理论的主观题自动批改算法设计与系统实现[D].华东师范大学硕士学位论文,2006.
[2]张玉娟.基于《知网》的句子相似度计算的研究[D].中国地质大学硕士学位论文,2006.