基于SVMTOOL的越南语词性标注
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:当前已有很多种方法用于词性标注,词性标注的本质是序列标注问题。它是信息抽取、信息检索、句法分析、语义角色标注等众多中文自然语言处理任务的基础。本文将基于svm 的svmtool应用到越南语词性标注上。标注集按照越南语的词性和符号共分为28种标注,训练语料包含25万词,实现了的越南语词性注,取得了较好的效果,准确率达到96.01%。
关键词:词性标注;越南语;自然语言处理;svmtool
中图分类号:tp391.1 文献标识码:a 文章编号:1006-4311(2016)20-0159-03
0 引言
词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言处理中一项非常重要的基础性工作[1]。词性标注工作作为老挝语命名实体识别、依存句法分析、词义消歧、语义角色标注等研究工作的重要基础,并且应用于如文本索引、文本分类、语料库加工等众多领域。越南语是一门重要的东方语言,由于其书写形式及本身的词汇构成与英语及汉语呈现相似的一面又具有自己的特点,它采用的是扩展的拉丁符号;在组成上,越南语单音节词居多;在形态上,语法意义是通过语法词等词来实现。以上特点使得越南语与西方语言与东方语言既有相似之处,又有区别。越南语是一种孤立语,动词无变化,词既没有文法上的性别跟数的形式,也没有文法上格的变化,形容词也不需要跟被修饰的名词保持文法上的性、数、格上的一致。它以不变的根词的词序和虚词来表示语法关系。句子的主语在谓语之前,宾语和补语在动词之后,名词修饰语一般在名词之后,但数词、量词修饰语在名词之前。词序或虚词改变后,语义也随之而变。
目前,国内外对中文文本词性标注、欧美国家多种语言的词性标注技术的研究比较成熟[2][3],而对东南亚国家语言,只有越南河内国家大学khong phtrong博士进行过越南语文本处理相关研究,他们使用的方法是最大熵,准确率为95%左右,还有越南国内vlsp课题组进行了相关研究,其词性标注准确率为93%。越南语词性标注面临的难点主要是它属于意合型语言,缺乏词形态变化,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
当前,很多基于统计的方法用于词性标注,如隐马尔科夫模型(hmm)[4],最大熵(me),条件随机场(crf)[5]和支持向量机[6]。其中基于svm的svmtool[7]符合自然语言处理技术的要求,具有简单、灵活、高效等特点。词性标注可以看作是多分类问题。
本文将简单介绍svm原理、如何将二分类器应用于多分类问题中及如何将svmtool应用于越南语词性标注问题。
4 实验结果
在实验中,采用了本文定义的30种词类组成的标注集,语料是从越南语相关网站上获取的包含约30万词,内容涉及政治、经济、文化、地理等题材。在词典数量不变的条件下,分别对5万、10万…30万词的语料进行开放和封闭测试。
4.1 不同规模训练语料实验
在进行封闭测试时,首先分别以5万、10万…25万词的语料进行训练,建立模型,然后从用来训练的语料中取5万词的语料重新进行词性标注,求出每一个句子的最佳词性标注序列,即完成了封闭测试。
在进行开放测试时,先从30万的语料库中抽出含5万词的句子,这些句子不参与训练,用于后面的测试。同样的也是分别以5万、10万…25万词的语料进行训练,并对测试集进行词性标注,从而完成了开放测试。
封闭测试和开放测试准确率与训练语料规模的关系如表2所示。
4.2 不同词性标注方法的比较
本文进行了与最大熵模型的比较。采用的语料是是含25万词的越南语词性标注语料作为训练语料,对含5万词的越南语文本进行标注,实验结果如表3所示。
可以看出最大熵效果的词性标注准确率较低,最大熵的方法是单独对每个词单独进行分类的,无法利用标记之间的联系,而本文的方法可以建立标记之间的关联性。实验表明了本文方法效果较好,证明了本文方法的可行性。
5 结论根据上面介绍的方法,本文已经实现了借助svmtool完成的越南语词性的自动标注,它具有下一步可以考虑加入一些越南语的词语特征来提高越南语词性标注的准确率,还可以进一步对svmtool参数进行调整,来提升准确率。分别以5万、10万…25万词级的语料库作为训练语料,进行了开放和封闭测试,扩大训练语料,标注准确率会提高,标注准确率也有所提高,本文的方法和最大熵词性标注方法进行了比较,由于标注过程中考虑标记之间的联系,本文实现的方法标注准确率较高,达到96.01%。但是与应用系统的要求还有一定的差距。为了提高标注系统的正确率,需要进一步研究如何在标注过程中融入越南语的词语特征。