基于互信息和邻接熵的新词发现算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词语的词频、成词概率、左右邻接熵、邻接变化数等统计特征来 识别新词。基于统计的方法较为灵活,不受领域的限制,易扩 展且可移植性较好,但存在数据稀疏和准确率较低的缺点。基 于规则与统计相结合的新词发现方法[8~11]则是希望融合上述 两种方法的优点,从而提高新词发现的准确率和效率。
摘 要:如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提 出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来 逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新 词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过 ngram方法导致大量重复词串和垃 圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。 关键词:新词发现;互信息;邻接熵;微博语料 中图分类号:TP301.6 文献标志码:A 文章编号:10013695(2019)05003129304 doi:10.19734/j.issn.10013695.2017.11.0745
第 36卷第 5期 2019年 5月
计算机应用研究 ApplicationResearchofComputers
Vol36No5 May2019
基于互信息和邻接熵的新词发现算法
刘伟童1,2,刘培玉1,2,刘文锋1,3,李娜娜1,2
(1.山东师范大学 信息科学与工程学院,济南 250358;2.山东省分布式计算机软件新技术重点实验室,济南 250358;3.菏泽学院 计算机学院,山东 菏泽 274015)
Abstract:Howtoidentifynewwordsquicklyandefficientlyisaveryimportanttaskinnaturallanguageprocessing.Aimingat theproblemsexistinginthediscoveryofnewwords,thispaperproposedanalgorithmforwordfindingnewwordsverbatimfrom lefttorightintheuncutwordWeibocorpus.Onewaytogetacandidatenewwordwasbycomputingthecandidatewordand itsrightadjacentwordmutualinformationtoexpandwordbyword;thereweresomewaystofiltercandidatenewwordstoget newwordsets.Itincludedmethodsincludedcalculatingthebranchentropy,deletingstopwordscontainedinthefirstorlast wordofeachcandidatenewwordanddeletingoldwordsincludedinthecandidatenewwordset.Itsolvedtheproblem that somenewwordscouldnotberecognizedduetothemistakesinthewordsegmentationanditalsosolvedtheproblem thatthe largenumberofrepetitivewordstringsandrubbishwordsstringsgeneratedbythengrammethodwereidentifiedasnewwords. Finally,experimentsverifytheeffectivenessofthealgorithm. Keywords:newworddiscovery;mutualinformation;branchentropy;microblogcorpus
百度文库
0 引言
随着科学技术的迅速发展,人们通过微博来发表个人意见 的情况也越来越常见。大多数的微博都比较随意,非常口语化 且不正规,在这种情况下就会产生许多的网络新词,如“簈丝” “给力”“尼玛”等。在自然语言处理中,新词的出现对于情感 词典的构建、短文本的倾向性分析、中文分词等诸多方面带来 了许多不利的影响,降低了它们的效能。所以,如何高效地识 别新词成为自然语言处理过程中一项非常重要的任务。
目前新词并没有准确的定义,在本文中将未登录词[1]与 新词等同,也就是说新词就是指不在旧词典中的词语。本文使 用的旧词典为第六届中文倾向分析评测(COAE)任务 3中公 开的旧词典资源。
当前新词发现方法共有基于规则的新词发现方法、基于统 计的新词发现方法和基于规则与统计相结合的新词发现方法 三种。基于规则的新词发现方法[2,3]是指利用词性特征、语言 学的构词规则等方面发现新词。新词发现的准确率较高,但可 扩 展 性、灵 活 性 都 比 较 差,而 且 还 会 消 耗 大 量 的 人 力 和 物 力。 基于统计的新词发 现 方 法 [4~7]是 指 通 过 大 量 的 实 验 语 料 计 算
Newworddiscoveryalgorithm basedonmutualinformationandbranchentropy
LiuWeitong1,2,LiuPeiyu1,2,LiuWenfeng1,3,LiNana1,2
(1.SchoolofInformationScience&Engineering,ShandongNormalUniversity,Jinan250358,China;2.ShandongProvincialKeyLaboratory forDistributedComputerSoftwareNovelTechnology,Jinan250358,China;3.SchoolofComputerScience,HezeUniversity,HezeShandong 274015,China)
相关文档
最新文档