基于领域词典的动态规划分词算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第43卷第1期 2019年2月
南京理工大学学报
Journal of Nanjing University of Science and Technology
V o l.43 N o.l
F eb.2019
基于领域词典的动态规划分词算法
蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛
(昆明理工大学信息工程与自动化学院,云南昆明650504)
摘要:由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模
型(H id d e n M arkov m o d e l,H M M)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领
域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了 一种基于领域
词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法
可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于
领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传
统的sm a lls e g分词、s n a ils e g分词算法相比,分词召回率和准确率都有提升,分词召回率提升了
大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适
应性。
关键词:动态规划;词典;领域适应性;隐马尔可夫模型;召回率;准确率;中文分词
中图分类号:T P391 文章编号:1005-9830(2019)01-0063-09
DOI :10.14177/j.c n k i.32- 1397n.2019.43.01.009
D y n a m i c p r o g r a m m i n g w o r d segmentation algorithm
based on domain dictionaries
J ia n g Weili,Chen Zhenhua,Shao Dangguo,M a Lei,Xiang Yan,
Z h en g Na,Yu Z h e n g ta o
(School o f In fo rm a tio n E ngin ee rin g cind A u to m a tio n,K u nm ing U n ive rsity o f Science
and T ech no log y,K u nm ing650504,C h in a)
收稿曰期:2018-01-30修回曰期:2018-12-11
基金项目:博士后基金(2016M592894XB);云南省科技厅面上项目(KKS020*******);国家自然科学基金(61741112);云南省自然科学基金(2〇r7FB098)
作者简介:蒋卫丽(1995-),女,硕士生,主要研究方向:数据分析,E-mail: 1379252229@;通讯作者:邵党国(1979-),男,博士,主要研究方向:图像处理、自然语言处理、数据挖掘、机器学习,E-mail:huntersdg@
。
引文格式:蒋卫丽,陈振华,邵党国,等•基于领域词典的动态规划分词算法[J].南京理工大学学报,2019,43(1): 63-71.
投稿网址:http ://
64南京理工大学学报第43卷第1期
Abstract :Due to the Chinese w ord segm entation c o m p le x ity,d iffe re n t expertise fie ld s have its le x ic a l stru ctu re s.T his paper com bines sougou dom ain d ic tio n a ry to construct dom ain d ictio n a ry v ia C hinese segm entation o f the h id d e n M arkov m odel(H M M)fo r in itia l segm entation in te xt message.It m onitors the appearance o f new w o rd s,optim izes and updates them in tim e,and proposes a dynam ic program m ing based on dom ain d ic tio n a ry.B y segm enting the in fo rm a tio n in a sp e cific fie ld,it is v e rifie d th a t the w ord segm entation a lg o rith m proposed here can o bta in h ig h e r accuracy and re c a ll rate o f w ord segm entation.The results show th a t com pared w ith the d ictio na ry-b ase d w ord segm entatio n £ilg o rith m,th is a lg o rith m has im proved the w ord segm ent re c a ll rate and pared w ith the tra d itio n a l sm allseg w ord segm entation and snailseg w ord segm entation a lg o rith m,the dynam ic d ic tio n a ry segm entation a lg o rith m based on dom ain d ictio n a rie s has im proved w ord segmenta tio n re c a ll rate and accuracy ra te.The w ord segm entation re c a ll rate is increased b y approxim ately 1%,and the w ord segm entation accuracy rate is increased b y approxim ately 8%. T h is dem onstrates th a t th is paper a lg orith m has good fie ld a da pta tio n.
Key words:dynam ic p ro gram m in g;d ic tio n a ry;dom ain a d a p ta b ility;h id de n M arkov m o d e l;re c a ll ra te;accuracy ra te;C h in e se w ord segm entation
汉语以字作为最小单位的特点,使得所有基 于中文的自然语言处理中,都必须在汉字字符串 组成的句子被准确识别成词序列之后,才能进一 步地展开。因此,要研究中文语言处理技术,就必 须先解决中文分词问题。中文分词的目标就是将 一个汉字序列切分成一个一个单独的词,如“我 是一名研究生”这条短语正确的中文分词应为 “我/是/ 一名/研究生”。要实现这一目标,就要 求计算机识别并理解人类的语言,而分词正是让 计算机理解人类语言的第一步。总之,中文分词 可以说是中文信息处理领域的基础瓶颈问题,对 其进行相关的研究也很有实际意义[1]。在中文 句子中,汉字与汉字之间的组合可以构成词语[2],词语长短不一[3],并存在词语有切分歧义 的问题。切分歧义是指在对一个中文句子进行分 词时可能产生不同的切分形式[4],这两者都会给 分词造成困难。在分词系统中,未登录词的识别 也是一个很重要的问题。未登录词指的是在词典 中没有出现的词语[5]。
基于词典的分词方法[6](又称机械分词)是 经典的中文分词技术,其优点是分词的速度比较 快、效率比较高,分词的过程[7]可以转化为与词 典中的词语相匹配的过程,实现也相对容易,但是 如果把基于词典的分词方法应用到某具体领域,由于领域专业词汇的变化,导致许多语料出现了 领域词汇,使得未登录词识别问题[8]成为跨领域 分词的一个关键问题。同时,由于领域的改变引 起上下文变化,直接导致已登录词的处理能力下降。
有色金属行业是中国重要的经济支柱产业,我国拥有丰富的有色金属矿产资源,有色金属及 其合金产品是机械制造业、建筑业、电子工业、航 空航天、核能利用等领域不可缺少的结构材料和 功能材料。互联网中存在大量的有关有色金属矿 产资源、有色金属产品生产企业、有色金属行业协 会、有色金属产品工艺流程、有色金属行业职能部 门、有色金属产品等方面的冶金文本信息。所以 对冶金领域的信息进行分词有着重要的价值与意 义,但是由于传统的基于词典的分词方法[9]存在 着上述缺陷,本文通过对经典的分词算法和词典 结构进行分析和研究,提出了一种高效的分词算 法。通过采用领域词典的分词算法[1°]对专业领 域分词构建出新的词典结构,进一步使用专业领 域词典对动态规划的分词算法进行改进从而构建 出一种基于领域词典的动态规划分词算法,算法 中增加与专业领域相关的未登录词的数量来改善 中文分词的领域适应性,能更有效地识别词语,切 分出一些不是词语的字符串,也具有相对较好的 歧义识别能力,从而有效改善跨领域中文分词的