一种消除中文分词中交集型歧义的方法
一种新的汉语词义消歧方法
b t r t e rstr u hP aa ae S cn l , codn e i f h C e e h d o g CR d tb s . e o dy ac r i t t z o eP R, h s o i a wo d l u r e.L sl,a・ Ⅵ m wo h g o h se t t ee t n l r s ' p t nod r at el n o 8e i y
中图分 类号 : P 9 T31 文献标 识码 : A 文章 编号 :05 7 12 0 )3 0 2 4 10 —35 (060 —0 2 —0
Ne Chi s o d S ns s m biu to eho w ne eW r e eDia g ain M t d
YAN n Z Ro g, HAN G e L i
余晓峰等人提出一种简单无指导的词义消歧方法 , 只是单
词与词之间存在着许多优先组合关系。例如, 名词和名词 问紧密的语义联系 , 形容词 和名词组成的特定修饰关系, 动词和名词的固定搭配等。有些多义词 , 其内部 的不同意 义虽然语法功能基本相 同, 但在句中出现时 , 所组合的词
fu d to ff rh rsr cu edsmbg ain. o n in o u te tu tr ia iu t a o
Ke o d : D: rfrn ecmbn t nr l in w r so i i  ̄s lr y o yw r s WS p eee c o i i a o  ̄ o da sca o ao e t t n i a t ;H wNe mi i t
meh d.Thsmeh d i p ssHo to i to o e wNe 8tesma i n wld ers u ,men i ul PCR ewe nwo d .Fisl g tP m ta h e nt k o e g eo me c a whl fl u e y bt e rs rty,e CR
分词中的歧义处理
存在两种切分方案:
/12$ !$ … !" # $ … # $ !3$ … % & ) $$ ) $! /12! !$ … !" !# $ … # $ % $ … % &
’($
56-5( !-$!= ) >$!=:( # -$!= ) >$!=:( % -$!= ) >$!=:!-$!= ; 在此 9 ?@A? 函 数 为 : 7( 56- ) 856-B 9, 9 为 ?@A? 表 的 大 小 , 取 $"""$ 。
,, -) +( ,: -) 5678! 012( 2( ,) 12( -) $!N !""!#$$
计算机工程与应用
$
#
"
’(!
#
!
%
!
$
#
"
#
%
+#!#!
歧义切分
使用文件 ( $) 逆向词典 FGHIF3,#,J,: 逆向词典索引 FGHFGIKJ#,J,: 歧义字段及其切分结果。一个歧义字段一行, LM6LK@G#,J,:
文章编号 $""!0/..$0( !""! ) $$0"$!10".
!"#$%&$’( )*+,-..$/% $/ 0+*1 2-%"-/’$/%
$ 7 34/ 5$+/%6, 28$ 98+/%:8$7 ( 456578986: +;<<878 , =6>?8@A>:B ;C DE>86E8 56F 28EG6;<;7B ;C +G>65 , *8>H>67 $"""/") ! ( I6A:>:J:8 ;C +;9KJ:>67 28EG6;<;7B , +G>68A8 (E5F89B ;C DE>86E8A, *8>H>67 $"""/")
一种消除混合歧义的新方法
一种消除混合歧义的新方法发表时间:2011-12-31T14:57:17.747Z 来源:《时代报告》2011年11月下期供稿作者:朱新维[导读] 由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。
朱新维(合肥学院,安徽合肥 230601)中图分类号:TP311.52 文献标识码:A 文章编号:1003-2738(2011)11-0361-01摘要:由于混合歧义以及交叉歧义的存在,歧义一直是困扰分词技术发展的瓶颈。
本文以含有歧义词语的句子作为研究对象,考虑了由于不同的分词方法导致的共生词语的出现,构建了辨别不同断句方法的公式。
初步试验与例证表明该方法具有较好的灵活性,优于现存技术。
关键词:信息处理;混合歧义;消除歧义;方程一、前言在中文文本信息处理中,自动分词是一项由计算机将完整的句子划分为多个词语单元的技术。
由于分词的精度严重影响了读者对于文本的分析与理解程度,因此该技术在信息处理领域具有一定的重要意义,比如文本分类、文本信息检索以及本文自动总结等。
分词技术的瓶颈是消除歧义,其中包括混合歧义与交叉歧义。
以下列存有混合歧义的句子为例:1.你要考虑你自己的/将来/;市长/将/来/我们学校考察工作。
2.他/才能/有资格获得冠军;人/才/能/推动科技进步。
3.国家的/中长期/计划是指导国家战略发展的计划;这是国际共产主义运动/中/长期/没有解决的一个重大理论问题。
在本文中,综合考虑了多种分词方法所导致的不同结果,例如歧义词“中长期”可以分解为“中”,“长期”或者“中长期”两种不同的结果,在可能的结果与其在文本中前后的词语之间,根据匹配词语的数量构建方程来消除句子中的歧义。
二、相关概念定义1:将连续的字符串分解为多个词语的技术为分词技术,且由不同分词方法导致的词语含义发生变化称为歧义。
三、混合歧义(二)设计原则混合歧义性词语被保留为整体还是分解主要应由词语所在上下文决定。
根据不同分词方法与上下文信息,结合两者的匹配度,确定对词语做何种分词。
中文分词交叉型歧义消解算法
中文分词交叉型歧义消解算法甘蓉【摘要】中文分词是自然语言处理的基础.交叉型歧义是提高中文分词精度的瓶颈之一.文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法.基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果.利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32%、98.14%和98.23%,说明该方法有效可行.【期刊名称】《西华大学学报(自然科学版)》【年(卷),期】2018(037)006【总页数】5页(P32-36)【关键词】中文分词;交叉型歧义;最大匹配算法;PA算法【作者】甘蓉【作者单位】陕西工业职业技术学院汽车工程学院,陕西咸阳712000【正文语种】中文【中图分类】TP391.1中文分词是自然语言处理的基础和关键[1]。
中文分词已经有很多成熟的算法,但是歧义识别和未登录词识别仍是中文分词的2大难点。
其中,歧义识别又分为交叉型歧义和组合型歧义[2]。
对于歧义,许多研究者做了大量的工作。
目前常用的歧义消解算法主要分为2种:规则型歧义消解算法和概率型歧义消解算法。
规则型歧义消解算法主要采用语义、语法、词性等规则对歧义字段进行消歧。
概率型歧义消解算法通常需要统计上下文信息[3](例如使用互信息、N元统计模型、t-测试原理、HMM模型、字标注统计等方法或模型[4]统计上下文信息)从而进行歧义消解。
文献[4]提出了一种基于词频的中文分词歧义消解方法,该方法主要适用于没有上下文的歧义消解。
文献[5]提出了一种针对交叉型歧义无监督的学习方法,并比较了卡方统计量、t-测试差在歧义处理中的效果。
一种有效解决汉语歧义切分的方法
E m i:zO @m l s . ua - a z O9 a .te . lj i u cd n
Z HU in, Ja ZHANG in, ioE etv eh d n r s li g J a LI M a . f c e m t o o e ovn Chn s a iu u e m e tto Co u e gn e ig i ie e mb g o s s g na n. mp tr En ie rn i
摘
要 : 出 了一 种 通 过 有 向 图和 统 计 加 规 则 的 多层 过 滤 方 法 来 有 效 解 决 汉 语 分 词 过 程 中的 交 集 型 歧 义 切 分 问题 , 方 法 大大 提 提 该
高 了切 分 的 正 确 率 。 经过 6 0 5 0字 的 开放 语 料 测试 , 计 了其 对 交 集 型 歧 义字 段 的 切 分 结果 , 现 该 方 法 对 交 集 型歧 义 字段 的 切 0 统 发
分正确率为 9 . %, 84 3 以上 数 据 表 明 该 方 法 在 解 决 汉 语 交 集 型 歧 义 字 段 的 问题 时是 行 之 有 效 的 。
关 键 词 : 向 图 ; 计模 型 ; 则 库 ; 义 字段 ; 字 切 分 有 统 规 歧 汉
文 章 编 号 :0 2 8 3 (0 7 1 - 15 0 文 献 标 识 码 : 中图 分 类 号 :P 9 1 0 — 3 12 0 c r c o e me tt o mb g o s h a e o o e l p e y e e c e 9 . 3 t i te c u a y f s g n a in f r a iu u p r s s f v ra p d t p ra h s 8 4 % ,h s u e p o e t a h s me h d s o n mb r r v s h t t i t o i
基于CFRs模型的交集型歧义消解研究
基于CFRs模型的交集型歧义消解研究作者:尤慧丽来源:《电脑知识与技术》2018年第18期摘要:中文自动分词是中文信息处理的基础,交集型歧义字段的消解又是中文自动分词中的重点。
本文将CRFs模型用于交集型歧义字段的歧义消解中。
该算法将交集型歧义字段的消解任务由二值分类的问题转化为序列标注的问题,这样不仅能处理任意链长的交集型歧义字串,而且能够充分利用上下文环境的信息,在不同的上下文环境中对真歧义字串进行正确的切分。
关键词:中文自动分词;交集型歧义;CRFs模型;序列标注中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0263-021引言汉语词语的切分往往存在歧义,歧义切分是自动分词中一个比较棘手的问题。
歧义切分字段从构成形式上可以划分为交集型歧义切分字段、组合型歧义切分字段和混合型歧义切分字段三种类型。
交集型歧义切分字段是中文自动分词系统中的主要歧义类型,据相关统计,交集型歧义切分字段占所有歧义切分字段的85%以上[1],一直以来是人们研究的重点,本文主要讨论交集型歧义字段。
对消解交集型歧义字段,现阶段主要的方法有:基于词概率模型的歧义消解方法和基于最大熵模型的歧义消解方法等。
文献[2]中提及的方法在一元概率语法模型中简单易行,但参与计算的只有歧义字段内每个词的出现概率,和上下文环境没有关系。
而在二元概率语法模型中虽然能够利用上下文环境信息,但是它存在的最大困难是数据稀疏的问题。
文献[4]将最大熵模型应用于交集型歧义字段的消解任务中,但其消歧准确率不是特别理想。
本文在对现有方法进行深入分析的基础上,采用基于条件随机场模型的算法来解决交集型歧义字段的切分问题。
2预备知识2.1交集型歧义字段的定义定义1:交集型歧义字段:设汉字字符串[S=],其中S不是词,[ci(i=1,2......n)]为单个汉字,如果存在整数[i1],[i2],...,[im], [j1],[j2]…[jm]([m≥2])满足:(1)[w1=ci1...cj1],[w2=ci2...cj2],[wm=cim...cjm]分别构成词,并且S中不存在包含[w1]、[w2]、…、[wm]的词;(2) [w1]、[w2]、…、[wm]相互交叉,即[ik例如: A、资助/的/女童/已/从/小学/毕业/ B、从小/学/书法汉字字符串“从小学”为交集型切分歧义,这里“从小”、“小学”均为词,并构成交叉,所以“从小学”是一个交集型歧义切分字段。
基于关联规则的交集型歧义消解算法
基于关联规则的交集型歧义消解算法
一、算法思想
本算法基于关联规则,采用交集型消解方法,通过对歧义词的上下文进行分析,利用关联规则,从歧义词的候选词中选择最终的歧义解。
二、算法流程
1. 根据歧义词的上下文,确定歧义词的候选词。
2. 根据歧义词的候选词,构建关联规则,计算候选词之间的关联度。
3. 对关联度进行排序,选择关联度最高的候选词作为歧义词的最终解。
三、算法实现
本算法的实现需要借助NLP技术,如词法分析、句法分析等,以及数据挖掘技术,如关联规则挖掘等。
1. 首先,利用NLP技术,对歧义词的上下文进行词法分析和句法分析,得到歧义词的候选词。
2. 然后,利用数据挖掘技术,构建候选词之间的关联规则,并计算关联度。
3. 最后,根据关联度进行排序,选择关联度最高的候选词作为歧义词的最终解。
基于双字耦合度的中文分词交叉歧义处理方法
基于双字耦合度的中文分词交叉歧义处理方法王思力;王斌【摘要】本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法: 首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分.实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法.【期刊名称】《中文信息学报》【年(卷),期】2007(021)005【总页数】5页(P14-17,30)【关键词】计算机应用;中文信息处理;中文分词;双字耦合度;t-测试差【作者】王思力;王斌【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,研究生院,北京,100039;中国科学院,计算技术研究所,北京,100080【正文语种】中文【中图分类】TP391随着中国社会经济的飞速发展以及互联网在中国的普及,互联网上日益增长的中文信息也被越来越多的人所重视。
巨大的商业前景和重要的学术价值,吸引了来自于业界和学术界不同领域的研究人员在中文信息处理这一问题上开展研究。
作为中文信息处理基础的分词技术,已经被广泛应用于中文领域的信息检索、人机交互、信息提取、文本挖掘等技术中。
歧义消除和未登录词识别是当前的分词技术中存在的两大难点。
所谓歧义,是指同一个字符串存在不止一种切分形式。
一般来说,歧义按照结构可以分为两种歧义类型:交集型歧义(交叉歧义)和组合型歧义(覆盖歧义)。
有研究者通过统计发现[1],在这两种歧义结构中,交叉歧义占到了总歧义字段的86%。
因此,目前中文分词中歧义消除工作的重点通常集中于如何消除交叉歧义。
孙茂松等人[2]提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。
其初步实验显示,可以正确处理90.3%的歧义字段。
在此基础上,孙茂松等人又在文献[3]进一步提出将两者线性叠加的新的统计量md,并引入“峰”和“谷”的概念,设计了一种无词表的自动分词算法。
汉语产生歧义的原因和消除歧义的方法
汉语产生歧义的原因和消除歧义的方法2008-06-24 11:56一、产生歧义的原因1.组合层次不同造成歧义。
如:①“我们三个人一组”,可理解为“我们/三个人一组”或“我们三个人/一组”。
②“这份报告,我写不好”,可理解为“这份报告,我/写不好(能力有限)”,也可理解为“这份报告,我写/不好(可能由于身份等因素)”。
2.结构关系不同造成歧义。
如:①“进口彩电”,可理解为动宾关系,也可理解为偏正关系。
②“学生家长”,可理解为并列关系,也可理解为偏正关系。
3.语义不明确造成歧义。
如:①“开刀的是她父亲”,可理解为她父亲是开刀的外科医生,也可理解为他父亲有病,医生给他做了手术。
②“妇女理发店”,可能是由妇女开办的理发店,也可能是以妇女为服务对象的理发店。
③“诗人的风度”,所说的可能是诗人,也可能不是诗人。
4.词类不同造成歧义。
如:①“我要炒肉丝”,“炒”可理解为动词或形容词。
②“饭不热了”,“热”是动词,意即不用热饭了,凉的也可以吃;“热”是形容词,意即饭凉了。
③“他原来住在这里”,“原来”做名词,意即他以前曾住在这里;“原来”做副词,意即没想到他就住在这个地方。
④“县里通知说,让赵乡长本月15日前去汇报”,“前”做形容词,表以前之意,时间范围大;“前”做动词,表往前走之意,则只能在15日这一天去县里。
5.词语含义多解造成歧义。
如:①“躺在床上没多久,他想起来了”,可理解为他想起了什么事,也可理解为他要起床。
②“请吃菜”,“菜”既可指蔬菜,也可泛指菜肴。
③“贸易部已向华北东北调拨物资”,“向”可理解为“从”,也可理解为“给”,表意大不相同。
6.句子成分残缺造成歧义。
如:①大家对护林员揭发林业局带头偷运木料的问题,普遍感到非常气愤。
因为在“揭发”后随意省去一个“的”字,使文意中心可以前移,造成歧义。
既可理解为大家对林业局带头偷运木料一事气愤;也可理解为对护林员揭发这个问题的行为气愤。
加上这个“的”字,中心限制在“林业局带头偷运木料的问题”上,文意就明确了。
消解中文三字长交集型分词歧义的算法
消解中文三字长交集型分词歧义的算法消解中文三字长交集型分词歧义的算法如下:
1、词概率+词性Bigram法,
对S3z=ABC,其切分取作
AB/C,如果f(AB,C)-f(A,BC)>t0;
A/BC,如果f(AB,C)-f(A,BC)<-t0;
未定,如果ûf(AB,C)-f(A,BC)û≤t0.
2、设定六个字表
对S3z=ABC,根据分词语料库对{S03z}的人工切分结果,可搜集到6个关于首字A、中字B、尾字C的字表:
字表L1为切分为单字词频率很高的首字A的集合,
字表L2为切分为单字词频率很低的首字A的集合,
字表L3为与首字A结合成词频率很高的中字B的集合,
字表L4为与尾字C结合成词频率很高的中字B的集合,
字表L5为切分为单字词频率很高的尾字C的集合,
字表L6为切分为单字词频率很低的尾字C的集合
设L是上述任一汉字表,Z是任意汉字,令
RL(Z)=0,Z∈/L;或1,Z∈L.
k1=RL1(A)+RL4(B)+RL6(C),
k2=RL2(A)+RL3(B)+RL5(C).
则常用字分合法可描述为对S3z=ABC,其切分取作
A/BC,如果k1>k2;
AB/C,如果k1<k2; 未定,其它。
一种有效解决汉语歧义切分的方法
一种有效解决汉语歧义切分的方法
朱鉴;张建;李淼
【期刊名称】《计算机工程与应用》
【年(卷),期】2007(043)011
【摘要】提出了一种通过有向图和统计加规则的多层过虑方法来有效解决汉语分词过程中的交集型歧义切分问题,该方法大大提高了切分的正确率.经过65 000字的开放语料测试,统计了其对交集型歧义字段的切分结果,发现该方法对交集型歧义字段的切分正确率为98.43%,以上数据表明该方法在解决汉语交集型歧义字段的问题时是行之有效的.
【总页数】3页(P175-177)
【作者】朱鉴;张建;李淼
【作者单位】中国科学院,合肥智能机械研究所,合肥,230031;中国科学技术大学,信息科学技术学院,合肥,230027;中国科学院,合肥智能机械研究所,合肥,230031;中国科学院,合肥智能机械研究所,合肥,230031
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种面向网络答疑的汉语切分歧义消除算法 [J], 张素娟;郑庆华;胡云华;孙霞
2.基于汉语二字应成词的歧义字段切分方法 [J], 郑德权;于凤;王开涛;赵铁军
3.一种基于多元信息库的自适应汉语歧义切分方法 [J], 朱巧明;温滔;李培蜂;钱培
德
4.基于SVM和k-NN结合的汉语交集型歧义切分方法 [J], 李蓉;刘少辉;叶世伟;史忠植
5.用于大规模语料库建设的一种\r汉语语句切分方法 [J], 吴树兴;张秀琴
因版权原因,仅展示原文概要,查看原文内容请购买。
一种改进的中文分词歧义消除算法研究
20 0 8年 1 0月
合 肥 工 业 大 学 学 报 (自然科 学版)
J OURNAL FEIUNI OF HE VERS TY I OF TECHNOI OGY
Vo . 1 No 1 13 . 0
0c .20 8 t 0
一
种 改进 的 中文 分词 歧 义 消 除算 法研 究
Hee nv r iyo c noo y,Hee 3 0 9,Chia fi i est fTeh lg U fi2 0 0 n)
Ab ta t W i h a i e e o me to f r a i n t c n l g ,t e i f r to n I t r e a e n sr c : t t e r p d d v l p n f n o m t e h o o y h n o ma i n o n e n th sb e h i o
许 高建 , 胡 学钢 路 , 遥 王庆人 ,
20 0 ) 3 0 9 20 3 ;2 合肥工业 大学 计算机与信息学 院, 30 6 . 安徽 合肥
(. 1安徽农业 大学 信息与计算机学 院, 安徽 合肥
摘
要: 随着信息技术 的飞快发展 , 今天的互联 网上信 息 已成 爆炸式增 长 , 本挖掘技 术成为 目前研究 的热 文
中文信 息处 理是 文本挖 掘 重要 的研究 内容 之
一
分词 , 中文信 息处理 的基 础 和前提 。但是 , 是 汉语 言 的复杂性 , 得分 词最后 的结 果不 能尽如 人意 , 使 也就 是 说 产 生 了歧 义 。如 何 最 大 限 度 地 消 除歧 义, 提高分 词 的精度 , 对整个 文本 挖掘 后 面的工 作
消解中文三字长交集型分词歧义的算法
清华大学 计算机科学与技术系; 智能技术与系统国家重点实验室, 北京 100084
文 摘 汉语自动分词在中文信息处理现实应用中占据着 十分重要的位置。 三字长交集型分词歧义是分词歧义的主要 类型之一, 在真实文本中的出现频率相当高。 提出了一种针 对这种分词歧义的消解算法, 回避了训练代价比较高昂的词 性信息而仅仅利用了词的概率信息及某些具有特定性质的 常用字集合。 从一个 60 万字的汉语语料库中抽取出全部不 同的三字长交集型分词歧义共 5367 个作为测试样本。 实验 结果表明, 该算法的消解正确率达到了 92. 07% , 基本可以 满足实用型中文信息处理系统的需要。 关键词 计算语言学; 中文信息处理; 汉语自动分词; 交集 型分词歧义; 分词歧义消解算法 分类号 T P 391
情形 4: 词概率法评价错误、 词性 B ig ram 法评 价也错误的有 558 个 ( 此时词概率+ 词性 B ig ram 法 的评价一定错误) 。 从此结果来看, 简单的词概率法与词概率+ 词 性 B ig ram 法的正确率相差不大, 仅 1. 48% 。由于在 词概率法中加入词性 B ig ram 后仅能解决情形 3 中 的分词歧义, 而这部分分词歧义占总的分词歧义的 比 例本来就较小 ( 232 5 367 = 4. 32% ) , 因此词性 B ig ram 法对词概率法的纠错能力有限 ( 况且词性 B ig ram 法还造成情形 2 中部分词概率法原可正确
孙茂松, 等: 消解中文三字长交集型分词歧义的算法
103
对测试集{S 3z } 进行切分, 可得适用正确率 Γ2 随适用
0
利用常用字分合法对{S 3z } 进行切分: 适用率为
73. 44% , 适用正确率为 92. 87% 。 对应的正确率为 68. 20%.
汉语分词中交集型歧义消解的研究的开题报告
汉语分词中交集型歧义消解的研究的开题报告一、研究背景在自然语言处理中,分词是一项重要的基础性任务,尤其在中文自然语言处理中,分词更是至关重要。
中文分词任务的主要目的是将一个句子或段落分割成有意义的基本单位,也就是词语或词组。
然而,在中文分词中,存在交集型歧义问题,即在某些情况下,同一个字符串可以被划分成不同的词语序列,这就导致了分词结果的不确定性。
例如,“水管工程”的分词结果有两种:水管/工程和水/管工程,这种情况就是交集型歧义问题。
为了解决分词中的交集型歧义问题,许多研究者提出了各种各样的方法,包括基于规则、统计学和深度学习的方法。
但是,目前的方法还存在着一些问题,如覆盖率低、效率低下等。
二、研究内容本研究将主要探究交集型歧义消解的方法,在现有方法的基础上进行改进和优化,以提升分词的准确性和效率。
具体研究内容包括:1. 对现有交集型歧义消解方法进行调研,分析其优缺点以及适用范围。
2. 基于模式匹配和概率模型相结合的方法,对交集型歧义问题进行消解。
3. 实现算法并进行分词实验,分析并比较本研究算法的准确性、效率以及适用范围。
三、研究意义本研究的主要目的是解决中文分词中存在的交集型歧义问题,提升分词的准确性和效率。
具体意义如下:1. 提高中文分词的质量和效率,有助于进一步提升中文自然语言处理的水平。
2. 对于涉及到中文文本处理和自然语言理解的应用领域,例如搜索引擎、语音识别、机器翻译等,拥有一个高质量的分词工具是非常重要的。
3. 帮助企业或机构优化文本处理流程,提升处理效率和准确性,从而加强其在相应领域的竞争力。
四、研究方法本研究将采用以下方法:1. 调研现有交集型歧义消解方法,在了解各种方法优缺点的基础上,选择适合本研究的交集型歧义消解方法。
2. 建立交集型歧义消解算法模型,基于模式匹配和概率模型相结合,提高分词准确性和效率。
3. 实现算法并进行实验,使用语料库和评测工具来评估本研究算法的准确性、效率以及适用范围。
一种基于无监督学习的交集型歧义处理改进方法
一种基于无监督学习的交集型歧义处理改进方法黄鹏;张姝;陈玉华;文斌【摘要】歧义处理是中文分词的难点之一,其中交集型歧义占该类问题的主要部分,而无监督学习可以利用互联网上的无标注语料库来处理该问题.文章将比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验结果表明,所提出的方法能有效进行分词,并提高了交集型歧义消解的性能.【期刊名称】《云南师范大学学报(自然科学版)》【年(卷),期】2015(035)006【总页数】5页(P45-49)【关键词】分词;无监督学习;交集型歧义【作者】黄鹏;张姝;陈玉华;文斌【作者单位】云南师范大学信息学院,云南昆明650500;云南师范大学民族教育信息化教育部重点实验室,云南昆明650500;云南师范大学档案馆,云南昆明650500;云南师范大学信息学院,云南昆明650500;云南师范大学信息学院,云南昆明650500【正文语种】中文【中图分类】TP391分词是中文文本信息处理的基础,它是将一串汉字切分成词的过程.而歧义处理是其中的一个难点,其中交集型歧义占该类问题的90%左右[1].近年来,中文分词算法得到长足发展,目前基于词典和统计相结合的分词方法以及字词联合解码[2],能有效提高分词效率和低频词的发现,并能进行歧义处理和未登录词(Out-Of-Vocabulary,OOV)的识别[3].其中统计方法主要分为有监督学习方法和无监督学习方法[4],有监督学习可以从标注语料中统计更为准确的语言模型、词出现的概率、词类之间的转移概率、发射概率等信息,如:N-最短路径方法[5]、支持向量机[6]、条件随机场[7]、最大间隔马尔科夫网络[8]等,对训练语料来自同领域内的切分歧义消解有优势,其分词效果的F值高达0.95[9],但严重依赖于有标注语料库.无监督学习可通过无标注语料库进行分词,但其F值最高仅为0.85[10].基于这些工作,本文认为随着互联网的发展,可以从网上获取各个领域大规模无标注语料库,结合词典分词与改进无监督学习方法,通过大规模无标注语料库的运用,能有效改善文本分词中所产生的交集型歧义能力.2.1 歧义类型歧义是指中文分词过程中,同一句话可能产生2种及以上的切分方法[11].下面分别定义几种类型的歧义.2.2 交集型歧义识别双向最大匹配法可以发现文本中的交集型歧义,原理是通过正向最大匹配算法(Forward Maximum Matching,FMM)和逆向最大匹配算法(Reverse Maximum Matching,RMM)进行分词[12],通过比较两种分词方法所得出的结果找出交集型歧义.其中正向最大匹配算法基本思想为将文本断句后,从左向右按词典中的最大长度汉字取出字段,通过比较词典中的词,如能匹配则切分出来,如不能匹配则减去最末尾一个字,再重新匹配,直到最后一个字.逆向最大匹配法和正向最大匹配法类似,只是方向不同.2.3 卡方统计量卡方统计量主要用来计算两个字的向关联度,能够有效地解决歧义问题,提高文本分词效果[13].其公式如下2.4 卡方统计量归一化在运用卡方统计量比较两字关联程度时,其值离散化较大,不方便比较,需要进一步归一化将卡方统计量归一化到0到100以内,归一化公式如下通过对民族文化样本库中的文本处理,按照卡方统计量进行处理存在并不能完全准确的情况,如处理字符串“以极大地满足佤族群众”,发现“极大”存在歧义,其卡方统计量为0.101936,如按卡方统计值过小来处理,则“极大”应该断开,但在文中应该连接.2.5 t-测试针对卡方统计量只比较两字之间的相关度,没有比较字与上下文中其他字的相关度,而t-测试[14]可以解决相关问题.对有序字串xyz,汉字y相对于x及z的t-测试定义为:2.6 t-测试差针对t-测试不方便统计两字之间的倾向度,本文采用t-测试差来进行两字间倾向度比较.通过对民族文化样本库中的文本处理,按照t-测试差进行处理存在并不能完全准确的情况.如处理“地区性别比例不合理”字符串,发现歧义字段“例不”,其t-测试差为18.922889,按t-测试差方法进行处理应该连接成词,但在文中正确处理应该断开.2.7 联合卡方统计量和t-测试差通过研究卡方统计量和t-测试差发现,结合卡方统计量两字的相关度和t-测试差上下文关联度的优点,提出了以组合的方式将卡方统计量和t-测试差值进行合并,提高交集型歧义处理能力,其联合公式如下以民族文化类文本构建语料库,该语料库都爬取自互联网上的真实语料信息,民族文化类别包括法律、教育、地理、历史、军事、文化、艺术等,语料库规模大小为7M.实验使用词典方法进行粗分,选用MM进行分词,通过FMM和RMM发现歧义.然后使用卡方统计量和t-测试差以单独和组合的方式对交集型歧义进行处理.词典收录了中文常用词汇,其词汇量达20万条.通过实验发现α的值为10、β值为1/16、C为-3时,歧义处理效果好,其结果如表1所示.根据实验结果可知,“上呈”、“例不”和“与其”的联合值为负应该断开,切分正确;“形成”和“极大”的值为正应该连接,切分正确.故以上结果表明通过联合值能够有效弥补卡方统计量和t-测试差的不足,提升交集型歧义处理效果.运用卡方统计量和t-测试差等方法进行歧义消解后得到样本正确率等方面数据,其结果如表2所示.其中F值是综合召回率和正确率的评估指标:F值=正确率×召回率×2/(正确率+召回率).实验结果表明该方法能够有效地提高歧义处理的效果,在召回率、正确率和F值方面比前3种分词方法都有提升.本文比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验结果表明,提出的方法能有效进行分词,并提高了交集型歧义消解的性能.下一步将研究云计算环境下大规模语料库的处理问题.。
中文分词歧义消除方法和系统[发明专利]
专利名称:中文分词歧义消除方法和系统专利类型:发明专利
发明人:柳艳红,郭祥,郭瑞
申请号:CN201610596761.7
申请日:20160726
公开号:CN106227719A
公开日:
20161214
专利内容由知识产权出版社提供
摘要:本发明实施例提供一种中文分词歧义消除方法和系统,所述方法包括:对待分词语句进行分词,获得初始分词结果;针对初始分词结果,提取分词歧义点;构造包含分词歧义点的新分词,并计算新分词的最大熵模型得分;根据新分词的最大熵模型得分,判断新分词是否为有效分词;用有效分词修正初始分词结果。
本发明实施例克服了现有技术中需要大量训练语料数据和歧义语料库的缺点,分词效果达到实用的精度。
申请人:北京智能管家科技有限公司
地址:101500 北京市密云县经济开发区西统路8号西田各庄镇政府办公楼508室-598
国籍:CN
代理机构:北京思创毕升专利事务所
更多信息请下载全文后查看。
基于双字耦合度的中文分词交叉歧义处理方法
基于双字耦合度的中文分词交叉歧义处理方法
中文分词交叉歧义问题是在自然语言处理领域中,一个相当重要的问题,通过解决交叉歧义可以提高分词效果,进而提高自然语言处理系统的准确性和可靠性。
基于双字耦合度的中文分词交叉歧义处理方法是基于双字耦合度原理,使用词语库中的双字耦合度作为判断指标,以解决中文分词的交叉歧义问题。
其具体的处理方法为,首先,需要将输入的待分词中文句子,进行分词处理,得到分词结果;然后,结合分词结果,查找双字耦合度词库,根据其信息熵计算,求取出双词耦合度最大的作为最终的歧义解;最后,将求取出来的歧义解,应用到分词结果,从而得到最终的中文分词结果。
基于双字耦合度的中文分词交叉歧义处理方法,通过提取双字耦合度信息,来解决中文分词中的交叉歧义问题,具有较强的识别性能。
同时,本方法可以有效提升系统的准确性,让自然语言处理系统更加可靠和准确。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A h i nvrt, ee 20 3 , hn ) n u U iesy H f 30 9 C ia i i
Ab t a t S g n a in a c r c n p e r h wo ma n p fo n n e i d x s o h i e e wo d s g sr c : e me tto c u a y a d s e d a e t e t i e n a c n e e ft e Ch n s r e me t t n s se . c r i g na i y t m Ac o d n o t h u si n o l w p e d p e ii n o e wo d i h r d t n lCh n s r e me tt n, tu e h tu t r it n r f o teq et fs o o s e d a r c s ft r n t e ta i o a i e e wo d s g n a i i s s t e sr c u e dc i a y o n o h i o o d u l—d c e a h me h n s t r n e t e s e d o r e me tt n o b e e k d h s c a im o p o mt p e fwo d s g n i .To i r v h e me tt n a c r c u e t e me o f h a o mp o e t e s g n a i c u a y, s h t d o o h
t e mu a n o mai n t l n t t e o e lp ig a i u t t n ih a p a e n t ema c i g r s l ,t e Ch n s r e me t- h t lif r t o ei a e h v ra p n mb g i sr g wh c p e d i th n e u t h i e e wo d s g n a u o mi y i r h s
to y tm sa h e e Th ys m si p ov n t e s e d a d a c r c o p r d wi e t d to a i e o d s g e t t n l i n s se i c i v d es t e i m r e i h p e d n c u a y c m a e t t r i n lCh n s w r e m n a i a h h a i e o
关键词 : 中文分测 ; 互信 息 ; 交集 型歧 义
中图分 类号 : P 1 T 3 文献标识 码 : A 文章 编号 :6 3 6 9 2 1 ) 5 0 6 — 4 1 7 — 2 X( 0 1 0 — 0 0 0
A e ho bo tRe o i g Ov ra pi g Am b g t M t d a u m v n e lp n i uiy
第2 1卷 第 5期 2 1 年 5月 01
计 算 机 技 术 与 发 展
COMP UI R ECHNOI T OGY D AN DEVE1 MENT OP
Vo121 No. . 5 Ma 201 v 1
一
种 消 除 中文 分 词 中交 集 型 歧 义 的 方 法
O 引 言
高的问题 , 采用 了双层 h s 结 构的 明典机制来 提升分 词 的速 度 , ah 对于匹配 结果 中出现 的交集型歧 义字 段 , 通过 互 信息 的方
法来 消除 , 以提 高分 词精 度 。l对该分 词系 统进 行 实现 。通 过 传 统 的 中文 分词 系 统 的分 词 速度 以及 分 谢效 果 的对 并 比, 发现该 系统 在分 词速 度和精 度上都 有所进 步 , 而取得较 好 的分词效 果。 从
魏博ቤተ መጻሕፍቲ ባይዱ诚 , 爱平 , 王 沙先 军 , 王 永
( 安徽 大学 计 算智 能与信 号处理教 育部 重点 实验 室 , 安徽 合肥 2 0 3 ) 3 0 9
摘
要 : 分速度 和精度 足 中文分词 系统的两 个主要性 能指 标 。针对 传统 的中文 分 浏 [ 出脱 的分 词速 度慢 币 分 词精度 不 切 } J ¨
s se . e e p rme tr s l k h o d p r c p e p o r s . y tm Th x e i n e ut ma e te g o a t i l r g e s s i Ke r s Ch n s r e me tt n; t a n o mai n: v ra p n mb g i y wo d : i e e wo d s g n a o mu u li f r t i o o e lp i g a i u t y
Pr d i g i o ucn n Chi s a c i g ne e M t h n
WE o c e g WA G A - ig S i -u , N n I - hn , N i p ,HA X a jn WA G Yo g B n n
( iit fE u ai n Ke a . fI tl g n mp t g & S g a P o e sn M n s y o d c t y L b o ne l e t r o i Co u i n in l r c si g.