书面汉语自动分词及歧义分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第25卷　第4期河南师范大学学报(自然科学版)V ol.25　N o.4　1997年11月J ou rnal of H enan N or m al U niversity(N atu ral S cience)N ov.1997　
书面汉语自动分词及歧义分析
郑延斌
(河南师范大学计算机系,453002,新乡;33岁,男,讲师)
摘　要　歧义现象是自动分词过程中不可避免的现象,本文通过对自动分词过程的分析,总结出书面汉语自动分词中歧义产生的根源,提出处理这些歧义字段的方法.
关键词　分词;切分;歧义字段;知识;词典;规则
分类号　T P391
α
书面汉语自动分词是把汉语材料中汉字字符的序列用计算机切分成词的序列的过程.汉字是方块字,每一个方块汉字都自为一个独立的、完整的书写单元,相互之间有明显的界限,书写时字与字逐一连续等矩离排列,词与词之间没有空格隔开,没有任何区分标志,因此在进行词处理之前,首先要对待处理的汉语语料进行分词处理.这一问题解决的好坏,将直接影响到词处理阶段的后期工作.因此称自动分词是汉语词处理阶段的“瓶颈”,自动分词是汉语信息处理中关键的一环.
1　常用的分词方法介绍
自动分词中使用的分词方法,也称为机械分词方法.最基本的分词有以下3种:
1.1　最大匹配法——MM方法
MM(T he M ax i m un M atch ing M ethod)的基本思想是:假设自动分词词典中的最长词条中汉字个数为i,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找分词词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样一个i字词,则匹配失败.匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,进行新的匹配,如此进行下去,直到匹配成功为止.即完成一轮匹配,匹配出一个词,然后再按上面的步骤进行下去,直到切分出所有词为止.
1.2　逆向的最大匹配法——RMM方法或OMM方法
与MM方法相对应的方法是RMM方法(T he R everse D irecti onalM ax i m un M atch ing M ethod),也称OMM方法.它的分词过程与MM方法相同,不同的是每次是从待处理语料的末尾开始处理,每次匹配不成功时去掉的是前面一个汉字.
1.3　逐词遍历法
该方法是把词典中的词按由长到短的顺序逐个搜索整个待处理材料,直到把所有的词都切分出来为止.
α:1997-06-23.
除了上述3种基本方法外,在分词过程中可以采用其它的一些技巧,这些技巧有时也被称为分词方法,但它们不是纯粹意义的机械分词方法.
[1]中把汉语自动分词方法归纳为以下11种:
最大匹配法(MM 方法);OMM 方法;逐词遍历法;设立切分标志法;OM 方法;有穷多层次列举法;二次扫描法;基于词频统计的分词方法;基于期望的分词方法;联想——回溯法;双向扫描法.
在实际的自动分词系统中,往往是几种方法结合起来使用,以求达到最佳的效果.
2　歧义分析
在分词过程中具有两种或两种以上切分形式的字段称为歧义字段,只有歧义字段才能产生错误切分,衡量一个自动分词系统的指标主要有3个:切分速度,切分精度,系统的可维护性.切分精度则直接反映系统的正确性与科学性,是3个指标中最重要的一个.所以,要提高自动分词的精度,必须有效地处理歧义字段.
2.1　歧义产生的根源分词过程中歧义产生的根源可以归结为以下3个方面:
A )由自然语言中的二义性所引起的歧义,称为第一类歧义;如:“乒乓球拍卖完了”
可以切分成“乒乓球拍卖完了”又可以切分成“乒乓球拍卖完了”.这两种切分形式无论在语法上、语义上都是正确的,只有结合上下文才能给出正确的切分.
B )由计算机自动分词产生的特有歧义,称为第二类歧义;如:“在这种环境下工作是太可怕了”,用计算机切分,可以切分成“在这种环境下工作是太可怕了”,也可以切分成“在这种环境下工作是太可怕了”,而对本句来说,只有第二种切分都正确的.这用人工分词是不可能产生歧义的.
C )由于分词词典的大小而引起的歧义,称为第三类歧义;如:“王小二是一个农民”
,用计算机切分被分为“王小二是一个农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的.“发展社会主义的新乡村”,“新乡”是一个地名,若词典中有该词,则“新乡村”是一个歧义字段.因此,不论词典的大与小都可以产生歧义.
2.2　歧义字段的分类
[2]中把自动分词中的歧义现象分为两类:交集型歧义切分字段,多义组合型歧义切分字段.如:“下工作”可以分为“下工作”或“下工作”,它是一个交集字段.“手指”可以切分成“ 手指 ”或“手指”,它是一个多义组合字段.
[2]中给出了词尾字检验技术,利用此方法,可以找出所有的交集字段.但对于多义组合字段,目前还没有比较好的检验技术,只能通过人工收集,在分词词典中加以歧义标记,然后再利用某些知识来解决.
3　歧义的解决方法
3.1　第一类歧义
这类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理.这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难.若是在词处理的相应阶段,结合对分词阶段未解决的歧义字19第4期郑延斌:书面汉语自动分词及歧义分析
29河南师范大学学报(自然科学版) 1997年
段进行处理,则会起到事半功倍的效果.统计表明,第一类歧义字段只占整个歧义字段总数的1 30以下,因此不必在分词阶段花费巨大的开销来处理它们.
3.2　第二类歧义
目前对它们的处理方法有以下几种:
A)分词知识处理法　这类方法是通过对大量歧义切分字段的研究,发现其中的一些普遍规律,获得知识,并反过来利用所获得的知识来处理歧义字段.
B)联想—回溯法[3]　该方法主要依据规则库处理歧义字段,规则库中包括有语法知识,使用联想机制构造新词汇,利用回溯机制处理歧义.
C)基于词频统计的方法　该方法的基本思想是在分词过程中,依据词频统计的结果,对歧义字段进行处理.频度高的词优先分出.若ABC是交集字段,AB的频度比BC的频度高,则应切分为AB C.若A的频度比C的频度大,则应切分为A BC.
D)邻接约束法[4]　由于句法、语义或习惯用法的限制,或人们为了避免造成阅读上的困难,相邻词之间有一种约束关系,称为邻接约束.如“那里”不能切分成“那里”.
E)基于数学期望的方法　在一个句子中,由于人们说话的习惯和汉语语法及语用规则,一个词的出现对于它后面的紧相随的词有一种期望.根据语法知识和语义知识可把该期望分为结构期望和语义期望.
3.3　第三类歧义
计算机分词中使用的分词词典只能包括一定数量的词,而汉语中词的数量非常多,解决这类歧义目前有两种方法:
A)增加构词知识　如:“他快快乐乐地走了”中的“快快乐乐”词典中可能没有这个词,故该句被错误切分成“他快快乐乐地走了”.“快快乐乐”一词属于AABB构词形式,若系统中有AABB这一条知识,就可以正确切分这一句子.
B)增加临时词典　对于人名、地名等专用名词,词典中只能收集少量,对没有收集的人名、地名可以采用临时词典的形式来解决.有了临时词典后,匹配过程中若分词词典匹配不成功,需要从临时词典中来匹配.
4　分词知识处理法
能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库.虽然对第二类歧义的处理可以采用多种方法,但全面衡量,分词知识处理具有好的效率.此方法的明显优点是:解决歧义问题的方法,独立于自动分词方法(机械分词方法),它的适用性比较强.对分词词典只要求能提供必要的词项信息,故对自动分词的空间复杂度影响不大.再者采用这种方法便于在使用的过程中,采用知识学习的手段,以丰富系统的知识,提高分词的精度.目前所用的分词知识可以分为如下几种:
4.1　构词知识
构词知识用于构造词典中没有的词.如:“花花绿绿的世界”,按照汉语的构词法“花花绿绿”是一个词,但分词词典中不可能包括所有形如AABB的词,故词被错误地切分.
构词知识能够构成如AA、AABB、AAB(AB为词)、ABB(AB为词)、前缀词构成的词、后缀词构成的词等等,有了构词知识后,这类词就可以正确切分.
4.2　规则知识
从歧义字段形成的词与词之间的结构关系和词性关系出发,总结出一些规则来解决它们,这类知识[5]中作了详细说明.
4.3　专用知识
用于正确地解决一个字所形成歧义字段的知识称为专用知识.如:“把”字知识的描述如下:式中的W 为分词词典中词的集合,W D 为动词的集合.
r =把ΑΒ∩把Α∈W ](Β∈W D ]r 1=把 Α Β)∪(Β|W D ∩ΑΒ∈W ]r 1=把 ΑΒ)∪(Β|W D ∩ΑΒ|W ]r 1=把Α Β).
利用此知识可以把“把头抬起来”正确切分为“把头抬起来”,“把儿子给你”正确切分为“把儿子给你”,“请拉好把手”正确切分为“请拉好把手”等等.
并不是分词知识越多越好,由于知识之间的相互影响和顺序不同,就可以有不同的切分效果.因此知识库(或规则库)应是开放的系统,用户可以根据实际需要来进行调整、修改、添加等操作.总之,只要进行研究,完全可在系统中彻底解决第二类、第三类歧义字段.5　第一类歧义字段的处理
对于第一类歧义字段,目前还没有更好的处理方法,可以从下面几个方面入手:①高级的分词知识处理　即在分词过程中使用语义知识、语用知识来解诀.②人工干预分词　在遇到计算机解决不了的歧义时,借助于人工干预来完成,可以大大提高分词的精度,但对分词的速度有影响.③人工分词与计算机自动分词结合　随着词输入技术的发展与运用,汉字输入阶段的输入对象由单个字转变成词,用户在输入的过程中首先对所输入语言文本进行人工分词,然后再把所分的词输入计算机,但由于词输入系统中不可能包括更多的词,加上输入者的知识水平限制,这一阶段的分词不可能完全正确,进入分词阶段后,只需对有歧义的字段来参考输入过程的分词就可以了.这一方法在利用计算进行自动分词的同时,又充利用了用户在文本输入过程中的人工分词工作,对分词系统没有什么影响,但系统的分词精度可以大大提高.
参　考　文　献
1　梁南元,郑延斌.书面汉语自动分词方法和分词模型.微型计算机,1991(3):18
2　梁南元.书面汉字自动分词与一个自动分词系统CDW S .北航学报,1984(4):44
3　李国臣.汉语自动分词及歧义组合结构的处理.中文信息学报,1988(3):32
4　张潮生.邻搠约束事汉语自动分词.I CC IP ’87,1987
5　梁南元.汉语自动分词知识.中文信息学报,1990(2):29
Pr i n ted Ch i nese W ord Auto Segm en ta tion and Am b iguous Phra ses Ana lysi ng
Zheng Yanbin
(D epartm ent of Computer Science ,H enan N o r m al U niversity ,453002,X inxiang )
Abstract Am biguous is the p roduct of auto segm entati on w h ich can no t be p roh ibited ,th rough analysing of auto segm entati on ,th is paper p ropo sed the o riginal of am biguous ph rases in auto segm enta 2ti on and gave the m ethods to deal w ith these Am biguous Ph rases .
Key word segm entati on ;am biguous ph rases ;know ledge ;dicti onary ;rule 39第4期郑延斌:书面汉语自动分词及歧义分析。