一种新的汉语词义消歧方法
汉语产生歧义的原因和消除歧义的方法
汉语产生歧义的原因和消除歧义的方法2008-06-24 11:56一、产生歧义的原因1.组合层次不同造成歧义。
如:①“我们三个人一组”,可理解为“我们/三个人一组”或“我们三个人/一组”。
②“这份报告,我写不好”,可理解为“这份报告,我/写不好(能力有限)”,也可理解为“这份报告,我写/不好(可能由于身份等因素)”。
2.结构关系不同造成歧义。
如:①“进口彩电”,可理解为动宾关系,也可理解为偏正关系。
②“学生家长”,可理解为并列关系,也可理解为偏正关系。
3.语义不明确造成歧义。
如:①“开刀的是她父亲”,可理解为她父亲是开刀的外科医生,也可理解为他父亲有病,医生给他做了手术。
②“妇女理发店”,可能是由妇女开办的理发店,也可能是以妇女为服务对象的理发店。
③“诗人的风度”,所说的可能是诗人,也可能不是诗人。
4.词类不同造成歧义。
如:①“我要炒肉丝”,“炒”可理解为动词或形容词。
②“饭不热了”,“热”是动词,意即不用热饭了,凉的也可以吃;“热”是形容词,意即饭凉了。
③“他原来住在这里”,“原来”做名词,意即他以前曾住在这里;“原来”做副词,意即没想到他就住在这个地方。
④“县里通知说,让赵乡长本月15日前去汇报”,“前”做形容词,表以前之意,时间范围大;“前”做动词,表往前走之意,则只能在15日这一天去县里。
5.词语含义多解造成歧义。
如:①“躺在床上没多久,他想起来了”,可理解为他想起了什么事,也可理解为他要起床。
②“请吃菜”,“菜”既可指蔬菜,也可泛指菜肴。
③“贸易部已向华北东北调拨物资”,“向”可理解为“从”,也可理解为“给”,表意大不相同。
6.句子成分残缺造成歧义。
如:①大家对护林员揭发林业局带头偷运木料的问题,普遍感到非常气愤。
因为在“揭发”后随意省去一个“的”字,使文意中心可以前移,造成歧义。
既可理解为大家对林业局带头偷运木料一事气愤;也可理解为对护林员揭发这个问题的行为气愤。
加上这个“的”字,中心限制在“林业局带头偷运木料的问题”上,文意就明确了。
一种基于概念关联式的词义消岐方法
一种基于概念关联式的词义消岐方法
缪建明;张全
【期刊名称】《计算机科学》
【年(卷),期】2010(037)001
【摘要】词义排岐是自然语言处理中最关键也是最困难的问题之一,至今仍没有得到完全有效的解决.在研究HNC表达汉语知识的基础上,提出了一种基于概念关联
式的汉语词义消歧方法,用于处理汉语的歧义字段.该方法综合了词语概念的层次性、网络性、结构性特征,用一种统一的表示式来规范这类特征,解决了多个不同概念之
间的知识关联表示问题.实验对20个汉语高频多义词进行了测试,平均正确率为94%,验证了该方法的有效性.
【总页数】3页(P208-210)
【作者】缪建明;张全
【作者单位】中国科学院声学研究所,北京,100190;中国科学院声学研究所,北
京,100190
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种基于多义词向量表示的词义消歧方法 [J], 李国佳;赵莹地;郭鸿奇
2.一种基于Perl的词义消岐方法研究与设计 [J], 史海峰;施静
3.一种改进的基于语义的词义消歧方法 [J], 王贤川;曾敏;王小宁;朱雪波;李洪波;刘
巧
4.一种基于PageRank算法和知网的词义消歧方法 [J], 李永亮;黄曙光;鲍蕾
5.一种基于多义词向量表示的词义消歧方法 [J], 李国佳;赵莹地;郭鸿奇;;;
因版权原因,仅展示原文概要,查看原文内容请购买。
句子语境中汉语同形异音词的歧义消解
句子语境中汉语同形异音词的歧义消解汉语中的同形异音词简单来说就是指同样的形状或字形但是却有不同的音节和含义的字词。
这类词语,因为音节的不同而造成了很多语言学上的歧义,造成了很多不必要的误解或者误会。
因此,对于这类词的消解问题是经常被讨论的一个问题。
本文将介绍汉语中的同形异音词的歧义消解及其相关案例。
一、歧义消解的概念和重要性歧义消解是指在一个句子中,根据上下文的含义,消解语句中句子成分存在的歧义。
在汉语这个相当特别的语言中,因为存在同形异音的词语,在造句时经常会出现歧义。
而歧义的存在,则会让人们产生误解和其他不必要的问题。
歧义的消解,就是避免和纠正这类问题,确保交流无障碍,避免出现不必要的误解和误会。
歧义消解的重要性在于,在正常的人际交流中如果存在歧义,会产生不必要的误解和问题,并对交流造成困扰,影响交流的质量和效果,降低沟通的效率,而在商业活动中甚至可能对业务产生损失或者错失商机。
因此,对于同形异音词的消解问题,应引起足够的重视。
二、同形异音词的例子及其歧义消解方法1. 会会是一个同形异音词,可以表示会议、会员、能力等。
当“会”字在语境中出现时,应该结合上下文具体含义来理解。
比如:我今天有个会。
- 会指的是会议我是一个书法会的会员。
- 会指的是组织他数学很好,只要学一遍就会了。
- 会指的是能力2. 行行,可以表示走,可行性、行业等。
同样的,行在语境中的具体含义要根据上下文情况而定。
比如:我明天不行,有事情要处理。
- 行指的是能否做某件事情这份合同还可以行吗?- 行指的是可行性评估他是从事IT行业的。
- 行指的是职业方向3. 坐坐是一个很容易产生歧义的同形异音词,可以表示做、坐在上面等。
比如:我坐在沙发上看电视。
- 表示坐在上面今天有事,去公司坐了一天。
- 表示在公司工作别坐着不动,出去散散步。
- 表示停留在某个地方4. 挂挂可以表示衣服、电话或者情绪等,这也是一个同形异音词的例子。
比如:他挂了电话之后就立刻进入了工作状态。
一种改进的汉语全文无指导词义消歧方法
第36卷第1期自动化学报Vol.36,No.1 2010年1月ACTA AUTOMATICA SINICA January,2010一种改进的汉语全文无指导词义消歧方法李旭1刘国华1张东明2摘要针对现存的基于EM(Expectation maximization)迭代的无指导词义消歧方法收敛缓慢、计算量大的问题,利用互信息和Z-测试结合的方法选取特征,并通过一种统计学习算法估算初始参数值.实验结果表明改进方法有效地提高了汉语词义消歧的准确率,具有良好的扩展性和实用性.关键词词义消歧,无指导学习,特征提取,参数估计DOI10.3724/SP.J.1004.2010.00184An Improved Word Sense Disambiguation Method for Chinese Full-words Based onUnsupervised LearningLI Xu1LIU Guo-Hua1ZHANG Dong-Ming2 Abstract The existing word sense disambiguation methods based on expectation maximization(EM)unsupervised learning need a large amount of computation and converge slowly.To address the problems,an improved method is proposed,which makes use of mutual information theory based on Z-test to select features and uses a statistical learning algorithm to estimate initial parameter values.The experimental result shows that the proposed method improves effectively the precision of word sense disambiguation and has good expansibility and practicability. Key words Word sense disambiguation,unsupervised learn-ing,feature extraction,parameter estimation词义消歧是解决如何在给定上下文语境中确定多义词义项的问题,属于自然语言理解的底层研究[1].实用高效的词义消歧方法会对包括机器翻译、文本分类、自动文摘、信息检索、文本挖掘等在内的许多自然语言问题的研究和应用产生很大的帮助.近几年,国内外研究人员将统计学和机器学习引入到词义消歧的处理中,提出基于语料库的统计方法.基于语料库的词义消歧方法根据训练语料事先是否经过人工标注又可分为有指导机器学习和无指导机器学习两类.基于有指导机器学习的词义消歧方法需要对训练语料中的词语进行词义标记,在词义消歧问题中取得了较好的效果,但是该类方法为了克服数据稀疏问题,获得更好的学习和消歧效果,必须建立大规模的标注语料库.而标注语料库的获得需要耗费代价高昂的人工,很难实现基于大规模标注语料的有指导词义消歧工作,客观上也限制了该类方法的推广和应用[2].基于无指导机器学习的词义消歧方法不需要知道训练样本的词义类别,不依赖于人工标注的语料,可以实现大规模真实语料的训练和学习,能够有效地克服数据稀疏问题.收稿日期2008-11-06录用日期2009-05-06Manuscript received November6,2008;accepted May6,2009国家自然科学基金(60773100)资助Supported by National Natural Science Foundation of China (60773100)1.燕山大学信息科学与工程学院秦皇岛0660042.秦皇岛职业技术学院秦皇岛0661001.College of Information Science and Engineering,Yanshan Uni-versity,Qinhuangdao0660042.Qinhuangdao Institute of Technol-ogy,Qinhuangdao066100基于无指导机器学习的词义消歧方法通过一个训练语料利用EM(Expectation maximization)迭代算法对歧义词的上下文进行聚类,利用聚类的结果对歧义词进行词义消歧[3].利用现存的无指导词义消歧方法时,存在两个问题:1)在词义聚类时没有选择特征,它把歧义词所在句子中所有的上下文词语作为特征变量,因此计算量大并且收敛缓慢;2)以任意值初始化概率模型中的参数.如果初始化参数选择不当,将导致一个不佳的估计结果[4].针对以上问题,提出了一种改进的汉语全文无指导词义消歧方法,利用互信息和Z-测试结合的方法选取特征,并通过一种统计学习算法估算EM迭代的初始参数值.1改进的汉语全文无指导词义消歧方法1.1特征提取词义消歧需要从上下文中获得词义知识,但是并不是所有的上下文词语都对歧义词词义变量的取值有约束.词语之间的固定搭配有强弱之分,词义之间的约束力也有大小区别.因此有必要按照约束力的强弱对候选特征词加以区别,选择信息更丰富的词语作为特征词[5].本文方法从上下文词语与歧义词的搭配关系出发,借鉴李涓子提出的互信息和Z-测试结合的思想[6]选取特征.信息论中的互信息可以作为描述搭配强度的物理量,在词义消歧的特征选择中,如果某一上下文词语与歧义词的互信息较大,说明该词语对歧义词有表征意义.互信息的计算公式见式(1),其中w和w j分别表示歧义词和某一上下文词语,p(w)和p(w j)分别表示词w和w j在语料库中出现的概率,p(w,w j)表示词w和w j在语料库中的共现概率.M为语料库的大小,f(w)和f(w j)分别表示词w和w j在语料库中出现的次数,f(w,w j)表示词w和w j在语料库中的共现次数.I(w,w j)=log2p(w,w j)j=log2Mf(w,w j)j(1)当I(w,w j)>>0时,说明w和w j关联强度大,因此w 和w j可作为特征.虽然互信息可以作为描述搭配强度的物理量,但是,如果特征选择直接确定选择互信息大于某一阈值的上下文信息为特征时,则对不同互信息的分布,设定的阈值也不应该相同,这样,算法难以操作.而Z-测试都可以将互信息的分布进行标准变换,将其变换为标准的正态分布,这样,不论互信息如何分布,都可以使用统一的阈值进行求解[6].根据概率论可知,借助于一个线性变换,可以将一般的正态分布转化成标准正态分布,即若X∼N(µ,σ2),则Z=(X−µ)/σ∼N(0,1)[7].对互信息的分布进行标准变换,将其变换为标准的正态分布.对于每个歧义词w,计算w 的互信息均值、均方差和Z值的公式分别见式(2)∼(4).E=1nni=1I(w,w j)(2)D=1nni=1(I(w,w j)−E)2(3)Z=I(w,w j)−E√D(4)如果Z值大于阈值,则w j与w为选出的一个特征.根据概率论中的“3σ法则”可知:正态分布在区间(−3,+3)1期一种改进的汉语全文无指导词义消歧方法185内,其整个概率覆盖度可达99.74%[7].因此,阈值在(−3,+3)内进行取值.阈值越大,选择出的特征对歧义词的表征意义越大.1.2初始参数估计无指导词义消歧方法使用的是没有词语词义标注信息的生语料.一般认为不能从生语料中获取词义知识.其实不然,生语料中仍然包括很多可挖掘的词义信息,歧义词的词义分布可以通过估算近似地获得[8].由于生语料中歧义词的词义分布是未知的,根据信息论中的最大熵原理,对于未确定的分布,应该采取均匀分布[9].因此假定在某一特定上下文环境中,歧义词w的每一个词义出现的机会均等,在统计上它们的频次相等.在具体的机器学习中,这种均匀分布是短暂的、很不稳定的状态,很容易被打破.在统计句子中的某一个词语时,它的词义虽然采取了均匀分布,但是语料中会有很多词语具有某些相同的语义,这些词义以不同的频率重复出现.这将导致最终的统计结果中歧义词的词义分布不再均匀,而这种不均衡正是真实文本的自然表现[10].因此,可以利用该思想,在生语料中估算歧义词的词义分布,并且根据统计学中的大数定理可知,语料的规模越大,估计分布越接近于真实分布.估算初始参数的统计学习算法如下.输入:训练语料.输出:词义分布.步骤1.利用HowNet[11]构造语料中词语的词义向量.步骤2.为参数建立(M+1)×(N+2)二维表,其中行数M等于不同的定义项数,列数N为词语的总个数.第2列记录每个词义出现的次数f(s i),第3列到N+2列记录词义s i同其上下文词语w j共现的次数f(s i,w j),其中0<i≤M,0<j≤N.进行统计学习前,表中的各元素用0进行初始化.构建的二维表如表1所示.表1词频二维表Table1Table of word frequenciesSense f(s i)f(s i,w1)···f(s i,w n)Sense1f(s1)f(s1,w1)···f(s1,w n)Sense2f(s2)f(s2,w1)···f(s2,w n). . .............Sense k f(s k)f(s k,w1)···f(s k,w n). . .............Sense m f(s m)f(s m,w1)···f(s m,w n)步骤3.在训练语料中统计.对于歧义词w,令它的词义为{s1,s2,···,s i},上下文出现的词语为{w1,w2,···,w j},其中0<i≤M,0<j≤N.如果w在句子中出现1次,则词语w在表中对应的i个词义的出现频度都加1/i,表中对应的j个上下文出现的频度都加1/i.步骤4.统计完成后,根据式(5)和(6)估算各个词义分布.p(s i)=f(s i)mi=1f(s i)(5)p(w j|s i)=f(s i,w j)f(s i)(6)步骤5.算法结束.举例说明估算EM迭代初始参数的统计学习算法的执行过程.假设“剽窃”和“抄袭”是训练语料中的两个词语,现在存在3个搭配分别为:“剽窃论文”、“抄袭论文”和“抄袭思想”,其中“论文”和“思想”分别为与“剽窃”和“抄袭”的义项共现的上下文词语.对“剽窃”和“抄袭”的词义分布估计如下所示.步骤1.利用HowNet查询词语的义项.“剽窃”只有一个义项:G−C=V,DEF=steal|偷.“抄袭”有3个义项,分别为:G−C=V,DEF=attack|攻打,military|军;G−C=V, DEF=imitate|模仿;G−C=V,DEF=steal|偷,#copy|抄写.步骤2.由步骤1可知,“剽窃”和“抄袭”具有共同的义项“steal|偷”.构建二维表,其中包括3个义项,2个上下文词语,各元素初始化为0.令表中的义项s1=steal|偷, s2=attack|攻打,s3=imitate|模仿,上下文词语w1=论文, w2=思想.步骤3.对语料进行统计.对于“剽窃论文”来说,因为“剽窃”只有一个义项,因此只需将f(s1)加1,f(s1,w1)加1.对于“抄袭论文”来说,“抄袭”有3个义项,根据最大熵原理f(s1)=f(s2)=f(s3)=1/3.因此将f(s1)、f(s2)和f(s3)加1/3,同时将f(s1,w1)、f(s2,w1)和f(s3,w1)均加1/3.“抄袭思想”的处理过程与“抄袭论文”相同.统计结果如表2所示,其中i=1,2,3.表2对实例的统计结果Table2Statistical result for the exampleSense f(s i)f(s i,w1)f(s i,w2)s1=steal|偷534313s2=attack|攻打231313s3=imitate|模仿231313步骤4.根据式(5)和(6)估算词义分布.计算结果如下: P(s1)=0.555,P(s2)=0.222,P(s3)=0.222.P(w1|s1)= 0.8,P(w2|s1)=0.2,P(w1|s2)=0.5,P(w2|s2)=0.5, P(w3|s1)=0.5,P(w1|s1)=0.5.1.3改进方法的词义标注过程改进方法的词义标注过程如下.步骤1.预处理:去掉语料库中的虚词和停用词,免得造成噪声干扰.步骤2.根据词典定义对单义词直接标注词义.步骤3.对类别歧义词进行消歧:根据词典定义和词语词性的对应关系标出正确的词义标记.例如“被”在词典定义中标注两个定义项,作为名词时表示一种床上用品,作为介词时表示被动语态.如果在给定的句子中,通过分词和词性标注后,“被”标注为介词,则可以排除其作为名词时的词义,确定在该句子中“被”表示为被动语态.步骤4.利用HowNet对歧义词标注所有可能的词义.步骤5.特征提取:计算歧义词与上下文词语的互信息,并利用Z-测试把互信息的的分布变换为标准的正态分布,使用统一的阈值进行特征选择.步骤6.通过统计学习算法估算初始参数.步骤7.利用选择的特征集合和估算出的初始参数进行EM算法的迭代计算,得到词义聚类结果.举例说明.假设给定文本中的一个歧义词w,为了确定该歧义词在给定上下文语境中的义项S,其中S为隐性变量,需要利用EM算法对词义进行聚类.令F1和F2表示二维离散的特征变量,并且每维特征变量有2个可能的取值.假186学报36卷定数据样本(F1,F2,S)的10组观察结果为:(1,2,?),(1,2,?),(2,2,?),(2,2,?),(1,2,?),(1,1,?),(1,1,?),(1,1,?),(1,2,?),(2,2,?).对数据样本进行无指导词义消歧的聚类过程如下.首先利用统计学习算法估算初始参数值,并利用式(7)和(8)计算参数估计,其中f(S)表示样本中隐性变量S出现的频度,N表示数据个数.f(F i,S)表示样本中第i维特征向量与隐性变量S共现的频度.ˆp(S)=f(S)N(7)ˆp(F i|S)=f(F i,S)f(S)(8)第1次迭代的E-step和M-step结果如图1所示.图1第1次迭代E-step和M-stepFig.1E-step and M-step of iteration1利用第1次迭代的M-step结果可以得到ˆp(S|F1,F2)估计,估计结果见图2,每一组观察的最大估计用粗体表示.举例说明,根据上一步的结果可以计算出ˆp(S=1)׈p(F1=1|S=1)׈p(F2=1|S=1)=0.075,ˆp(F1=1,F2=1,S)=0.225,因此有ˆp(S=1|F1=1,F2=1)=0.075÷0.225=0.333.以此类推.图2第2次迭代前ˆp(S|F1,F2)的估计结果Fig.2Estimation forˆp(S|F1,F2)before iteration2EM算法取S值为在给定上下文中能够观察到的歧义词词义概率的最大值,见式(9).S=arg maxSˆp(S|F1,F2,···,F n−1,F n)(9)例如(F1=1,F2=1,S=?)是样本空间中的一个数据,根据图2可知,ˆp(S=3|F1=1,F2=1)=0.444,ˆp(S=2|F1=1,F2=1)=0.222,ˆp(S=1|F1=1,F2=1)=0.333.ˆp(S=3|F1=1,F2=1)值最大,因此取S值为3.用估计后的S值更新样本,并且利用更新后的数据重新计算边缘事件的期望值.第2次迭代的E-step和M-step结果见图3.图3第2次迭代E-step和M-stepFig.3E-step and M-step of iteration2在第2次迭代结束之后,检查参数估计集合Θnew是否收敛于第1次迭代参数集合Θold.根据以上分析可知:Θold={0.4,0.4,0.2,0.75,0.25,0.50,0.50, 1.00,0.00,0.25,0.75,0.25,0.75,0.50,0.50},Θnew={0.4,0.3,0.3,1.00,0.00,0.00,1.00,1.00,0.00,0.00,1.00,0.00,1.00,1.00,0.00}.令 =0.01.此时2个估计集合Θnew和Θold的差值大于 值,因此,需要进行第3次迭代计算.第2次迭代过程与前两次迭代过程相同.通过计算可知,第3次迭代结果与第2次迭代结果相同,参数估计集合的差值为0,说明参数估计收敛,因此最后分配的隐性变量S值如下:(1,2,1),(1,2,1),(2,2,2),(2,2,2),(1,2,1),(1,1,3),(1,1,3),(1,1,3),(1,2,1),(2,2,2).因此可知事件(F1=1,F2=2)属于类1,事件(F1=2,F2=2)属于类2,事件(F1=1,F2=1)属于类3.2实验实验的训练语料来源于经过了词语切分和词性标注的人民日报基本标注语料库.测试集为500条句子,包含4426个中文词,其中多义词1943个,平均每个多义词具有词义3个左右.把对500条句子进行人工词义标注和校对的结果作为标准评价语料.分别采用3种方法进行对比实验.实验1采用现存的无指导词义消歧方法;实验2在现存无指导词义消歧方法中加入特征提取步骤,利用互信息和Z-测试结合的方法选择特征;实验3采用改进的汉语全文无指导词义消歧方法,不仅加入特征提取步骤,还利用统计学习方法估算初始参数值.词义消歧的准确率按照式(10)计算,其中N1表示标注的正确词义数,N2表示实际标注的词义数,P recision表示准确率.P recision(%)=N1N2×100%(10)为了探讨训练语料的规模对测试结果的影响,分别使用规模递增的6组语料作为训练数据.3种方法的词义消歧准1期一种改进的汉语全文无指导词义消歧方法187确率如图4所示.图43种方法的实验结果Fig.4Experimental results of the three methods由实验数据可以看出,方法2在方法1的基础上增加了特征提取步骤,效果十分显著,这证明了特征提取对无指导词义消歧的作用很大.特征提取步骤的执行一方面减少了计算量,降低了方法的时间复杂度,另一方面消除了一些噪声的影响,提高了词义消歧的准确率.方法3又在方法2的基础上增加了初始参数估计的步骤,从实验结果可以看出,方法3的准确率要高于方法2的准确率,说明估计EM 迭代的初始参数,对于提高词义消歧方法的准确率也有效果.从实验数据可以看出,3种词义消歧方法的准确率都随着训练语料的增大而提高,这说明大规模的训练语料对于改善方法的词义消歧性能有利.训练语料的规模越大,蕴涵的语义知识越多,词义消歧可以获得的有效信息的数量也就越大.此外,实验对测试集中每个歧义词的平均特征变量数进行了统计.方法1中每个歧义词的平均特征变量数为9个,通过在方法2和方法3中加入互信息和Z -测试结合方法选择特征的步骤,每个歧义词的平均特征变量数减少到5个.由于EM 算法主要估算隐性变量的概率及隐性变量条件下特征变量的概率,因此方法2和方法3中每一次EM 迭代的计算量可减少约44.4%.通过上述的理论和实验可知,改进的汉语全文无指导词义消歧方法具有以下特点.1)方法通过在词义聚类时选择特征和估算初始化参数值,解决了现存EM 算法计算量大、收敛缓慢的问题,消除了无关信息的噪声影响,有效提高了汉语词义消歧的正确率.2)方法不是以几个有代表性的歧义词作为研究与测试的对象,而是针对真实的应用情况,能够对大规模真实文本进行词义标注.3)方法无需人工标注语料,可以从大规模语料中自动获取词义排歧知识,避免了有指导词义消歧方法要面对的数据稀疏问题的发生.此外,训练语料的来源和规模可以根据标注的需要任意地调整,使得训练出来的语言模型具有良好的扩展性,适合各个应用领域的文本词义标注.3结论本文提出一种改进的汉语全文无指导词义消歧方法,首先利用互信息和Z -测试结合的方法选取特征,然后通过一种统计学习方法估算EM 算法的初始参数值,最后利用EM 算法进行迭代计算.通过与现存的无指导词义消歧方法进行对比实验,验证了本文方法的有效性.这种改进的汉语全文无指导词义消歧方法可以应用于机器翻译、文本分类、自动文摘、信息检索等领域,具有重要的理论和实用价值.References1Ide N,Veronis J.Word sense disambiguation:the state of the putational Linguistics ,1998,24(1):1−412Lin S D,Karin V.A semantics-enhanced language model for unsupervised word sense disambiguation.In:Proceedings of the 9th International Conference on Computational Linguis-tics and Intelligent Text Processing.Haifa,Israel:Springer,2008.287−2983McCarthy D,Koeling R,Weeds J,Carroll J.Unsupervised acquisition of predominant word putational Lin-guistics ,2007,33(4):553−5904Pedersen T,Bruce R.Distinguishing word senses in untagged text.In:Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing.New York,USA:1997.197−2075Lu Zhi-Mao,Liu Ting,Li Sheng.The research progress of statistical word sense disambiguation.Acta Electronica Sinica ,2006,34(2):333−343(卢志茂,刘挺,李生.统计词义消歧的研究进展.电子学报,2006,34(2):333−343)6Li Juan-Zi,Huang Chang-Ning.An improved maximum en-tropy language model and its application.Journal of Soft-ware ,1999,10(3):257−263(李涓子,黄昌宁.语言模型中一种改进的最大熵方法及其应用.软件学报,1999,10(3):257−263)7Sheng Zhou.Probability and Statistics .Shanghai:Shanghai Jiao Tong University Press,1999.83−84(盛骤.概率论与数理统计.上海:上海交通大学出版社,1999.83−84)8Klein D.Unsupervised learning for natural language pro-cessing.In:Proceedings of the 21st Annual Conference on Learning Theory.Helsinki,Finland:Springer,2008.5−69Cai Ji-Hong,Song Fei.Maximum entropy modeling with fea-ture selection for text categorization.In:Proceedings of the 4th Asia Information Retrieval Symposium.Harbin,China:Springer,2008.549−55410Lu Zhi-Mao,Liu Ting,Li Sheng.Two statistics methodsof Chinese word sense disambiguation.Journal of Harbin Institute of Technology ,2005,37(7):119−122(卢志茂,刘挺,李生.两种基于统计的汉语词义消歧模型.哈尔滨工业大学学报,2005,37(7):119−122)11Dong Zhen-Dong.HowNet.,November 5,2002(董振东.知网.,November 5,2002)李旭燕山大学信息科学与工程学院博士研究生.主要研究方向为自然语言处理和文档复制检测.本文通信作者.E-mail:lixu102@(LI Xu Ph.D.candidate at the College of Information Science and Engineering,Yanshan University.Her research interest cov-ers natural language processing and document copy detection.Corresponding author of this paper.)刘国华燕山大学信息科学与工程学院教授.主要研究方向为数据库理论,数据库安全,Web 数据管理和自然语言处理.E-mail:ghliu@(LIU Guo-Hua Professor at the the College of Information Science and Engineering,Yanshan University.His research in-terest covers database theory,database security,web data man-agement,and natural language processing.)张东明秦皇岛职业技术学院副教授.主要研究方向为信息管理.E-mail:zdmqzf@(ZHANG Dong-Ming Associate professor at Qinhuangdao Institute of Technology.Her main research interest is informa-tion management.)。
汉语词义排歧的另一种方法
汉语词义排歧的另一种方法
张瑾;刘亚清;于纯妍
【期刊名称】《小型微型计算机系统》
【年(卷),期】2006(27)4
【摘要】针对传统的基于义原同现频率的汉语词义排歧方法存在"盲目性"的不足,笔者根据<知网>中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果.
【总页数】3页(P724-726)
【作者】张瑾;刘亚清;于纯妍
【作者单位】大连海事大学,计算机科学与技术学院,辽宁,大连,116024;大连海事大学,计算机科学与技术学院,辽宁,大连,116024;大连海事大学,计算机科学与技术学院,辽宁,大连,116024
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于多种方法相融合的词义消歧的研究 [J], 于林林;魏琦;宋丽芳
2.改进的基于义原同现频率的汉语词义排歧方法 [J], 刘亚清;于纯妍;张瑾
3.基于义原同现频率的汉语词义排歧方法 [J], 杨尔弘;张国清;张永奎
4.基于义原同现频率的汉语词义排歧系统 [J], 刘亚清;张瑾;于纯妍
5.一种自组织的汉语词义排歧方法 [J], 李涓子;杨尔弘
因版权原因,仅展示原文概要,查看原文内容请购买。
改进的基于义原同现频率的汉语词义排歧方法
改进的基于义原同现频率的汉语词义排歧方法最近,汉语言学研究表明,汉语词汇同义替换受到了词形结构和句法结构的影响。
语法以及语义的复杂性使汉语的词汇排歧任务变得复杂。
因此,如何更好地求解汉语词汇的排歧现象,成为研究者关注的一个重要问题。
近些年来,由于人工智能技术的发展,义原(semantic-primitive)理论在自然语言处理领域受到了广泛的应用。
义原理论把汉语的词汇分解成基本的语义单元,从而使排歧任务变得容易,能够提高汉语词汇排歧的效率和准确性。
因此,根据义原理论研究汉语词汇排歧的方法日渐层出不穷。
然而,人们发现在进行义原理论排歧时,存在着一些共同的问题。
首先,义原概念在排歧步骤中容易被重复运用,这会导致排歧结果不准确。
其次,义原概念通常有多种表达形式,例如动词、形容词和副词,而存在不同的表达形式会影响排歧精度。
此外,在进行义原概念排歧时,义原概念之间可能存在着细微的差别,而这种细微的差别会影响到最终的排歧结果。
为了解决上述问题,本文提出了一种改进的基于义原同现频率的汉语词义排歧方法。
该方法将汉语复杂语法结构以及义原概念之间细微差异综合考虑,计算出义原概念同现频率,从而使排歧结果反应义原概念之间的细微差异,从而提高排歧效果。
本文具体阐述了改进的义原同现频率排歧方法,其主要内容为:第一,采用义原理论对汉语词汇进行概念划分,把词汇分解成义原,以提高汉语词汇排歧的效率和准确性。
第二,分析每个义原概念的同现频率,从而更好地反应义原概念之间的关系。
第三,采用K-Means 算法对汉语词汇进行聚类,以此实现汉语词义排歧。
该算法能够更好地分析义原概念之间的细微差异,因此能够显著提高汉语词汇排歧的效果。
本文的研究表明,在汉语词汇排歧的领域,采用义原同现频率的排歧方法能够更有效地提高汉语词汇排歧的效率和准确性。
同时,该研究将义原概念的多样性、复杂性等语法特点和义原概念之间的细微差异考虑进来,使排歧结果更加准确。
改进的基于义原同现频率的汉语词义排歧方法
改进的基于义原同现频率的汉语词义排歧方法近年来,自然语言处理领域的研究者们一直致力于探索如何准确高效地实现汉语词义排歧,其中,义原同现频率法是一种常用的汉语词义排歧方法,它能够准确、稳定地实现汉语词义排歧任务。
本文将介绍一种基于义原同现频率的改进方法,并以此为基础,建立一种新的汉语词义排歧系统。
首先,本文介绍了义原同现频率法的基本原理,这种方法基于一种假设,即某一词语的词义是由它与其他义原关联的义原同现率决定的。
据此,本文提出了一种改进的义原同现频率方法,即增加了对多义词,转义词以及双义词的处理,改进后的义原同现频率法能够更好地实现汉语词义排歧任务。
其次,本文介绍了义原同现频率法的实现过程,包括词语的词典建立、共现义原的构建以及义原同现率的计算等步骤。
除此之外,本文还介绍了如何用该方法实现汉语词义排歧任务,并详细阐述了实现过程,从而弥补了义原同现频率法的不足之处。
最后,本文提供了一些实验结果,包括义原同现频率法的准确率以及在改进的义原同现频率法上进行汉语词义排歧任务的实验结果,以及基于改进义原同现频率法的汉语词义排歧系统的实验结果。
实验结果表明:改进后的义原同现频率法能够取得较高的准确率,而基于改进义原同现频率法构建的汉语词义排歧系统在大量测试用例上取
得了良好的结果。
经过以上研究,本文提出了一种改进的基于义原同现频率的汉语
词义排歧方法,以及基于这种方法构建的汉语词义排歧系统,取得了良好的实验结果,从而有效地帮助人们处理汉语词义排歧任务。
因此,未来研究者们可以在此基础之上继续改进该方法,以期让汉语词义排歧任务能够更加准确、高效、便捷地实现。
中文词义消歧的方法研究
中文词义消歧的方法研究摘要:词义消歧一直是自然语言处理领域的难题之一,它的研究对包括机器翻译、信息检索、文本分类等众多研究领域都会有一个积极的推动作用。
本文阐述了词义消歧的方法,以及各种消歧方法的优缺点,分析了影响词义消歧效果的因素,并给出了自己在词义消歧方面的想法。
关键词:词义消歧;自然语言处理;规则;统计词义消歧是自然语言处理领域一个重要的研究课题.也是近年来该领域研究的热点问题之一。
歧义的存在使计算机在“理解”自然语言时发生了困难,并很可能出现了错误。
词义消歧要解决的问题是如何让计算机理解多义词在特定的上下文环境中具体代表的语义。
汉语的词义消歧研究起步比较晚,整体水平不容乐观.尚局限在几个歧义词,譬如说选择5~10个有歧义的名词或动词作为消歧研究对象,个别正确率很高,但难以推广至全文(即所有的歧义词)。
目前的词义消歧研究还停留在实验室阶段,离实际应用还有很长的一段距离。
一、词义消歧方法语言学知识描述了词汇间的关系,歧义的产生源于词汇所涉及的领域、所处的结构等因素。
消解歧义的前提是为歧义词选择恰当上下文。
所有歧义的消解都依赖于多义词上下文提供的信息。
所以通过特定的上下文环境判断歧义词的特定词义是解决词义消歧问题的唯一出发点,是所有词义消歧技术、方法的源头。
1、基于规则的词义消歧方法早期的词义消歧研究重点在于基于规则的方法。
该方法依赖语言学家的语言知识来描述词义之间的关系,并建立规则库。
通过对歧义词及其上下文词语的分析,选择满足规则、条件的词义作为正确答案。
该方法符合人类的认知习惯,像专家系统那样很容易理解并被接受。
但由于规则通常由语言专家制定,具有很大的主观性,难免存在一些错误。
此外,如何保证规则库的一致性、可扩充性和完备性是该方法面临的难题。
2、统计词义消歧方法统计词义消歧方法借助统计学的思想和方法来处理词义歧义问题,统计学的方法不需要制定规则,自动在语料库、知识库中获取所需信息,来指导词义消歧。
如何处理中文自然语言处理技术中的歧义问题
如何处理中文自然语言处理技术中的歧义问题处理中文自然语言处理技术中的歧义问题是一个关键的挑战。
中文是一种复杂的语言,具有大量的多义词和歧义表达。
在自然语言处理中,正确处理这些歧义问题对于确保语义准确性至关重要。
本文将探讨几种应对中文自然语言处理中常见歧义问题的方法和技术。
首先,上下文理解是处理中文自然语言处理中歧义问题的基础。
理解文本之前和之后的上下文可以帮助我们更准确地解决多义词的歧义问题。
通过词语和句子级别的上下文,我们可以推断正确的含义。
例如,对于句子“我想吃个苹果”,上下文中如果提到食物的话题,那么“苹果”很可能是指水果,而不是指苹果公司。
其次,基于语料库和统计模型的方法可以帮助解决中文自然语言处理中的歧义问题。
通过从大规模的语料库中学习词语和短语的频率和上下文信息,我们可以使用统计模型来为每个词语分配最可能的含义。
这种方法广泛应用于词义消歧、句子理解和机器翻译等任务中。
例如,在机器翻译中,我们可以根据源语言和目标语言之间的上下文信息来决定正确的翻译含义。
另一个处理中文自然语言处理中歧义问题的方法是使用语义角色标注和依存句法分析。
语义角色标注可以帮助我们识别句子中的谓词和句子成分之间的语义关系。
通过标记句子中的语义角色,我们可以更好地捕捉到词语之间的语义关系,从而减少歧义。
依存句法分析可以将句子中的每个词语与其他词语之间的依存关系可视化,帮助我们理解句子结构和意义。
这些技术在信息抽取、问答系统和文本分类等任务中起着重要作用。
此外,利用词语之间的词汇关系可以帮助我们处理中文自然语言处理中的歧义问题。
同义词和反义词之间的关系可以用来推断词语的含义。
例如,对于句子“这个苹果真好吃”,我们可以根据“苹果”和“好吃”的词汇关系来理解句子的含义。
近义词和反义词词典可以帮助我们构建这些词汇关系,并支持词义消歧和句子理解等任务。
最后,人工智能技术的发展为解决中文自然语言处理中的歧义问题提供了更高效的方法。
一种新的汉语词义消歧方法
表示 x 和 y 在语料中出现的概率, P ( x , y ) 是 x 和y 同时
在语料中出现的概率。
2. 3 应用语义资源5知网6进行词义消歧
词义和词的分布之间具有密切的关系。一个词无论
包含多少种意义, 在一定语句中起作用的, 往往只是其中
某一个意义。多义词在表现不同的意义的时候必定是和
不同的词一同出现的, 则可以根据和该多义词一起出现的
1 词义消歧的基本思想 1. 1 基本思想
汉语中有些词尽管具有类似的句法结构或语义, 但是 各自却存在着更为适宜的不同语境, 即词与词之间存在着 许多优先组合关系( PCR) 。词义和词的分布之间具有密 切的关系。一个词无论包含多少种意义, 在一定语句中起 作用的往往只是其中某一个意义。且词的不同意义往往 会在句法或词汇搭配层面上表现出不同的组合特征, 并且 词与词之间存在着许多优先组合关系。例如, 名词和名词 间紧密的语义联系, 形容词和名词组成的特定修饰关系, 动词和名词的固定搭配等。有些多义词, 其内部的不同意 义虽然语法功能基本相同, 但在句中出现时, 所组合的词 语却完全不同, 即多义词在表现不同意义时候, 与之进行 组合的词语之间存在着优先关系。这种组合关系与多种 因素有关, 最重要的是不同词语之间的词义制约。当一些 相互有关系的事物在词义中得到反映时, 这些词就能够互 相结合; 反之, 如果本来就是一些互相之间没有联系的事 物, 或它们的联系还没有在词义中得到反映, 这些词就不 能组合。多义词在表现不同意义的时候必定是和不同的 词一同出现的, 则根据和该多义词一起出现的其它词, 就 可以相对准确地判断出该多义词的真实意义。且在一般 情况下, 歧义词与它上下文中前面与后面一个或几个实词
S2) 分别表示第一独立义原描述式、其他独立义原描述
结合语义知识的汉语词义消歧
结合语义知识的汉语词义消歧张春祥;邓龙;高雪瑶;卢志茂【摘要】词义消歧一直是自然语言处理领域中的关键性问题.为了提高词义消歧的准确率,从目标歧义词汇出发,挖掘左右词单元的语义知识.以贝叶斯模型为基础,结合左右词单元的语义信息,提出了一种新的词义消歧方法.以SemEval-2007:Task#5作为训练语料和测试语料,对词义消歧分类器进行优化,并对优化后的分类器进行测试.实验结果表明:词义消歧的准确率有所提高.%Word sense disambiguation is an important problem in natural language processing. In order to improve the precision of word sense disambiguation, semantic knowledge of left and right word units is mined starting from the target polysemous word. Based on the Bayesian model, a new method of word sense disambiguation is proposed with semantic information of left and right word units. SemEval-2007:Task#5 is used as training corpus and test corpus. The classifier of word sense disambiguation is optimized. Then the optimized classifier is tested. Experimental results show that the pre-cision of word sense disambiguation is improved.【期刊名称】《计算机工程与应用》【年(卷),期】2016(052)003【总页数】4页(P119-122)【关键词】词义消歧;歧义词汇;贝叶斯模型;语义信息【作者】张春祥;邓龙;高雪瑶;卢志茂【作者单位】哈尔滨理工大学软件学院,哈尔滨 150080;哈尔滨工程大学信息与通信工程学院,哈尔滨 150001;哈尔滨理工大学计算机科学与技术学院,哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,哈尔滨 150080;哈尔滨工程大学信息与通信工程学院,哈尔滨 150001【正文语种】中文【中图分类】TP391.2词义消歧的目的是确定歧义词汇在特定上下文环境中的意义。
试举例说明消除歧义的方法
试举例说明消除歧义的方法一、歧义的类型1.词汇歧义。
指由词汇上的原因造成的歧义,常见的词汇歧义有三种成因:①同音歧义。
如“这件事没有yiyi”。
yiyi可以表示“意义”,也可以表示“异议”。
②同形异义。
如“你别上”,“别”既可以理解为动词,也可以理解为副词。
③一词多义。
如“他的包袱很重”,“包袱”既可以指用布包起来的包儿,也可以指某种负担。
词语的同音异义、同形异义和一词多义都可能造成语句的歧义。
2.组合歧义。
指由词语组合关系上的原因造成的歧义,又可分为语法结构歧义和语义结构歧义两类。
①语法结构歧义。
如“出租汽车”,既可以是动宾关系,也可以是偏正关系。
②语义结构歧义。
如“鸡不吃了”,可以理解为“鸡不吃食了”,也可以理解为“不吃鸡了”。
③如果相同的词语之间可以有不同的句法结构关系或不同的层次构造,就有可能造成语法结构歧义;如果相同的词语之间可以有不同的语义结构关系,就有可能造成语义结构歧义。
二、举例说明消除歧义的方法1. 补充语境法如:①你为什么打他?(应该好好教育嘛!)你为什么打他?(该打的是我呀!)2.更换词语法如:①两个中学的老师可改为:两所中学的老师或两位中学的老师3. 调整语序法如:①“两个球队的教练”,可分别改为“两位球队的教练”(更换量词),或者“球队的两个教练”(调换语序)。
②“几个饭店的服务员”可改为“几家饭店的服务员”或“几名(位)饭店的服务员”。
4.增删词语法如:①到1999年底,他还欠款1000元(人民币)。
可改为:他已还欠款1000元(人民币)。
或他还欠1000元(人民币)。
5. 补全省略法如:①孩子们很喜欢离休干部李大伯,一来到这里就有说有笑,十分高兴。
(1992年三南题)(谁来到这里?孩子们,还是李大伯?)②他只有一个儿子,在医院工作。
(谁在医院工作?他,还是儿子?)③我看见张原扶着一位老人走下车来,手里提着一个黑色提包。
(谁提包?张原,还是老人?)④买车、船、飞机、饭票在服6.改变结构法如:①围剿土匪的部队可改为土匪的部队被围剿或部队围剿土匪7、明确指代法如:①张主任和技术员正在谈话,他告诉他说:“攻下这道难关,就可以试制了。
现代汉语中歧义句的消解方法.
本科生毕业论文(设计)题目现代汉语中歧义句的消解方法姓名刘慧君学号2011410445院系文学院专业汉语言文学指导教师刑慎宝职称讲师2015 年4 月23日曲阜师范大学教务处制目录摘要 (1)关键词 (1)Abstract (1)Key words (1)引言 (1)一、补充解释法 (2)二、语气表意法 (3)三、语法消歧法 (3)(一)层次分析法消除歧义 (3)(二)替换分析法消除歧义 (4)(三)语义指向分析法消除歧义 (5)(四)句子成分分析法消除歧义 (6)(五)语境消歧法 (6)四、语法手段+词汇手段消歧法 (7)(一)调整语序+改换字词 (7)(二)转变句式+增加字词 (7)结语 (7)致谢 (8)参考文献 (8)现代汉语中歧义句的消解方法汉语言文学专业学生刘慧君指导老师邢慎宝摘要:歧义句在人们的学习生活中经常出现,它有着巨大的研究价值,所以有关歧义句的研究在现代汉语研究中占有重要地位,学者们也给予了广泛关注。
要想充分地利用歧义句或解决歧义句带来的问题,必须深入研究歧义句的消解方法。
对于歧义句消解方法的研究可以从歧义句的定义着手,先简单地阐明歧义句的定义,然后根据歧义句的成因,用一些歧义句的实例,从语音、词汇、语法、语境四个方面对歧义句的消除方法进行深入的分析探讨,以深化人们对歧义句的了解应用。
关键词:现代汉语歧义句消解方法Elimination Methods of Ambiguous Sentences in Modern Chinese Student majoring in Chinese Language and Literature Liu HuijunTutor Xing Shenbao Abstract:Ambiguous sentences often appeared in daily life, it has great value of research, so the researches on ambiguous sentences occupy an important position in the study of modern Chinese, and scholars have paid more attention to the research of ambiguous sentences. In order to make full use of ambiguous sentences or solve the ambiguous problem, we must study the method of ambiguous resolution . Research on the resolution method of ambiguous sentences can proceed from the definition of ambiguity,first briefly expounds the definition of ambiguity, then according to the causes of ambiguity and some examples of ambiguous sentences, in-depth analyzing the methods which eliminate the ambiguity from four aspects of pronunciation, vocabulary, grammar and context, in order to make people understand the application of ambiguous sentences.Key words: modern Chinese;ambiguous sentences; digestion引言歧义问题是现代汉语研究中的一个重要课题,早在建国初期,我国的一些语言学家就针对歧义问题进行了探讨研究,并取得了一系列骄人成绩。
试举例说明消除歧义的方法
试举例说明消除歧义的方法消除歧义是在沟通交流中非常重要的一项技巧,可以避免误解和误导,使信息传达更加准确和清晰。
以下是一些常见的消除歧义的方法。
1.使用明确的语言和词汇:在交流中,使用明确的语言和词汇可以帮助消除歧义。
避免使用模糊的词语和概念,要选择具有明确含义的词汇,可以通过解释定义来澄清一些概念的含义。
例如,有人说“这个箱子很大”,这个描述是模糊的,因为“大”可以有不同的标准和参照。
为了消除歧义,可以使用明确的词汇,如“这个箱子的尺寸是1米乘以1米”,这样就可以更明确地表达箱子的大小。
2.提供具体的例子和细节:为了解释自己的观点或意思,可以提供具体的例子和细节。
这样可以帮助对方更好地理解和接受你的观点,并减少可能的歧义。
例如,如果你想解释“成功”的概念,可以提供一些具体的例子,如成功的个人故事、著名人物的成功经历等。
这样可以帮助对方更好地理解你所说的“成功”是什么意思,而不会出现不同解读的歧义。
3.明确表达自己的意图和目的:在沟通中,要清楚地表达自己的意图和目的,避免让对方猜测你的意思。
可以使用直接的表达方式来消除歧义。
例如,如果你想邀请一个朋友一起去看电影,而且你希望他能够付钱,请直接表达这个意图,而不要含糊其辞。
可以说:“你愿意和我一起去看电影吗?我想我们可以分担一下费用。
”4.倾听和确认对方的理解:为了消除歧义,要对对方的理解进行倾听和确认。
可以通过提问的方式来确保你和对方的理解是一致的。
例如,如果你向一个人提出一个问题,并且他给出的回答让你感到疑惑,可以进一步询问他的理解和意图。
这个过程可以帮助你了解和澄清对方的想法,并消除可能的歧义。
5.使用图表和图形化工具:在一些复杂的情况下,可以使用图表和图形化工具来帮助解释和阐述自己的观点。
图表和图形化表示可以提供更直观和可视化的方式来传达信息,减少歧义的可能性。
例如,如果你想向团队成员介绍一个复杂的项目计划,可以使用甘特图或流程图来展示关键任务和时间表。
ChatGPT技术中的语义消歧与指代消解方法
ChatGPT技术中的语义消歧与指代消解方法ChatGPT是一个基于大规模预训练语言模型的对话生成系统,它在自然语言处理领域具有广泛的应用前景。
然而,由于自然语言的复杂性和多义性,ChatGPT在理解用户输入时存在语义消歧和指代消解的挑战。
本文将介绍一些在ChatGPT技术中常用的语义消歧和指代消解方法,以提高对话系统的准确性和可靠性。
一、语义消歧方法1. 上下文语境分析在对话过程中,ChatGPT需要根据上下文语境来确定词语的具体含义。
为了解决语义消歧问题,可以采用上下文语境分析的方法。
该方法通过考虑到前后文的信息,比如前面一句话中的关键词或短语,来帮助系统更好地理解当前输入的含义。
这种方法可以通过引入注意力机制或循环神经网络等方式来实现。
2. 语义角色标注语义角色标注是一种将句子中的词语与其所扮演的语义角色进行对应的方法。
通过为每个句子中的词语标注语义角色,可以帮助ChatGPT识别和理解输入中的指代关系,从而进行正确的语义消歧。
例如,对于句子“小明给大龙买了一本书”,语义角色标注可以将“小明”标注为施事者、将“大龙”标注为受事者、将“一本书”标注为货物等。
3. 同义词消歧同义词消歧是指判断两个或多个词语是否具有相同的含义。
在对话系统中,ChatGPT需要准确理解用户的意图,避免产生歧义。
为了解决同义词消歧问题,可以利用词向量或词典等方法来计算词语之间的相似度,进而确定是否具有相同的语义。
二、指代消解方法1. 核心指代消解核心指代消解是指在对话系统中解决代词与其所指对象之间的对应关系。
例如,对于句子“我买了一本书,但它很贵”,系统需要准确判断“它”所指代的是刚才提到的那本书。
为了实现核心指代消解,可以利用共指消解的方法,将代词与其指代对象进行一一对应。
2. 基于语义关系的指代消解除了核心指代消解,还存在非核心指代消解问题,即除了代词之外,还有其他词语需要与其指代对象进行对应。
例如,句子“小明给大龙买了一本书,他很喜欢它”,其中“他”指代的是小明还是大龙需要进行指代消解。
消除歧义的方法汇总
根据上下文来消除歧义 :
今天晚上不吃饭了。中午吃多了 。
今天晚上不吃饭了。吃点面食吧。
根据实际的情景语境:如果是一位医生说这句 话,那他就是要给病人实施手术;如果是一位 病人说这句话,那他就是要接受手术。这样, 歧义就被消除了。
谢谢大家的关注! 周末愉快!
人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。
=> 三位工厂里的工人提出了改革奖金分配制度的 合理化建议。
(二)、句外调整
多数歧义 ,是由于缺少语境限制或语境限制不 够严密而造成的。要消除歧义 ,就需要提供严 密的语境 ,对语句内容进行有效的限制 ,使内 容单一化。
利用上下文语境 利用情景语境
例如: 今天晚上不吃饭了 。 我今天要做手术 。
在一定的语言环境中,根据表达需要,通 过不同的语音或停顿,自然可以消除歧义。
2。利用句式的变换
对多义词、 动词造成的歧义 ,可以通过 变换句式来消除。 例如: 他倒了一杯水 。 他把一杯水倒了。
3。利用语序的调整
对数量词修饰对象不明和由于层次关系 不清而造成的歧义 ,可以通过调整语序来 消除歧义。 例如:
① 青蛙是位好玩的先生。 ② 他想起来了。 ③ 你说不过他也得说
句① 中的 “好” 可读作 “hǎ o ” 或 “hà o ” ,句 ② 中的 “起来” 可读作 “qǐ lá i ” 或 “ qǐ lai” 。句 ③有两种 停顿: “你说*不过他也得说。 ” 和 “你 说不过他*也得说。 ”
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b t r t e rstr u hP aa ae S cn l , codn e i f h C e e h d o g CR d tb s . e o dy ac r i t t z o eP R, h s o i a wo d l u r e.L sl,a・ Ⅵ m wo h g o h se t t ee t n l r s ' p t nod r at el n o 8e i y
中图分 类号 : P 9 T31 文献标 识码 : A 文章 编号 :05 7 12 0 )3 0 2 4 10 —35 (060 —0 2 —0
Ne Chi s o d S ns s m biu to eho w ne eW r e eDia g ain M t d
YAN n Z Ro g, HAN G e L i
余晓峰等人提出一种简单无指导的词义消歧方法 , 只是单
词与词之间存在着许多优先组合关系。例如, 名词和名词 问紧密的语义联系 , 形容词 和名词组成的特定修饰关系, 动词和名词的固定搭配等。有些多义词 , 其内部 的不同意 义虽然语法功能基本相 同, 但在句中出现时 , 所组合的词
fu d to ff rh rsr cu edsmbg ain. o n in o u te tu tr ia iu t a o
Ke o d : D: rfrn ecmbn t nr l in w r so i i  ̄s lr y o yw r s WS p eee c o i i a o  ̄ o da sca o ao e t t n i a t ;H wNe mi i t
meh d.Thsmeh d i p ssHo to i to o e wNe 8tesma i n wld ers u ,men i ul PCR ewe nwo d .Fisl g tP m ta h e nt k o e g eo me c a whl fl u e y bt e rs rty,e CR
闫 蓉,系, 陕西 西安 70 6 ) 10 9
摘
要 : 对 自然 语言 处理 领域词 义消 歧这 一难点 , 出一 种新 的 汉语 词 义 消歧方 法 。该方 法 以《 网 》 针 提 知 为语 义 资 源 , 充分
利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系; 将各实词按 照优先组 合关系大小进行排列 ; 计算各实词概念与歧义词概念之问的相似度, 以判断歧义词词义。实验结果表明该方法对于高频多 义词消歧是有效的, 可作为进一步结构消歧的基础 。 关键词 : 词义消歧 ; 优先组合关系; 词关联; 相似度 ; 知网
e lt h i lrt dgreb t e a hc n e to o in lworsa d t ec n e to r fdfe e tme nig,t bant e r h uaetesmi i e e ewe n ec o cp fn to a d n h o c p fawo do i rn a n a y f o o ti h i t g
( eat n f o ue c n e otwet ie i , ia 10 9 C ia D pr me t mptr i c,N r s Un r t X ’n7 06 , h ) oC Se h v sy n
A s a t D w r r ̄ imb u t n ia i clf l i n t a l g ae r e i . h pr usow r a e h e D bt c: r WS ( ods k: s i a o ) d fu e u l n ug o s n T ip e pt f a nw C i s WS e ̄ d a g i s f t id n a r i a p c sg s a r d ne
me nn fte r f i ee t a i . e x e i n eut mv s h to f t e o i e u n yW S a i o do f rn n n Th p r g h wo df me g e me t s lp e i meh dt b e e i r g f q e c D.I cn b e r ts oe f v f h h r t a e h t
许多优先组合关系 (C 。词义和词的分布之间具有密 P R) 切的关系。一个词无论包含多少种意义 , 在一定语句中起 作用 的往往 只是其中某一个意义。且词的不同意义往往 会在句法或词汇搭配层面上表现 出不同的组合特征 , 并且
性和无规律性决定了多义词消歧成为多种应用中的关键 问题和难点之一。王惠提出了基于《 现代汉语语法信息词 典》 现代汉语语义词典》 和《 利用汉语词义之间的多级组合 特征进行词义消歧_ , 1 但其方法仅对名词进行词义消歧。 J
O 引 言
1 词义 消歧 的基本 思想
1 1 基 本思 想 .
词义消歧( D) WS 就是让计算机能够处理和识别词的
不同词义 (es)是为 了解决 自然语 言中同形异义词在 S1 , Te 不同上下文环境 中的义项标注问题。多义词分布的普遍
汉语中有些词尽管具有类似的句法结构或语义, 但是 各自 却存在着更为适宜 的不同语境, 即词与词之间存在着
维普资讯
第 6
20 06
第月 年胄 期 3
【IM P TFR TECH N0I( Y 1 ] LI X ANI )DEVFL PMENT ;;)
计算机技术与发展
Vo. 6 No 3 11 . Ma .2 0 r 06
一
种 新 的汉 语 词 义 消 歧 方 法