一种半监督的汉语词义消歧方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种半监督的汉语词义消歧方法
张春祥;徐志峰;高雪瑶
【摘要】为了解决自然语言处理领域中的一词多义问题,本文提出了一种利用多种语言学知识和词义消歧模型的半监督消歧方法.首先,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯(Bayes)词义分类器,并以歧义词汇左、右邻接词单元的词形和词性作为消歧特征,来构建最大熵(maximum entropy,ME)词义分类器;其次,采用Co-Training算法并结合大量无标注语料来优化词义消歧模型;再次,进行了优化实验,在实验中,使用SemEval-2007:Task#5的训练语料和哈尔滨工业大学的无标注语料来优化贝叶斯分类器和最大熵分类器;最后,对优化后的词义消歧模型进行测试.测试结果表明:与基于支持向量机(support vector machine,SVM)的词义消歧方法相比,本文所提出方法的消歧准确率提高了0.9%.词义消歧的性能有所提高.
【期刊名称】《西南交通大学学报》
【年(卷),期】2019(054)002
【总页数】7页(P408-414)
【关键词】自然语言处理;词义消歧;最大熵;贝叶斯分类器
【作者】张春祥;徐志峰;高雪瑶
【作者单位】哈尔滨理工大学软件与微电子学院,黑龙江哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080
【正文语种】中文
【中图分类】TP391.2
在自然语言中,词汇普遍具有一词多义现象. 词义消歧的目的是确定歧义词汇在特定上下文环境中的语义. 语义知识在主题挖掘[1]、话题关联检测[2]、机器翻译、
信息检索和自动文摘中有着重要的应用.
文献[3]提出了一种基于语言学模型的有监督词义消歧方法,利用语言模型来弥补
有监督消歧方法所存在的数据稀疏问题;文献[4]给出了一个有监督词义消歧系统,能够自动处理生物医学领域的词汇歧义问题;文献[5]使用神经序列学习模型来解
决词义消歧问题,包括时间递归神经网络以及编码和解码模型;文献[6]给出了观
察词嵌入是如何改变有监督词义消歧系统结构的方法,深入分析了不同特征对消歧性能的影响;文献[7]提出了词义消歧领域移植应该满足协方差偏移的假设,在协
方差偏移下进行学习,来完成词义消歧系统的领域移植;文献[8]以话题信息、位
置关系和互信息为消歧特征,提出了一种无指导的跨语言词义消歧算法,该算法利用在线词典和Web搜索引擎,使用上下文信息来确定评论句中多义评论词的词义;文献[9]提出了一种改进的全文无指导词义消歧模型,结合互信息和Z-测试结果来选取特征,通过统计学习技术来估算期望最大(expectation maximization,EM)算法的初始参数,然后利用EM算法进行迭代计算;文献[10]在分析了数以百万计的数字化图书文本之后,提出了一种无监督的检测词义变化的方法;文献[11]提出了基于堆叠降噪自动编码器(stacked denoising autoencoder,SDA)的领域
适配无监督词义消歧方法,通过定义两个领域之间的相似度来判断是否使用SDA,减少了SDA的不利影响;文献[12]给出了一个开源无监督词义消歧系统,该系统
未使用语言学知识;文献[13]使用了“集群和标签”策略来半自动地生成主体性词
义消歧标注数据,给出了迭代约束聚类算法来改善聚类的纯度和数据质量;文献[14]给出了一种基于词向量的词义消歧方法,通过将词义消歧信息加入词向量中,来改善半监督词义消歧系统的精度;文献[15]采用半自动方法提取和标记了大量的英语语料让公众使用,同时,评价了这些语料在词义消歧方面的性能;文献[16]提出了一种基于领域知识的图模型词义消歧方法,收集文本领域关联词作为文本领域知识来实施消歧;文献[17]以个性化网页排名为基础,提出了一种基于图的消歧方法,结合局部和全局证据来实施消歧,有效地过滤了不正确的候选;文献[18]以词汇知识源和分布式计算模型为基础,利用skip-gram模型来表示语义,提出了一种新的词义消歧方法;文献[19]给出了一种利用Word-Net中歧义词汇的主要义元来进行特定领域词义消歧的方法,使用了特定领域的测试语料和辅助语料.
本文将歧义词汇左右邻接的4个词汇单元的多种语言学知识作为消歧特征,利用贝叶斯分类器和最大熵分类器来确定歧义词汇的语义类别. 以少量人工语义标注语料为基础,结合大量无标注语料,使用Co-Training算法来提高词义消歧分类器的性能.
1 词义消歧特征的选择
歧义词汇所处的上下文包含了很多语言学知识,可以用来判别歧义词汇的真实语义. 在建立词义消歧模型时,需要提取这些语言学信息,作为消歧特征. 以歧义词汇为中心,通过开设左右词窗来提取这些上下文信息. 本文通过选择歧义词汇的左右词单元的词形、词性和译文作为消歧特征,判别它的语义类别. 消歧特征的提取过程如图1所示.
图1 消歧特征的提取Fig. 1 Extracting disambiguation features
图 1中:w为词形;p为词性;tr为译文;L1、L2为歧义词汇左边邻接的第1个和第2个词汇单元;R1、R2为歧义词汇右边邻接的第1个和第2个词汇单元;CContext为汉语语境,包含歧义词汇左右邻接词单元的词形信息和词性信息,
CContext={wL2,pL2,wL1,pL1,wR1,pR1,wR2,pR2}. 查询汉-英机读翻译词典,得到 wL2、wL1、wR1和 wR2的译文,分别为 trL2、trL1、trR1和
trR2. 将 trL2、trL1、trR1和 trR2连接起来,就得到了 CContext所对应的英语
语境 EContext={trL2,trL1,trR1,trR2}. 不仅CContext可用于确定歧义词汇
w的含义,而且EContext也能为消歧过程提供指导信息. 对于含有歧义词汇“儿女”的汉语句子“国家统一是中华儿女的共同心愿. ”,其消歧特征的提取过程如下所示:
分词结果:国家/n 统一/v 是/v 中华/nz 儿女/ng的/u 共同/b 心愿/n. /w
选取歧义词“儿女”的左、右邻接4个词汇单元. 从每个词汇单元中,提取词形、词性和译文作为消歧特征. 词形特征分别为:“是”、“中华”、“的”和“共同”;词性特征分别为:“v”、“nz”、“u”和“b”. 查询汉-英机读翻译词典,分别得到“是”、“中华”、“的”和“共同”的概率最大的英语译文. 其中,4
个词汇单元的译文分别为“be”、“China”、“de”和“common”. 此处,共得到了12个消歧特征.
2 基于贝叶斯模型的词义消歧
贝叶斯分类器非常适用于词义消歧任务. 歧义词汇w共有n个语义类别,分别为 . 基于贝叶斯模型的词义消歧过程为:若 PBayes(Su|CContext,EContext)≥ PBayes(Si|CContext,EContext)(其中:PBayes为贝叶斯分类器的输出概率;i,u = ),则歧义词汇w的语义类别为Sj. CContext为歧义词的汉语语境,包括歧义词汇邻接词汇的词形信息和词性信息,EContext为歧义词汇w的英语语境,包括汉语歧义词汇邻接词汇的译文. 在歧义词汇w左右两边的4个位置中,每个位置的词形后验概率应该近似相等,同理,词性后验概率应该近似相等,译文后验概率也应该近似相等. 本文以CContext和EContext为基础,构建了贝叶斯词义消
歧分类器,如式(1)所示.
式中:x = L1,L2,R1,R2.
在人工语义标注语料中,已经给出词形信息和词性信息. 人工语义标注语料的格式如下所示:
国家/n 统一/v 是/v 中华/nz 儿女/ng 的/u 共同/b心愿/n. /w
此处,歧义词汇“儿女”的语义类别为“子女”.
汉语词汇的译文获取过程如下所示:
在给定的英-汉双语句对集合上,使用式(2)去估计词级翻译概率 t(e|c):
式中:k(e|c;e(s),c(s))为英语单词 e 与汉语单词 c 共现的次数;ej和
cj分别为英语和汉语中的任意单词;为归一化因子;δ(x,y)为δ函数;l为汉语句子中的单词数量.
按照汉语词汇进行整理,可以得到概率化的英-汉词汇翻译表. 对于歧义词汇w而言,通过查询汉-英机读翻译词典,获得w的所有英语译文,用D(w)表示. d为某一英语译文. 在概率化的英-汉词汇翻译表中,查询英语译文d的所有汉语译文,用C(d)表示. c为某一汉语译文. 在概率化的英-汉词汇翻译表中,给出了英语译文d与汉语译文c之间的翻译概率 P(d,c).
两个字符串α和β的交运算α∩β为α和β的最长公共子串. α和β的最长公共子串的长度为|α∩β|. w的英语单词e的获取过程如式(4)所示.
P(d,c,w)可以由式(5)来进行计算,按照最长公共子串匹配原则来得到概
率P(d,c,w).
L(x)的定义如式(6)所示.
查阅汉-英机读翻译词典,得到CContext中的词汇w的所有英语译文. 在概率化
的英-汉词汇翻译表中,查询w的英语译文所对应的汉语译文. 根据最长公共子串
来确定词汇w的译文及其翻译概率. 将CContext中的每一个词汇的译文连接起来,就可以获得对应的EContext.
3 基于最大熵模型的词义消歧
最大熵的基本思想是在满足部分已知知识的条件下,对未知情况不作任何假设,选择熵值最大的推断作为未知情况的合理判断. 在这样的选择下,概率分布也是最均匀的. CContext={wL2,pL2,wL1,pL1,wR1,pR1,wR2,pR2}. Ffeature
为 CContext中的特征,Ff eature∈CContext.
特征Ffeature对w的语义类为Si的判别过程具有一定的指导作用. 采用特征函数
fj(Si,Ffeature)来进行度量,其计算过程如式(7)所示.
Ffeature的计算过程如式(8)所示.
式中:x为位置,即 L2、L1、R1和 R2.
随着 j的变化,Ffeature取不同的值. 当 j = 1,时,Ffeature分别取8个不同的值,即 wL2、pL2、wL1、pL1、wR1、pR1、wR2、pR2. 当 j = 1 或 j = 2 时,x 取值为L2;当j = 3或j = 4时,x取值为L1;当j = 5或j =6时,x取值为R1;当j = 7或j = 8时,x取值为R2.对于以上例句而言,其特征函数值如表1所示.
表1 特征函数的值Tab. 1 Values of feature functionsSi Ffeature fj(Si,Ffeature)子女是 1(j = 1)子女 v 1(j = 2)子女中华 1(j = 3)子女 nz 1
(j = 4)子女的 1(j = 5)子女 u 1(j = 6)子女共同 1(j = 7)子女 b 1(j
= 8)其它情况 fj(Si,Ffeature) = 0, j =
此处,共构造了8个特征函数f1~f8.
基于最大熵的词义消歧模型如式(9)所示.
式中:λj为特征函数 fj(Si,Ffeature)的权重;L(Ffeature)为归一化因子.
w语义类别的判定过程为:由w得到CContext,根据CContext计算得到8个特征函数fj;以训练语料为基础,训练学习每个fj(Si,Ffeature)所对应的权重λj;采用 GIS (generalized iterative scaling)算法进行多次迭代来估算每个fj (Si,Ffeature)在训练语料中的分布,每次迭代都调整λj的值;迭代结束后,根
据每个特征函数的权重来综合判定w的语义类别. 在CContext发生的情况下,w 的语义类为S的求解过程如式(11)所示.
选择模型中概率最大的类别Si作为w的语义类.
4 基于Co-Training的词义消歧
本文采用Co-Training算法从人工语义标注语料出发,结合大量无标注语料,提
高PBayes(S|CContext,EContext)和 PME(S|CContext)的消歧质量. 其算
法描述如下:
输入:S表示人工语义标注的句子集合,LBayes表示用于训练 PBayes
(S|CContext,EContext)分类器的带有语义标注的句子集合,LME表示用于训练PME(S|CContext)分类器的带有语义标注的句子集合,U表示大规模无语义标注的句子集合.
输出:词义消歧分类器 PBayes(S|CContext,EContext)和 PME
(S|CContext).
(1)初始化
LBayes = S,利用LBayes来训练 PBayes(S|CContext,EContext)分类器;LME = S,利用 LME来训练 PME(S|CContext)分类器;
(2)循环 n 次
① 将U分解为C和U',满足U = C∪U';
② 利用 PBayes(S|CContext,EContext)对 C 进行词义消歧得到 CBayes,使
用 PME(S|CContext)对 C进行词义消歧得到CME;
③ 将CBayes和CME中消歧后语义类别相同的句子加入LME中,利用LME来训练PME(S|CContext)分类器;
④ 将CBayes和CME中消歧后语义类别相同的句子加入 LBayes中,利用LBayes来训练 PBayes(S|CContext,EContext)分类器;
⑤ U = U'.
循环结束后,得到优化后的贝叶斯词义消歧分类器和最大熵词义消歧分类器.
5 实验
本文以SemEval-2007:Task#5作为训练和测试语料来衡量所提出方法的性能.
从中选取常用的20个歧义词汇,分别为“本”、“补”、“旗帜”、“动摇”、“镜头”、“使”、“望”、“长城”、“成立”、“队伍”、“赶”、“天地”、“表面”、“菜”、“单位”、“儿女”、“机组”、“气象”、“震惊”、“中医”. 目前,基于支持向量机的词义消歧分类器的消歧性能比较好. 本文将其用于
对比实验. 为了证明本文所提出方法的有效性,共进行了3组实验. 在实验1中,
将歧义词的左右词汇单元的词形和词性作为消歧特征. 使用SVM对测试语料进行
词义消歧;在实验2中,使用第3部分所给出的基于最大熵模型的词义消歧分类
器对测试语料进行词义消歧;在实验3中,采用第4部分所给出的基于Co-Training的词义消歧方法. 实验中使用了哈尔滨工业大学的无标注语料,该语料包括10 000条汉语句子. 使用优化后的最大熵分类器对测试语料进行词义消歧.
采用SemEval-2007提供的评测指标(macro average accuracy)来对词义消歧结果进行评测[20],计算过程为
式中:N为所有目标歧义词汇数目;mi为第i个歧义词汇正确分类的测试句子数;ni是包含第i个歧义词汇的所有测试句子数;pi为第i个歧义词汇的消歧准确率;pmar为词义消歧的平均准确率. 3组实验的消歧结果如表2所示.
从表2可以看出:实验1的消歧准确率要高于实验2的. 其主要原因是在同类模型中,SVM具有较好的分类性能. 与实验2相比,实验3的消歧准确率有所提高. 其主要原因是实验3采用了Co-Training算法,借助于两种不同的分类器来对大量
无标注语料进行自动分类,将具有相同分类结果的句子加入训练语料中. 使用扩充后的训练语料来优化最大熵模型,其词义消歧性能有所提高. 实验3的消歧准确率要高于实验1的. 其主要原因是在实验3中,贝叶斯分类器利用了汉语词形、词性和英语译文信息. 最大熵分类器利用了词形和词性信息. 综合运用了汉英两种语言
学知识,能够更好地进行词义消歧. 同时,以训练语料为基础,使用这两种分类器从大量无标注语料中挖掘消歧知识来提高最大熵分类器的性能.
相对于其它词义消歧方法而言,本文所提出的方法具有以下特点. 以歧义词汇上下文中的词形、词性和英语译文为基础,综合利用源语言和目标语言学知识,构造了两种相互独立的视图. 在Co-Training算法指导下,利用贝叶斯模型和最大熵模型对无标注语料进行自动语义分类,选取高置信度的无标注语料来扩充训练数据集. 两个消歧模型相互促进,从无标注语料中挖掘更多的语言学知识,以优化词义消歧分类器.
表2 测试语料的消歧准确率Tab. 2 Disambiguation accuracy of test corpus %词汇实验1 实验2 实验3本48.0 72.0 84.0补85.0 50.0 50.0旗帜 72.2 83.3 83.3动摇 75.0 75.0 76.5镜头 66.7 60.0 60.0使81.3 75.0 87.5望100.0 69.2
69.2长城 76.2 61.9 61.9成立 55.6 63.0 66.7队伍 54.5 40.9 40.9赶61.1 55.6 61.1天地 84.0 80.0 80.0表面 50.0 61.1 61.1菜55.6 38.9 50.0单位 88.2 76.5 76.5儿女 45.0 100.0 100.0机组 100.0 100.0 100.0气象 93.8 81.3 81.3震惊71.4 92.9 92.9中医 93.8 93.8 93.8平均准确率 72.9 71.5 73.8
6 结束语
本文以歧义词汇的汉语语境和英语语境为基础,使用贝叶斯分类器来确定歧义词汇的语义类别.以歧义词汇的汉语语境为基础,使用最大熵分类器来确定歧义词汇的
语义类别. 以SemEval-2007:Task#5的训练语料为基础,结合哈尔滨工业大学
的无标注语料,使用半监督方法来训练贝叶斯分类器和最大熵分类器. 实验结果表明使用本文所提出的方法,词义消歧性能有所提高. 下一步工作包括:
(1)研究改进算法,进一步提高词义消歧的准确率;
(2)利用更多的语言学知识来提高模型的消歧能力.
【相关文献】
[1]王李冬,张引,吕明琪. 基于词组主题建模的文本语义压缩算法[J]. 西南交通大学学报,2015,50(4):755-763.WANG Lidong, ZHANG Yin,LÜ Mingqi. Document semantic compression algorithm based on phrase topic model[J]. Journal of Southwest Jiaotong University,2015, 50(4): 755-763.
[2]翟东海,崔静静,聂洪玉,等. 基于语义相似度的话题关联检测方法[J]. 西南交通大学学报,2015,50(3):517-522.ZHAI Donghai, CUI Jingjing, NIE Hongyu, et al.Topic link detection method based on semantic similarity[J]. Journal of Southwest Jiaotong University,2015, 50(3): 517-522.
[3]杨陟卓,黄河燕. 基于语言模型的有监督词义消歧模型优化研究[J]. 中文信息学报,2014,28(1):19-25.YANG Zhizhuo, HUANG Heyan. Supervised WSD model optimization based on language model[J].Journal of Chinese Information Processing, 2014,28(1): 19-25. [4]JUDITA P. DALE:a word sense disambiguation system for biomedical documents trained using automatically labeled examples[C]//Proceedings of the NAACL HLT 2013
Demonstration Session. Atlanta:Association for Computational Linguistics, 2013:1-4. [5]RAGANATO A. Neural sequence learning models for word sense
disambiguation[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen:Association for Computational Linguistics, 2017:1167-1178.
[6]IACOBACCI I, PILEHVAR M T, NAVIGLI R. Embeddings for word sense disambiguation:an evaluation study[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin:Association for Computational Linguistics, 2016: 897-907.
[7]SHINNOU H, SASAKI M, KOMIYA K. Learning under covariate shift for domain adaptation for word sense disambiguation[C]//Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation. Shanghai:Shanghai Jiaotong University, 2015: 215-223.
[8]郭瑛媚,史晓东,陈毅东,等. 基于话题分布相似度的无监督评论词消歧方法[J]. 北京大学学报,2013,49(1): 95-101.GUO Yingmei, SHI Xiaodong, CHEN Yidong, et al.Unsupervised opinion word disambiguation based on topic distribution similarity[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 95-101.
[9]李旭,刘国华,张东明. 一种改进的汉语全文无指导词义消歧方法[J]. 自动化学报,2010,36(1):184-187.LI Xu, LIU Guohua, ZHANG Dongming. An improved word sense disambiguation method for Chinese full-words based on unsupervised learning[J]. Acta Automatica Sinica, 2010, 36(1): 184-187.
[10]SUNNY M, RITWIK M, MARTIN R, et al. That's sick dude!:automatic identification of word sense change across different timescales[C]//Proceedings of the
52nd Annual Meeting of the Association for Computational Linguistics. Baltimore:Association for Computational Linguistics, 2014: 1020-1029.
[11]KOUNO K, SHINNOU H, SASAKI M, et al. Unsupervised domain adaptation for word sense disambiguation using stacked denoising autoencoder[C]//Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation. Shanghai:Shanghai Jiaotong University, 2015: 224-231.
[12]PANCHENKO A, MARTEN F, RUPPERT E, et al.Unsupervised, knowledge-free,and interpretable word sense disambiguation[C]//Proceedings of the 2017 EMNLP System Demonstrations. Copenhagen:Association for Computational Linguistics, 2017: 91-96.
[13]CEM A, JANYCE W, RADA M, et al. Iterative constrained clustering for subjectivity word sense disambiguation[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg:Association for Computational Linguistics, 2014: 269-278.
[14]KAVEH T, HWEE T N. Semi-supervised word sense disambiguation using word
embeddings in general and specific domains[C]//Human Language Technologies:the 2015 Annual Conference of the North American Chapter of the ACL. Denver:Association for Computational Linguistics, 2015: 314-323.
[15]KAVEH T, HWEE T N. One million sense-tagged instances for word sense disambiguation and induction[C]//Proceedings of the 19th Conference on Computational Language Learning. Beijing:Association for Computational Linguistics, 2015: 338-344.
[16]鹿文鹏,黄河燕,吴昊. 基于领域知识的图模型词义消歧方法[J]. 自动化学报,2014,40(12):2836-2850.LU Wenpeng, HUANG Heyan, WU Hao. Word sense disambiguation with graph model based on domain knowledge[J]. Acta Automatica Sinica, 2014, 40(12):2836-2850.
[17]PERSHINA M. Personalized page rank for named entity disambiguation[C]//Human Language Technologies:the 2015 Annual Conference of the North American Chapter of the ACL. Denver:Association for Computational Linguistics, 2015: 238-243.
[18]RICHARD J, LUIS N P. Combining relational and distributional knowledge for word sense disambiguation[C]//Proceedings of the 20th Nordic Conference of Computational Linguistics. Vilnius:Linköping University Electronic Press, 2015: 69-78.
[19]IVAN L A. Improving selection of synsets from Wordnet for domain-specific word sense disambiguation[J]. Computer Speech and Language,2017, 41(1): 128-145. [20]JIN P, WU Y F, YU S W. SemEval-2007 task 5:multilingual Chinese-English lexical sample task[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Prague:Association for Computational Linguistics, 2007: 19-23.。