双向词典和语义相似度计算相结合的词对齐算法
浅议多种重映射融合的汉英词对齐法

浅议多种重映射融合的汉英词对齐法谢庚全【摘要】针对自动词对齐工具Giza++只允许源语言到目标语言的一对多映射,并生成了很多不对称的对齐,进而直接影响到词对齐的质量和准确性这一缺陷,文章通过研究发现,基于不同预处理机制的词对齐有着不同的系统上可见优势,相对于采用单一预处理机制,机器学习算法可以从基于多预处理机制的词对齐信息中获益.在此基础上,提出基于多预处理机制的多种重映射融合词对齐方法这一设想,并通过实验验证:通过分词预处理形成尽可能含有正确分词方案的方案集,通过对齐预处理获得尽可能多的可靠对齐点,并通过对齐重映射实现对齐的对称化,随后,将对齐重映射的所有相关特征训练一个对齐融合模型,并将这个对齐融合模型作为监督系统,以显著增加词对齐的准确性.【期刊名称】《海南广播电视大学学报》【年(卷),期】2019(020)002【总页数】5页(P29-33)【关键词】汉英词对齐;Giza++工具;多预处理机制;重映射融合【作者】谢庚全【作者单位】海南大学外国语学院,海南海口570228【正文语种】中文【中图分类】H315.9作为机器翻译中使用最广泛的自动词对齐工具Giza++,优点很突出,缺点也很明显,尤其是对分别属于不同语系的汉语和英语来说,要快速、精确的实现汉英词对齐,Giza+工具仍然面临不小挑战。
一、基于统计计算的汉英词对齐工具Giza++的主要特点及不足“词语对齐的目标在于指明平行文本中词之间的对应关系,其最早是作为统计翻译模型的中间产物而被提出[1]”。
平行语料库字词对齐即双语中源语和目标语的对应,在基于统计的机器翻译中扮演着重要角色。
“基于翻译模型的对齐技术主要是根据统计机器翻译中的翻译模型来对齐双语句对,并根据对齐结果抽取翻译词典[2]”。
因此,字词对齐质量对翻译文本的质量至关重要。
“词语对齐在机器翻译领域中占有重要的地位,它是基于短语的翻译模型和基于句法的翻译模型抽取短语和规则的基础,而且词语对齐的质量影响着这些模型的解码效果[3]”。
相似度匹配算法

相似度匹配算法相似度匹配算法___________________________________相似度匹配算法是一种用于检索和分析文本的技术,它使用文本相似性来比较不同文本中的内容,以便找出两个文本之间的关联性。
它是一种自然语言处理(NLP)技术,可以让用户更好地理解文本和文档。
在这种技术的帮助下,用户可以更好地识别文本之间的关系,并将相关文本聚合在一起。
相似度匹配算法可以用于各种应用,如文本分类、文本搜索、情感分析和文本生成。
它可以帮助用户快速找出和检索文本之间的相似之处,以及更好地理解文本的内容。
### 什么是相似度匹配算法?相似度匹配算法是一种NLP技术,用于对不同文本之间进行相似性分析,以及将其聚合在一起。
这是一种有效的文本分析方法,可以帮助用户快速找出两个文本之间的关联性。
### 相似度匹配算法的工作原理相似度匹配算法将文本中的词语分解为单词和词组,并分析它们之间的关联性。
它会比较不同文本中的词语,然后根据它们之间的相似性来评估它们的关联性。
如果两个文本中的词语存在较高的相似性,则可以将它们聚合在一起。
相似度匹配算法可以根据不同的算法来检测和评估文本之间的相似性。
常用的相似度匹配算法包括余弦相似性(cosine similarity)、Jaccard相似性(Jaccard similarity)和Levenshtein距离(Levenshtein distance)等。
### 相似度匹配算法的应用相似度匹配算法可以用于多种应用,如文本分类、文本搜索、情感分析和文本生成等。
- 文本分类:相似度匹配算法可以用于将文本分类为不同的类别。
例如,它可以根据文本中使用的语言、情感和其他特征将文章归类为“正面”或“负面”。
- 文本搜索:相似度匹配算法可以帮助用户快速找出与关键词相关的文章或博客。
它可以根据用户输入的关键词来快速找出和该关键词具有相似性的文章或博客。
- 情感分析:相似度匹配算法也可以用于情感分析。
中文分词相关技术简介

中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。
基于规则的分词方法基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及可以相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。
目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。
◆最小匹配算法在所有的分词算法中,最早研究的是最小匹配算法(Minimum Matching),该算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。
例如,"如果还没有匹配成功",取出左边两个字组成的字段与词典进行比较,分出"如果";再从"还"开始,取"还没",字典中没有此词,继续取"还没有",依次取到字段"还没有匹配"(假设阈值为5),然后从"没"开始,取"没有",如此循环直到字符串末尾为止。
这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为"中华人民共和国",此匹配算法分出的结果为:中华、人民、共和国,因此该方法基本上已经不被采用。
汉语词语相似度计算方法分析

汉语词语相似度计算方法分析【摘要】词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域,词语相似度计算等领域有着广泛的应用,本文对词语相似度计算方法进行了介绍,并侧重介绍了基于《知网》的词语相似度计算方法。
最后对常用的两类计算方法进行了对比。
【关键词】词语相似度计算;知网1.什么是词语相似度汉语最基本的语义和语法单位就是词语,词语相似度计算用来研究用什么样的方法来计算或比较两个词语的相似性。
本文认为,词语相似度就是词语在语义上的匹配程度,取值范围为[0,1]。
词语相似度的值越大,说明两个词语的语义越相近;反之,则说明两个词语的语义差别越大。
特殊的,当值为1时,表明两个词语的语义完全相同;当值为0时,表明两个词语的语义完全不同。
2.词语相似度计算方法词语相似度计算方法大体上可以分为以下两类:2.1基于语料库统计的方法这种方法综合体现了词语在句法、语义还有语用等方面的异同。
该方法属于基于统计的定量分析方法,其应用前提是:两个词语语义相似,当且仅当它们处于相似的上下文环境中。
思想是统计大规模的语料,利用词汇上下文信息的概率分布进行词语之间的语义相似度的计算。
该方法能够相对精确、有效的度量词语的语义相似度。
比如计算词语相似度也可以利用词语的相关性来进行。
方法是事先选择一组特征词,接着计算这一组特征词与每一个词语的相关性,一般基于大规模语料选择这组词在某个词语的上下文中出现的频率作为度量词语相似度的相关数据,对于每一个词都可以得到一个特征词向量。
两个词的相似度就可以通过这些向量之间的相似度来衡量。
而向量之间的相似度,一般通过计算向量之间的夹角余弦值得出。
2.2基于某种世界知识(ontology)的计算方法该方法一般利用语义词典来进行词语相似度计算。
基于语义词典的词语相似度计算方法,以语言学和人工智能两方面为基础。
它基于语义词典,根据概念之间的上下位关系、同义关系进行计算。
这种方法建立在这样的前提下:当且仅当两个词语在概念间的结构层次网络图中存在一条通路(上下位关系)时,这两个词语具有语义相关性。
一种高效的基于启发式规则和词典相结合的双语词对齐方法

对齐 是指从 互 译的两 种不 同语 言文本 中找 出 不 同粒 度 的对 译 片 断 的过 程 , 可分 为 篇章 、 落 、 段 句 子 、 语和 单词 等 不 同粒度 的对 齐 。双 语 词对 短 齐是 指在 对译 的双语 句对 中找到 词汇级 的对 译关
断不是 对 齐的情 况 时 往往 比较 可 信 , 由此 我 们 可 以确信 , 些启发 式 规 则 可 以作 为 对 齐 的必 要 条 一 件 , 不 是 充 分 条 件 , 以用 来 排 除 非 对 齐 的情 而 可
系, 最早是作为统计机器翻译模 型的中间产物而 被提 出 ( rw t 1, 93 … 。词 对齐 的前 提是 Bo nea. 19 )
语料 已经句 对齐 , 由于 经 过词 语 对 齐 的语 料 是 重
要 的与翻译相 关 的 资 源 , 词语 对 齐 对 统计 机 器 翻 译而 言十分 重要 。
练需 要耗 费大量 的时法 中我们充分利 用 了现有词 对齐 的算 法 的优 点 , 比如 基 于词 典 的 对齐 主要用 于找 到高 准 确度 的对 齐锚 点 , 为 后 并
续 的启 发式 过滤 缩 小 片段 , 而在 位 置 选择 中为 进 位置扭 曲度模 型 提 供 位置 锚 点 ; 启发 式 规 则 的 而
文 章编 号 :0 7—18 (0 0 0 0 7 0 10 35 2 1 )5~ 0 3— 5
一
种高效的基于启发式规则和词典相结合的双语词对齐方法
任 志敏 蔡 东风 尹宝 生
( 沈阳航 空航空航天大学 知识 工程 中心 , 辽宁 沈阳 10 3 ) 16 1
摘
要: 双语词对齐是指在互译 的双语句对 中找到词汇级的对译关系 , 自然语言处理领 域一个 是
自然语言处理中常见的语义相似度计算方法(Ⅲ)

自然语言处理(NLP)是人工智能领域中一项重要的技术,其目的是帮助计算机理解和处理人类语言。
在NLP中,语义相似度计算是一个重要的问题,因为它能够帮助计算机更好地理解语言,从而更准确地进行自然语言处理。
一、词嵌入模型词嵌入模型是一种常见的语义相似度计算方法,它通过将词语映射到一个高维实数向量空间中,使得语义相似的词语在向量空间中的距离更近。
其中最著名的词嵌入模型是Word2Vec和GloVe。
Word2Vec通过神经网络模型学习词语的分布式表示,而GloVe则使用了全局词语共现矩阵来学习词嵌入。
这些词嵌入模型可以用来计算两个词语之间的语义相似度,例如通过计算它们在词嵌入向量空间中的余弦相似度。
二、基于知识图谱的语义相似度计算知识图谱是一种结构化的知识表示方法,它将实体和概念之间的关系以图的形式表示出来。
在NLP中,可以利用知识图谱来计算语义相似度。
一种常见的方法是使用实体之间的关系路径来计算它们之间的语义相似度,例如通过计算两个实体在知识图谱中的最短路径的长度。
另外,还可以利用知识图谱中实体之间的关系来计算它们之间的语义相似度,例如通过计算它们在知识图谱中的共同邻居数。
三、基于神经网络的语义相似度计算近年来,随着深度学习技术的发展,基于神经网络的语义相似度计算方法也得到了广泛应用。
其中有一种常见的方法是使用Siamese神经网络来计算两个句子之间的语义相似度。
Siamese神经网络可以通过学习将两个句子映射到同一个向量空间中,然后计算它们之间的相似度。
此外,还可以使用注意力机制来计算两个句子之间的语义相似度,例如通过计算它们在注意力机制中的权重。
四、基于词语对齐的语义相似度计算在跨语言NLP中,词语对齐是一个重要的问题,它可以帮助计算机识别不同语言中的相似词语。
一种常见的方法是使用双语词嵌入模型来进行词语对齐,然后计算词语在两种语言中的相似度。
此外,还可以使用基于翻译模型的方法来计算跨语言词语之间的语义相似度,例如通过计算它们在翻译模型中的对齐概率。
单词相似度计算算法

单词相似度计算算法一、概述单词相似度计算算法是一种用于衡量两个单词之间相似度的算法,它可以根据单词的拼写、发音、语义等方面进行计算,从而得出两个单词之间的相似程度。
该算法在自然语言处理、文本挖掘、机器学习等领域有着广泛的应用。
二、算法原理单词相似度计算算法的基本原理是通过统计和分析文本数据中的单词,将其转换为向量表示,并利用相似度计算方法来衡量两个单词之间的距离或取向。
通常,我们会综合考虑单词的拼写、发音、语义等多个方面,以获得更准确的相似度评估。
在实现单词相似度计算算法时,需要完成以下步骤:1.词频统计:对文本数据中的单词进行词频统计,得到每个单词的出现次数。
2.词向量表示:将单词转换为向量表示,常用的方法有词嵌入(WordEmbedding)等。
词向量的每一维代表一个单词的某个特征,如拼写、发音、语义等。
3.距离计算:通过比较两个单词的向量表示,计算它们之间的距离。
常用的距离计算方法有欧几里得距离、余弦相似度等。
4.权值调整:根据单词在文本中的重要程度,给予不同的权值。
例如,在句子中的高频词可以赋予较大的权值。
三、算法实现单词相似度计算算法的实现通常包括以下步骤:1.输入:两个待比较的单词及其文本数据集。
2.输出:两个单词的相似度分数。
3.算法步骤:a.对文本数据进行预处理,包括去除停用词、标点符号等。
b.构建词频矩阵,统计每个单词的出现次数。
c.将单词转换为向量表示,并计算它们的相似度分数。
d.根据权值调整规则,得到最终的相似度分数。
e.输出结果。
在实现过程中,需要注意以下几点:1.词频矩阵的构建方法有很多种,如TF-IDF算法等。
2.向量表示的方法有多种,如Word2Vec、GloVe等。
3.相似度计算方法有多种选择,如欧几里得距离、余弦相似度等。
4.权值调整规则需要根据实际应用场景进行调整和优化。
四、应用场景单词相似度计算算法的应用场景非常广泛,主要包括以下几个方面:1.搜索引擎:根据单词相似度算法,可以实现对关键词的搜索结果排序,提高搜索结果的准确性。
利用语义相似度解决双语词汇知识获取的错误累计问题

b t e wNe n o d t a e n ma e i i a e , n o c u i n i r wn Ho ewe n Ho t d W r Ne s e d n t sp p r a d ac n l so sd a : wNe a i h rr c l wh l o d t a h b h t sh g e e a l i W r Ne h e h s i h r r c s n f rt er ifr n eo e n i r n lrt . a g e e ii o i fe e c f ma t g a u a y h p o h d s c i
统计和词典方法相结合的双语语料库词对齐

统计和词典方法相结合的双语语料库词对齐最近,双语语料库的研究变得越来越流行,双语语料库的建立对双语研究者来说至关重要。
许多双语研究者更加强调双语语料库中词对齐的重要性,也就是需要将两种语言中相同意义的词,比如汉语的“喜欢”,和英文的“like”,放在一起,以便更好地理解双语之间的差异。
在过去,在构建双语语料库时,词对齐是一项比较困难的工作,语言学家根据句法或者语义进行词对齐,但由于双语中的一些词表达不同的语义或句法结构,仍然存在许多词对齐难题。
最近,人们发明了一种以统计学和词典方法相结合的双语语料库词对齐新技术,它结合了词典和统计方法的优势,可以有效提高双语语料库的准确性和可靠性。
首先,在利用此新技术进行双语语料库词对齐之前,必须根据双语语料库中的语言特征,构建出一个双语词典。
该词典建立在双语语料库中,将经常出现的单词映射成相应的双语对,也就是英文和中文双语之间的对应关系。
其次,为了更好地实现双语语料库的词对齐,需要建立统计模型,模型的输入是双语语料库,它将利用双语词典中的信息,基于词频和共现关系,自动将双语语料库的相同或相近的词组合起来,形成一组双语对。
最后,研究者可以通过检验得出的双语对,来判断词对齐准确性,以满足双语语料库研究要求。
以上就是以《统计和词典方法相结合的双语语料库词对齐》为标题,写一篇3000字的中文文章。
经过近年来双语研究的不断发展,统计学和词典方法相结合的双语语料库词对齐技术已成为实现双语语料库词对齐的最佳选择。
该技术不仅能够解决一些双语研究中词对齐难题,而且能够提高双语语料库的准确性和可靠性。
尽管双语语料库词对齐仍然有许多挑战,但是在今后,随着技术的进步和人们对双语研究的不断关注,相信双语语料库词对齐一定会取得更大的成就,并为双语研究提供更多的帮助。
融入线性句法信息的神经网络双语词对齐算法

融入线性句法信息的神经网络双语词对齐算法在机器翻译领域中,双语词对齐算法是非常重要的研究方向,其主要目标是寻找源语言句子和目标语言句子之间的词语对应关系,从而实现更准确和流畅的翻译结果。
然而,传统的词对齐方法通常无法很好地捕获句子的线性句法信息,导致翻译结果的不理想。
为了解决这一问题,近年来,研究人员提出了一种融入线性句法信息的神经网络双语词对齐算法,本文将对其原理和方法进行详细介绍。
一、背景介绍在传统的双语词对齐算法中,主要采用基于规则和统计的方法,通过计算词语之间的匹配度来确定词对应关系。
然而,这种方法忽略了句子的线性句法信息,导致无法准确地捕捉词语之间的语法结构和顺序关系。
二、神经网络双语词对齐算法为了充分利用句子的线性句法信息,研究人员提出了一种融入线性句法信息的神经网络双语词对齐算法。
该算法主要包括以下几个步骤:1. 句法标注:首先,需要对源语言和目标语言的句子进行句法标注,将每个词语标记为相应的词性和语法功能。
2. 句法特征提取:接下来,从句法标注结果中提取句法特征。
这些特征可以包括词性、句法依存关系等。
3. 句法相似度计算:在句法特征的基础上,计算源语言句子与目标语言句子之间的句法相似度。
这可以通过计算句法特征的相似度矩阵来实现。
4. 学习对齐模型:利用神经网络学习源语言和目标语言句子之间的词对齐模型。
在训练过程中,除了考虑句子的线性句法信息外,还需要考虑到源语言和目标语言的词语之间的语义相似度。
5. 词对齐:利用训练好的模型进行词对齐。
将源语言和目标语言的句子输入模型,根据模型的输出确定词对应关系。
三、实验结果与讨论研究人员通过在大规模的双语语料上进行实验,对比了融入线性句法信息的神经网络双语词对齐算法和传统的词对齐方法。
实验结果表明,融入线性句法信息的神经网络算法能够有效提高词对齐的准确性和稳定性。
特别是在处理复杂句子结构和语法差异较大的语言对时,该算法表现出更好的性能。
这些实验结果证明了融入线性句法信息的神经网络双语词对齐算法在机器翻译中的重要性和应用前景。
两个字典对比算法 -回复

两个字典对比算法-回复两个字典对比算法是指在编程中比较两个字典之间的差异和相似性的方法。
字典是一种无序的数据集合,由键值对构成。
比较字典之间的差异对于数据处理、代码优化和数据更新很有帮助。
本文将逐步介绍两个字典对比算法的实现过程,包括比较键、值和整个字典的差异,以及如何处理不同类型的字典。
在开始之前,我们先定义两个字典,字典A和字典B,用于示例。
字典A:{'name': 'Alice', 'age': 25, 'gender': 'female'}字典B:{'name': 'Bob', 'age': 30, 'country': 'USA'}1. 比较键的差异首先,我们需要比较两个字典的键之间是否存在差异。
这可以通过获取字典的键集合,并进行对比来实现。
在Python中,可以使用keys()方法获取字典的键集合,然后使用差集(difference)操作找到两个字典键的差异。
keys_diff = set(A.keys()) - set(B.keys())通过上述代码,我们可以得到字典A相对于字典B新增的键,这里是一个集合对象。
对于上述示例字典,`keys_diff`将为`{'gender'}`,表示字典A 相对于字典B新增了'gender'键。
同样地,我们可以通过反转操作得到字典B相对于字典A新增的键。
keys_diff = set(B.keys()) - set(A.keys())在上述示例字典中,`keys_diff`将得到`{'country'}`,表示字典B相对于字典A新增了'country'键。
2. 比较值的差异接下来,我们需要比较字典A和字典B中具有相同键的值是否相等。
基于动态语义编码双向LSTM的中文语义相似度计算

第37卷第6期 计算机应用与软件Vol 37No.62020年6月 ComputerApplicationsandSoftwareJun.2020基于动态语义编码双向LSTM的中文语义相似度计算初雅莉 郑 虹 侯秀萍(长春工业大学计算机科学与工程学院 吉林长春130000)收稿日期:2019-04-27。
吉林省教育厅项目(2015121,2015122)。
初雅莉,硕士生,主研领域:智能计算。
郑虹,副教授。
侯秀萍,教授。
摘 要 中文句子结构有较高的复杂性,导致计算语义相似度非常困难,准确率不高。
针对这种情况,改进一种动态语义编码双向LSTM中文语义相似度计算模型。
采用双向LSTM编码器解码器结构,提取由标准句子和自然句子组成的句子对的双向语义特征。
在解码器结构中加入动态语义编码规则,调整输入到解码器的语义编码信息,并把编码信息存储到LSTM神经元节点中,从而得到句子对更准确的相似度值。
模型在汉字数据集、混合数据集和原始数据集三种中文句子对数据集中进行实验。
实验结果表明,该模型在三种数据集中语义相似度的计算优于其他循环神经网络模型。
关键词 中文语义 语义相似度 双向LSTM 动态语义编码规则中图分类号 TP3 文献标志码 A DOI:10.3969/j.issn.1000 386x.2020.06.039CHINESESEMANTICSIMILARITYCALCULATIONBASEDONDYNAMICSEMANTICCODINGBI DIRECTIONALLSTMChuYali ZhengHong HouXiuping(SchoolofComputerScienceandEngineering,ChangchunUniversityofTechnology,Changchun130000,Jilin,China)Abstract DuetothecomplexityofChinesesentencestructure,itisverydifficulttocalculatethesemanticsimilarity,andtheaccuracyisnothigh.Aimingatthissituation,weimproveabi directionalLSTMChinesesemanticsimilaritycalculationmodelbydynamicsemanticcoding.Itadoptedabi directionalLSTMencoder decoderstructuretoextractbi directionalsemanticfeaturesofsentencepairsconsistingofstandardsentencesandnaturalsentences.Adynamicsemanticcodingrulewasaddedtothedecoderstructure,thesemanticcodinginformationinputtothedecoderwasadjusted,andthecodedinformationwasstoredintheLSTMcell,soastogetmoreaccuratesimilarityvalueofthesentencepair.ThemodelwasusedtotestthreeChinesesentencesinChinesecharacterdataset,mixeddataset,andoriginaldataset.Theexperimentalresultsshowthatthemodelissuperiortootherrecurrentneuralnetworkmodelsinthecalculationofsemanticsimilarityinthethreedatasets.Keywords Chinesesemantics Semanticsimilarity Bi directionalLSTM Dynamicsemanticcodingrules0 引 言语义相似度是机器学习中相似性学习的一种,也是自然语言处理领域中研究的热点,在问答系统、信息检索、机器翻译和文本分类等若干应用程序中影响也日益增加[1]。
利用语义相似度解决双语词汇知识获取的错误累计问题

利用语义相似度解决双语词汇知识获取的错误累计问题
刘鹏远;赵铁军;李生;杨沐昀
【期刊名称】《哈尔滨工程大学学报》
【年(卷),期】2006(027)0z1
【摘要】在利用大规模英汉双语平行语料库进行双向双语翻译词典建设时发现:由于错误累计问题.现有词对齐技术无法直接获取质量较高的双语词汇知识.由此提出一种基于HowNet以及WordNet进行相似度计算,然后设定相似度阈值来进行词义过滤的方法.实验结果表明该方法行之有效.并对HowNet以及WordNet相似度计算方法进行了基于实际应用的对比与探讨后得出:HowNet在语义区分上粒度更细因此其召回率较高,WordNet则具有更高的精确率.
【总页数】5页(P575-579)
【作者】刘鹏远;赵铁军;李生;杨沐昀
【作者单位】哈尔滨工业大学,计算机学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机学院,黑龙江,哈尔滨,150001;哈尔滨工业大学,计算机学院,黑龙江,哈尔
滨,150001;哈尔滨工业大学,计算机学院,黑龙江,哈尔滨,150001
【正文语种】中文
【中图分类】TP182
【相关文献】
1.利用语义相似度解决双语词汇知识获取的错误累计问题 [J], 刘鹏远;赵铁军;李生;杨沭昀
2.利用词汇分布相似度的中文词汇语义倾向性计算 [J], 赵煜;蔡皖东;樊娜;李慧贤
3.基于语义相似度计算的词汇语义自动分类系统 [J], 李杰;曹谢东;余飞
4.词汇知识获取及语义计算平台的构建 [J], 刘兴林
5.基于词语相似度的语义选择限制知识获取 [J], 贾玉祥;赵倩倩;李育光;郑一;昝红英
因版权原因,仅展示原文概要,查看原文内容请购买。
双向词典和语义相似度计算相结合的词对齐算法

双向词典和语义相似度计算相结合的词对齐算法尹宝生;杨阳【期刊名称】《沈阳航空航天大学学报》【年(卷),期】2015(000)002【摘要】Word-alignment based on statistical method requiresa large-scale bilingual corpus as input,soit is difficult to avoid the problem of data sparse and the algorithmtime overhead. This paper presents anefficient word-alignment algorithm based on bidirectional dictionary and semantic similarity calculation to satisfy the demand for real-time alignment of sentence or paragraph level. The approximate translation of word-align-ment problem due to the flexibility and diversity of translation can beeffectively solved by taking dynamic block segmentation and matching,semantic similarity calculation based on the HowNet,the conflict resolu-tion based on the maximum matching and the pruning disambiguation. Compared with the standard algo-rithm,the experimental results show that the accuracy rate and recall ratecan be effectively improved bythis alignment method on a small-scalebilingual corpus and real-timealignment with better adaptability.%基于统计的词对齐方法需要大规模的双语语料作为输入,难以避免数据稀疏的问题并且算法时间开销大。
汉英双语命名实体识别与对齐的交互式方法_陈钰枫

第34卷 第9期2011年9月计 算 机 学 报CH INESE JOURNA L OF COM PU TERSVo l.34N o.9Sept.2011收稿日期:2008-03-03;最终修改稿收到日期:2010-04-26.本课题得到国家自然科学基金(60975053,60736014)、国家支撑计划项目(2006BAH 03B02)和国家 八六三 高技术研究发展计划项目基金(2006AA010108-4)资助.陈钰枫,女,1981年生,博士,助理研究员,研究方向为自然语言处理和机器翻译.E -mail:chenyf@.宗成庆,男,1963年生,博士,研究员,博士生导师,研究领域为机器翻译、文本分类、句法分析等.苏克毅,男,1955年生,博士,教授,研究领域为统计机器学习在自然语言处理中的应用,并致力于构建高性能的技术手册的英汉翻译系统.汉英双语命名实体识别与对齐的交互式方法陈钰枫1) 宗成庆1) 苏克毅2)1)(中国科学院自动化研究所模式识别国家重点实验室 北京 100190)2)(台湾致遠科技公司 台湾新竹)摘 要 基于汉英双语命名实体的识别与对齐特性,文中提出了一种双语命名实体交互式对齐模型,其中的修正对齐计算体现了汉英实体识别与对齐的密切结合:一方面,利用双语对齐信息帮助实体识别;另一方面,实体的对齐过程对实体的识别结果又具有一定的修正作用,两方面的结合实现了双语实体识别与对齐之间的交互式互助过程.实验证明,这种交互式对齐模型不仅显著提高了汉英实体对齐的性能(F 值从74 4%提高到81 2%),而且有效地提高了汉英实体识别的正确率和召回率.关键词 命名实体;识别;双语对齐;交互;机器翻译中图法分类号T P 391 DOI 号:10.3724/SP.J.1016.2010.01688Joint Chinese -English Named Entity Recognition and AlignmentCH EN Yu -Feng 1) ZONG Cheng -Qing 1) SU Keh -Yih2)1)(National L a borator y of P atter n Recog nition ,I nstitute of A utomation ,Chine se Ac ade mic of S cie nces ,B eij ing 100190)2)(Be hav ior De sig n Corp oration,H sinchu,T aiw an)Abstract Named entity (NE)r ecognitio n is an essential early stag e and has long been a tho rny pro blem in many natural lang uage processing pipelines.Gener ally,bilingual nam ed entity recog -nitio n and alignment ar e pr ocessed sequentially and independently ,reg ardless of interactions be -tw een the tw o stages.Ther efore,NE reco gnition errors are propagated and com pounded in NE alig nm ent stag e.Actually,biling ual alignment information,other than monolingual information,pro vides further indicatio ns for NE recog nition.It is necessary to capture the inter actio ns be -tw een NE recog nition and alig nm ent.According ly,based o n the characteristics of NE recog nition and alignment,this paper pr opo ses an interactive bilingual NE alignment model,w hich com bines basic alignment and cor rective alig nm ent.Basic alig nment is achieved as tr aditional alignment ap -proach,w hile the co rrective alig nment realizes the joint of NE r ecognitio n and alig nm ent.On the one hand,bilingual alignment inform ation is utilized for NE reco gnition;on the other hand,NE recog nition errors can be recovered in the NE alig nm ent stag e.Bo th the NE boundaries and ty pe can be cor rected in such inter activ e NE alignment mo del.T he experim ents show that this novel model not only achieves a sig nificant im pro vem ent of the Chinese -Eng lish NE alig nment quality (F -score from 74 4%to 81 2%),but also im pro ves the per for mance of NE recog nition.Keywords nam ed entity;recog nition;biling ual alignment;interaction;m achine translatio n1 引 言命名实体,尤其人名、地名与机构名这三类命名实体在自然语言中传递着关键信息,是信息处理的重点与难点.对于单语序列,命名实体识别是众多自然语言处理领域的基础工作,其性能直接影响后续的信息处理步骤.对于双语序列,双语命名实体的对齐旨在建立源语言和目标语言中命名实体之间关系,是机器翻译、跨语言信息检索等多语言处理领域的一项重要工作.一般来说,双语命名实体对齐任务首先识别出源语言或目标语言中的命名实体,再实现它们之间的对应,这需要保证识别过程和对齐过程的准确率,因此,双语命名实体对齐成为一项挑战性很大的工作,具体体现在以下两个方面:(1)双语命名实体的对齐结果很大程度上依赖于实体识别,而识别结果中通常存在比较多的错误,主要包括部分识别、丢失和假性识别(把非命名实体识别成命名实体).实体对齐过程如果直接采用识别结果,必然导致识别错误的延续和扩大;(2)双语命名实体的对齐本身难度很大,因为它不仅属于多词对应多词的对齐任务,还包括意译①和音译两种对齐形式.因此双语命名实体对齐一般采用多特征和多语言知识融合的系统.近几年来,双语命名实体对齐的研究主要致力于多特征对齐模型的建立,对齐本身已经取得了比较好的效果,但是它与实体的识别性能紧密相关,如果实体识别的错误没有经过修正,直接延续到对齐过程中,那么对齐性能将无法从根本上提高.因此,双语命名实体的对齐如何同实体识别相结合,具有一定的修正识别结果的能力,是双语命名实体对齐任务的瓶颈问题.从实体识别的角度上,双语命名实体对齐方法可以分为两大类.一类是识别双语实体后再对齐,表示分别在源语言和目标语言中识别出命名实体,然后再建立它们之间的对齐关系.例如,文献[1]建立了一个多特征融合的模型来抽取双语语料库中的命名实体翻译对.这类对齐方法需要双语实体识别,因此很大程度上依赖于识别结果.另一类是识别单语实体后再对齐,表示只识别出源语言命名实体,然后在目标语言中确定它们的翻译对应.只在一方进行实体识别,降低了对齐过程对识别结果的依赖程度,因此大部分对齐工作[2-5]都属于这类方法.但是这类对齐方法丢失了目标语言命名实体的识别信息,并且没有在根本上解决实体对齐过程对识别结果的依赖性问题.上述的两类对齐方法都没有校验识别结果的置信度,因此,这样的实体对齐系统无法修正识别错误,导致识别错误延续到对齐过程中,很大程度上影响到最后的对齐结果.针对命名实体识别,国内外已经有大量的深入研究,但识别结果还有待完善,实体识别仍然是自然语言处理领域的热点.目前,实体识别除了利用单语序列上的局部信息(词条、词性标注、chunk标注等),还包括单语序列上的全局信息[6](全文标注统一性等).此外,另一有待深入研究的可利用资源是:双语序列的对位信息对识别的辅助.例如,文献[7]将双语语料作为反馈信息来提高源语言命名实体的识别性能.但利用双语对齐信息来辅助实体识别,同时提高实体对齐效果,目前尚无研究.实际上,双语命名实体对齐虽然是实体识别的后续过程,但对齐信息却能辅助命名实体的识别,修正已有的识别错误.于是,我们的研究重点在于如何将实体对齐信息反馈给实体识别.针对汉英双语语料,我们建立起双语实体识别与对齐相结合的整体框架.提出一种汉英双语命名实体交互式对齐模型,使双语实体对齐具有修正识别的功能,实现二者性能的同时提高.本文第2节给出汉英命名实体识别与对齐的特性分析;第3节提出了一种汉英命名实体交互式对齐模型,详细介绍了其中的修正对齐计算,它用于修正实体边界和类别识别的错误,从而实现了实体识别与对齐的交互;第4节给出实验结果和分析部分;最后一节是本文的结束语.2 汉英命名实体识别与对齐的特性分析命名实体识别通常包括两部分:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他).英文命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以其实体边界的识别相对容易,识别任务的重点在于确定实体的类别.与英文相比,中文命名实体的识别任务更加复杂,而且相对于实体类别的标注,中文实体边界的判断更加困难.通过平行的汉英双语语料是否可以使汉英实体双方的识别特性互补呢?实际上,双语16899期陈钰枫等:汉英双语命名实体识别与对齐的交互式方法①指普遍含义上的翻译概念,为与音译区别,本文均指意译.对齐信息提供了双语实体边界和类别的统一性,可以用于调整和修正汉英实体的识别.一方面,双语实体普遍是边界统一的(也就是双语实体的内部词一一对应的①).因此,双语实体的词对齐有利于单语实体边界的确定.例如:(1)中文命名实体的识别结果:官方的〈O RG 〉北韩中央〈/OR G 〉通信社引述海军声明(2)英文命名实体的识别结果:Official 〈O RG 〉N or th Ko rean s Centr al N ew s Ag ency 〈/ORG 〉quo ted the navy s st atement(3)双语命名实体对齐:(4)中文命名实体的边界修正:官方的〈ORG 〉北韩中央通信社〈/O RG 〉引述海军声明上例中,中文实体的识别结果 北韩中央 属于部分识别的错误结果,英文实体 No rth Korean s Central New s Agency 是正确的识别结果.通过正确的汉英实体对齐(内部词对齐), New s Ag ency 和 通信社 对齐后,中文实体可以被修正为 北韩中央通信社 .另一方面,对齐的双语实体应该是类别统一的.不仅类别统一性有利于确定双语实体的类别,而且不同类别的实体与对齐形式(包括意译和音译)存在很大的关联,也就是双语实体的对齐方式也有助于实体类别的判断.例如:(1)中文命名实体的识别结果:在〈L OC 〉康斯坦茨湖〈/LO C 〉工作的一艘渡船船长(2)英文命名实体的识别结果:T he capt ain of a ferr y boat w ho w or ks on 〈PER 〉Lake Constance 〈/PER 〉(3)双语命名实体对齐:(4)英文命名实体的类别修正:T he capt ain of a ferr y boat w ho w or ks on 〈LO C 〉L ake Constance 〈/L OC 〉上例中,英文实体 Lake Constance 被错误地识别成人名,通过与中文地名 康斯坦茨湖 对齐后,有助于被修正为地名.如果更深入地分析,上例中的词对齐, 湖 与 Lake ,属于意译对齐.一般来说,人名普遍采用音译进行翻译,所以这个信息暗示了这个英文实体 Lake Constance 不可能是人名.只可能是地名或机构名.由此可见,实体的对齐形式有助于我们对命名实体类别的判断.我们继续深入探讨双语命名实体翻译对内部的对齐形式,也就是意译和音译的组合方式.文献[8]指出不同类别的实体倾向于不同的对齐形式.人名对齐主要是音译形式,地名和机构名的对齐是意译和音译形式的组合,而且在机构名对齐中,意译形式占的比重更大.针对LDC 机构发布的汉英双语命名实体语料库(LDC2005T34),我们通过其中意译词和音译词的频率统计,发现在人名翻译对、地名翻译对和机构名翻译对中,音译词所占的比重分别是100%、89 4%和12 6%,相差的幅度非常大,这启示我们可以采用双语实体翻译对中音译对齐或意译对齐的比重来辅助实体类别的判断.综上所述,双语实体的对齐信息为实体识别提供了边界和类别的判断信息.在顺序处理系统中,实体对齐作为实体识别的后续过程,如果能有效利用双语对齐信息对实体识别的反馈作用,必然能避免过多的识别错误,提高识别的准确率,同时也提高对齐的正确率.3 双语命名实体交互式对齐模型通常情况下,命名实体识别过程和对齐过程是顺序进行的,没有考虑这两个过程之间的交互作用,因此,传统的对齐模型直接基于实体识别结果,而无法修正识别结果的错误.为了引入对齐信息对实体识别的反馈辅助作用,同时提高对齐效果,我们建立整体推导框架,将传统的双语实体对齐模型扩展为交互式对齐模型.汉英双语命名实体交互式对齐任务描述如下:给定汉英双语对齐的句子,分别识别出其中包含的汉英命名实体,并且实现它们之间的对齐.一般直接采用汉英实体识别工具,可以分别找出汉英句子包含的命名实体,中文命名实体的识别结果S 1=1, ,s, ,S和英文命名实体的识别结果T 1=1, ,t, ,T,我们定义m k =(s,t)是其中的一条实体对应,表示s和t互为翻译或部分翻译(包括意译和音译形式).因此,直接基于识别结果的基本对齐1690计 算 机 学 报2011年①当某一方的实体存在省略、简略等情况时,双语实体的内部词不一定一一对应.M被定义为双语实体识别结果的笛卡尔积的子集.M {(s,t):s=1,2, ,S;t=1,2, ,T},其中,我们不考虑对空情况.但是,实体识别系统得到的识别结果通常存在许多错误,因此,我们的实体交互式对齐任务不仅实现实体识别结果的基本对齐,还要实现实体识别结果的修正,包括实体的边界和类别的修正.也就是在一个基本对齐m k=(s,t)的基础上,通过汉英实体左右边界的字或词的缩放,获得s 和t修正结果的候选项CNE k和ENE k,因此,一个修正后的实体翻译对定义为a k=(CN E k,E N E k),其中,CN E k和EN E k同为一种类别(ty p e k)(本文只考虑3种类别:人名、地名和机构名),因此修正后的实体对齐定义为A=〈a k,ty p e k〉K k=1,表示该汉英句子中共包含K 个实体翻译对,〈a k,ty p e k〉是第k个实体翻译对,所以汉英双语实体的交互式对齐模型定义如下:给定汉英双语的句子翻译对:ChnS和EngS,借助识别工具得到汉英实体的识别结果S1,T1,我们的目标是实现它们之间的基本对齐M,然后通过对齐信息修正识别结果,实现修正的实体对齐A,包括对齐后实体翻译对的类别.A*=arg maxA[maxMP(A,M|S1,T1,ChnS,EngS)](1)其中,A*是最优的双语实体对齐结果.P(A,M|S1,T1,ChnS,Eng S)的推导如下:P(A,M|S1,T1,ChnS,EngS)=P(A|M,S1,T1,ChnS,E ngS)P(M |S1,T1,ChnS,E ngS)akAmkMP(〈a k,ty p e k〉|m k,ChnS,E ngS)P(m k|s,t)(2)P(m k |s,t)代表传统的基本对齐计算(直接基于识别结果),P(a k,ty p e k|m k,ChnS,E ngS)是修正对齐计算,通过已有的对齐m k,得到修正的实体翻译对a k,并确定它的类别ty p e k,体现了实体对齐和识别之间的交互.由式(2)可见,双语实体交互式对齐包括了基本对齐计算和修正对齐计算.基本对齐计算体现了首先实体识别,然后实体对齐的顺序过程.而修正对齐计算作为双语实体识别和对齐之间的桥梁,使实体识别和对齐相辅相成,同时实现实体识别和对齐性能的提高.3.1 基本对齐计算我们直接对P(m k|s,t)采用最大熵[9]模型进行建模,在此框架下,设计一组特征函数h f(m k,s,t),其中,f=1,2, ,F,对于每个特征函数h f,都有相应的模型参数 f,f=1,2, ,F.因此,依据文献[10]建立基本对齐模型:P(m k|s,t)=ex p F f=1 f h f(m k,s,t)mkex p F f=1 f h f(m k,s,t)(3)我们共采用3个特征计算基本对齐:意译特征、音译特征、共现特征.具体概率计算根据文献[2],下文进行简要介绍.3.1.1 意译特征采用IBM-1模型的概率,假设s包含I个词c1, ,c i, ,c I,t包含J个词e1, ,e j, ,e J.意译特征表示如下:h(m k,s,t)=lo g P ts(s|t)+log P ts(t|s)(4)其中,P ts(s|t)和P ts(t|s)分别表示英-中、中-英的翻译概率.3.1.2 音译特征先将英文实体t音译为t,tl=arg maxEN E tlP tl(tl|t),再通过DICE系数Dice(p y,tl)表示和中文实体拼音p y和英文实体音译结果tl的相近度.因为存在字符直接转换为拼音的音译方式(比如中文人名翻译成英文),所以还要考虑中文实体拼音和英文实体t的相似性Dice(p y,t).最后的音译特征函数取以上两种相似性的最大值:h(m k,s,t)=max(Dice(py,tl),Dice(p y,t))(5)3.1.3 共现特征共现特征表示的是汉英实体在整个语料库中的对应频率.h(m k,s,t)=16919期陈钰枫等:汉英双语命名实体识别与对齐的交互式方法count(s,t)count(*,t)+count(s,t)count(s,*)(6)其中,count(s,t)表示s和t在一个句子翻译对中同时出现的次数,而count(s,*)和count(*,t )分别表示中文实体s和英文实体t在语料库中出现的次数.依据以上的特征函数,根据式(3),我们使用GIS(Generalized Iterative Scaling)算法[11]来训练基本对齐模型的模型参数 f.经过适当的转换,GIS 算法可以用来处理实数值特征.我们采用由Och开发的YASM ET①来执行训练.基本对齐计算是许多文献普遍采用的方式,在本文作为我们的对齐基准系统.通过增加更多的特征,只能使对齐本身的正确率提高,但无法修正已有的识别错误,因而不能根本上解决实体识别对实体对齐的影响.3.2 修正对齐计算由式(2)可以看出,在基本对齐计算后,我们再通过式P(〈a k,ty p e k〉|m k,ChnS,E ngS)进行修正对齐计算,获得修正的对齐a k及其类别ty p e k.为引入双语实体识别与对齐的结合点,我们在修正对齐中引入双语实体翻译对a k的内部词对齐L k.P(〈a k,ty p e k〉|m,ChnS,EngS)=P(a k|ty p e k,m k,ChnS,EngS)P(ty p e k|m k,ChnS,E ngS)= LkP(a k,L k|ty p e k,m k,ChnS,E ngS)P(ty p e k|m k,ChnS,E ngS)= LkP(L k|a k,ty p e k,m k,ChnS,E ngS)P(a k|ty p e k,m k,ChnS,EngS)P(ty p e k|m k,ChnS,E ngS)LkP(L k|CNE k,EN E k,ty p e)P(a k|ty p e k,m k,ChnS,EngS)P(ty p e k|m k)(7)假设对于各个类别,上式中的P(ty p e k|m k)平均分布,因此可以被忽略.P(a k|ty p e k,m k,ChnS,E ngS)=P(a k,Other T ok ens|ty p e k,m k,ChnS,EngS)=P(ChnS,Eng S|ty p e k,m k,a k,Other Tok ens)P(a k,Other T ok ens|ty p e k,m k)/P(ChnS,Eng S|ty p e k,m k)=P(ChnS,Eng S|ty p e k,m k,CN E k,EN E k,OtherT okens)P(CN E k,EN E k|Other Tokens,ty p e k,m k)P(Other Tok ens|ty p e k,m k)/P(ChnS,E ngS|ty p e k,m k)(8)其中,Other Tok ens表示除实体以外在汉英句子ChnS和EngS上的标注,已知P(ChnS,E ngS| ty p e k,m k,CN E s,EN E t,OtherT okens)=1,而且上式中的P(OtherT okens|ty p e k,m k)和P(ChnS,EngS| ty p e k,m k)与每个实体翻译对的候选项〈CN E s, EN E t〉无关,所以在不会影响式(1)最后结果的情况下,我们将P(a k|ty p e k,m k,ChnS,EngS)替换为P(CNE k,EN E k|Other Tokens,ty p e k,m k),假设CN E s和EN E t相互独立,推导如下:P(CN E k,EN E k|OtherT okens,ty p e k,m k)=P(CNE k,EN E k|ty p e k)=P(CNE k|ty p e k)P(EN E k|typ e k)(9)其中的P(CN E k|ty p e k)和P(EN E k|ty p e k)分别是汉英实体的类别模型,为实体识别提供了汉英单语序列上的信息,本文称其为单语序列上的实体置信度,根据文献[1]介绍的命名实体识别的隐马模型,我们可以分别计算汉英序列的实体类别概率P(CNE k|ty p e k)和P(EN E k|ty p e k),相当于引入单语实体识别的概率信息.另一方面,式(7)中的P(L k|CN E k,EN E k, ty p e k)称为双语序列上的实体置信度,它表示汉英双语序列上实体翻译对的生成,为实体识别提供双语信息.因此,双语序列上的实体置信度体现了双语实体识别和对齐的融合,是下文介绍的重点.假定CN E k=c I1=c1 c i c I,表示该中文实体包含I个字,EN E k=e J1=e1 e j e J表示该英文实体包含J 个词.由于中文分词存在一定的错误,特别是包含音译词的实体,分词问题尤为困难,因此,我们考虑汉英实体包含的词对齐时从英文词e j出发,并且只考虑英文实体所包含的实词,忽略of,fo r等虚词.我们定义(c i,e j)表示c i和e j互为翻译,于是,实体翻译对a k的内部词对齐可以表示为L k=〈(c i,e j)〉N n=1,实际上,c i和e j的对应形式包括意译(Translation, T S)和音译(T ransliteration,T L)两种方式.因此L k进一步定义为L k={〈(c i,e j)〉N n=1, }={T S=〈(c x,e x)ts〉n1x=1,T L=〈(c y,e y)tl〉n2y=1, },表示该内部对齐包含n1个意译对应(c x,e x)ts和n2个音译对应1692计 算 机 学 报2011年①http://w rm atik.rwth-aachen.de/Colleagues/och/s oftw ar e/YASM ET.html(c y,e y)tl,N=n1+n2.根据第2节的介绍,实体意译或音译的比重与类别密切相关,可区分度比较大.于是我们定义内部词对齐中意译对齐个数所占的比值=n1n1+n2来表示意译比重.这样我们在双语序列的实体置信度中又引入了意译比重 .P(L k|CN E k,E N E k,ty p e)P(〈c i,e j〉N n=1, |c I1,e J1,ty p e k)N n=1P(c i|e j,ty p e k) P( |ty p e k)(10) P(c i|e j,ty p e k)在不同类别的双语实体语料库中训练获得.同样,在不同类别的双语实体库中根据频率统计可以获得P( |ty p e k).综上所述,通过单语序列上和双语序列上的实体置信度计算,完成实体翻译对的修正对齐.修正对齐体现了双语实体识别与对齐的交互.最后,基于3 1节基本对齐计算与本节修正对齐计算的综合,从所有的实体候选翻译对中搜索最优的实体对齐结果.3.3 搜 索实体候选项的建立:以实体识别系统获得的汉英实体结果为基准,建立一个滑动窗,可以逐次向内缩减(中文1~4字,英文1~2词)和向外扩展(中文1~4字,英文1~4词),建立一系列汉英实体的候选项.通过组合它们,得到双语实体翻译对的候选项,根据式(2),令每个候选实体翻译对a k的分值为Scor e(a k)=log[P(〈a k,ty p e k〉|m k,ChnS,E ngS)]+log[P(m k |s ,t)](11)然后由一种柱搜索(beam search)[12-13]算法获得最优的实体对齐A*,柱搜索算法每次保留N个最好的假设,N表示柱宽度(beam w idth),通过调整N,可以近似地获得全局最优对齐结果.每一个假设的生成过程如下:1.针对一个汉英双语句子对,通过汉英识别系统获得识别结果后,基于识别结果(例如,s,t)建立滑动窗,产生实体侯选项(例如,CN E k,E N E k),再将所有可能的实体对位a k=(CN E k,E N E k)构成一个候选对位的集合Alig ned-Pairs,并初始化该双语句子的实体对齐假设H为空;2.根据式(11)的计算,将所有实体候选实体对按降序排列;3.选取一个和当前假设没有边界重叠的候选项a k= (CN E k,EN E k),由式(2)可以看出,在获得实体翻译对a k的同时,也获得相应的类别ty p e k,一起放入假设H中,相当于对已有假设进行扩展,得到一个新的当前假设;4.重复步3直到实体对齐假设H不能再继续扩展为止.每个实体对齐假设就是该汉英双语句子对的一种实体对应结果.我们采用评价函数来估计实体对齐假设.根据式(2),实体对齐假设的评价函数定义为Scor e(H)= H k=1scor e(a k)(12)基于一定的柱宽度,对所有假设进行评价后,我们可以获得最优的实体对齐结果,然后回溯得到最优实体对齐结果中的所有实体翻译对.4 实验设计及分析为了验证本文提出的双语实体交互式对齐模型的有效性,我们进行了以下实验,分别测试了它对汉英文命名实体的识别和对齐的影响.我们从LDC机构发布的汉英文新闻语料库(LDC2005T06)中抽取了300对汉英文句子翻译对作为我们的测试集(抽取的限制条件为:每一个句对中的中文句子或英文句子至少包含一个实体).其中,中文句子的长度平均是58个字;英文句子平均包含24个词.通过人工标注其中的命名实体以及汉英实体间的对应,作为实体识别和对齐实验的标准答案.评估标准采用 正确率(Precision,P) , 召回率(Recall,R) 和 F值(F-sco re,F) .4.1 汉英命名实体的识别与对齐基准系统首先,我们分别采用我们实验室开发的多知识源融合的中文实体识别系统[14]和公开开放的基于CRF模型的英文实体识别系统(M allet工具包①)作为实体识别的基准系统.汉英实体的识别基准系统分别识别出685个中文实体和732个英文实体,其不同类别的实体识别性能如表1和表2所示.表1 中文实体的识别基准系统性能P/%R/%F/%人名84 6790 2187 35地名91 8290 2491 02机构名85 4282 7584 06综合87 5288 7588 13表2 英文实体的识别基准系统性能P/%R/%F/%人名79 3585 9682 52地名86 1781 6683 85机构名83 3480 1281 70综合83 1283 5883 3416939期陈钰枫等:汉英双语命名实体识别与对齐的交互式方法①/index.php/M ain_Page观察表1和表2,我们发现,在所有类别中,汉英文人名的识别正确率都是最低的,主要原因在于大量地名和机构名简称被错误识别成人名.此外,由于音译词和分词的影响,一些中文人名不能被完整识别出来.根据语料分析,虽然英文具有首字母大写标志的优势,英文实体的边界易于识别,但是其类别判断存在很多错误,因而总体而言,中文实体识别的基准系统要优于英文实体识别的基准系统.基于识别基准系统得到的汉英文实体,我们采用基本对齐计算作为我们的对齐基准系统.其中,4个特征的训练语料来源于汉英命名实体翻译对语料(LDC2005T34)和汉英双语新闻语料(LDC2005T06),并采用GIZA++工具包[15]训练意译和翻译概率.在搜索过程中,我们采用柱宽度N=5进行搜索.汉英实体对齐基准系统得到的对齐正确率是66 24%,由于对齐基准系统直接基于识别结果,汉英实体的识别错误在对齐过程中混合扩大,很大程度上影响对齐的效果,导致对齐正确率比较低.4.2 汉英命名实体交互式对齐系统基于对齐基准系统,双语实体交互式对齐系统还进行了修正对齐.修正对齐包括单语序列上的实体置信度计算(简称单语修正对齐)和双语序列上的实体置信度计算(简称双语修正对齐).我们采用汉英实体识别基准系统标注汉英双语语料(LDC2005T06),然后在该标注语料上训练得到单语序列上的实体置信度概率;双语序列上的实体置信度概率的训练基于汉英文实体语料库(LDC2005T34)中的人名、地名和机构名翻译对.表3给出对齐基准系统和交互式对齐系统在整体对齐性能上的比较.表3 不考虑类别的对齐性能比较模型性能P/%R/%F/%对齐基准系统(基本对齐)72 1276 8374 40修正对齐74 4579 5276 90基本对齐+单语修正对齐73 3279 1376 11基本对齐+双语修正对齐77 1982 4479 73交互式对齐系统(基本对齐+修正对齐)79 0784 2681 21表3比较了不同情况下的实体对齐性能,可以看出,交互式对齐系统,即基本对齐和修正对齐的结合,可以获得最好的性能.同时,引入双语修正对齐的性能要优于引入单语修正对齐的性能,可见在双语修正对齐中引入意译比重和实体类别约束的优势.交互式对齐系统不仅获得修正后的实体翻译对,还包括汉英实体统一的实体类别,但由于对齐基准系统不能保证每个实体翻译对的类别统一,因此,我们采用以下打分方式进行不同类别的对齐结果比较:一个实体翻译对中,如果汉英实体的类别都判断正确,给1 0分;如果汉英某一个实体的类别判断错误,给0 5分;如果汉英实体的类别都判断错误,给0分,然后将所有实体翻译对的得分相加,作为类别判断的分值.测试语料中实际包含192个人名翻译对,363个地名翻译对和122个机构名翻译对.表4给出了对齐基准系统和交互式对齐系统在类别判断上的分值比较.表4 对齐性能在类别判断上的比较对齐基准系统交互式对齐系统人名156181地名335 5348机构名99 5117交互式对齐通过单语序列上的实体置信度(见式(9))和双语序列上的实体置信度(见式(10))对实体类别ty p e k进行了重新判断.相对于实体识别结果来说,实体类别的重新判断融合了单语序列信息和双语序列信息(包括意译比重和实体类别的关系P( |ty p e k)以及实体类别的约束),对实体类别的判断更加有效.从表4我们可以看出,交互式对齐与对齐基准系统相比较在类别判断上有明显的优势,也就是在对齐的同时纠正了实体类别.使每种类别判断普遍提高了十几个分值.证明了交互式对齐对实体类别的修正作用.交互式对齐系统中的修正对齐计算有助于修正实体的边界和类别,因而在提高实体对齐性能的同时也提高了实体识别的性能.表5和表6分别给出汉英文实体交互式对齐后的实体修正结果.实验结果表明了该交互式对齐模型辅助实体识别的有效性.表5 双语实体交互式对齐模型修正后的中文实体性能P/%R/%F/%人名89 1291 9390 50地名91 1593 4692 29机构名87 9885 2686 60综合89 5190 0589 78识别基准系统87 5288 9588 13表6 双语实体交互式对齐模型修正后的英文实体性能P/%R/%F/%人名84 7889 2386 95地名86 9485 7686 35机构名85 6882 9584 29综合85 8086 5286 16识别基准系统83 1283 5882 841694计 算 机 学 报2011年。
机器翻译重要过程(2)---词语对齐

机器翻译重要过程(2)---词语对齐在上⼀步预处理完成之后,平⾏句对中的中⽂部分都被切分成了相应的短语,⽽英⽂的⼤⼩写、格式、相应的空格也都加上了,在这之后就可以完成词语对齐的过程了。
词语对齐的⽬标是得到中英⽂词或短语的对齐信息,便于翻译系统做解码时寻找相应的phrase。
词语对齐这⼀步⼀般都采⽤开源⼯具完成,⽐如现在⽤的最多的GIZA++,但是在平⾏语料数据量⼤的情况下,可能其完成整个词语对齐的过程耗时较长。
现在也有MGIZA++,它是GIZA++的⼀个多线程版本,并对GIZA++的内存使⽤等⽅⾯做了优化,可以同时在linux下和windows下编译。
下载的编译⼯具已经改成了CMake,不过由于版本更新的问题,安装会⽐较⿇烦⼀些,有可能会有⼀些编译问题。
也可以使⽤伯克利⼤学的Berkeley Aligner进⾏词语对齐,据说准确率⽐GIZA++略有提⾼,但本⼈没有试过,⼤家有兴趣可以试试,我这⾥还是以GIZA++为例给⼤家介绍⼀下词语对齐的过程。
GIZA++是GIZA(SMT⼯具包EGYPT的⼀个组成部分)的扩展,扩展部分主要由Franz Josef Och开发。
GIZA++主要算法是IBM model、HMM等。
之前在moses翻译系统的介绍中提到了⼀部分其安装的过程,这⾥再提⼀下吧。
1、GIZA++运⾏环境:Linux,并预装软件gcc、g++。
3、编译:a)⾸先进⼊到GIZA++根⽬录b)解压包,指令:tar zxvf giza-pp-v1.0.7.tar.gzc)进⼊到解压后的⽬录,指令:cd giza-ppd)编译,指令:make4、GIZA++运⾏和使⽤:a)新建⽬录Alignment,并将编译后的GIZA++-v2⽬录下的“GIZA++”、“snt2cooc.out”、“plan2snt.out”⽂件和mkcls-v2⽬录下的“mkcls”⽂件,拷贝到Alignment⽬录下,同时将预处理后的⽂件chinese.txt和english.txt作为GIZA++⼯具的输⼊⽂件放到其中。
中文分词常用算法之基于词典的双向最大匹配

中⽂分词常⽤算法之基于词典的双向最⼤匹配启发式规则:1.如果正反向分词结果词数不同,则取分词数量较少的那个。
2.如果分词结果词数相同a.分词结果相同,就说明没有歧义,可返回任意⼀个。
b.分词结果不同,返回其中单字较少的那个。
算法描述:1. S1为带切分字符串,FMM为S1正向最⼤匹配切分结果,BMM为S1逆向最⼤匹配切分结果2. 如果FMM和BMM长度不相等则输出长度较短的那个否则转33. 如果FMM和BMM的结果相同则输出任意⼀个否则输出单个字字数最少的结果Java实现代码:1public static List<String> SegDouble(String text) {2 List<String> FMM = FMM(text);3 List<String> BMM = BMM(text);4if (FMM.size() != BMM.size()) {5if (FMM.size() > BMM.size())6return BMM;7else8return FMM;9 } else {10int i, iFMM = 0, iBMM = 0;11boolean isSame = true;12for (i = 0; i < FMM.size(); i++) {13if (!FMM.get(i).equals(BMM.get(i)))14 isSame = false;15if (FMM.get(i).length() == 1)16 iFMM++;17if (BMM.get(i).length() == 1)18 iBMM++;19 }20if (isSame)21return FMM;22else23return iFMM < iBMM ? FMM : BMM;2425 }2627 }⼩结:双向最⼤匹配是要基于最⼤正向匹配和最⼤逆向匹配的⼀个算法,即将两种算法都进⾏⼀遍,然后根据⼤颗粒度词越多越好,⾮词典词和单字词越少越好的原则,选取两种算法中的⼀个结果予以输出。
基于双语句对语料库的词对齐模型

基于双语句对语料库的词对齐模型基于双语句对语料库的词对齐模型陈晴1,2姚天顺1。
(东北⼤学信息学院计算机系.辽宁l10004).E?mail:.c..h..e.n...a..i.n..e..国....i.c..s....n..e..u....e..d.。
u...—c—n摘要:英汉词对齐技术中经常会遇到⾮登录词和因汉语的多样性和灵活性⽽产⽣的不利因素,直接或间接影响双语句对中词对齐的质量;但其本⾝具有的信息有利于改善词对齐质量.本⽂就是希望通过建⽴基于双语句对语料库的词对齐模型将句对之间的信息加以改进.主要包括:吕学强在其博⼠论⽂中提出的最⼩求交和最⼩求差模型以及这两种的混合模型(I,II)….试验得出在特定词频条件下,混和模型(I)具有相对较佳的效果,正确率达到0.7862%,召回率达到0.7558%,F1值达到0.7708%.关键词:词对齐;最⼩求交模型;最⼩求差模型:混合模型引⾔语料库的词对齐就是在双语句对中把每个单词和它的译⽂建⽴对应关系。
这是基于实例的机器翻译、基于统计的机器翻译、翻译模板的获取[2][3]中的关键技术[4]。
本⽂所提到的词对齐技术主要是在语义对齐常⽤词的基础上实现的最⼩求交,求差模型。
现有的词对齐技术的研究主要包括基于统计⽅法[5],基于字符⽅法[6]和基于词义的⽅法[7]等。
汉语和英语的语⾔特点决定了基于字符和基于统计的⽅法并不太适合;⽽基于词典的⽅法相对的⽐较简单且易于扩充,因⽽采⽤基于词典的最⼩求交,求差模型进⾏词对齐的尝试。
I数据表⽰形式词对齐使⽤的是句⼦级对齐的双语语料库SC,句对表⽰为sP={Es,Cs}.SP(ESC其中Es和Cs是互为译⽂。
对应各句中的单词序列分别为Es={et,e:….,e,};Cs={c。
,C。
….,cj}。
2词对齐过程假设旬对中的每个词we={ei….em}都有其对应译⽂wc={cj….cn},We,wc可为m。
本词对齐技术使⽤多层次的对齐。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
沈 阳 航 空 航 天 大 学 学 报
J o u r n a l o f S h e n y a n g Ae r o s p a c e Un i v e r s i t y
Vo 1 .3 2 NO. 2
的冲突消解 和剪枝消歧等策略 , 有效 地解决了 由于翻译 的灵活性 和多样性带 来的近似译 文 的词 对 齐问题 。实验表明 , 该算法 不仅继承 了基于词典 词对齐 算法 的优点 , 同时还改进 了传统基 于词 典
词对齐算法的不足 , 有 效提升了词对齐 的正确率 和召 回率 , 在小规模 双语 语料和 实时性 对齐方 面 具有更好的适用性 。
YI N Ba o - s h e n g, YANG Ya n g
( R e s e a r c h C e n t e r f o r H u ma n — C o mp u t e r I n t e r a c t i o n , S h e n y a n g Ae r o s p a c e U n i v e r s i t y , S h e n y ng a 1 1 0 1 3 6, C h i n a )
关键词 : 词 对齐 ; 双 向词典 ; 动态组块切分和 匹配 ; 语 义相似度计 算
中图分类号 : T P 3 9 1 文献 标 志码 : A d o i : 1 0 . 3 9 6 9 / j . i s s n . 2 0 9 5—1 2 4 8 . 2 0 1 5 . 0 2 . 0 1 4
AD r . 2 0 1 5
文章编号 : 2 0 9 5—1 2 4 8 ( 2 0 1 5 ) 0 2—0 0 6 7一 O 8
双 向词 典 和 语 义 相 似 度 计 算 相 结 合 的 词 对 齐算 法
尹 宝生 , 杨 阳
( 沈 阳航空航天大学 人机智能研 究中心, 沈阳 1 1 0 1 3 6 )
摘要: 基于统计 的词对齐方法需要 大规模的双语语料作 为输入 , 难 以避 免数据稀疏 的 问题 并且算 法 时间开销大。针对句子或段落级 的实时性对齐需求 , 提出 了一种基 于双 向词典和语 义相似度 计
算 的高效词对齐算法 , 通过采用动态组块切分和匹配 、 基 于知 网的语 义相似度计 算 、 基 于最大 匹配
W o r d- a l i g nm e nt a l g o r i t h m c o mb i ne d wi t h bi di r e c t i o na l di c t i o n a r y a n d s e ma nt i c s i mi l a r i t y c a l c u l a t i o n
b l o c k s e g me n t a io t n nd a ma t c hi n g, s e ma n ic t s i mi l a r i t y c a l c u l a i t o n b a s e d o n he t Ho wNe t , he t c o n li f c t r e s o l u - t i on ba s e d o n he t ma xi mu m ma t c h i n g nd a t he p r u n i n g d i s a mb i g u a io t n.Compa re d wi h t he t s t a n d rd a a l g o - it f hm , t h e e xp e ime r n t l a r e s u l t s s ho w t h a t he t a c c u r a c y r a t e a n d r e c a l l r a t e c a n b e e f f e c t i v e l y i mp r ov e d by hi t s a l i g nme n t me ho t d o n a s ma l l — s c a l e b i l i n g u a l c o r pu s a n d r e l— a t i me a l i g n me n t wi t h b e t t e r a d a p t a b i l i t y.
d i ic f u l t t o a v o i d t h e p r o b l e m o f d a t a s p a r s e a n d t h e a l g o r i t h mt i me o v e r h e a d . T h i s p a p e r p r e s e n t s a n e ic f i e n t wo r d — li a g n me n t lg a o r i h m t b a s e d o n b i d i r e c i t o n l a d i c t i o n a r y a n d s e ma n t i c s i mi l a r i t y c a l c u l a i t o n t o s a i t s f y t h e d e ma n d f o r r e a l — t i me li a g n me n t o f s e n t e n c e o r p a r a g r a p h l e v e 1 . T h e a p p r o x i ma t e t r a n s l a i t o n o f wo r d — a l i g n - me n t p r o b l e m d u e t o t h e l f e x i b i l i t y a n d d i v e r s i t y o f t r ns a l a t i o n C n a b e e f f e c t i v e l y s o l v e d b y t a k i n g d y n a mi c
பைடு நூலகம்
Abs t r a c t:W o r d- a l i g nme n t b a s e d o n s t a t i s ic t a l me t h o d r e q u i r e s a l a r g e - s c le a bi l i n g ua l c o r p u s a s i n pu t , s o i t i s