8件:基于trigger对的长距离蒙古语语言模型0625
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于trigger对的长距离蒙古语语言模型*
刘志文1, 侯宏旭1, 李沙茹拉2,柳林1
(1.内蒙古大学计算机学院,内蒙古呼和浩特010021;
2.内蒙古大学电子信息工程学院,内蒙古呼和浩特010021)
摘要:为了克服在蒙古语语言模型建模过程中n-gram缺乏长距离信息的弱点,本文在统计语言
模型的基础上,提出了一种基于trigger对的长距离蒙古语语言模型,该模型采用统计方法进行自
然语言建模。本文简要介绍了基于trigger对的长距离蒙古语语言模型,并给出了句长补偿、参
数估计和数据平滑方法,并在汉语-蒙古语机器翻译系统实现了该方法,实验结果表明该技术克
服了n元文法语言模型描述距离小于n的缺点,并提高了翻译效果,该模型也为自然语言建模
提供了一定的参考。
关键词: trigger对;蒙古语;语言模型;平滑
中图分类号:TP391文献标识码:A
Long-Distance Mongolia Language Model Based on
Trigger Pair
Liu Zhiwen1, Hou Hongxu1, Li Saragul2, Liu Lin1
(1. College of Computer Science, Inner Mongolia University, Hohhot 010021,China;
2. College of Electronic Information Engineering, Inner Mongolia University, Hohhot
010021,China;)
Abstract: To overcome the n-gram’s lack of long-distance information in Mongolian language
modeling process, this paper puts forward to long-distance Mongolia language model based on trigger
pair to natural language modeling process. Long-distance Mongolia language model adopts the
statistical method to setting up the natural language models. This paper introduces the long-distance
Mongolia language model, gives methods of sentence compensation, parameters estimate and data
smoothing. The experimental results show that this model can overcome the shortcoming of n-gram
model that it only can describe the word pairs being less then n words apart, improves the translation
results, and also provide some reference for setting up the natural language models.
Key words: Trigger pair; Mongolian; Language model; Smoothing
1引言
统计语言模型[1]在机器翻译、文字处理、文字检索等领域有着广阔的应用。作为机器翻译的一项基础性工作,蒙古语语言模型的建立不能照搬汉语、英语等语言中使用的语言模型方法[2]。本文作者针对蒙古语语言的特点提出了一种新的蒙古文统计语言模型,即基于trigger
*基金项目:内蒙古自然基金项目“蒙古语文本语言模型的构建研究”(200607010805)资助
作者简介:刘志文(1982~),男,硕士研究生,主要研究方向:信息处理。
通讯作者:侯宏旭(1972~),男,副教授,主要研究方向:中文信息处理。
对的长距离蒙古语语言模型,并应用于汉-蒙机器翻译系统[3]。
蒙古语属于黏着型语言。蒙古语的构词,构形都是通过在词干后缀接不同的词尾而实现的,并且它们还可以层层缀接,这使得蒙古语词法形态变化丰富且复杂[4]。
蒙古语的构形附加成分负载着非常丰富的语法信息,所以如果只对整词(即词干+构形附加成分)或者词干进行统计,就会丢失大量语法信息,而这些信息对蒙古语语言模型的构建有着举足轻重的意义。所以有必要对蒙古语词干、词缀进行统计来得到语言模型信息。但是,在对蒙古语词干、词缀切分后进行统计,又会带来新的问题。以下面这句“工厂里工人们在工作”为例:
名词“工人们”可以切分为一个词干和两个词缀,这会带来问题:如果用常用的n-gram 来分析,分析的结果常常会是某个字内部的词干词缀的关系,而没有反应出两个或更多文字之间的联系。以常用的3-gram为例[5],语言模型信息可以反映出3个字之间的关系,而蒙古语在进行了词干、词缀切分后,如果依然使用3-gram,那么反映出的可能是2个字甚至1个字的关系,而连3-gram可以反应3个字的长度都不足了。为了能够反映出更长距离的相关信息,作者使用了trigger对来描述更长距离上的关联信息[6]。
如果词A的出现使得后文中词B出现,则称(A→B)为一个trigger对[7]。其中A称作触发者(trigger),B称作被触发者(trigger word)。在自然语言中,这种情况是非常普遍的,也就是通常所说的词的习惯搭配现象。例如:如果词“奥运会”在文中出现,那么在后文中“2008”、“北京”等词出现的可能性将大大增加,因此可以分别称(奥运会→2008)、(奥运会→北京)为trigger对。
2基于trigger对的长距离蒙古语语言模型
从trigger对的定义及选取标准可以看到,trigger对能够表达长距离的词之间的相关程度,而这种对距离限制很少的词之间的搭配是非常符合人们的语言习惯的,这恰好弥补了传统N元文法语言模型描述距离小于N的缺点。因此如能恰当地将基于trigger的语言模型与N元文法语言模型结合起来必将有助于更好地描述语言的统计特性,进而提高机器翻译系统的性能。但这并非是一件易事,trigger对是一种比较灵活的表达方式,如何利用trigger对提供的信息实现基于trigger对的模型还是一项新的研究工作。
构建基于trigger对的语言模型都需要选择一个合适的度量标准并据此保留所需数目的trigger对。
一个最简单的控制trigger对数目的方法就是给历史加窗,即限制trigger对的最长约束距离。一般说来,这个参数并无精确要求,可以根据经验在合适范围内选取。大量文献认为:在历史中最近的六个词已包含了绝大部分信息。文中在选择trigger对的实验中,由于一个蒙古语文字可能切分为多部分,故窗长限制取为9,即只考虑当前词的前9个词作为历史。
trigger对选取的距离由于trigram的存在,最短距离从4开始,最长距离用9。
基于trigger对的长距离蒙古语语言模型认为第i个符号的出现是由于第i个符号做为被触发者所构成的trigger对来决定的,而一个句子第i个符号做为被触发者可能会与前面多个符号构成trigger对,这时则认为强度由其中最强的来决定。
基于trigger对的长距离蒙古语语言模型的得分标准采用如下方法:
∑=
+ +
=
n
i
i
L
i
i
i
n trigger
w
w
P
w
w
P
MAX
w
w
w
P
13
2 1
)]
|
(
),...,
|
(
[
log
)
...
( log