初中英语论文双语平行语料库对齐技术述评

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

双语平行语料库对齐技术述评

对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小，有篇章、段落、句子、短语、词等不同的层次。粒度越小，提供的语言信息就越多，应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译，句子之间并不都是一对一的翻译模式，还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度，特别是对更细粒度级别的对齐。由于语言之间存在着差异，找到固定的对应翻译很难，再加上文本预处理工具难以保证处理效果，以及一些电子文本的噪声纷繁复杂，这都增加了对齐的难度。而对于英汉两种差别很大的语言来说，目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术，然后分析了国内在对齐中所使用的技术，旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。

1 目前平行语料库对齐技术的现状

1.1 句子级对齐技术

在各级对齐研究中，其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种：①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a)；②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993)；③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。

基于长度的方法最早是由Brown和Gale提出，虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出，但其侧重点却不同。Brown的算法以词为单位计算句子的长度，而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验，准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时，准确率却并不高，而且此算法一旦出错，便不可能自动纠正。

基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性，但却费时；而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进，这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比，这一算法不仅正确率高，而且在处理大量省略的对齐中能轻易确定省略的位置，且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。

如前所述，基于词汇的方法相对可靠精确，但计算起来相当复杂且速度较慢；而基于长度的算法模型虽然简单，独立于语言知识和外部资源，但鲁棒性不好，极易造成错误蔓延。由于每种方法都有自己的优缺点，人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis，1999；Melamed，2000)。试验结果表明，混合的方法优于单纯使用其中的任何一种方法。

1.2 词汇级对齐技术

与句子对齐相比，词汇对齐的应用价值更加直接。目前词对齐主要有基于统计(也称为基于同现)的方法、基于词典和语言学知识的方法。

基于统计的方法是通过大规模双语语料的统计训练，获得双语对译词的同现概率，以此来获得对齐。一种统计法是基于机器翻译模型的词汇对齐法(Brown et al., 1993，吴尉林，2003 )。此法用词汇对齐模

型来实现翻译模型并通过EM(expectation-maximization)算法来进行词汇对齐。但是该方法不仅在运行时需要很大的内存空间，而且EM算法本身也缺乏鲁棒性。另一种统计法是基于同现的词汇对齐(Gale & Church,1991b; Zhang Ying et al., 2001)。其中，Gale & Church 用同现测度函数对译双语词汇，通过统计对译词在双语句对中同现的频率来确定双语词汇之间的对应关系，并为每个双语词对引入一个联列表(Contingency Table)。基于同现的对齐算法简单，鲁棒性也比EM算法好，但是该方法在计算时没有考虑词汇的上下文关系，因此获得的词汇翻译对应存在着间接相关的问题。

基于词典和语言学知识的词汇对齐方法。机读双语词典包含丰富的词汇对译信息，是进行词对齐的重要资源。Ker(1997)根据语义类实现词对齐，结果显示该方法在获得很高的准确率的同时，能克服基于统计方法中存在的低覆盖率的问题。Huang(2000)用语言学比较的方法进行词对齐。此外还有用隐马尔可夫模型和最大熵模型(Necip,2006)进行词对齐。

1.3 多词组合单位对齐

多词组合单位(multi-word unit alignment——MWU)对齐也就是短语或词的搭配对齐。在自然语言的理解过程中，更多的是通过短语或者固定搭配而非单个的词来传达要表达的意义。在双语平行语料库中许多词并没有直接的翻译对等词。为了理解这些多词单位的意义，不仅要考虑不同语言词之间的相互关系，而且也要考虑同一语言中这些词的搭配。因此，多词组合单位的对齐也是双语语料库对齐工作中的一项重要且富有挑战的任务。许多研究者对此已做了深入的研究，方法主要有n-gram、近似字符匹配、有限状态机、双语语法分析树等。其中有些做法最为典型，如Dagan & Church的Termight系统、Smadja et al.的Champollion系统和McEnery et al.(1997)用近似字符串匹配技术ASMT和有限状态自动机从平行语料库中提取术语翻译。但是英语和汉语使用不同的文字系统，所以ASMT不能应用于英汉多词单位的对齐。

1.4 从句和段落的对齐

如前所述，与句子和词汇对齐研究相比较，对段落和从句对齐的研究要少的多。其中一个原因就是段落的界限比句子清楚，所以其对齐也简单。Gale & Church(1991a)认为，基于长度对齐的算法可以用于段落的对齐。尽管从句对齐对于诸如基于实例的翻译、语言教学、对比研究等领域的应用非常有用，但是由于每种语言，尤其是不同语系语言之间存在如何界定从句界限的问题，所以与简单句相比较，从句的对齐更难且容易出错。Kit et al.(2004)用包含双语法律术语表、双语字典的词汇方法和相似性度量法对香港法律文本进行了从句对齐。实验结果表明，这一算法即简单又有效，其准确率达94.6%。

2 目前国内英汉平行语料库的对齐研究

英汉属于不同的语系，上述的对齐方法对印欧语系(尤其是英语和法语)效果较好，但对于语法结构相差甚远的印欧与亚洲语系(汉语和日语)来说，效果却不如前者。例如，基于长度方法的同源词法能够提高相近语系语料对齐的准确性，但是，对英汉两个完全不同的语系来说，由于没有拼写、语音或语义相似的同源词，所以这种方法就不适用于英汉双语对齐。如果单纯地使用基于长度的方法，效果也不是很好，因为汉语分词问题很难解决，利用词的个数作为长度单位不但不可靠，而且分词结果也会影响互译信息率的计算。因此，目前对于汉英句子对齐常用的方法是将基于长度和基于词汇这两种方法进行改进或混合使用。香港大学的Wu(1994)通过创建特殊词表对Gale 和 Church的基于长度的算法进行了适当的改进，用此算法对香港立法委员会会议记录英汉语料库做了对齐实验。结果表明，在句子对齐中，1:1 的匹配的准确率接近90%。Sun(1999)在处理英汉语料库句子对齐时，对基于字符的长度算法进行了改进。这一方法弥补了基于字符长度算法不能处理1:0或0:1的句子对齐(即省略或插入)的不足。它与其它混合法不同的是，其它算法通过动态规划把长度和词汇信息结合起来，而此法是先单独使用，然后再用词汇法进行对齐正误判断，正确的对齐从语料库中抽出,然后对剩余的句子再进行对齐，如此反复，其正确率达到93%。钱丽萍等(2000)提出了基于译文的对齐方法，该方法借助一部翻译较完整的词典，将汉英句子间的对应关系连起来。实验证明，这一方法虽然“从根本上消除了基于长度的对齐方法中由于文本的缺失或局部对错造成的错误蔓延，并且对于一般文本普遍适用”(2000:61),但却无法处理2:2句对的情况。