中英句子对齐双语语料库建设——技术报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

“中英句子对齐双语语料库建设”技术报告

中科院自动化研究所

模式识别国家重点实验室

北京100080

1研究目标和内容

本课题的研究目标是：对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工，建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。

具体研究内容包括：

●借助互联网等其他媒体搜集中英文篇章级对齐的双语文本，并进行必要的预处理。

●参照都柏林核元数据元素集制订了双语语料文本标注规范，在973标准讨论会上进行讨论

通过。

●大规模文本句子对齐方法：面向多领域多体裁，采用基于双语词典的句子对齐方法进行了

文本对齐，并对如何提高对齐精度做了进一步的研究和探讨。

●自动评价：对双语文本句子对齐结果实现自动评价。

目前完成的句子对齐双语语料库可以有以下几方面的应用：

➢作为重要的语言资源，为基于统计的各种双语语言建模、分析提供必要的训练数据。

➢可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。2相关研究现状

国内外很多研究机构都致力于双语语料库的建设，并利用这些语料库进行广泛的研究。加拿大的议会会议录（Canadian Hansards）是非常著名的英法双语语料库，许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。有关汉外双语语料库建设及其研究，香港科技大学收集和加工了香港立法委员会的会议记录，形成汉英双语语料库[3]。此外，北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。但目前汉外双语语料库规模比较小，加工规范也不统一，从而影响了双语语料库知识获取的研究。

实现各个层次的对齐是双语语料库建设的一项重要内容。本文主要讨论汉英双语句子级对齐技术。句子对齐方法基本可以分为三类：

◆基于长度的方法：最初由Brown[1]和Gale[2]提出，其依据是两种语言译文的长度满足一定比例关系。他们在英法双语的加拿大议会会议录上取得了较好的对齐效果；清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐，获得的试验结果。

◆基于词汇的方法：Kay[4]和Chen[5]则分别根据双语单词的分布信息和词汇翻译模型进行了英德和英法双语句子对齐。文献[8]直接利用双语词典对大学英语教材做了句子对齐，也取得了令人满意的效果。

◆混合方法：基于长度的对齐方法模型简单，独立于语言知识和其他外部资源，但鲁棒性不好，容易造成错误蔓延。基于词汇的对齐方法相对可靠精确，但计算相当复杂。研究人员试图将这两种方法结合起来进行句子对齐。香港大学Wu[3]通过创建特殊词表来对基于长度方法进行了改进，并对在香港立法委员会会议记录上做了对齐试验，取得较好结果。

以上对齐研究大都是围绕单一领域或者某一文献、手册的双语文本进行，本课题工作面向多领域多体裁，采用基于双语词典的句子对齐方法进行了文本对齐，并对如何提高对齐精度做了进一步的研究和探讨。该方法不同于Kay[4]和Chen[5]的利用译词分布相关性和词汇翻译模型的方法，与文

献[8]的对齐方法在评价函数设计、双语词典资源整理上也存在不同之处。

3句子级对齐双语文本标注规范

对于中文信息处理各个层面上所需要的语言资源，必须有一套统一标准和规范才能实现资源共享。为更好的与国际接轨，我们参照都柏林核元数据元素集，制订了《双语语料库标注规范》，并在973标准讨论会上通过专家讨论、审核。主要包括以下两部分（标注格式选用XML语言）：

3.1 文件头信息

文件头信息就是该双语文本的整体属性信息，参照Dublin Core Element Set 我们定义了14个数据单元，其标记形式和含义见下表。

表一：文件头元素集标记形式及含义

3.2 文件体信息

文件体信息包括双语篇章级结构、段落、句子对齐信息。各标记及其含义见表二。

表二：文件体各项标记形式及含义

4 双语句子对齐算法研究

本课题对双语文本进行句子对齐加工，需要一个高效、实用的自动对齐算法。面向多领域多体裁文本，我们采用了基于双语词典的对齐方法，通过设计合理的评价函数计算双语句子之间互为译文的评价值，最后运用动态规划算法搜索整体评价值最高的句对序列。

4.1 句子对齐的形式化描述

句子对齐是在段落对齐等预处理的基础上进行的。用Para 表示一个包含m 句中文和n 句英文的双语段落，其中C 为m 个中文句子（sc 1…s c i …sc m ）组成的句子集合，E 为n 个英文句子(se 1…se j …se n )组成的句子集合，sc i 表示第i 个中文句子，se j 表示第j 个英文句子。那么 C C E E a a ⊂⊂∀,（a E 和a C 不可同时为空集），a ＝构成一个双语句对。根据含有的中文句子个数（| C a |）和英文句子个数（| E a |），双语句对可以分为空对一、一对空、一对一、多对一、一对多、多对多等六种类型。一个双语段落内部存在许多种双语句对组合，每一种双语句对组合代表一种对齐方式。句子对齐就是要在所有的双语句对组合中搜索一个最佳双语句对序列，即获得一个最佳对齐方式A ＝a 1…a i …a r （其中a i ＝表示第i 个双语句对，r 为双语句对个数），该最佳对齐方式中各句对要满足以下条件：

✧ 完备正交性：⎪⎩

⎪⎨⎧=⋂=⋂≠≤≤∀====φ

aj ai aj ai r

i ai r

i ai C C E E j i r j i C C E E ,,111

✧ 无交叉性：r j ≤<≤∀i 1 ⎪⎩⎪⎨

⎧<∈∈<∈∈v

u C c C c v u E e E e aj

v ai u aj

v ai u 必有若必有若s ,s s ,s

✧ 互译匹配最优性：该双语句对序列整体的互译匹配度优于满足以上条件的其他双语句对序列。

✧ 不可分割性：任何一个)1(r i A a i ≤≤∈∀都不能再分解成两个或者多个更小的符合上述条件的句对。

句对序列的互译匹配程度用一个评价函数S 来衡量，每个可能的句对序列都有一个评价值S (A i )，那么句子对齐问题即转化为下列最优化问题：

)(max arg 1i k

i A S A ≤≤=（k 为可能出现的句对序列数）（1）

4.2 句对序列评价函数和双语句对内部互译匹配评价函数

设计一个恰当的评价函数来衡量一个句对序列整体互译对应程度是基于双语词典句子对齐方法的核心问题。这里一个句对序列的评价值由该序列中每个句对的评价函数值的代数和来获得。假设第i 个句对序列有h 个句对A i （a 1…a h ），则该句对序列的评价值为：

∑==

j j

i a

Score A S 1

)()( （2）

式中Score （a j ）为双语句对a j （1≤j ≤h ）的评价函数，用来评价句对内部的互译匹配度。

评价句对内部的互译匹配程度就是考察该句对所含中英文句子之间的词语匹配信息，文献[8]采用从英文单词向中文句子匹配的方法，虽然避免了分词带来的错误，但是由于汉语的特殊性和复杂性、语料的领域广泛性，很容易造成误匹配。比如“certainly ”译文为“的确”，在句子“他的确切地址……”中便可以很好的匹配。

该算法从中文到英文的匹配的角度来研究句对内部对齐的衡量尺度。考察一个双语句对