北京大学汉英双语语料库标记规范
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Journal of Chinese Language and Computing, 13 (2) 195-214 195北京大学汉英双语语料库标记规范∗
常宝宝 柏晓静
北京大学计算语言学研究所,北京 100871,中国
chbb@; bxj@
Submitted on 4 March, 2003, Revised and Accepted on 18 May, 2003
摘 要
近年来,在语言信息处理研发中、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来。
为有效支持汉英机器翻译研究以及其他面向汉英双语的研究工作,北京大学计算语言学研究所近来进行了大规模的汉英双语对齐语料库以及双语语料库处理工具的建设。
目前,该汉英双语语料库规模已达11万双语对齐句对,在语料库中,不仅描述了汉英文本在句子一级的对齐信息,还详细描述了收入语料库中的汉英文本的结构、领域、语体等等方面的信息。
为便于数据交换和共享,所有语料文本均采用XML编码描述上述信息。
本文详细介绍了北京大学汉英双语语料库的描述内容和标记规范。
关键词
汉英平行语料库,机器翻译,双语对齐,标记规范,双语词典编纂,双语教学和对比研究
1. 前言
近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。
世界上已
∗ 本文工作受到973项目(G1998030507-4)、863项目(2002AA117010-08)和国家语言文字应用“十五”科研项目(YB105-51)的支持。
Baobao Chang, Xiaojing Bai 196
经出现了为数不少的大型单语语料库,尤其是英语语料库,汉语语料库的建设虽然起步较晚,但也取得了可观的进展,代表性的工作有北京大学计算语言学研究所以及合作单位所建立的2600余万字的《人民日报》切分标注语料库(俞士汶等, 2002)。
相比较而言,大规模双语语料库尤其是涉及汉语的双语语料库系统建设目前还不多见,然而这并不能说明,双语语料库构建没有意义,恰恰相反,双语语料库的应用价值正在各项研究中逐渐体现出来,下面仅仅列出双语语料库几个典型应用场合。
(1)语言信息处理的需求
首先,双语语料库是语言信息处理研究的重要基础资源。
机器翻译或机器辅助翻译是计算语言学的一个重要研究领域,研究人员在相关领域已经探索了50余年,80年代中期,日本著名机器翻译专家长尾真提出基于实例的机器翻译,80年代末90年代初,IBM公司Brown等人的研究引起了人们在机器翻译研究中引入统计方法的兴趣,此后市场上又出现了以翻译存储(TM)技术为核心技术的产品本地化翻译辅助系统和基于模板的翻译技术,所有这些翻译技术无不以双语或多语语料库为基础资源。
在这些方法中,对齐的双语语料库或作为翻译资源直接使用,或用作翻译统计建模的训练资源。
双语语料库的规模和加工深度直接影响着这些研究或产品的结果。
(2)语言教学和双语对比研究
双语语料库构建也是语言教学和研究的基础资源。
双语语料库在语言教学中使用,通常需要有配套的软件工具,最主要的即为语料库相关集列(concordance)工具。
利用双语语料库相关工具,教授语言的教师和学习语言的学生均可获得很大的帮助。
以外语学习为例,经验表明,仅仅学习语法和词汇很难达到学好外语的效果。
理想的学习方法是在语境中掌握词汇和句法知识。
词典不能提供足够的语境知识,也很难列举大量真实语言材料。
利用双语语料结合相关集列工具,学生可以在查询的基础上在语境中把握特定词和结构的意义和句法特征,也可以建立使用词汇的语境知识,更重要的是,双语语料库还有助于学生在学习语言时观察两种语言在表述上的不同,通过对比减轻母语对外语学习的影响。
基于双语语料库的语言教学方法研究目前在国际上已经得到很多关注,其理论体系也正在形成和丰富,如90年代初提出的DDL方法(Data-Driven Learning,数据驱动学习)鼓励学生在分析语料的基础上归纳语言规律(Johns, 1991)。
(3)双语词典编纂的需求
语料库尤其是单语语料库在词典编纂中的应用已不是特别新鲜的话题,大规模语料库在英美等国已成为词典编撰的前提和主要工具。
代表性的工作是基于COBUILD英语语料库而编成的一系列英语词典和英语句法学习书籍(Collins, 2001),这些词典和句法参考书已成为英语学习的重要参考资源。
对于双语词典,国内出版社传统策略是采用引进并翻译的方法,双语词典的质量不能尽如人意。
象单语语料库在单语词典编纂中
The Markup Guidelines for the Chinese-English Parallel Corpus of Peking University 197
的作用一样,双语语料库在双语词典编纂中也极具价值。
在双语语料库相关集列等语料库工具的支持下,双语语料库同样可以在提高辞书编纂质量和节省词典编纂时间方面发挥重要作用,双语语料库可以为许多词典编纂决策提供客观依据,是否收入一个词条、词条义项如何排列取决于词汇在语料库中的使用,而且双语语料库也为词典用例选择提供了源泉,词书编纂人员可以从语料库中选择有代表性的高频用例,从更深的层次看,基于双语语料编纂双语词典改变了词典编纂的理念,词条中所包含的意义、句法信息都应该得到真实语料库的验证,所有信息都是可靠的和准确的。
北京大学计算语言学研究所长期从事机器翻译评测和汉外机器翻译研究工作,双语语料库建设是其中一个核心工作内容,为有效支持相关研究,北大计算语言所进行了大规模的双语语料库的建设工作,双语语料库建设的直接应用目标是为机器翻译等语言信息处理系统提供基础资源,同时也兼顾基于双语语料库的双语词典编纂工作。
本文将详细介绍我们所制定的并在语料库建设过程中使用的加工规范。
2. 汉英双语语料库的设计和构建原则
2.1 语料库的加工深度
语料库不是任意文本的任意堆积,为了发挥语料库的作用,通常都需要对语料库进行一定的加工,进行何种加工和加工深度如何通常和应用目标有关。
对于汉英双语语料库而言,基本的加工包括对语料进行各级对齐工作,其中最为重要的是句子一级的对齐,这是各种应用对双语语料库的一个最基本的需求。
其他的加工包括:对汉语部分进行切词、词性标注以及注音;对英语部分进行断词(tokenization)、形态还原(lemmatization)和词性标注;汉英双语语料在词汇一级和短语一级对齐。
对双语语料库的加工越多,双语语料库可以提供的信息也就越多,但同时也意味着工作量的剧增。
根据工作的需要,目前我们主要进行句子一级的对齐工作,但在制定规范时也充分考虑了进行其他可能的加工。
2.2 语料库编码
双语语料库收录的文本通常不只一个来源,对汉英双语语料库而言更是如此,相关可用的电子文本远远不如单语文本多。
要建立一个相对大规模的双语语料库,多渠道搜集语料就是唯一的选择。
这同时带来一个问题就是语料文本格式各异,难以统一处理和管理。
同时,作为一个基础资源,经过加工处理的语料库也需要以一种和应用以及平台无关的形式存在而支持相对广泛的应用。
为此需要对双语语料库进行统一编码,从而方便双语语料库的管理、统一处理、共享和交换。
在我们的工作中,我们选用了
Baobao Chang, Xiaojing Bai 198
目前在信息处理界普遍使用的XML语言作为编码的元语言,由于XML语言的普及和业界的广泛支持,基于XML语言的编码体系将容易获得广泛的软件支持。
2.3 语料库文本收录原则
对于语料库文本收录,通常首先要考虑的问题是语料的平衡性,理想的情况是收入语料库的文本在题材、语体、时间跨度等方面有一个合理的平衡,使得语料库具有所谓的平衡性,但平衡原则往往难以保证,一方面语料的平衡与否缺乏可以操作的评价办法;另一方面语料库的建设通常都有潜在应用目标,单纯追求平衡的原则也并无必要;在建设汉英双语语料库时,由于涉及两种语言,高质量的双语语料远远不如高质量的单语语料那样容易收集,平衡性则更难保证,因而我们的原则首要强调语料的质量,要收入语料库的文本,其文字质量和译文质量需要得到认可,在此前提下,再进一步考虑语料的代表性。
语料库文本收录所需作出的另外一个决策是进行所谓的取样收录还是全文收录,为了使得汉英双语语料库有更为广泛的使用价值,我们采用了全文收录的方式。
2.4 语料库的描述内容
在双语语料库描述何种信息将直接关系到语料库的使用问题,为了有效支持汉英双语语料库在机器翻译研究中的应用以及兼顾其他应用,目前汉英双语语料库中主要标记了下面的信息:
(1)文本属性信息,描述了收入语料库中的汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息。
(2)文本结构信息,标记了收入语料库中汉英文本的标题、子标题、段落、句子的边界信息。
(3)双语对齐信息,标记了收入语料库中汉英文本在句子一级的对齐互译关系。
3. 汉英双语语料库标记规范
3.1 全局标记
双语语料库中所收录的所有双语文本均以XML文件的形式存放,每个文本对应一个文件,篇章一级的对齐关系通过文件名来体现,例如:在语料库中某个汉语文本的文件名为zhxxx.xml,则其英文译文所对应的文件名应为enxxx.xml。
汉语文本和英文文本共享同一套描述标记。
语料库中任何一个文本,无论是汉语文本还是英文文本,从
The Markup Guidelines for the Chinese-English Parallel Corpus of Peking University 199
结构上都被区分为文档头和文档体两个部分进行描述,文档头用来记述文本的属性信息,而文档体则包括文档的内容、文本结构以及对齐关系等标记信息。
形式上所有文本均以文本标记<TEXT>开始,</TEXT>结束。
文档头部以标记<TEXT_HEAD>开始和</TEXT_HEAD>结尾,文档体部以<TEXT_BODY>开始并以</TEXT_BODY>结尾。
文档头和文档体标记必须嵌套在文本标记内且不互相嵌套或交叉,任何一个文本均只有一个文档头和一个文档体。
所有文档均具有如下标记结构:
<TEXT>
<TEXT_HEAD>
文档头部
</TEXT_HEAD>
<TEXT_BODY>
文档体部
</TEXT_BODY>
</TEXT>
根据XML语言的要求,任何一个XML文件的第一行应描述XML语言的版本和字符编码信息,因而所有文件的第一行均为:
<?xml version=”1.0” encoding=”gb2312” ?>
3.2 文本属性信息
文本属性信息描述了收入语料库中的汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息,所有文本属性信息描述均只能出现在文本头部,这些属性信息不互相嵌套,但规范并不严格规定这些属性信息的描述次序。
目前规范中规定的文本属性信息包括:
3.2.1 中文标题
记录文本的中文标题,仅在汉语文本中出现,对应的XML标记为<CH_TITLE>…</CH_TITLE>,例如汉语文本“中国人权发展50年”,在语料库文本头部描述为<CH_TITLE>中国人权发展50年</CH_TITLE>。
3.2.2英文标题
记录文本的英文标题,仅在英文文本中出现,对应的XML标记为<EN_TITLE>…</EN_TITLE>,例如在汉语文本“中国人权发展50年”的英文译文
Baobao Chang, Xiaojing Bai 200
文本头部,记录着英文标题信息:<EN_TITLE>Fifty Years of Progress in China's Human Rights</EN_TITLE>。
3.2.3 作者
记录文本的作者,如果文本不含作者信息,该信息可以没有,如果文本的作者不是个人,而是机构,例如“中国国务院信息办公室”,也作为作者信息记录。
作者信息用XML标记<AUTHOR>…</AUTHOR>,如<AUTHOR>邓小平</AUTHOR>,表明文本的作者是邓小平。
3.2.4 译者
有时候译文文本中包含译者的名字,可以在文本头部标记译者信息。
译者信息用XML 标记<TRANSLATOR>…</TRANSLATOR>,如<TRANSLATOR>钱钟书</TRANSLATOR>表示文本译者是钱钟书。
3.2.5 文体
记录文本的文体,在语料库中,所有文本按照文体分作三类,分别是新闻、文学和应用文。
严格说来,新闻当属应用文体,但鉴于语料库建设的初衷是服务于一个面向新闻领域的汉英机器翻译系统以及新闻问题的特殊性,新闻单独作为一类进行描述。
文体信息用XML标记<STYLE>…</STYLE>,如<STYLE>应用文</STYLE>表明文本的文体是应用文。
3.2.6 领域
记录文本的领域,目前语料库中所有文本按领域分作六类,分别是艺术、工商、政治、科技、体育、社会文化,因为有的文本可同属不同的领域,同一个文本可以有不只一个领域信息。
领域信息用XML标记<FIELD>…</FIELD>描述,例如:<FIELD>科技</FIELD>表示文本属于科技领域。
3.2.7 语体
记录文本的语体,所有文本按照语体分作书面语和口语,目前语料库中基本没有收录口语文本,但不排除以后有收录的可能性。
语体在语料库中用标记<MODE>… </MODE>标记,例如:<MODE>书面语</MODE>表示文本属于书面语。
The Markup Guidelines for the Chinese-English Parallel Corpus of Peking University 201
3.2.8 创作时期
记录文本的创作时期,语料库中所有汉语文本按照目前通行的分类方法分作古代、近代、现代、当代四个阶段,英文文本则分作Old English、Middle English、Early Modern English、Present-day English,考虑到双语语料库的应用目标,我们并没有收录任何古代、近代的汉语文本,也基本没有收录古代的英文文本。
创作时期在语料库中用标记<PERIOD>…</PERIOD>标记,例如:<PERIOD>当代</PERIOD>表示文本的创作时期是当代。
3.3 文本结构信息
文本结构信息标记了收入语料库中汉英文本的标题、子标题、段落和句子的边界,文本结构信息均出现在文本体部。
规范要求,文本正文中出现的文本标题、子标题、创作时间、作者、译者等信息也需要在文本体部标记出来。
目前规范中规定文本结构标记包括:
3.3.1 段落标记
段落标记用来标记文本中段落的开始边界和结束边界。
从逻辑的角度看,无论汉语文本还是英文文本,文本都是由若干个段落组成的。
由n个段落组成的文本T可以表示为:
T = P1P2…P n
为此,在语料库中不仅要标记出所有段落的开始边界和结束边界,同时也要标记出段落的序号。
规范规定,在语料库中段落标记用XML标记<p>…</p>,和此前介绍的其它标记不同,该标记必须有一个属性,属性的名称为id,属性id的值即为该段落的序号。
在同一个文本中不能出现两个不同的段落有相同段落序号,即相同的id 属性值。
规范规定,对于文中出现的标题、子标题、文本创作时间等均作为特殊的段落加以标记。
标题和子标题标记作为特殊段落加以标记的例子可参见节3.3.1、节3.3.2和节3.3.3。
加入了段落标记的文本体部(含有n个段落)一般状如:
<TEXT_BODY>
<p id=”1”>……</p>
<p id=”2”>……</p>
……
<p id=”n”>……</p>
</TEXT_BODY>
Baobao Chang, Xiaojing Bai 202
3.3.2 句子标记
句子标记用来标记文本中句子的开始边界和结束边界。
句子一般指文本中以句号、问号以及感叹号组成的语言单位。
从逻辑的角度看,文本段落是由若干个句子组成的。
规范规定,在语料库中标记句子使用XML标记<s>…</s>,该标记必须有一个id属性,属性值是句子的序号,需要注意的是,句子序号是相对于段落而言的,是段内句子编号。
句子标记<s>应该嵌套在段落标记<p>内部,而不应该在其内部出现<p>标记或者是和<p>标记发生交叉。
例如在某个汉语文本第8个段落中出现了3个句子,标记情况如下:
……
<p id="8">
<a id="11" no="1">
<s id="1">
在电子商务的模型中,各公司必须利用顾客信息。
</s></a>
<a id="12" no="1">
<s id="2">
迄今,很多现有的零售商在利用顾客信息方面做得极差。
</s></a> <a id="13" no="1">
<s id="3">
零售商应该为连续了解顾客,而不只是为了交易处理而使用顾客信息。
</s></a>
<a id="14" no="1">
<s id="4">
现有很多类型的公司仍倾向于把Web只是当作一个新的渠道,而实际
上,它将成为其全部生意。
</s></a></p>
……
3.3.3 中文标题
中文标题标记用来标记出文本中的中文标题。
中文标题在文中用标记<CH_TITLE>…</CH_TITLE>。
规范规定,在语料库中,标题作为一种特殊的段落形式,在标记标题的同时,对标题也应该标记段落标记和句子标记。
下面是一个标记示例:
……
<p id="1">
<a id="1" no="1">
The Markup Guidelines for the Chinese-English Parallel Corpus of Peking University 203
<s id="1">
<CH_TITLE>永远保持艰苦奋斗的作风/CH_TITLE></s></a></p> ……
3.3.4 英文标题
英文标题标记用来标记出文本中的英文标题。
英文标题在文中用标记<EN_TITLE>…</EN_TITLE>。
像中文标题一样,英文标题作为一种特殊的段落形式,在标记标题的同时,对标题也应该标记段落标记和句子标记。
例如:
……
<p id="1">
<a id="1" no="1">
<s id="1">
<EN_TITLE>ALWAYS KEEP TO THE STYLE OF PLAIN LIVING
AND HARD STRUGGLE </EN_TITLE></s></a></p>
…….
3.3.5 子标题
子标题用来标记汉语文本或英文文本中除文本标题之外的其他标题,例如节标题等等,类似“第X章”等的章节编号一般也用子标题加以标记。
各种子标题用XML标记<SUBTITLE>…</SUBTITLE>,子标题也同时作为一种特殊段落加以标记,汉语子标题和英语子标题均用该标记进行标记。
例如:
……
<p id="15">
<a id="1" no="1">
<s id="1">
<SUBTITLE>电子商务的策略</SUBTITLE></s></a></p>
……
3.3.6 创作时间
有时,在文本的标题下或文本尾部会有文章的创作时间记录,这时用时间标记<TIME>…</TIME>,如果文中没有创作时间,则不带此标记。
创作时间和文本的时代属性(<PERIOD>…</PERIOD>)不同,创作时间一般出现在文本中特定位置,用来指明文本创作的具体时间。
规范规定,创作时间同时作为一个特殊段落加以标记。
Baobao Chang, Xiaojing Bai 204
下面是时间标记的一个例子:
……
<p id="1">
<a id="1" no="1">
<s id="1">
<CH_TITLE>中国的对外政策</CH_TITLE></s></a></p>
<p id="2">
<a id="2" no="1">
<s id="1">
<TIME>(一九八二年八月二十一日)</TIME></s></a></p>
<p id="3">
<a id="3" no="1">
<s id="1">
中国是联合国安全理事会的常任理事国,中国理解自己的责任。
</s></a>
……
3.3.7 作者
有时,在文本的标题下或文本尾部会有文章的作者名字,这时用作者标记<AUTHOR>…</AUTHOR>,如果文中没有作者名字,则不带此标记。
文本体部的作者标记不作为一个段落。
3.3.8 译者
有时,在译文文本的标题下或文本尾部会有文章的译者姓名,这时用译者标记<TRANSLATOR>…</TRANSLATOR>,如果文中没有出现译者名字,则不带此标记。
文本体部的译者标记不作为一个段落。
3.4 双语对齐信息
汉英双语语料库中汉英文本在句子一级的对齐互译关系通过双语对齐标记体现出来。
在两种语言的文本间建立对应关系可以在各种层级上进行,例如语篇一级、段落一级、句子一级和亚句子一级。
对语料库进行对齐通常利用自动对齐软件,从相关对齐技术的成熟程度而言,目前在句子以上级别的对齐技术比较成熟,而且对双语语料进行句子一级的对齐可以说是双语语料库各种应用的一个最基本需求,目前规范只规定了句
子一级的对齐关系。
从形式化的角度看,任何一对经过句子一级对齐处理的双语文本PTEXT 可以表示为:
n AP AP AP PTEXT ... 21=
其中每个AP i 称做一个对齐单位。
每个对齐单位则进一步由一个源语言对齐单位S i 和一个目标语言对齐单位 T j 组成,源语言对齐单位和目标语言对齐单位互为译文。
每个源语言或目标语言对齐单位指一个或几个句子,其中一个对齐单位可以没有对应物,如在翻译过程中,某个源语言片段省略未译或目标语言中增加了源语言中没有的内容。
由于汉语文本、英文文本分别作为两个文件存放,对齐关系的描述要涉及两个文件,规范目前规定在原文文件中标记源语言对齐单位,而在译文文件中标记目标语言对齐单位,然后透过索引属性的方式来建立二者间的对齐关系,源语言对齐单位、目标语言对齐单位的开始和结尾边界均用标记<a>…</a>来标记。
源语言对齐单位和目标语言对齐单位的对齐关系通过属性id 来描述,如果原文件中某个对齐单位和译文文件中某个对齐单位的id 属性值相同,则说明这两个对齐单位互为译文有对齐关系。
id 属性的另外一重含义是对齐单位的编号,记录了对齐单位的顺序和数量。
在两个文本间建立句子一级的对齐关系,对齐单位之间可能存在各种模式,如可能是原文件中一个句子对应译文文件中的一个句子,即1:1的模式,也有可能是原文文件的多个句子对应译文文件中的一个句子,即n:1模式,甚至还有0:n 模式。
这些模式信息对有些应用而言是有价值的,因而在规范中对对齐单位标记<a>增设一个属性no 用来记录这种对齐模式信息。
属性no 的值实际上是某个源语言对齐单位或目标语言对齐单位中所包含的句子数。
有了这个信息,对齐模式信息可以很容易导出,例如某对齐单位中,源语言对齐单位包含3个句子,即其no 属性的值是3,目标语言对齐单位包含2个句子,即其no 属性的值是2,则该对齐单位的对齐模式应为3:2。
对齐单位标记<a>和段落标记<p>、句子标记<s>的关系一般为:<a>标记一般嵌套在<p>标记内部,<s>标记则嵌套在<a>标记内部。
下面是对齐关系标记的一个示例:
需要特别说明的是在对齐单位中,id 属性的值是相对于整个文本而言的,而不是相对于段落或其他文本单位。
目前尽管规范中仅仅规定了句子一级对齐单位的标记,但高层的对齐单位如段落一级的对齐关系也可根据标记<a>、标记<p>推导出来。
我们也不排除在适当的时候引入亚句子级对齐关系的标记规范。
<p id="3">
<a id="3" no="1"> <s id="1">
中国是联合国安全理事会的常任理事国,中国理解自己的责任。
</s></a>
我们不搞政治游戏,不搞语言游戏。
</s></a>
<a id="6" no="1"> <s id="4">
我个人爱好打桥牌,但中国在政治上不爱好打牌。
</s></a>
<a id="7" no="1"> <s id="5">
不仅今天如此,建国以后,在毛泽东主席、周恩来总理领导我们国家的时候就是如此。
</s></a>
… </p>
<p id="3">
<a id="3" no="1"> <s id="1">
China is aware of its responsibilities as a permanent member of the Security Council of the United Nations. </s></a>
<a id="5" no="1"> <s id="5">
We do not play political games, nor do we engage in the play of words. </s></a>
<a id="6" no="1"> <s id="6">
I personally love to play bridge, but China does not like to play political cards. </s></a>
<a id="7" no="1"> <s id="7">
This is not only the case today, but was also the case during the period since the founding of the People's Republic in 1949 when Chairman Mao Zedong and Premier Zhou Enlai were leading the country. </s></a> …
</p>。