北京大学汉英双语语料库标记规范
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Journal of Chinese Language and Computing, 13 (2) 195-214 195北京大学汉英双语语料库标记规范∗
常宝宝 柏晓静
北京大学计算语言学研究所,北京 100871,中国
chbb@; bxj@
Submitted on 4 March, 2003, Revised and Accepted on 18 May, 2003
摘 要
近年来,在语言信息处理研发中、双语教学和对比研究以及双语词典编纂研究中,双语语料库的作用日益凸显出来。为有效支持汉英机器翻译研究以及其他面向汉英双语的研究工作,北京大学计算语言学研究所近来进行了大规模的汉英双语对齐语料库以及双语语料库处理工具的建设。目前,该汉英双语语料库规模已达11万双语对齐句对,在语料库中,不仅描述了汉英文本在句子一级的对齐信息,还详细描述了收入语料库中的汉英文本的结构、领域、语体等等方面的信息。为便于数据交换和共享,所有语料文本均采用XML编码描述上述信息。本文详细介绍了北京大学汉英双语语料库的描述内容和标记规范。
关键词
汉英平行语料库,机器翻译,双语对齐,标记规范,双语词典编纂,双语教学和对比研究
1. 前言
近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。世界上已
∗ 本文工作受到973项目(G1998030507-4)、863项目(2002AA117010-08)和国家语言文字应用“十五”科研项目(YB105-51)的支持。
Baobao Chang, Xiaojing Bai 196
经出现了为数不少的大型单语语料库,尤其是英语语料库,汉语语料库的建设虽然起步较晚,但也取得了可观的进展,代表性的工作有北京大学计算语言学研究所以及合作单位所建立的2600余万字的《人民日报》切分标注语料库(俞士汶等, 2002)。相比较而言,大规模双语语料库尤其是涉及汉语的双语语料库系统建设目前还不多见,然而这并不能说明,双语语料库构建没有意义,恰恰相反,双语语料库的应用价值正在各项研究中逐渐体现出来,下面仅仅列出双语语料库几个典型应用场合。
(1)语言信息处理的需求
首先,双语语料库是语言信息处理研究的重要基础资源。机器翻译或机器辅助翻译是计算语言学的一个重要研究领域,研究人员在相关领域已经探索了50余年,80年代中期,日本著名机器翻译专家长尾真提出基于实例的机器翻译,80年代末90年代初,IBM公司Brown等人的研究引起了人们在机器翻译研究中引入统计方法的兴趣,此后市场上又出现了以翻译存储(TM)技术为核心技术的产品本地化翻译辅助系统和基于模板的翻译技术,所有这些翻译技术无不以双语或多语语料库为基础资源。在这些方法中,对齐的双语语料库或作为翻译资源直接使用,或用作翻译统计建模的训练资源。双语语料库的规模和加工深度直接影响着这些研究或产品的结果。
(2)语言教学和双语对比研究
双语语料库构建也是语言教学和研究的基础资源。双语语料库在语言教学中使用,通常需要有配套的软件工具,最主要的即为语料库相关集列(concordance)工具。利用双语语料库相关工具,教授语言的教师和学习语言的学生均可获得很大的帮助。以外语学习为例,经验表明,仅仅学习语法和词汇很难达到学好外语的效果。理想的学习方法是在语境中掌握词汇和句法知识。词典不能提供足够的语境知识,也很难列举大量真实语言材料。利用双语语料结合相关集列工具,学生可以在查询的基础上在语境中把握特定词和结构的意义和句法特征,也可以建立使用词汇的语境知识,更重要的是,双语语料库还有助于学生在学习语言时观察两种语言在表述上的不同,通过对比减轻母语对外语学习的影响。基于双语语料库的语言教学方法研究目前在国际上已经得到很多关注,其理论体系也正在形成和丰富,如90年代初提出的DDL方法(Data-Driven Learning,数据驱动学习)鼓励学生在分析语料的基础上归纳语言规律(Johns, 1991)。(3)双语词典编纂的需求
语料库尤其是单语语料库在词典编纂中的应用已不是特别新鲜的话题,大规模语料库在英美等国已成为词典编撰的前提和主要工具。代表性的工作是基于COBUILD英语语料库而编成的一系列英语词典和英语句法学习书籍(Collins, 2001),这些词典和句法参考书已成为英语学习的重要参考资源。对于双语词典,国内出版社传统策略是采用引进并翻译的方法,双语词典的质量不能尽如人意。象单语语料库在单语词典编纂中
The Markup Guidelines for the Chinese-English Parallel Corpus of Peking University 197
的作用一样,双语语料库在双语词典编纂中也极具价值。在双语语料库相关集列等语料库工具的支持下,双语语料库同样可以在提高辞书编纂质量和节省词典编纂时间方面发挥重要作用,双语语料库可以为许多词典编纂决策提供客观依据,是否收入一个词条、词条义项如何排列取决于词汇在语料库中的使用,而且双语语料库也为词典用例选择提供了源泉,词书编纂人员可以从语料库中选择有代表性的高频用例,从更深的层次看,基于双语语料编纂双语词典改变了词典编纂的理念,词条中所包含的意义、句法信息都应该得到真实语料库的验证,所有信息都是可靠的和准确的。
北京大学计算语言学研究所长期从事机器翻译评测和汉外机器翻译研究工作,双语语料库建设是其中一个核心工作内容,为有效支持相关研究,北大计算语言所进行了大规模的双语语料库的建设工作,双语语料库建设的直接应用目标是为机器翻译等语言信息处理系统提供基础资源,同时也兼顾基于双语语料库的双语词典编纂工作。本文将详细介绍我们所制定的并在语料库建设过程中使用的加工规范。
2. 汉英双语语料库的设计和构建原则
2.1 语料库的加工深度
语料库不是任意文本的任意堆积,为了发挥语料库的作用,通常都需要对语料库进行一定的加工,进行何种加工和加工深度如何通常和应用目标有关。对于汉英双语语料库而言,基本的加工包括对语料进行各级对齐工作,其中最为重要的是句子一级的对齐,这是各种应用对双语语料库的一个最基本的需求。其他的加工包括:对汉语部分进行切词、词性标注以及注音;对英语部分进行断词(tokenization)、形态还原(lemmatization)和词性标注;汉英双语语料在词汇一级和短语一级对齐。对双语语料库的加工越多,双语语料库可以提供的信息也就越多,但同时也意味着工作量的剧增。根据工作的需要,目前我们主要进行句子一级的对齐工作,但在制定规范时也充分考虑了进行其他可能的加工。
2.2 语料库编码
双语语料库收录的文本通常不只一个来源,对汉英双语语料库而言更是如此,相关可用的电子文本远远不如单语文本多。要建立一个相对大规模的双语语料库,多渠道搜集语料就是唯一的选择。这同时带来一个问题就是语料文本格式各异,难以统一处理和管理。同时,作为一个基础资源,经过加工处理的语料库也需要以一种和应用以及平台无关的形式存在而支持相对广泛的应用。为此需要对双语语料库进行统一编码,从而方便双语语料库的管理、统一处理、共享和交换。在我们的工作中,我们选用了