汉语句法树库标注体系
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语句法树库标注体系∗
周强
清华大学计算机系
智能技术与系统国家重点实验室
北京100084
zhouq@
摘要:语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。
关键词:句法树库,标注规范,语料库语言学
Annotation Scheme for Chinese Treebank
ZHOU Qiang
State Key Laboratory of Intelligent Technology and Systems
Dept. of Computer Science and Technology
Tsinghua University, Beijing 100084
zhouq@
ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and
∗本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。
作者:周强,男,1967年生,博士,副研究员,主要研究方向:计算语言学、语料库语言学、词汇语义学
1
bottom-up descriptions. Based on this scheme, we built a 1,000,000 words Chinese treebank covering a balanced collection of journalistic, literary, academic, and other documents. The annotating experiments on different kinds of complex linguistic phenomena show the availability and compatibility of this annotation scheme.
KEYWORDS: Tree Bank, Annotation Scheme, Corpus Linguistics
1 引言
语料库的句法标注是语料库语言学研究的前沿课题,它的处理目标是对语料文本进行句法分析和标注,形成树库(tree bank)语料。近年来,国内外研究人员在这些方面进行了深入探索,开发完成了许多大规模的树库。在英语方面,有英国的Lancaster- Leeds 树库[LG91]和美国的 Penn 树库[MSM93];德语方面,有NEGRA树库[SBK98]和TIGER树库[BH02];捷克语方面,有布拉格依存树库(PDT)[Hai99];汉语方面,有美国宾州大学的Penn中文树库[XM00]和台湾中研院的Sinica中文树库 [HCC00]。
在这些树库项目的开发过程中,一个特别值得重视的发展趋势是树库构建与语法理论研究的紧密结合。欧洲目前进行的一些树库项目都有很深的语法理论研究背景,如:捷克的PDT项目以依存语法为基础;德国的TIGER项目以词汇功能语法(LFG)为基础;英国的LigGO项目[OFT02]以头驱动短语结构语法(HPSG)为基础等。两者紧密结合的好处是显而易见的。一方面,利用语法理论的最新研究成果,可以很快建立起比较完整的树库标注体系;同时,利用比较成熟的基于不同语法理论的句法分析器作为预处理工具,可以大大降低大规模树库的构建成本。另一方面,通过大规模真实文本的树库构建实验,可以发现许多新的语言现象,为语法理论提供丰富的研究素材,使理论体系得到不断改进和完善。两者相辅相成,互相促进,达到了理论研究和实际应用的完美结合。
从1998年起,我们开始进行汉语句法树库的开发研究,希望构建完成目前世界上规模最大、信息标注最丰富的汉语句法树库。经过5年多的努力,逐步总结形成了一套比较完整的汉语真实文本的句法树标注体系和处理规范。在下面的几节中,我们首先对目前国内外典型树库的句法标注体系进行简单综述(第2节)。接着介绍我们的标注体系的主要内容(第3节)。然后简要介绍以此为基础进行的汉语句法树库标注实践和目前完成的100万词规模的句法树库TCT的基本情况,并对有关内容进行总结和展望(第4节)。在最后的结语(第5节)中,对有关工作进行总结和展望。
2 国内外典型树库的标注体系
在英语方面,美国的Penn 树库的标注体系经历了一个从简单到复杂的不断进化发展过程。最初的PTB-1[MSM93]采用了骨架分析(Skelton Parsing)思想,形成比较扁平的句法结构树。随后,在扩充版本(PTB-2)[MKM94]中,增加了一些功能标记,用于标注句子中主要句法成分的语法功能,希望能据此自动抽取出句子的谓词-论元(Predicate-Argument)信息。从2002年起,他们进一步提出了命题库(PropBank)构建计划[KMM02],在PTB-2上明确标注句子中各个动词的谓词-论元信息,希望借此建立从句法到语义的重要桥梁。
捷克的PDT项目[Hai99]则设计了三个层次的标注信息:词法、句法和语义。在词法层
2