一种基于混合分析的汉语文本句法语义分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中 文 信 息 学 报

第16卷第4期 JOURNAL OF CHINESE INFORMATION PROC ESSING Vol.16No.4一种基于混合分析的汉语文本句法语义分析方法

尹 凌 姚天 张冬茉 李 芳

(上海交通大学计算机科学与工程系 上海 200030)

摘要:本文提出了一种领域相关的汉语文本句法语义分析方法。根据领域文本的特点,该方法将浅层句法分析和深层句法语义分析结合在了一起。其浅层句法分析部分采用有限状态层叠的方法,将文本中的命名实体识别出来,从而大大减轻了深层分析部分的负担。其深层句法语义分析部分将语义分析和语法分析结合起来,主要依靠词汇搭配信息来决定句子的结构。该方法在解决领域相关文本的短语结构歧义方面取得了较好的试验结果。

关键词:浅层句法分析;深层句法分析;有限状态层叠;分语义场

中图分类号:T P391.1

A Hybrid Analysis Based Chinese Text Syntactic and

Semantic Analysis Method

Yin Ling Y ao T ian fang Zhang Dong mo Li Fang

(Department of Computer Science and Engineeri ng Shanghai Jiao Tong University 200030 Shanghai) Abstract:T his paper proposes a Chinese text analysis method on specific domain.A ccording to the texts character, t his met hod combines shallow parsing technolog y w ith deep parsing and semantic analysis technology.Drawing on fi nite state cascades method,its shallow parsing module recognizes named entities in the tex ts.So that it greatly eases t he burden of the deep analysis mo dule.Principally depending on wo rd collocation information,its deep analysis mod ule combines syntactic analysis and semantic analysis to determine sentence structure.It gains goo d effect at resolv ing t he ambiguity of phrase structure in specific do main.

Key Words:shallow parsing;deep parsing;finite state cascades;sub semant ic field

一、概述

对于汉语语料库的多级加工,主要分为切词、词类标注、短语结构标注、语义信息标注[1]等。针对后两个阶段,本文以足球比赛报道为试验领域,提出了一种领域相关的汉语文本分析方法。它对已经完成分词和词性标注的中间文本进行处理,借鉴并扩展了C.J.Fillmore的格语法,分析结果力求将句子中各个成分之间的格关系标注清楚。

分析足球比赛报道文本的特点,发现有许多实体名称,如球队名称,比赛名称,人的身份等,对深层句法和语义分析是至关重要的。我们把这些实体名称称为命名实体(named enti

收稿日期:2001-12-24

基金项目:国家自然科学基金(60083003).

作者尹凌,女,1978年生,上海交通大学计算机系研究生,主要研究方向为自然语言处理.姚天,男,上海交通大学副教授,主要研究方向为自然语言处理.张冬茉,女,上海交通大学副教授,主要研究方向为自然语言处理.李芳,女,上海交通大学副教授,主要研究方向为自然语言处理.

ty)。这些命名实体通常由一列并置的名词组成,可以由简单的语法规则识别,直接调用深层分析很可能由于前面词汇错误的结合,将它们拆分开来。如果用浅层句法分析先将这些实体标注出来,深层分析在此基础上再进行分析,这样就可以大大减少深层分析失败的情况。由此,我们采用深层分析和浅层分析相结合的方法,在深层分析之前,先用浅层分析对句子进行预处理。

在以下各节当中,首先介绍了系统的整体框架;然后阐述了浅层分析部分的主要原理;第四节讨论了深层分析部分的数据准备和核心算法;第五节给出标注结果;第六节对系统进行了讨论和评测。

二、系统整体框架

该系统的整体框架如图1所示。图中第三个步骤属于浅层分析模块,后四个步骤属于深层分析模块,值得说明的是,第二个步骤中,对应每个词的语义码来自于根据词汇的搭配关系制定的分语义场。第四个步骤中,挑选句子的谓语中心词借鉴了北京大学的骨架分析法。

图1 系统流程图

三、浅层句法分析

浅层句法分析(shallow parsing)是近年来自然语言处理领域流行的一种新的语言处理方法[2,3],它是与深层句法分析相对的。深层句法分析要求得到句子完整的句法树,而浅层句法分析则只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。在我们所处理的足球比赛语料中,如足球队名、足球比赛名和人的身份等命名实体就通常是由并置的名词组成的。当这些命名实体被识别以后,在深层句法和语义分析的任务在某种程度上得到简化,同时也有利于采用句法分析技术有效的处理大规模真实文本。

3.1 命名实体的组成成分

在我们的实验系统中要识别的命名实体是足球队名、足球比赛名和人的身份。它们的组成成分介绍如下。

1.足球队名:它表示足球队的名称。主要组成成分有:国家名、省市(州)名、公司名、产品名等。例如:中国队、四川队、上海申花队、拜仁慕尼黑队等。

2.足球比赛名:它表示足球比赛的名称。主要组成成分有:简称、区别词、量词、数字串、字母串、洲名、国家名、城市名、产品名等。例如:全国女足超级联赛、泰王杯国际足球邀请赛等。

3.人的身份:它表示在上下文中所提及的人的身份。例如:门将、球员、外援、裁判员等。这些身份与人名、队名、地点名、数词、量词等上下文有关。如:阿根廷中场肯佩斯、北欧队员等。

为了快速而可靠地分析和识别上述命名实体。我们采用了有限状态层叠机制。并且在正则式中加入了语义限制。下面将介绍这一分析机制的原理。

3.2 有限状态层叠机制及其自动构造

有限状态层叠[3]是Abney于1996年提出的。它包括多个层级,分析逐层进行,每一层的分析由一个有限状态自动机完成,故称为有限状态层叠。每一级上短语的建立都只能在前一级分析结果的基础之上进行,没有递归,即任何一个短语都不包含同一级的短语或高一级的短语。分析过程包括一系列状态转换,用T i表示。在每一级上,通常的状态转换操作的结果是合并输入串中的一个元素序列成为单个元素,并为其标明实体类别信息。

每一个转换定义为一个模式的集合。每一个模式包括一个识别范畴和一个由POS符号组成的正则式以及正则式相应的语义限制规则。其定义如下:

识别范畴 POS正则式(语义限制规则1|语义限制规则2| |语义限制规则n)

|!表示规则之间是或!的关系。

正则式可构造有限状态自动机,模式自动结合在一起就产生一个单一的、确定性的有限状态层级识别器(level recog nizer)T i,它以上一级的输出L i-1为输入,并产生L i作为输出。在模式匹配过程中,如遇到冲突(即两个或两个以上的模式都可以运用),则按最长匹配原则选择合适的模式。

用模式匹配识别命名实体的时候,先根据词汇的POS符号匹配正则式,同时也要检查是否符合其语义限制。例如:TN N5+N+KEY WORD(CityName+CompanyName+T eam NameKeyw ord|CityName+ProductName+TeamNameKeyw ord|ProvinceName+CityName+ T eamNameKeyword|Prov inceName+CompanyName+TeamNameKeyword)

这里,TN表示Team Name。 !后面为正则式,正则式中的+!表示一般的符号连接关系。由于我们采用山西大学的分词和标注系统[4]切分句子。所以正则式中的POS符号也同

相关文档
最新文档