面向信息处理的汉语复句研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向信息处理的汉语复句研究

面向信息处理的汉语复句研究是一项文理交叉的大型跨学科研究,对于汉外翻译、汉语篇章理解都十分重要。本文介绍了面向信息处理的汉语复句研究领域采用的主要方法、关键技术以及研究成果。

标签:汉语复句信息处理语法分析语义分析

一、前言

中文信息处理包括字处理、词处理、句处理、篇章处理。目前已经完成了字处理,较好地解决了词处理,正在向句处理迈进。句处理内容复杂,包括句法知识、语义知识和语用知识等。目前对于汉语单句的计算机处理研究较多,而对于汉语复句的计算机处理研究较少。复句是由两个或更多的相对独立的主谓结构按照一定组合规律构成一个结合体,表达思想确切周密,传递信息内涵丰富。从结构上看,复句是由小句联结而成的,由于它下连小句,上连篇章,在单句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面的属性。深入研究汉语复句,对于汉外翻译、汉语篇章理解都是十分重要的。几年来,随着信息处理的发展,汉语复句研究领域出现了新视野、新角度、新方法,有不少研究者加入汉语复句的信息处理工作中。

二、研究主要方法

复句的信息处理最早是出于机器翻译的需要。20世纪90年代初,周明、李生等人提出了一整套计算机对汉语复句的分析方法,并将该方法应用于CEMTI 汉英机器翻译系统中。在这之后的十几年时间里,汉语复句的信息处理方法大致分为两类:基于语法形式的分析和基于语义分析。随着技术的不断发展,理论的不断创新,呈现出两类方法综合起来进行处理的发展趋势。

(一)语法形式分析方法

该方法从复句的结构入手,几乎不涉及语义范畴的概念。分析的目标是:给出复句的深层句法分析,包括关联词语的识别、分句逻辑关系确定、形式化地表示出复句的层次结构关系等。

对复句作深层句法分析,一般首先从单复句的区分、复句的定义出发来分析复句的结构,并利用一种模型把复句结构化。分析过程通常包括以下几个步骤:

(1)词法分析:包括自动分词、词性处理、对关联词语加以确认。

(2)分句处理:分句数目确定,分句间的关系分析,解决分句的省略、指代现象。

(3)综合结果:综合各个分句的分析结果,构成语法分析树或功能结构树。

基于上述方法,张仕仁(1994)提出用盒式图来表示复句的形式结构,用复杂特征集来表示复句的意义结构。通过对复句结构的分析,把复句归结为由三种基本成份构成:分句、联合结构、偏正结构,并用盒式图表示这些结构,以此构造出各式各样的复句来。为了能正确地划分复句基本结构的类型,采用了复杂特征集描述。首先由词库给出单词、给出单词的复杂特征集,进而分别形成短语、分句、复句复杂特征集。最后构造出一棵复句的“功能结构树”。该方法单纯从语法结构出发,当复句存在语义歧义的时候,就不能很好地处理。而且文中也没有论述如何处理结构歧义问题。另外,文中提到复句的形式结构的三种基本成分分类似乎欠妥,因为复句是由分句构成的,“分句”这个所谓的成分是从组成或构成角度来说的,联合结构、偏正结构,是从分句之间的逻来说的。因此是把不同范畴的概念混淆在一起作为复句的三种基本成分了。

深层句法分析需要综合考虑多种因素,因而难度总是比较大。集中力量解决复句分析中的某一个问题,是许多研究者采取的策略。在词、短语、单句教学与研究中,分析的主要是结构、功能,尤其强调这三者的语法构造是一致的。分析复句,则不得不抛开语法结构,而转为逻辑分析。所以形式化地表示出复句的层次结构关系,成为许多学者研究的目标。

文献在依托复句本体研究的成果基础上,考察了复句关系词语的包孕机制对二重复句结构层次自动分析的辅助作用。对于关系词语没有省略的二重复句,通过三个步骤实现结构层次的自动分析:第一,计算机掌握关系词语之间的常规组配形式;第二,最临近配对分句首先构成复句模块;第三,确定复句模块的层次归属。另外,对于关系词语省略的复句,根据关系词语的包孕机制,来判断或辅助分析复句的层次情况。显然,此篇论文研究有其局限性。首先,论文中分析的手段是关联词语,但是从文中得出的结论可以看出,依据关系词语只能解决部分情况下二重复句的结构层次自动分析,在更多情况下多重复句结构层次的自动分析仅凭关系词语是无法解决的。其次,分析的对象是限于二重复句的。然而实际运用中,三重复句也是比较常见的,因此有必要把对象扩展为多重复句。多重复句的结构层次划分,是语篇内部不同层级意义相对完整的体现,对于语篇的理解具有非常重要的作用。

中国社会科学院的鲁松、白硕将目标聚焦在多重关系复句的层次分析上。并且提出“关系层次树”这个概念来形式化地表示多重关系复句的层次结构。文章首先引入了上下文无关文法来表述多重复句,然后给出了一种具有预测机制、自底向上、部分数据驱动的确定性移进——规约关系层次分析算法。整个分析算法的形式化基础是关联词语。层次的分析过程是以关联词语提取预处理为前提,针对关联词语进行移进——规约操作。通过开放测试,得出复句关系层次分析的正确率达到93.56%。算法分析仍然是以关联词语为着眼点,对于没有任何关联词语指示的多重复句算法无能为力。

(二)语义分析方法

汉语的形态不发达,因此汉语中语法分析比较困难。并且汉语是一种“重意合”、“轻形式”的语言,即它是以语义为主,不大注重形式。因此,在中文信息处理中,要理解汉语复句并进行处理,就要分析复句的句法,显式地描述复句各组成成分之间的语义。研究者寻求一种有效的进行汉语复句语义分析,生成复句语义表示的方法。

最具代表性的是华中师范大学的胡金柱、罗旋、王琳等人所作的一系列的研究工作。他们将本体技术用于复句领域的概念建模。据介绍,建立复句的本体模型有助于更好地理解复句领域所有的概念和概念之间隐藏的语义,能为汉语复句语义上的计算机自动识别提供支持。

胡金柱(2005)首先介绍了本体研究现状,然后介绍了本体元模型建模方法,通过对复句静态结构及与小句关系的分析,在汉语小句元模型的基础上初步构造了汉语复句静态本体模型。正式引入了本体理论来研究复句领域的建模问题。概括地说,把一个模型应用到概念的结果就是本体,建模的方式也就是将事物表示成一个五元组:1.类/概念;2.关系;3.函数;4.公理;5.实例,即从这五个视角来观察事物。基于上述思想,在分析了复句领域涉及的词汇和复句结构的基础上,构建了复句本体模型。

从文中的阐述可知,复句领域概念本体描述了该领域的静态知识,论文也提出可以进一步尝试描述领域的动态知识。另外,还需要对富含的语义进行扩充,将模型形式化地表示出来。建立面向复句句法标注的本体也是需要努力的目标。王琳、罗旋(2006)就针对上述问题进行了研究。王琳所研究的复句语义分析采用的算法思想是:利用本体元建模方法建构了汉语小句元模型,并采用本体网络语言OWL对小句本体进行描述,对小句进行语义分析。然后利用构成的小句元模型再去描述复句模型,最后生成整个复句的OWL表示。需要指出的是,论文中模型的构建是从句子的功能构造层面进行分析,对于句子的组成成分关系分析得还不够深入。另外算法大多还处于理论研究阶段,没有接受计算机的真实测试,必定还包含许多隐藏的因素。但是有问题存在就有继续研究下去的希望,也为后来的研究者指明了一条道路。至于文献所做的主要是资源建设方面的工作。通过建立汉语复句的本体语义标注模型,给出了一个有标复句本体标注说明和标注规范。在研究了汉语关系词词类自动标注、复句层次自动标注、短语自动标注以及复句类型认定方法的基础上,建立了一个大规模的有标复句语料库和一些标注好的复句库。目前,语义标注都是需要手工操作来实现,对于大量的文档,这种方法就不是很适用了。所以半自动化的标注研究,是今后深入研究的又一个目标。

(三)研究发展趋势

自然语言理解系统都是以句法分析的结果作为理解的起点,即首先分析出“语法树”,然后赋予其语义。然而,汉语是一种“意合型”的语言,这一特点导致在汉语理解过程中,单纯把语法分析和语义分析隔离开来是件很困难的事,因此在汉语复句的分析中应寻求一种结合语法分析和语义分析的方法。

相关文档
最新文档