中文复杂名词短语依存句法分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

优先出版 计 算 机 应 用 研 究 第32卷

--------------------------------

基金项目:国家自然科学基金项目(61173095),国家自然科学基金重点项目(61133012)

作者简介:陈永波(1990-),男,山东禹城人,硕士研究生,无,主要研究方向为自然语言处理、句法分析、机器学习等(chenyongbo1990@);汤昂昂(1990-),男,硕士研究生,无,主要研究方向为自然语言处理、信息检索、机器学习等;姬东鸿(1967-),男,博士,博导,主要研究方向为自然语言处理、语义网技术、机器学习、数据挖掘等; .

中文复杂名词短语依存句法分析 *

陈永波,汤昂昂,姬东鸿

(武汉大学 计算机学院,武汉 430072)

摘 要:针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM 相结合的依存句法分析算法。算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系。实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器。算法分析效率更高,时间复杂度为O (n2logn )。

关键词:中文复杂名词短语;依存句法分析;决策式算法;支持向量机;特征 中图分类号:TP391.1 文献标志码:A

Dependency parsing of Chinese complex nominal phrase

CHEN Yong-bo, TANG Ang-ang, JI Dong-hong

(Computer School, Wuhan University, Wuhan 430072, China)

Abstract: This paper developed Easy Arc First Algorithm Combined with SVM, and used it in dependency parsing of Chinese Complex Nominal Phrase. In each iteration step, the algorithm finds out the optical non-directional arc among arcs linking neighboring subtrees according to their features, and determines the arc ’s direction using SVM. Results of experiments show that accurate rate of the algorithm is significantly higher than Easy First Arc Algorithm, and higher than Chinese parser based on MST algorithm. Time complexity of the algorithm is O(n2logn).

Key Words: Chinese complex nominal phrase; dependency parsing; deterministic algorithm; SVM; feature

0 引言

复杂名词短语的语义解释是自然语言处理领域最具挑战性的课题之一[1]。研究复杂名词短语的依存句法分析算法,对句子依存分析计算复杂性的简化和准确率的提高具有重要意义

[2]。当前主流的依存句法分析算法可以分为三类:基于转换的

算法、基于图的算法和同时基于图与转换的算法。基于转换的算法计算简单,而准确率较低;基于图的算法准确率高,但计算复杂。Yoav 等[3]结合前两种方法,提出了简单边优先算法。该算法能较好地处理长句,却不能移植到复杂名词短语的句法分析。针对复杂名词短语的内部结构特征,本文提出了简单边优先与SVM 相结合的依存句法分析算法。算法考虑了复杂名词短语的内部结构特征,在降低计算复杂度的同时有效地保证了准确率。实验证明该算法能良好地应用于复杂名词短语的依存分析,且准确率和效率高于基于最大生成树算法的中文句法分析器。

本文内容主要分为五部分:本部分为引言;第一部分介绍

复杂名词短语的定义及其语义结构;第二部分介绍依存句法分析的定义及目前的主流算法;第三部分介绍简单边优先与SVM 相结合的依存句法分析算法;实验及结果分析在第四部分。

1 复杂名词短语

1.1 定义

本文的研究对象是指包含至少三个词语且不含助词“的”的复杂名词短语。下面1)和2)给出了两个复杂名词短语的例子。

1) 多种语言现象 2) 多种语言习得

研究复杂名词短语的识别和依存分析对于句子分析的简化和准确率的提高具有重要意义。目前国内外对于复杂名词短语语义结构的研究主要集中在NN 二词短语,而对于多词名词短语的研究比较少见。但多词名词短语的语义结构远非二词名词短语所能涵盖。例如1)中如果没有“现象”,“多种”语义上指向“语言”;如果添上“现象”,则很可能指向“现象”。相比

文章预览已结束

获取全文请访问

/article/02-2015-06-007.html

相关文档
最新文档