句法分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8.2.2 数据驱动的分析方法

数据驱动的分析方法不需要生成语法,分析结果是按 照树库中标识的模式得到的。缺陷在于句子的分析结果完 全受到训练树库中标识形式的控制。
G.Sampson自1986年开始建立的APRIL句法分析器是第一个基于语 料库技术的自动语法分析器。 D.M.Magerman(1995年)建立的SPATTER句法分析器基于历史的 语法技术。 R.bod等人(1996年)提出了面向数据的句法分析技术(DOP)。 朱靖波等(1998)和张玥杰等(2000)曾论述了基于DOP的语料库 标注方法、片断单元的定义、组合分析和概率计算方法,以DOP技 术作为基本框架,并利用基于相似的概率评估技术实现了汉语句法分 析器。
8.1.1 基本概念
句法结构歧义的识别和消解是句法分析面临的主 要困难。 构造一个句法分析器需要考虑两部分工作: 1.语法的形式化表示和词条信息描述问题
形式化的语法规则构成了规则库 词条信息(包括词性、动词的配价和中心词信息等)由 词典或相关词表提供 规则库与词典或相关词表构成了句法分析的知识库
2.分析算法的设计
8.1.2 语法形式化
在自然语言处理中广泛使用的是上下文无关文法 (CFG)和基于约束的文法(合一语法) 常用的基于约束的语法有: 1.功能合一语法(FUG) 2.树链接语法(TAG) 3.词汇功能语法(LFG) 4.广义的短语结构语法(GPSG) 5.中心语驱动的短语结构语法(HPSG)
8.1.3 基本方法
将这些分析方法划分为三种类型: 自顶向下的分析方法 自底向上的分析方法 两者结合的分析方法
8.1.3 基本方法
自顶向下分析算法实现的是规则推导的过程,分 析树从根结点开始不断生长,最后形成分析句子 的叶结点。 自底向上分析算法的实现过程恰好相反。(有些 方法本身是确定,例如:CYK算法、Earley算法、 移进-规约算法和GLR分析算法) 线图分析算法,三者都可以 左角分析算法是一种较好的top-down方法和 bottom-up方法相结合的算法
8.2.1 语法驱动的分析方法
1.基于PCFG的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.1.3 基本方法
基于规则的句法分析方法的主要优点 分析算法可以利用手工编写的语法规则 分析出输入句子所有可能的句法结构; 对于特定的领域和目的,利用手工编写 的有针对性的规则能够较好地处理输入句 子中的部分歧义和一些超语法现象。
8.1.3 基本方法
规则分析方法存在的缺陷: 1.对于一个中等长度的输入句子来说,要利用大覆盖度的语 法规则分析出所有可能的句子结构是非常困难的,分析过 程的复杂性往往使程序无法实现; 2.即使能够分析出句子所有可能的结构,也难以在巨大的句 法分析结果集合中实现有效的消歧,并选择出最有可能的 分析结果; 3.手工编写的规则一般带有一定的主观性,对于实际应用系 统来说,往往难以覆盖大领域的所有复杂语言; 4.手工编写规则本身是一件大工作的复杂劳动,而且编写的 规则对特定的领域有密切的相关性,不利于句法分析系统 向其他领域移植。
8.5.1 标点符号在句法分析的作用
G.Nunberg(1990)和B.Jones(1994,1996,1997)对英语 符号理论研究,表明在长句句法分析中融入标点符号的信 息是有效的。 G.Nunberg(1990)提出了两级文法的概念,分别作用在不 同的语法层级上,这两级文法分别为词汇语法和文本语法。 B.Jones(1996,1997)提出了集成文法的概念,他按标 点符号的作用将其分为两类:连接标点和依附标点。但他 只能覆盖所有标点现象中的一部分。效果不好。 E.Briscoe等人(1995,1996)把标点看作独立的句子成 分,构建了确定的子句文法规则体系,用来描述标点和句 子成分相互作用的规律。 在汉语方面,周强(1999)曾利用标点符号来进行并列 短语的自动获取。黄海燕等(2002)曾在机器翻译研究 中利用标点符号和邻近的关系代词配合,把复杂句子切分 成多个独立的简单句。但是,都没有从句法分析的角度对 标点符号进行全面研究和分析。
8.1.3 基本方法
句法分析方法分为基于规则的分析方法和基于统计的分析 方法。 基于规则的句法分析方法的基本思路是:由人工组织语法 规则,建立语法知识库,通过条件约束和检查来实现句法 结构歧义的消除。 CYK分析算法、欧雷分析算法、线图分析算法、移进-规 约算法、GLR分析算法、左角分析算法 人们对这些算法做了大量的改进工作,并将其应用于自然 语言处理的相关研究和开发任务,例如:机器翻译、树库 标注等很多方面。
8.2.3 其他分析方法
有些学者提出了把语义信息引入到句法分析模型 中的思想,建立了语义辅助的句法解析模型。 有些研究了利用有限状态自动机(FSA)或有限 状态转移机(FST)实现句法分析器的思想方法。 E.Brill(1993)将基于转换的错误驱动的技术用 于自动学习短语结构知识。 综上所述,一个好的句法分析器不仅应该能够 充分利用多种信息,而且还必须具有较好的鲁棒 性,以适应各种复杂句子的输入。 (鲁棒性就是系统的健壮性)
8.3 句法分析系统评测
8.3 句法分析系统Βιβλιοθήκη 测8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
8.4 汉语句法结构特点
8.4 汉语句法结构特点
8.4 汉语句法结构特点
8.4 汉语句法结构特点
8.4 汉语句法结构特点
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
2. 上下文依存的概率模型
8.4 汉语句法结构特点
8.5 层次化汉语长句结构分析
8.5.1 标点符号在句法分析的作用 8.5.2 层次化汉语长句结构分析的思路 8.5.3 汉语标点符号的分类 8.5.4 句法规则提取方法 8.5.5 HP分析算法 8.5.6 实验
8.5 层次化汉语长句结构分析
由于对于超过一定长度的句子进行句法分析时, 正确率和召回率呈现急剧下降的趋势。 李幸(2005,2006)从研究汉语标点符号在句 子中的作用和使用规律入手,提出了一种针对汉 语长句句法分析的分层处理方法,该方法根据一 些特定标点符号将长句切分为子句或短语序列, 然后对切分单元分别处理,得到各个部分的分析 子树,最后将子树合并,形成完整的句法分析树。
8.1 概述
8.1.1 基本概念 8.1.2 语法形式化 8.1.3 基本方法
8.1.1 基本概念
句法分析是指对输入的单词序列(一般为句子)判断其构 成是否合乎给定的语法,分析合乎语法的句子的句法结构。 句法结构一般用树状数据结构表示。完成这种分析过程的 程序模块称为句法分析器。 句法分析的任务: (1)判断输入的字符串是否属于某种语言; (2)消除输入句子中的词法和结构等方面的歧义; (3)分析输入句子的内部结构。 一般不考虑(1),着重考虑(2)(3) 课本147给出了The can can hold the water的分析树。
疑问代词who可以作为give的间接宾语替换“—”位置
8.1.3 基本方法
2.在自然语言句子中存在更多、更复杂的结构歧义 (1)Who has seen John? (2)Who has John seen? 自然语言的句法解析方法与程序设计语言的 句法分析方法的区别还在于,自然语言处理中的 句法分析器的先验知识的覆盖程度永远是有限的, 句法分析器总是可能遇到未曾学习过的新的语言 现象,而这一点对于程序设计语言来说是不可能 的。句法分析算法实际性能离真正实用化要求还 有相当的距离主要原因在于在语言学理论和实际 的自然语言应用之间存在着巨大的差距。
统计自然语言处理
第八章 句法分析
第八章 句法分析
8.1 概述 8.2 统计句法分析 8.3 句法分析系统评测 8.4 汉语句法结构特点 8.5 层次化汉语长句结构分析 8.6 浅层句法分析 8.7 依存语法理论与依存句法分析
第八章 句法分析
句法分析的基本任务是确定句子的句法结构。 本章首先简要介绍句法分析技术的基本概念,然 后介绍句法分析技术的基本方法和汉语长句句法 分析技术的部分研究成果,最后介绍浅层句法分 析技术研究的一些新进展。
Chitrao等人(1990)年提出的,在该模型中,规则 右部每个非终结符被扩展时可能使用的产生式的概率被记 录了下来,用以计算扩展子树的概率。其可以降低标准 PCFG模型的错误率。 结构描述信息的引入有助于提高句法分析的效果。
8.2.1 语法驱动的分析方法
3.词汇化的概率模型
词汇本身可能对结构的消歧产生的作用,有些歧义结 构是可以通过上下文词汇提供的信息消除的,因此提出了 词汇化的消歧模型。 M.Collins等人(1995)考虑了跟随介词短语的名词短 语的中心词的作用,使分析正确率达到了85%。这一中心 词驱动的概率模型是近几年来词汇化句法分析模型的典型 代表,其基本思想是:句子是围绕中心词来组织的,规则 中的每一个非终结符节点与其核心词相联系,通过规则的 概率体现核心词之间的依存关系。
8.3 句法分析系统评测
句法分析系统评测的主要任务是评测句法分析 系统生成的树结构与手工标注的树结构之间的相 似程度。 句法分析器两方面的性能:满意程度和效率 满意程度评测就是测试一个句法分析器是否 适合或胜任某个特定的自然语言处理任务。 效率评测则是用普通测试集来运行句法分析 器,对比其运行时间与参考系统执行时间之间的 差别。
8.2 统计句法分析
8.2.1 语法驱动的分析方法 8.2.2 数据驱动的分析方法 8.2.3 其他分析方法
8.2.1 语法驱动的分析方法
在语法驱动的方法中,生成语法用于定义 被分析的语言及其分析出的类别,在训练 数据中观察到的各种语言现象的分布以统 计数据的方式与语法规则一起编码。 常见的语法驱动的统计句法分析方法有基 于概率的上下文无关文法(PCFG)的分 析方法、上下文依存的概率模型和词汇化 的概率模型
8.1.3 基本方法
基于规则的句法分析算法之所以能够成功 地运用于计算机程序设计语言的编译器中, 而面对自然语言的句法解析任务始终难以 摆脱困境主要原因: 1.形式化文法的生成能力问题(P150举例)
(1)Who did you give the book to_? (2)Who do you think that you give the book to_? (3)Who do you think that he suspects that you gave the book to_?
8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
8.3 句法分析系统评测
0Sales1 executives2 were3 examining4 the5 figures6 with7 great8 care9 yesterday10 .11
8.2.1 语法驱动的分析方法
PCFG三个基本问题:
8.2.1 语法驱动的分析方法
为解决这三个问题,只考虑文法具有乔姆斯基范式CNF 的情况,即文法规则只有以下两种形式:
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
8.2.1 语法驱动的分析方法
相关文档
最新文档