句法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.3.1 短语结构语法理论与乔姆斯基语法体系
3、句法分析树 在对一个句子进行分析的过 程中,如果把分析句子各成 分间关系的推倒过程用树形 表示出来的话,那么,这种 图称做句法分析树。 如图为语句 The girl writes letter with a pencil进行句法分析时建立 的句法分析树。
7.3.4 自动句法分析算法
1、自顶向下回朔算法 2、自底向上并行算法
什么是句法分析
句法分析是从单词串得到句法结构的过程; 句法分析就是要对句子或短语的结构进行分析,以确 定构成句子的各个词、短语等之间的相互关系以及各 自在句子中的作用等,并将这些关系用层次结构加以 表达。 不同的语法形式,对应的句法分析算法也不尽相同;
7.3.1 短语结构语法理论与乔姆斯基语法体系
7.3.3 词汇功能语法
词汇功能语法(LFG)是由卡普兰和布鲁斯南(Bresnan)在 1982年提出的,它是一种功能语法,但是更加强调词汇的作用。 LFG用一种结构来表达特征、功能、词汇和成分的顺序。 LFG对句子的描述分为两部分:直接成分结构(Constituent Structure,简称C-Structure)和功能结构(Functional Structure,简称F-structure),C-structure是由上下文无关语 法产生的表层分析结果。在此基础上经一系列代数变换产生Fstructure。LFG采用两种规则:加入下标的上下文无关语法规 则和词汇规则。
7.3.2 递归转移网络与扩充转移网络
1、有限状态转移网络 扩充转移网络的概念来源于有限状态转移网络。我们曾 指出,有限状态转移网络只能用来生成或识别正则(即3型)语 言。 一个有限状态转移网络由一组状态(即结点)和一组弧(用 来把一种状态连向另一种状态)所组成: (1)其中的一个状态被指定为起始状态; (2)在每条弧上都标注着该语法的终结符(包括词或词类)。 它表明必须在输入句子中找到这样一个词,才可以进行这条弧 所规定的转移; (3)状态集中有一个名为结束状态的子集。如果输入句子 (或短语)的头从起始状态开始,经过一系列的转移,句尾恰好 达到结束状态,我们就说这个句子(或短语)被这个转移网络所 接受(或识别)。
1、短语结构语法理论
一部短语结构语法G可以用如下的四元组来定义: G=(Vt,Vn,P,S) 其中,Vt是终结符的集合,终结符是指被定义的那个语言的词(或符 号); Vn是非终结符的集合,这些符号不能出现在最终生成的句子中, 是专门用来描述语法的。显然,Vt和Vn的并构成了符号集V,而且Vt 和Vn不相交,因此有: V=Vt∪Vn, Vt∩Vn=φ (φ表示空集); S是起始符,它是集合Vn中的一个成员; P是一个产生式规则集。每条产生式具有如下的形式: a→b 其中a∈V+,b∈V*,且a≠b;V*表示由V中的符号所构成的全部 符号串(包括空符号串φ)的集合,V+表示V*中除φ之外的一切符号串 的集合。
7.3.2 递归转移网络与he"开头的一类名词短语NP的转移网络,它可以 拥有零个或多个形容词;最后以一个名词结尾。 假如输入的短语是:"the pretty picture"。从起始状态NP开始,它只有 一条标注着"the"的外射弧,由于输入串中的第十个词能同它匹配;所以 词"the"从输入串中被删除,过程则相应进入图中的,状态NP1。此时输 入串是"pretty picture",由于第一个"pretty"的词类是ADJ,同标注ADJ的 弧匹配,于是"pretty"从输入串中被删除,但沿着ADJ弧转移的结果是再 次回到这个NP1状态.此时输入串只剩下最后一个词"picture",由于它是一 个名词,因此发生了沿N弧前进到结束状态的转移。这时,输入串已成为 空串,所以分析成功。
7.3.2 递归转移网络与扩充转移网络
2、递归转移网络 递归转移网络(recursive transition networks,简称 RTN)是对有限状态转移网络的一种扩展,在RTN中每条弧的标 注不仅可以是一个终结符(词或词类),而且可以是一个用来指 明另一个网络名字的非终结符。 例如,下面是一部上下文无关语法: S ∷=NP V NP PP* NP∷=T ADJ* N PP* PP∷=P NP 其中X*表示符号X可以出现零次或多次。这三条语法规则 可以用下页图所示的递归转移网络来表示。
7.3.3 词汇功能语法
1、词汇功能语法对句子的分析过程 用LFG语法对句子进行分析的过程如下: (1)用上下文无关语法分析获得C-structure,不考虑语法 中的下标;该C-structure就是一棵直接成分树; (2)将各个非叶节点定义为变量,根据词汇规则和语法规则 中的下标,建立功能描述(一组方程式); (3) 对方程式作代数变换,求出各个变量,获得功能结构Fstructure。
7.3.1 短语结构语法理论与乔姆斯基语法体系
2、乔姆斯基语法体系 乔姆斯基(N.Chomsky)曾定义了以下四类语法: (1)无约束短语结构语法,如前所述,又叫做O型语法; (2)上下文有关语法(context-sensitive grammars),又叫做1型语 法; (3)上下文无关语法(context-free grammars),又叫做2型语法; (4)正则语法(regular grammars),又叫做3型语法。
7.3.2 递归转移网络与扩充转移网络
2、递归转移网络
图中用来表示S,NP和:PP等三条上下文无关语法规则的递归转移网络
7.3.2 递归转移网络与扩充转移网络
3、扩充转移网络
ATN在以下三方面对RTN作了扩展和增强: (1)添置了一组寄存器,用来存储分析过程中得到的中间结果(如局部 句法树)和有关信息(如名词短语的人称和数。某些成分的语义特征等); (2)每条弧上除了用句法范畴(如词类和短语标记)来标注以外,可以 附加任意的测试,只有当弧上的这种溯试成功之后才能通过这条弧; (3)每条弧上还可以附加某些动作,当通过一条弧时,相应的动作便 被依次执行,这些动作主要用来设置或修改寄存器的内容。 设置哪些寄存器完全取决于句法分析的需要,并没有硬性的规定。 例如 有关句型的信息:陈述句,疑问句,祈使句,可以存放在名为TYPE的寄存 器中;动词信息及其局部结构可存放在名为V的寄存器中;当然也可设置 象主语、谓语、宾语一类的寄存器来存储各种句子成分的信息以及它们的 局部结构。所有这些寄存器都可以看作是程序设计中变量,它们从属于被 设置的那个ATN子网络。对于ATN的后继弧来说,这些寄存器的内容可以被 访问,并且根据附加在后继弧上的动作可以被复制、修改或组合。