句法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
请阅读P96-99该算法。
自顶向下分析算法
1.初始 当前状态为((s) 1)记为C,候选状态为空
2.当算法未失败且算法未成功,重复:
(1)若C是空字符列且词位置到了句尾,则算法成功, 返回。
(2)若当前状态和候选状态都为空,且词未知未到句 尾,则算法失败,返回。否则,产生新状态:
• 若C中字符列的第一个字符是句子中下一个词的词类,则 从字符列中移去第一个字符,并修改词位置,修改后的状 态为当前状态,记为C,转(2)。
如,使用上述文法,句子:the boys eat apples. 可以用下图所示的推导树表示,同时也表明了该句是合 法的句子。
S
NP
DET
N
V
the
boys eat
VP NP N
apples
面向短语结构语法的句法分析
句法分析例子1
小王和小李的妹妹结婚了
生成规则:
S→NP VP NP →NP C NP NP →N NP →NP de N VP →V le
短语结构语法
一般上下文无关文法所代表的短语结构 语法应用最为广泛。
经典乔理论:一个语法包括:
短语结构(phrase structure) 转换结构(transformational structure) 形态音位(morphophononemics)
• 例:S->NP VP … • XY->YX(掉位转化结构) • Hit->[hit]
• S->NP VP • NP->ART N • NP->ART ADJ N • VP->V • VP->V NP
依存语法
依存语法打破了传统句子中的“主谓关系”, 提高了“谓语”中动词的地位,平等了主语、 宾语、和其他句子补充成分的地位
首先关注句子的动词,再探讨其他成分与动词 的关系。
依存语法没有词组的概念,因而没有非终结 点,依存语法的结构比较简单,层次和结点 数比较少,因此,依存语法适合于中心词分 析法。
句法分析的基本策略
句法分析通常采用的策略有:
•自顶向下分析法; •自底向上分析法; •左角分析法; •其他策略。
自顶向下分析算法
• 句法分析的过程也可以理解为句法树的构 造过程;
• 所谓自顶向下分析法也就是先构造句法树 的根结点,再逐步向下扩展,直到叶结点;
• 所谓自底向上分析法也就是先构造句法树的叶 结点,再逐步向上合并,直到根结点。
短语结构语法
法和语义信息 表层结构和深层结构:
依存语法
又称从属关系语法,便于计算机对自然语 言进行处理
法国语言学家特斯尼尔认为,句法的研究对象 是句子,句子中的词语不是一盘散沙,而是有 机的整体,句子中的词语之间是有关联的,句 法关联建立起词语和词语之间的依存关系,这 种依存关系由支配词和从属词连接起来。
成熟的短语结构语法 逐渐流行的依存语法
相对而言,主流的是短语结构语法(特别是上下文无 关语法)应用得最为广泛,因此以短语结构树为目 标的句法分析器研究得最为彻底;
• 很多其他形式语法对应的句法分析器都可以通过对 短语结构语法的句法分析器进行简单的改造得到。
• 本讲义将主要介绍上下文无关语法的句法分析器, 因为它具有高效的句法分析算法。
实例:一部可以用来生成若干自然语言句子的上下文 无关文法的重写规则如下: S →NP + VP NP →DET +N NP →N VP →V + NP
DET→the N→boys N→apples V→eat
在该例中,S是起始符;the,boys,apples和eat 是语言的终结符。
在自然语言处理程序中,上下文无关文法的一个重 要特点是每个推导式都可方便的表示成一课树,这种树 可以想象为被推导句子的句法结构。
句法分析
前言:
因为句法分析在计算语言学这门学科中相 对来说是比较成熟的技术,有许多算法都比 较好,应用实现效率也比较高,学好它也将 有助于我们将来学习编译原理的分析策略。
句法分析的概念
句法分析术语:
句法分析: Parsing 句法分析器:Parser
句法分析的概念:
判断输入的单词序列能不能构成合乎语法的 句子,抽取出合乎语法的句子的句法结构。
词典:
小王:N 小李:N 和: C 妹妹:N 结婚:V 了: le 的: de
例1句法分析结果
句法分析的基本策略
一个句法分析可以表述为一个搜索过程,搜 索空间是语法规则,搜索过程是检查各种语 法规则所有可能的组合方式,目的是最终找 到一种组合,其中的语法规则能够生成一棵 用来表示句子结构的句法树。
即:将输入句子中单词之间的线性词序,变 成一个非线性的数据结构,如短语结构树。
采取什么样的算法来实现?
是否所有的语言、语法形式都可以采用 同一种算法来实现?
不同的语法形式,对应的句法分析算法 也不尽相同!
形式语法理论
形式语法理论的目的是试图用精确 的数学模型(形式语言)来刻划自然语 言。
采用什么语法?
上下文无关文法
一种形式文法G=<VN,VT,P,S>,其中, S表示起 始符,S VN,VN表示非终端语符集,VT表示 终端语符集,P表示重写规则(产生式)集,
由有限个规则组成。V=VN∪VT
如果P每个产生式可以描述为A→x 其中A是非终结符,x是空或多个终结符和非终结符的序列 则G是上下文无关文法。
依存语法
所谓依存是指词与词之间支配与被支 配的关系,是一种有方向的不对等关系.
处于支配地位的成分成为支配者 (government,head),处于被支配地位的成分成 为从属者(modifier,dependency)。
在依存结构图中,依存语法的支配者和从属者 被描述为head和dependency,支配和被支配 的关系用带有方向的边来表示。
• 若C中字符列的第一个字符是非终止符β,用语法中能重写 β的每个规则产生新状态,产生的第一个状态为当前状态 (记为C),产生的其它状态加入到候选状态的栈顶,转 (2).
• 否则,回溯,从候选状态中取出栈顶作为当前状态.
自顶向下分析算法示例1
分析句子:“the dog cried”的句法结构 语法:上下文无法文法
自顶向下分析算法
1.初始 当前状态为((s) 1)记为C,候选状态为空
2.当算法未失败且算法未成功,重复:
(1)若C是空字符列且词位置到了句尾,则算法成功, 返回。
(2)若当前状态和候选状态都为空,且词未知未到句 尾,则算法失败,返回。否则,产生新状态:
• 若C中字符列的第一个字符是句子中下一个词的词类,则 从字符列中移去第一个字符,并修改词位置,修改后的状 态为当前状态,记为C,转(2)。
如,使用上述文法,句子:the boys eat apples. 可以用下图所示的推导树表示,同时也表明了该句是合 法的句子。
S
NP
DET
N
V
the
boys eat
VP NP N
apples
面向短语结构语法的句法分析
句法分析例子1
小王和小李的妹妹结婚了
生成规则:
S→NP VP NP →NP C NP NP →N NP →NP de N VP →V le
短语结构语法
一般上下文无关文法所代表的短语结构 语法应用最为广泛。
经典乔理论:一个语法包括:
短语结构(phrase structure) 转换结构(transformational structure) 形态音位(morphophononemics)
• 例:S->NP VP … • XY->YX(掉位转化结构) • Hit->[hit]
• S->NP VP • NP->ART N • NP->ART ADJ N • VP->V • VP->V NP
依存语法
依存语法打破了传统句子中的“主谓关系”, 提高了“谓语”中动词的地位,平等了主语、 宾语、和其他句子补充成分的地位
首先关注句子的动词,再探讨其他成分与动词 的关系。
依存语法没有词组的概念,因而没有非终结 点,依存语法的结构比较简单,层次和结点 数比较少,因此,依存语法适合于中心词分 析法。
句法分析的基本策略
句法分析通常采用的策略有:
•自顶向下分析法; •自底向上分析法; •左角分析法; •其他策略。
自顶向下分析算法
• 句法分析的过程也可以理解为句法树的构 造过程;
• 所谓自顶向下分析法也就是先构造句法树 的根结点,再逐步向下扩展,直到叶结点;
• 所谓自底向上分析法也就是先构造句法树的叶 结点,再逐步向上合并,直到根结点。
短语结构语法
法和语义信息 表层结构和深层结构:
依存语法
又称从属关系语法,便于计算机对自然语 言进行处理
法国语言学家特斯尼尔认为,句法的研究对象 是句子,句子中的词语不是一盘散沙,而是有 机的整体,句子中的词语之间是有关联的,句 法关联建立起词语和词语之间的依存关系,这 种依存关系由支配词和从属词连接起来。
成熟的短语结构语法 逐渐流行的依存语法
相对而言,主流的是短语结构语法(特别是上下文无 关语法)应用得最为广泛,因此以短语结构树为目 标的句法分析器研究得最为彻底;
• 很多其他形式语法对应的句法分析器都可以通过对 短语结构语法的句法分析器进行简单的改造得到。
• 本讲义将主要介绍上下文无关语法的句法分析器, 因为它具有高效的句法分析算法。
实例:一部可以用来生成若干自然语言句子的上下文 无关文法的重写规则如下: S →NP + VP NP →DET +N NP →N VP →V + NP
DET→the N→boys N→apples V→eat
在该例中,S是起始符;the,boys,apples和eat 是语言的终结符。
在自然语言处理程序中,上下文无关文法的一个重 要特点是每个推导式都可方便的表示成一课树,这种树 可以想象为被推导句子的句法结构。
句法分析
前言:
因为句法分析在计算语言学这门学科中相 对来说是比较成熟的技术,有许多算法都比 较好,应用实现效率也比较高,学好它也将 有助于我们将来学习编译原理的分析策略。
句法分析的概念
句法分析术语:
句法分析: Parsing 句法分析器:Parser
句法分析的概念:
判断输入的单词序列能不能构成合乎语法的 句子,抽取出合乎语法的句子的句法结构。
词典:
小王:N 小李:N 和: C 妹妹:N 结婚:V 了: le 的: de
例1句法分析结果
句法分析的基本策略
一个句法分析可以表述为一个搜索过程,搜 索空间是语法规则,搜索过程是检查各种语 法规则所有可能的组合方式,目的是最终找 到一种组合,其中的语法规则能够生成一棵 用来表示句子结构的句法树。
即:将输入句子中单词之间的线性词序,变 成一个非线性的数据结构,如短语结构树。
采取什么样的算法来实现?
是否所有的语言、语法形式都可以采用 同一种算法来实现?
不同的语法形式,对应的句法分析算法 也不尽相同!
形式语法理论
形式语法理论的目的是试图用精确 的数学模型(形式语言)来刻划自然语 言。
采用什么语法?
上下文无关文法
一种形式文法G=<VN,VT,P,S>,其中, S表示起 始符,S VN,VN表示非终端语符集,VT表示 终端语符集,P表示重写规则(产生式)集,
由有限个规则组成。V=VN∪VT
如果P每个产生式可以描述为A→x 其中A是非终结符,x是空或多个终结符和非终结符的序列 则G是上下文无关文法。
依存语法
所谓依存是指词与词之间支配与被支 配的关系,是一种有方向的不对等关系.
处于支配地位的成分成为支配者 (government,head),处于被支配地位的成分成 为从属者(modifier,dependency)。
在依存结构图中,依存语法的支配者和从属者 被描述为head和dependency,支配和被支配 的关系用带有方向的边来表示。
• 若C中字符列的第一个字符是非终止符β,用语法中能重写 β的每个规则产生新状态,产生的第一个状态为当前状态 (记为C),产生的其它状态加入到候选状态的栈顶,转 (2).
• 否则,回溯,从候选状态中取出栈顶作为当前状态.
自顶向下分析算法示例1
分析句子:“the dog cried”的句法结构 语法:上下文无法文法