第七章 句法分析技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 句法分析技术
关毅 guanyi@hit.edu.cn
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
什么是句法分析
判断输入的词序列能否构成一个合乎语 法的句子,确定合乎语法句子的句法结 构 运用句法规则和其他知识将输入句子中 词之间的线性次序,变成一个非线性的 数据结构(例如短语结构树或有向无环 图)
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
概率上下文无关文法(Probabilistic (Stochastic) Context Free Grammar)
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
上下文无关(context free)的 意义
产生式规则左方只有一个非终结符,对 其的推导只依赖于该非终结符本身,与 该非终结符所处的上下文无关
中心词
一份
文件
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析举例-2
句子 名词短语 动词短语
‘的’字短 语
名词
副词
动词短语
名词
助词
老王
源自文库
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
回顾:Chomsky文法体系
G = (N,,P, S)是一个文法,α→β ∈ P 0型文法
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
PCFG的三个基本假设
CFG的简单概率拓广 基本假设
P( X ) 1
A BC
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
上下文无关文法的Chomsky范 式
上下文无关文法G=(N, ,P,S) ,若生成式形式都是A→BC和A→a,A 、B、C∈N,a∈ ,则G是Chomsky 范式。若ε∈L(G),则S→ε是P的一 个生成式,但S不能在任何其它生成式 的右边。 每个上下文无关文法都具有等效的CNF (Chomsky Normal Form)
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
语言的合法性
一种语言LG是由某上下文无关文法推导 出来的所有终结符串的集合,其中的每 个终结符串,称为合乎文法G,否则, 称之为,不合乎文法
例一:音字转换例
一只小花猫
例二:机器翻译例(Prepositional Phrase Attachment)
Jan hit the girl with long hair Jan hit the girl with a hammer 哪个球队获得了亚洲杯冠军? 日本队击败中国队获得亚洲杯冠军 哈尔滨工业大学计算机学院语言技术中心
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
词类和句法成分不存在一一对 应的关系
主宾语 谓语 定语 状语
名词
动词
形容词
副词
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析系统
树邻接语法(TAG) 基于合一运算的语法(广义短 语结构语法、词汇功能语法、 功能合一语法、基于中心词驱 动的短语结构语法(HPSG)) 基于词的语法(链语法、依存 语法、配价语法)
刚才
动词短语
趋向动词
秘书处
的
动词短语
名词短语
来
动词
助词
数量短语
名词
送
了
数词
量词
文件
一
份 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
为什么要进行句法分析
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
句法分析系统
分析控制机制
模式匹配技术 基于短语结构语法分析算法(厄尔利( Earley )分析算法、富田胜( Tomida )分析算法、线图(Chart)分析算法 、确定性分析算法等等) 基于扩充转移网络的分析算法 链分析算法
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
上下文无关文法示例(context free grammar)
S→NP VP NP→NP PP PP→P NP NP→John VP→V NP NP→bone VP→VP PP NP→star P→with NP→fish V→ate NP→telescope
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
推导
S VP
NP
PP
NP
V
NP
P
NP
John
ate
fish
with
bone
根据某上文下无关文法从起始非终结符可能 推导出的所有字串的集合称为由该CFG定义 的语言
对α→β不作任何限制
|α|≤|β| α∈N
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
1型文法
2型文法:上下文无关文法
回顾:Chomsky文法体系
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
汉语句法分析的独特性
根据朱德熙《语法答问》《语法讲义》 汉语没有形态 语序灵活 词类和句法成分不存在一一对应的关 系 汉语句子的构造原则与词组的构造原 则基本上是一致的 汉语语法形式化工作滞后
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析系统
一个句法分析系统通常由两部分组成 形式语法体系 匹配模式 基于模板的方法 短语结构语法 句法规则 特征制约 语义解释 扩充转移网络
推导
一个字串的推导是一系列文法规则 的应用
S→NP VP →John V NP →John V NP PP →John ate fish P NP →John ate fish with bone
这一推导的过程可以用分析树来表 示
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
定义
定义:一个随机上下文无关语法(PCFG) 由以下5部分组成:
(1)一个非终结符号集N (2)一个终结符号集∑ (3)一个开始非终结符S∈N (4)一个产生式集R (5)对于任意产生式r∈R,其概率为P(r) 产生式具有形式X→Y,其中,X∈ N, Y ∈(N∪ ∑)* P( X ) 1
哈工大-雅虎中国联合实验室
例三:信息检索例
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析的难点
句法分析的难点: 语法歧义:一个句子对应着几种 句法分析结果 “咬死了猎人的狗”
“那只狼咬死了猎人的狗” “那只咬死了猎人的狗失踪了”
随机上下文无关语法可以直接统计语言 学中词与词、词与词组以及词组与词组 的规约信息,并且可以由语法规则生成 给定句子的概率。
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
CFG的形式化定义
一个CFG是一个四元组<N,,P, S> N是非终结符的集合 是终结符的集合 P是产生式的集合,其中每个产生式形 如
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析举例-1
句子 主语 谓语
定语
中心词
状语
谓语
秘书处的
老王
刚才
动宾结构
补语
动词
宾语
来
送了
定语
举例
S A a A a A b S A b a S B a b S B b
tree1
tree2
tree3
tree4
(1)S->AA (2)S->B (3)A->a (4)A->b (5)B->aa (6)B->bb
p1=1/2 p2=1/2 p3=2/3 p4=1/3 p5=1/2 p6=1/2
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
3型文法:正则文法
A→aB或A→a: G是右线性文法,L(G)是3 型语言 A→Ba或A→a: G是左线性文法,L(G)是3 型语言
在自然语言处理中研究和应用较多的是 2型文法和3型文法
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
A
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
CFG的形式化定义
A是非终结符 是由终结符与非终结符构成的字串 (N )* S是一个起始非终结符
位置无关(Place invariance) 上下文无关(Context-free) 祖先无关(Ancestor-free)
分析树的概率等于所有施用规则概率之 积
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
关毅 guanyi@hit.edu.cn
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
什么是句法分析
判断输入的词序列能否构成一个合乎语 法的句子,确定合乎语法句子的句法结 构 运用句法规则和其他知识将输入句子中 词之间的线性次序,变成一个非线性的 数据结构(例如短语结构树或有向无环 图)
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
概率上下文无关文法(Probabilistic (Stochastic) Context Free Grammar)
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
上下文无关(context free)的 意义
产生式规则左方只有一个非终结符,对 其的推导只依赖于该非终结符本身,与 该非终结符所处的上下文无关
中心词
一份
文件
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析举例-2
句子 名词短语 动词短语
‘的’字短 语
名词
副词
动词短语
名词
助词
老王
源自文库
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
回顾:Chomsky文法体系
G = (N,,P, S)是一个文法,α→β ∈ P 0型文法
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
PCFG的三个基本假设
CFG的简单概率拓广 基本假设
P( X ) 1
A BC
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
上下文无关文法的Chomsky范 式
上下文无关文法G=(N, ,P,S) ,若生成式形式都是A→BC和A→a,A 、B、C∈N,a∈ ,则G是Chomsky 范式。若ε∈L(G),则S→ε是P的一 个生成式,但S不能在任何其它生成式 的右边。 每个上下文无关文法都具有等效的CNF (Chomsky Normal Form)
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
语言的合法性
一种语言LG是由某上下文无关文法推导 出来的所有终结符串的集合,其中的每 个终结符串,称为合乎文法G,否则, 称之为,不合乎文法
例一:音字转换例
一只小花猫
例二:机器翻译例(Prepositional Phrase Attachment)
Jan hit the girl with long hair Jan hit the girl with a hammer 哪个球队获得了亚洲杯冠军? 日本队击败中国队获得亚洲杯冠军 哈尔滨工业大学计算机学院语言技术中心
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
词类和句法成分不存在一一对 应的关系
主宾语 谓语 定语 状语
名词
动词
形容词
副词
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析系统
树邻接语法(TAG) 基于合一运算的语法(广义短 语结构语法、词汇功能语法、 功能合一语法、基于中心词驱 动的短语结构语法(HPSG)) 基于词的语法(链语法、依存 语法、配价语法)
刚才
动词短语
趋向动词
秘书处
的
动词短语
名词短语
来
动词
助词
数量短语
名词
送
了
数词
量词
文件
一
份 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
为什么要进行句法分析
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
句法分析系统
分析控制机制
模式匹配技术 基于短语结构语法分析算法(厄尔利( Earley )分析算法、富田胜( Tomida )分析算法、线图(Chart)分析算法 、确定性分析算法等等) 基于扩充转移网络的分析算法 链分析算法
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
上下文无关文法示例(context free grammar)
S→NP VP NP→NP PP PP→P NP NP→John VP→V NP NP→bone VP→VP PP NP→star P→with NP→fish V→ate NP→telescope
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
推导
S VP
NP
PP
NP
V
NP
P
NP
John
ate
fish
with
bone
根据某上文下无关文法从起始非终结符可能 推导出的所有字串的集合称为由该CFG定义 的语言
对α→β不作任何限制
|α|≤|β| α∈N
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
1型文法
2型文法:上下文无关文法
回顾:Chomsky文法体系
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
汉语句法分析的独特性
根据朱德熙《语法答问》《语法讲义》 汉语没有形态 语序灵活 词类和句法成分不存在一一对应的关 系 汉语句子的构造原则与词组的构造原 则基本上是一致的 汉语语法形式化工作滞后
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析系统
一个句法分析系统通常由两部分组成 形式语法体系 匹配模式 基于模板的方法 短语结构语法 句法规则 特征制约 语义解释 扩充转移网络
推导
一个字串的推导是一系列文法规则 的应用
S→NP VP →John V NP →John V NP PP →John ate fish P NP →John ate fish with bone
这一推导的过程可以用分析树来表 示
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
定义
定义:一个随机上下文无关语法(PCFG) 由以下5部分组成:
(1)一个非终结符号集N (2)一个终结符号集∑ (3)一个开始非终结符S∈N (4)一个产生式集R (5)对于任意产生式r∈R,其概率为P(r) 产生式具有形式X→Y,其中,X∈ N, Y ∈(N∪ ∑)* P( X ) 1
哈工大-雅虎中国联合实验室
例三:信息检索例
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析的难点
句法分析的难点: 语法歧义:一个句子对应着几种 句法分析结果 “咬死了猎人的狗”
“那只狼咬死了猎人的狗” “那只咬死了猎人的狗失踪了”
随机上下文无关语法可以直接统计语言 学中词与词、词与词组以及词组与词组 的规约信息,并且可以由语法规则生成 给定句子的概率。
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
CFG的形式化定义
一个CFG是一个四元组<N,,P, S> N是非终结符的集合 是终结符的集合 P是产生式的集合,其中每个产生式形 如
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
句法分析举例-1
句子 主语 谓语
定语
中心词
状语
谓语
秘书处的
老王
刚才
动宾结构
补语
动词
宾语
来
送了
定语
举例
S A a A a A b S A b a S B a b S B b
tree1
tree2
tree3
tree4
(1)S->AA (2)S->B (3)A->a (4)A->b (5)B->aa (6)B->bb
p1=1/2 p2=1/2 p3=2/3 p4=1/3 p5=1/2 p6=1/2
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
3型文法:正则文法
A→aB或A→a: G是右线性文法,L(G)是3 型语言 A→Ba或A→a: G是左线性文法,L(G)是3 型语言
在自然语言处理中研究和应用较多的是 2型文法和3型文法
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
A
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved
CFG的形式化定义
A是非终结符 是由终结符与非终结符构成的字串 (N )* S是一个起始非终结符
位置无关(Place invariance) 上下文无关(Context-free) 祖先无关(Ancestor-free)
分析树的概率等于所有施用规则概率之 积
哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室
研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights @ 2007. HIT. All Rights Reserved