第6章 句法模式识别
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
链表示法:只能从左边或右边与其它符号相连,一维连接方式。 18
6.3.3 模式的树表示法 高维表示法。 1.树的定义 树T是一个或一个以上结点的有限集合,并且满足: 1)存在一个唯一的指定为根的结点; 2)其余结点分为m个不相交的集合T1,T2,…,Tm,其中 每一个集合本身都是一个树,称为T的子树。 树的有序性: 同一层上各子树交换位置构成的树不同。
秩:
一个结点具有子树的个数,结点a的秩记为 r(a) 。
叶结点的秩为零。
19
$ a c c a b b c a b a
a c
c b $ a
b
b
c
长方体 例:r ( a )
{ 2 , 1, 0 }
基元
树结构描述
—— 结点a的秩可能是2,l或0。
结点a可能有 2,1或0个分枝
20
2.树文法 树文法定义为四元式
5
6.2 形式语言的基本概念
6.2.1 基本定义 1.字母表
与问题有关的符号的有限集合,用V或∑表示。 例: V 1
{ A, B , C , , Z }
V 3 { 0 , 1, 2 }
2.句子 由字母表中符号组成的有限长度的符号串,又称链。空句 用λ表示。 组成:英文小写字母、数字。 句子的长度:句子包含符号的数目,用|•|表示。 例:由V
n
:非终止符;
N:结点 x 的秩。
一个树文法有一个对应的扩展树文法。
23
例6.6 构成例6.5中树文法对应的扩展树文法。
解:设构成的扩展树文法为 G t
V V N VT
r ($) 2
( V , r , P , S ) ,其中
,V N
{ S , A , B , D , E } , V T {$, a , b , c , d }
生成式为
P:① S $ , a d A ②A b, c d A ③A b c d
$ a d c d b b
试判断图6.7所示的树是否属于L(Gt)的一个句子。 解:生成式① ② ③中右边的树分别用T1, T2 ,T3表示。有
S A A
c d
图6.7 模式 的树状表示
S T1 T 2 T 3 T
训练类别文法
文法推断:用已知类别的模式样本集训练类别文法的过程。 目的:构造出能正确描述某类模式的文法,其中主要是求 生成式集合P。 基本步骤: * 选择文法形式(链文法、树文法、图文法)。
,⑥ cD
cc
符合条件,文法 G 是上下文有关文法。
S aSBD aabDBD
①
②
aabBDD
③
④
aabbDD
⑤
aabbcD
⑥
aabbcc
属于 L (G ) 。
12
3.2型文法:上下文无关文法 。
P: A 其中 A V N ,
例 6.3
V
由 “头(箭头端)” 和 “尾” 构成。
a
b
c
d
e
f
17
关系基元:表示基元之间连接关系的算子。
a+b
a﹣b
a×b
c*d
~ a
(
)
头尾 相接
头头 相接
尾尾 相接
头头 且 尾尾相接
头尾 颠倒
组合关系 (配合使用)
例:用PDL法表示大写英文字母A。
(a+b)
((a+b)*c)
(((a+b)*c)+b)
(a+(((a+b)*c)+b))
1
第6章 句法模式识别
6.1 句法模式识别概述 6.2 形式语言的基本概念 6.3 模式的描述方法 6.4 文法推断
6.5 句法分析
6.6 句法结构的自动机识别
2
6.1 句法模式识别概述
模式用句子形式描述,结构信息十分重要。
模式 子模式 基元 组合关系 句子 词组 单词 自然语言的文法
句法模式识别用小而简单的基元与语法规则描述和识别 大而复杂的模式,通过对基元的识别,进而识别子模式,最终 识别复杂模式。 符合某个文法的所有句子的集合 一个模式类
树T由S中的起始树Ti开始, 用文法Gt的生成式逐步导出
21
例 6.5
设有树文法 G t ,V N , r (a )
( V , r , P , S ) ,其中 { S , A } , V T {$, a , b , c , d }
V V N VT
r ($) 2
1 , r ( b ) { 2 , 1} , r ( c ) {1, 0 } , r ( d ) 0
{ ab , aabbcc , }
4.文法 构成一种语言的句子所必须遵守的规则。
G (V N , VT , P , S )
VN :非终止符的有限集,子模式的集合,大写字母表示。 VT :终止符有限集,基元的集合,字母表起始部分的小写 字母表示 。 7
终止符组成的字符串: 用英文字母表尾部的小写字母x,y,v,w等表示。
B VN
, a, b VT 。
(V N , VT , P , S )
例 6.4
设有正则文法 G
,其中 V N
{S , B} ,
V T { 0 , 1} ,P
由下列生成式组成: ,② B
0B
①S 判断句子 x
0B
,③ B
1B
,④ B
0
00010
是否是属于语言 L (G ) 的一个句子?
其中,
V
,
V
*
。
1
2.1型文法:上下文有关文法 。
P: 1 A 2
V
2
式中, 1 和 2 称为 A 的上、下文, 1 , 2
含意:
V
*
;
, A V N* (指 VN 的元及其组成的串)。
只有处于 1 和 2 之间的非终止符或非终止符串才能被
句法模式识别系统的组成:
图象 预处理 识别 学习 训练样本 分割 或分解 模式 描述 句法 分析
输入图象 (模式)
分类结果 和描述
基元和 关系选择
文法 推断
句法模式识别存在的主要问题:
* 基元选择尚无通用的方法; * 文法推断理论远不及统计学习发展得成熟。 句法模式识别的理论基础:形式语言
20世纪50年代中期乔姆斯基(Chomsky)。
8
一种语言有一种文法,由文法G构成的语言用L(G)表示:
L (G ) { x | x VT , 且 S x}
* G
文法G构成的句子 由终止符组成
VT中字符组成的 所有句子的集合
文法G的 推导关系
“ ” :零次或多次地应用推导关系
G G
“S
x
G
” :句子 x 从起始符 S 开始利用文法 G 的生成式, 经逐步推导得到。
5 7 6 16 弗利曼链码基元
用0~7八个数字符号表示。
编码: 矩形网格覆盖; 折线化和量化; 形成链码(有序结构)。 例:“2”的链码表示为
数字“2”的折线化和量化结果
x 1075456000
2.图形描述语言法 简称PDL(Picture Description Language,PDL)。 基本基元:有向线段(直线段、弧线段) 。
解:每个生成式的左边都是单变量,右边是非空字符串,
故G是上下文无关文法。
13
属于L(G)的句子: ① ⑦ ② 结果不唯一。
S aB abS abbA abbbAA
⑤
③
abbbaA
③
abbbaa
4.3型文法:正则文法、有限态文法。 P: A aB 或 A b
其中, A ,
S 0 B 00 B 000 B 0001 B 00010
①
②
②
③
④
是
14
后一种文法的限制比前一种文法的限制严格; 限制愈多的文法愈容易推断; 句法模式识别中多采用上下文无关文法和正则文法。
6.3 模式的描述方法
根据结构特征对模式进行描述。
—— 结构描述法,又称句法表示法。
模式的表示:链表示法、树表示法、图表示法。 对应的文法:链文法(串文法)、树文法、图文法。 还有网文法、阵列文法等。 6.3.1 基元的确定 目前关于基元的确定没有一个通用的解决办法。 基元的选择遵循两个基本原则。
3
句子
B
名词短语 动词短语
墙壁 f c d e E
a b D 地板 g
景物 A
冠词 The
名词 girl
动词 studies (a)
子 模 式
副词 hard
(b)
物体 B
背景 C
三棱柱 D
长方体 E
地 板 g 面 e
墙 壁 f
基 元
基 元
面 a
三 角 形 b
面 c
面 d
(c)
图6.1 景物结构描述 4 与英文句子句法描述的对比
终止符和非终止符组成的混合字符串: 用希腊字母α,β,γ等表示。
性质:
V N V T V(字母表) V N V T (空集)
P:生成式的有限集。用文法产生句子时的重写规则。
P :
字符串
替换
字符串
S:起始符,代表模式本身,特殊的非终止符。 用生成式构成句子时,必须由左边是S的生成式开始。
BD cc
④ bB
,⑤ bD
问 G 是否为上下文有关文法? x
aabbcc
是否属于 L (G ) ?
解:将 P 改写如下: ① S
aSBD bb
,② S
abD bc
,③ DB
BD
④ bB
,⑤ bD
9
例 6.1
给定文法 G
( V N , V T , P , S ) ,其中 V N { A , B , S } ,
V T { a , b , c } ,P
的各生成式为
aAc
①S 判断 x
aabcc
,② A
bB
aAc
,③ A
b
B
④B
,⑤ B
是否属于语言 L (G ) ?
, r (a )
1 , r ( b ) { 2 , 1} , r ( c ) 1 , r ( d ) 0
P 的各生成式为
①S $ , ②A b , B A D A ③A b D ⑥E d
④B a , ⑤D c , E E
24
6.4 文法推断
6.4.1 基本概念 统计模式识别 训练判别函数 句法模式识别
。
,V N
{S , A, B} ,
设有文法 G
(V N , VT , P , S )
V T { a , b } ,P
的各生成式为
aB
①S ③A ⑥B
a
,② S
aS
bA
,④ A ,⑦ B
,⑤ A ,⑧ B
bAA
b
bS
aBB
G 是否属于上下文无关文法?用 G 产生一个属于 L (G ) 的句子。
15
1.基元应是模式的基本单元,能够通过一定的结构关系对数 据进行紧凑、方便地描述。
2.基元应该容易用现有的非句法方法进行提取或识别。
例如:语音识别中 —— 音素;
识别手写文字 —— 笔划。 6.3.2 模式的链表示法
1.链码法 用不同斜率的直线段或曲线段为基元表示图形模式。 2 链码: 3 1 用字符表示基元后,被描述的 图形表示成的字符串。 4 0 弗利曼链码: 以八个基本方向的有向线段为基元,
替换,并且代换后的符号数目要大于等于代换前的数目。 11
例 6.2
设有文法 G
(V N , VT , P , S )
,其中 V N ,③ DB ,⑥ cD
{S , B , D} ,
V T { a , b , c } ,P
的各生成式为 ,② S
abD bc
①S
aSBD bb
以字母表中字母 为根结点的树的秩
G t (V , r, P, S )
起始树的有限集
S TV
字母表
生成式的有限集
由树文法Gt产生的语言L(Gt)是一些树的集合即模式集:
L (G t ) { T | T TT , T i T , T i S }
* Gt
所有结点都是终止符 的树的集合
Gt Gt Gt
T L (G t )
式中, T i
Gt
A
Tj
22 表示 A 是 T i 的一个结点,结点 A 用树 T j 替换。
3.扩展树文法
G t ( V , r , P , S )
其中,P中生成式 形式:
X x
X1 X2 „ Xn
x:终止符;
X 1, X 2 , , X
{ a , b , c}
中元素可组成句子:
| a b c | 9
3 3 3
重写次数
6
abc,aacc,…
3.语言 由字母表中的符号根据某种文法组成的句子的集合。 V *:V中符号组成的所有句子的集合,包括空句;
V +:不包含空句的句子集合。
V
V
*
{ } V
例:
源自文库
V
*
{ , ab , aabbcc , }
解: 说明:
S aAc aaAcc aaBcc aabcc
①
②
③
⑤
是
利用文法构成句子时,除第一个生成式必须利用左边 为起始符 S 的生成式外,其余生成式使用的先后次序及重 复使用的次数都不受限制。
10
6.2.2 文法分类 四种类型:0型文法、1型文法、2型文法和3型文法。 1.0型文法:无约束文法。 P: