基于规则的蒙古语依存句法分析模型ppt

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

规则约束条件: subj-R01:<Wi CAT>=<N> <Wi SUBCAT>=<xN||Nx> <Wi MORPH>=<Fc0> <Wj CAT>=<V> <Wj SUBCAT>=<Ve> RelCount(Wj,SUBJ)= 0 Parent(Wj)= NULL;
3.蒙古语依存关系识别规则
• 规则调用举例:
• 下面是对蒙古文句子“[]CIMED NEBTERETEL_E N0R0GSAN-IYAN MARTAJAI .” (其木德忘了自己已被淋透。)分析过程中某一时 刻的分析结果,如图所示。
1 4 1 SUBJ 3 4
DOBJ
3
DOBJ
ADV
2
ADV
2
(a) 使用规则subj-R01之前
3.蒙古语依存关系识别规则
•3.3 蒙古语依存关系识别规则 •3.3.1 片段之间依存关系识别规则
•我们根据两棵子树相关节点的词类特征、细分类特征、标点符号以 及形态特征编制了并列关系识别算法。算法描述如下: (1)如果位于左侧的子树核心词带有并列连接词,则在两棵子树核 心词之间直接建立并列关系; (2)如果不满足(1),则比较两棵子树的相似性。通过比较两棵子 树的核心词和最右侧孩子节点的相似性来确定两棵依存树相似度的大 小。如果相似度大于预先设置的阀值,则在两棵子树核心词之间建立 并列关系。 (3)如果不满足(2),则调用体述、定体、状述、宾述以及辅助等 关系的识别规则。
100 80
准确率
60 40 20 0 1—5 句子长度 5—10 10—15 15—20 20—25 25—30 30—35 35—40 40—45 45—50 图2 句子长度与句法分析准确率之间的关系 >50
3 蒙古语依存关系识别规则
•3.2句法片段识别
在蒙古语句法片段的切分中,逗号、动词、连接词和语气词是主要标 志信息,我们对训练语料进行统计分析后总结了下面的5条切分规则。 (1)如果句中遇到逗号,从逗号后面切分为两个片段; (2)如果句中出现连接形式(包括联系动词),从连接形式前面切 分为两个片段; (3)如果遇到“动词+静词”时,则继续判断静词是否为辅助成分, 如果是,则从辅助成分后面(包括连续的几个辅助成分)切分为两个 片段,如果不是,则从动词后面切分为两个片段; (4)遇到“动词+动词”时,如果后面的动词为助动词,或前面的动 词为单纯连接副动词时不能切分,否则从两个动词中间切分为两个片 段; (5)语气词后面如果有实义词,则从实义词前面切分为两个片段。
5.实验分析
• 我们在由MDTB的前1332个句子(初中蒙古语文第一册)和后3653 个句子(高中蒙古语文第6册)构成的测试集上,对依存分析器 做了句子切分、片段划分和依存关系标注的测试。从实验结果看, 句子切分准确率达到了98.6%,错误主要出现在无标志插入句上。 句法片段切分对分析器整体性能的提高约为2.56%。依存关系标 注中,无标记准确率、有标记准确率分别达到了75.21%、69.39%。
谢谢!
3.蒙古语依存关系识别规则
3.1 句子切分规则
(1) 以句号、问号和感叹号为标志来切分句子。 (2) 从已切分的句子中分离出插入句。 (3) 复原错误的切分结果。
3.蒙古语依存关系识别规则
• 3.2 句法片段识别
• 对蒙古语而言,句子长度对句法分析的准确率同样有着很大的影 响,通过下面的分析图我们可以看出这一点。
3.蒙古语依存关系识别规则
• 3.2句法片段识别
• 规则代码中的序号表示优先次序,对句子进行片段切分时先用标 号低的规则,然后在局部切分的结果中再次使用标号较高的规则。 按规则切分的结果可能是分句、成分句、短语或单词,因为这种 切分方法不是为了识别句子层次结构而引入的,只是在分析过程 中采用的一种降低难度的处理手段。 • 句法片段的识别规则对并列复合句的处理是合理的,而处理中间 位置的成分句时可能把主句的一些成分划入成分句。对于此问题, 我们采用了针对性的后处理策略,在形成完整的句法树之后,检 查每个句法片段中的主语、前置状语等成分,如果这些成分的结 构特征满足后调整算法中的某条规则,则进行剪枝处理。
4.索算法
在该模型中,分析是从位于最右边的两个节点开始的,经过 多步分析后一个句子变成如下形式:
P1 P2

Pm-2
Pm-1
Pm
Ci
Ck
Cj
Cl
下一步的分析将在Pm-1、Ci、„ 、Cj和Pm、Ck、„ 、Cl之间进行,如 同图中的箭头所示。可能产生依存关系的节点组合有:Pm-1→Cl;Pm1→Ck;Pm-1→Pm;Pm→Ci;Pm→Cj;Pm→Pm-1;那么到底哪两个节点之间 产生依存关系,取决于两个节点之间的结合能力。规则优先级别最高 的一组建立依存关系,本次分析结束。经过上面的分析,Pm-1和Pm被 合并为一棵树,合并后的树再与Pm-2合并。以此类推分析完所有子树 为止。
2.规则描述体系(1/2)
• 本文参考英语、德语、汉语等语言的基于规则的句法分析算法, 针对蒙古语富含形态变化的特点,提出了基于复杂特征和合一运 算的蒙古语依存句法分析规则描述体系(如图所示)。
Parenti
Parent1 CAT W SUBCAT MORPH 静态特征
Prev
Next
Child1
6.总结
• 形态特征是基于规则的蒙古语依存分析中最具消岐能力 的静态信息,本文充分利用格和动词形态特征的基础上, 通过词类再分类方法实现了自动句法分析。我们在识别 规则和算法中尽量使用了依存距离、从属节点的数量、 从属节点的性质以及祖先节点和最右侧孩子节点的相关 特征等动态结构信息。 • 从总体性能看,该依存分析器的准确率达到了预期效果, 但有些特定关系的自动识别还存在不少问题。例如,并 列关系的识别率非常低,这是因为单词、短语、句子成 分和子句多个层面上均有并列关系,并且参与并列关系 的组成部分在形态和词类上没有明显的可区分特点。
3.蒙古语依存关系识别规则
• 3.3 蒙古语依存关系识别规则
• 3.3.1 片段内依存关系识别规则
• 蒙古语依存关系识别规则集由体术关系、定体关系、直接宾述关系、 间接宾述关系、状述关系、辅助关系和联合关系识别规则等七大类两 百余条规则构成。
W j 规则形式: WiWj Wi SUBJ
Childm-1
Childm
图1 MCRNDM模型示意图
MRBC
静态和动态特征共同构成了节点W的复杂特征集。
2.规则描述体系(2/2)
• 静态特征可以是词类、子类以及形态变化等信息。其中, 词类和子类信息可以通过查词典获得。对于兼类词,本 文为两千多个词归纳了相关的识别规则。形态特征可以 通过一个基于有限状态自动机的识别算法来获得。动态 特征是已完成的局部分析结果中的句法结构特征,包括 父节点、子孙节点、兄弟节点以及线性结构上的邻接节 点的依存关系类型、关系数目以及线性距离、当前节点 所处的句法片段的位置等动态信息,这些信息可以用一 组函数来获得。 • 在规则中,节点的约束条件是根据约束需要而加的,不 是每条规则均有上下文有关的约束限制。
基于规则的 蒙古语依存句法分析模型
斯·劳格劳 内蒙古大学蒙古学学院 2013.05.11
1.引言
• 内蒙古大学蒙古语文研究所用8年(1984——1991)的时间构建了 100万词级现代蒙古语语料库,并通过两次扩充达到了1000万词的 规模。在语料库加工方面,已经完成了100万词级语料库的词性标 注和复合词处理,也进行了短语标注、句子切分和谓语段自动识 别等浅层句法分析。目前,正在进行完全句法分析和语义角色标 注方面的研究,并且通过自动分析和人工校对构建了50万词级的 蒙古语依存树库MDTB( Mongolian Dependency Tree Bank) ,本 文所介绍的基于规则的依存句法分析器正是建设MDTB时采用的句 法分析方法。
(b) 使用规则subj-R01之后
图3 使用规则subj-R01的例子
3.蒙古语依存关系识别规则
• 规则调用举例:
• 下一步的分析将在①和②、 ①和③、 ①和④三个词对之间进行。 经过分析三个词对的静态特征和动态特征,①和④满足subj-R01 的约束条件。其中,①的静态特征为:名词、人名、主格形式; ④的静态特征为:普通动词。动态特征源自文库④没有主语,并且没有 父节点。
3.蒙古语依存关系识别规则
• 3.3 蒙古语依存关系识别规则
• 3.3.2 片段之间依存关系识别规则
• 通过上面的片段切分和段内依存关系的识别,为每个句子构造了若干 个子树。子树之间可能存在体述、定体、宾述、状述或并列等依存关 系。一般情况下句法片段都是通过核心词产生依存关系。只是核心词 为形动词时,该片段可能修饰后一个片段的第一个词(在线性距离上 离前面的片段最近的词语)或者第一个词的祖先节点,因此这种情况 需要特殊处理。 • 片段内体述、定体、宾述、状述等依存关系的识别规则同样适用于片 段之间的依存关系。下面重点介绍并列关系的识别。从MDTB的统计数 据看,并列关系的依存距离达到了6.06个词,这个值在所有依存关系 中位居第一。从自动分析结果看,并列关系的识别率是最低的,在基 于规则的分析器中达到了40.09%。在目前情况下用规则解决并列关系 还是比较好的选择。
相关文档
最新文档