基于PCFG的藏文疑问句句法分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷 第2期2019年2月
中文信息学报
JOURNAL OF CHINESE INFORMATION
PROCESSINGV
ol.33,No.2Feb.,2019
文章编号:1003-0077(2019)02-0067-
08基于PCFG的藏文疑问句句法分析
班玛宝1,2,3,才智杰1,2,3,拉玛扎西1,
2,3
(1.青海师范大学计算机学院,
青海西宁810016;2.藏文信息处理教育部重点实验室青海西宁810008;3.青海省藏文信息处理与机器翻译重点实验室青海西宁810008
)摘 要:藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。
该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。
经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。
关键词:藏文疑问句;疑问代词;句法分析;PCFG;CYK中图分类号:T
P391 文献标识码:ATibetan Interrogative Sentences Parsing
Based on PCFGBAN Mabao1,2,
3,CAI Zhij
ie1,2,
3,LAMA Zhaxi 1,2,
3(1.College of Computer,Qinghai Normal University,Xining,Qinghai 810016,China;2.Key Laboratory
of TibetanInformation Processing,Ministry
of Education,Xining,Qinghai 810008,China;3.Tibetan Information Processingand Machine Translation Key Laboratory
of Qinghai Province,Xining,Qinghai 810008,China)Abstract:The syntax analysis of Tibetan interrogative sentences has broad application prospects such as in Tibetanquestion answering system,search engine,information extraction and retrieval.By analyzing the features of Tibetaninterrogative sentences,this paper classified the Tibetan interrogative sentences and summarized the structural fea-tures of various Tibetan interrogative sentences.The PCFG method is utilized to parse the Tibetan interrog
ative sen-tences.The experiment reveals 96.0%,95.4%and 95.7%in accuracy,recall and F value,respectively.Key
words:Tibetan interrogative sentence;interrogative pronoun;syntactic analysis;PCFG;CYK收稿日期:2018-09-29 定稿日期:2018-10-
29基金项目:国家自然科学基金(61866032,61163018,61262051);国家社会科学基金(13BYY141,16BYY167,15BYY167);教育部“春晖计划”合作科研项目(Z2012093,Z2016077);青海省基础研究项目(2017-ZJ-767,2019-SF-129,2015-SF-520);“长江学者和创新团队发展计划”创新团队资助项目(IRT1068);青海省重点实验室项目(2013-Z-Y17、2014-Z-Y32、2015-Z-Y03);藏文信息处理与机器翻译重点实验室(2013-Y-
17);青海师范大学2018—2019年度创新训练项目0 引言
随着信息技术的不断进步,藏语自然语言处理已经发展到了“句”的层面。
但是由于多种原因,藏文句法分析的研究还未取得重大突破。
若要深层次地理解藏文,就必须对藏文句子进行句
法分析[1]。
迄今为止,有关藏文句法分析方面的
文章都是针对所有藏文句型展开。
然而不同类型的藏文句子在结构特征方面存在明显差异,从而导致藏文句法分析效果不够理想。
针对不同类型
的句子,研究其句法,可以提高藏文句法分析的整
体性能。
疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息的抽取和检索等问题中的主要句型。
本文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,并归纳了结构特征,进而利用P
CFG研究了藏文疑问句的句法分析。
经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。
中文信息学报2019年
1 句法分析的研究现状
自20世纪50年代开始,句法分析作为自然语言处理领域的核心任务之一,一直是研究人员关注的热点问题[2]。
目前用于句法分析的主要方法有规则法、统计法和规则与统计相结合的方法,统计法中又有基于最大熵的依存句法分析和基于深度学习的句法分析等方法。
文献[3]采用规则的方法,作者从分析汉语的句法特点出发,规定了汉语句法规则,进而研究了汉语句法分析方法。
文献[4]采用了统计方法研究了汉文句法,在正确分词的前提下,句法分析的准确率和召回率分别为86.9%和85.7%[4]。
文献[5-6]采用了规则与统计相结合的方法,其中文献[5]分析了PCFG独立假设的局限性,从而在句法结构共现概率中引入了上下文信息,利用Inside-Outside算法进行迭代,最后提出了一个基于统计模型的自顶向下的汉语句法分析器,在封闭测试下,其标记准确率和标记召回率分别为88.1%和86.8%;文献[6]从单个句法分析标记错误和句法分析层次结构标注错误两个角度进行了探究,利用规则和统计的理论,发现自动修正不一致,其一致性检验的准确率为87.6%,召回率为94.8%。
文献[7]采用最大熵的依存句法分析方法,比较了自顶向下(Up2Down)算法、自底向上(Down2Up)算法和最大生成树(MST)算法的效果,得出最大熵模型的依存句法分析算法中MST算法效果最好的结论。
文献[2]采用深度学习的方法,介绍了前馈神经网络的依存句法分析模型和长短时记忆神经网络的依存句法分析模型,并对基于这两种模型的句法分析效果进行了比较;实验表明,基于前馈神经网络的依存句法分析模型在宾州树库开发集上无标记依存正确率(UAS)和带标记依存正确率分别为91.4%和89.8%,测试集上无标记依存正确率(UAS)和带标记依存正确率分别为90.2%和88.5%;基于长短时记忆神经网络的依存句法分析模型在宾州树库开发集上的无标记依存正确率(UAS)和带标记依存正确率分别为91.9%和90.5%,测试集上的无标记依存正确率(UAS)和带标记依存正确率分别为90.7%和89.0%。
用于藏文句法分析的主要方法有基于规则和基于判别式的依存句法分析方法。
文献[1,8]采用规则的方法对藏文句法分析的算法进行了研究,并设计和实现了句法分析器,但未考察句法分析效果。
文献[9]提出基于判别式的藏语依存句法分析方法,
采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树,句法分析正确率达到81.2%。
文献[10]采用判别式的依存句法分析方法,提出了一种基于判别式的藏文复合句切分标注方法,句法分析的准确率达到了88.7%。
文献[11]通过分析藏语判断句的特征,构造了其句法树生成规则,并通过PCFG解决句法歧义问题,最后通过CYK算法进行解码,自动生成判断句句法结构树。
2 藏文疑问句的特征
随着信息技术的发展,传统藏文文法对句子的分类已不能满足藏文信息处理的需求。
现代藏文文法借鉴英语和汉语等比较成熟的语法理论,把藏文句子分成了两类,即单句()和复句()[12-13]。
单句按语义()被分为6类,分别是有主句()、无主句()、存在句()、特性句()、自述句()和神态句();按语气()被分为四类,分别是陈述句()、疑问句()、祈使句()和感叹句()。
2.1 藏文疑问句及分类
藏文疑问句是对句子按语气分类得到的一种句型,对所述事物的种类和性质等未知而对别人提问的句型
(
)。
藏文句子中的疑问句与陈述句、祈使句和感叹句的主要区别在于语气、感情色彩及疑问代词等方面,其中疑问代词是疑问句最为明显的特征。
疑问句根据语法规则和构成特征,可以分为一般疑问句、强调疑问句和特指疑问句等7类。
(1)一般疑问句()
一般疑问句的疑问代词有“”,这些疑问代词通常出现在句末,此类疑问句可以互换主语和宾语的位置[14]。
例如,“”。
(2)强调疑问句()
强调疑问句就是把答案隐藏在问句中,用
86
2期班玛宝等:基于PCFG的藏文疑问句句法分析
否定副词“”或“”对肯定的内容用否定的形式表达。
例如,
“
”。
(3
)特指疑问句()
特指疑问句的疑问代词有“
”
,疑问代词会出现在句首或句末的动词、形容词、助词等谓语成份之前,有时也会出现在句中,通过疑问代词对未知的部分进行提问,要求对方针对未
知的部分作出回答[
14]。
例如,
“”。
(4
)选择疑问句()
选择疑问句通过提出两种或两种以上的选项,让回答者从中进行选择。
例如,
“”。
(5
)是非疑问句()
是非疑问句是指提问者有疑惑而发问并希望从回答中获取未知信息的句子。
例如,
“”。
(6
)疑问句(
)
疑问句是一种出现在口语中的提问方式,
希望对方给予肯定或否定的答复,与一般疑问句的提问格式相似,也可以互换主语和宾语的位置。
疑问句和一般疑问句的主要区别在于运用的
疑问代词不同,并且疑问代词出现的位置也不同。
疑问句的疑问代词“”一般会出现在句末的动词、形容词、助词等谓语成份之前。
例如,“
”。
(7
)自问自答式疑问句()
自问自答式疑问句的答案不仅出现在问句中,而且还会以提问者自答的形式出现,疑问代词有“
”、“”、
“”,其句型结构为:
“……+疑问代词
++
……”。
例如,
“
”。
2.2 藏文疑问句的结构特征
在藏文书面语中,每个疑问句至少会有一个疑问代词,而且不同的疑问代词通过与其上下文相结合可以构成不同类型的疑问句。
藏文疑问句的结构特征如表1所示。
表1 藏文疑问句的结构特征
疑问句类型
疑问代词结构特征及说明例句
一般疑问句
S->NP|RP|FP|TP|VP|AP|UP+(a ry)说明:S=A+B,其中,A∈{NP|RP|FP|
TP|VP|AP|UP},B=(a ry)
,a∈{vt|ad|uc|……}
(S(NP(/nn))(VP(NP(/nr)(/g
z))(VP(NP(/nn)(/rz))(VP(/vi)(/ry))))()))强调疑问句
S->NP|RP|FP|TP|VP|AP|
UP+((a)+RP)
)说明:S=A+B,其中,A{NP|RP|FP|TP|
VP|AP|
UP},B=((a)+RP),a∈{vt|ad|up|……}(S(NP(/nr)(/g
z))(RP(NP(/nn))(RP(AP(/df)(/ad))(RP(/ry))))()))特指疑问句
S->RP+NP|FP|VP|AP|UP,S->NP|RP|FP|TP|AP|UP+(RP+FP|VP|AP|
UP),S->NP|RP|FP|TP|VP|AP|UP(ry
a)说明:S=A+B,其中,A∈{RP,NP|RP|FP|TP|AP|UP,NP|RP|FP|TP|VP|AP|
UP},B∈{NP|FP|VP|AP|UP,RP+FP|
VP|AP|UP,ry a},a∈{vt|ad|up|……}(S(RP(/ry))(/g
l))(UP(UP(/vt)(/ux))(UP(/up)))())),(S(RP(/rr))(UP(RP(/ry)(/gl))(UP(/uc)))())),(S(NP(/nn)(/rz))(UP(ry)(/up
))()))选择疑问句
S->(NP|RP|FP|TP|VP|AP|U
P+(ary
))+FP|VP|AP|UP说明:S=A+B,A∈{NP|RP|FP|TP|VP|
AP|UP+(a ry)
},B∈{FP|VP|AP|UP},a∈{vt|ad|up
|……}(S(VP((RP(/rr)(/g
x))(VP(NP(/nn))(VP(/vt)(/ry)
)))(VP(/nn)(/vt
))()))9
6
续表
中文信息学报2019年
疑问句类型疑问代词结构特征及说明例句
是非疑问句
S->(NP|RP|FP|TP|VP|AP|UP+(a
ry))+(a)
说明:S=A+B,A∈{(NP|RP|FP|TP|VP|
AP|UP+(a ry)},B=(a),a∈{vt|ad|up
|……}
(S(AP(NP(/nr)(/gz))(AP(NP
(/
nn))(AP(/ad)(/ry))))(AP(/df)(/ad))
()))
疑问句
S->NP|RP|FP|TP|VP|AP|UP+(ry a)
说明:S=A+B,A∈{NP|RP|FP|TP|VP|
AP|UP},B=(ry a),a∈{vt|ad|up|……}
(S(NP(/nn)(/gz))(UP(NP(/nn))
(UP(/ry)(/uc)))()))
自问自答式
疑问句
S->(NP|RP|FP|TP|VP|AP|UP+
)+FP|VP|AP|UP
说明:S=A+B,A∈{(NP|RP|FP|TP|VP|
AP|UP+)},B∈{FP|VP|AP|
UP},RP-〉ry a,a∈{gl|gz|gx|……}
(S(UP(RP(/ry)(/gz))(UP(/)up(/
cn)))(UP(NP(/ns)(/gz))(UP(/up)))
()))
表1中,“S”表示疑问句子,“->”表示“S”是
由其右边部分构成,“|”表示或,“+”表示其左、右两
边相结合,“()”表示括号中的部分先结合,“ry”表示
疑问代词的词性标记,“NP”表示名词短语,“RP”表
示代词短语,“TP”表示时间短语,“VP”表示动词短
语,“AP”表示形容词短语,“UP”表示助词短语,
“FP”表示方位短语。
“”指疑问代词
“”,“”指疑问
代词“”。
3 藏文疑问句句法分析
句法分析指通过某种方式对句子结构进行自动
分析。
上下文无关语法CFG(context-free gram-
mar)是一种较好的句法分析模型,但它不能解决有
歧义句子的语法树解析问题。
从统计上看,一个语
法树解析是否正确,主要与句法规则出现概率有关。
概率上下文无关语法PCFG(probabilistic context-
free grammar)在CFG的基础上增加了句法规则概
率,提升了句法分析的性能,是一种句法分析的好模
型。
CYK(Cocke-Younger-Kasami)是基于动态规
划思想设计的一种自底向上对上下文无关文法
CFG进行句法分析的算法,也是适用于PCFG剖析
的一种标准的动态规划算法,对给定的句子进行自
底向上分析并生成广义的句法结构树。
本文在藏文
疑问句句法分析时,选择了PCFG模型,并以CYK
算法解码。
3.1 模型参数的计算方法
基于PCFG的句法分析模型主要包括语法规
则初始概率值和结构共现概率两个参数,其计算方
法如下。
3.1.1 语法规则的初始概率计算方法
统计训练语料中各规则出现的次数,利用最大
似然估计求出每条规则出现的频率,作为语法规则
的初始概率值,计算如式(1)所示。
P(A→X)=C
(A→X)
∑
γ∈(v∪vN)
C(A→Y)
(1)
其中,C(A→X)表示规则A→X在树库中出现
的次数,其中A表示非终结符(nonterminal sym-
bols)集,X表示终结符(terminal symbols)集,
P(A→X)表示规则A→X的概率估计值。
本文在沿用已有算法的基础上,对训练语料进行
迭代训练,从而得到一个收敛的语法规则。
为了尽量
减少语法规则概率的估计对语料库的依赖,对语法规
则的初始估计概率值进行再次估算,方法如下:
设置一个阈值γ,将语法规则分为高频规则集
HFR和低频规则集LFR,分别如式(2)、式(3)
所示。
HFR={A→X|P(A→X)>γ}(2)
LFR={A→X|P(A→X)≤γ}(3)
设M为LFR集合中规则的个数,N为HFR中
所有规则的概率值总和,即:
N=∑
(A→X)∈HFR
P(A→X)(4)
利用如下公式得开始迭代的初始概率值:
0
7
2期班玛宝等:基于PCFG的藏文疑问句句法分析
P(A→X)=a·P(A→X)N
,若A→X∈HFR
(5)P(A→X)=1-aM
,A→X∈LFR(6
) 这里a的取值范围为0~1,
是再次估计后HF
R集合中所有规则的估计概率值的总和;同样1-a为LFR集合中规则的概率值总和。
3.1.2 结构共现概率计算方法
结构共现概率的计算采用最大似然估计的方
法。
处于句首的句法范畴F向前共现概率P(ε,F)、非句首的句法范畴F向前共现概率P(v,F)
、处于句尾的句法范畴E向后共现概率P(ε,E)和非句尾的句法范畴E向后共现概率P(v,E)
计算分别如式(7)~式(10)所示。
P(ε,
F)=Count(F处于句首)Count(所有处于句首的句法范畴)(7
)p(v,F)=Count(v出现在F前面)Count(v)
(8)P(ε,
E)=Count(E处于句尾)Count
(所有处于句尾的句法范畴)(9)p(v,E)=Count(v出现在E后面)Count
(v)(10)3.2 零概率问题的解决
从实际的语言现象来看,对于一个确定的训练
语料,即使语料规模再大,也会遇到数据稀疏问题。
其原因在于进行句法分析时,测试语料中会遇到训练语料中从未出现过且合法的新语法规则,从而出现零概率问题。
下面通过实例说明零概率问题对PCFG句法分析的影响。
图1是句子S=“
”通
过PCFG模型分析得到的句法分析树。
图1 句法树S
图1中“/rr”、“/gl”、“/nn”、“/gl”、“/ry
”和“/vt”等是终结符,“S”、“RP”和“VP”等是非终结符。
该句子的概率之积为:
P(S)=P(rr-
>)×P(g
l-
>)×P(nn-
>
)×P(gl-
>)×P(ry-
>)
×P(vt-
>)×P(RP->rr gl)×P(NP->nn g
l)×P(VP->ry vt)×P(VP->NP VP)×P(S->RP VP)假设树中的规则“nn-
>
”是训练语料中未
出现的合法的新的语法规则,就意味着P(nn-
>
)的值为零,从而使得P(S)的值也为零,故得出这种结论的句法结构树是错误的,因此降低了句法分析的准确率。
为了解决这个问题,Good在1953年提出了著名的Turing公式来处理零概率的事件,即Good-Turing数据平滑。
本文也利用数据平滑来解决零概率问题,数据平滑技术采用最大似然估计对语法规则的概率估计进行调整,以保证语法规则的概率都不为零。
数据平滑的基本原则是适当减少藏文训练语料库中出现的语法规则概率,而把减少的那部分概率赋予训练语料中未出现的合法的新的语法规则,过程如下:
设N为训练的标识数,nr为语料中出现r次的事件个数,则式(1
1)成立:N=
∑r
r×n
r
(1
1) 按最大似然估计原理,
出现r次的语法规则A→X的概率为:
P(A→X)=rN
(12) 根据式(12)中Turing公式,
调整出现r次的规则A→X的概率为:
PT(A→X)=r′N,r′=(r+1)nr+1nr
(1
3) 使用Good-Turing公式,可以得到训练语料中所有语法规则的概率和为:
∑
A→X:C(A→X)>0
PT(A→X)=1-
n1
N
(14
) C(A→X)>0表示该语法规则在训练语料中出
现的次数大于零,训练语料中从未出现过的语法规则的概率和为:
∑
A→X:C(A→X)=0
PT(A→X)=1-
n1
N
(1
5) C(
A→X)=0表示在训练语料中出现的语法规则次数为零。
3.3 句法排歧
藏文疑问句句法分析中的句法排歧是主要难点,人脑可以通过考虑各种综合因素来避免歧义产生,但计算机难以解决歧义问题。
由于本文对藏文
1
7
中文信息学报2019年
疑问句进行句法分析时,测试语料已分好词,故排歧时不需要考虑分词歧义,文章中句法排歧主要解决的是节点的标记。
本文利用统计的方法来计算歧义句中每个词与上下文之间的概率之积,通过找出概率最大的句法结构树来实现消解歧义的目的。
下面通过一个存在节点标记歧义的藏文疑问句来具体分析基于PCFG模型的消解歧义的方法。
例如,
“”规则集及各规则的概率:
S->NP UP#0.207 nr-
>#0.083UP->NP
UP#0.257gl-
>#0.598NP->nr gl#0.008nn-
>
#0.
005NP->nn#0.455ry
-
>#0.048UP->ry uc#0.051gl-
>#0.110NP->nn gl#0.138uc-
>
#0.
893UP->uc#0.
024可得两个符合语法规则的句法树,如图2和图3所示。
图2 句法结构树
1
图3 句法结构树2
句法结构树1的广义句法结构树为:(S(NP(
/nr)(/g
l))(UP(NP(/nn))(UP(/ry
)(/uc
)))())句法结构树2的广义句法结构树为:(S(NP(
/nr)(/g
l))(UP(NP(/nn)(/g
l))(UP(/uc
)))())分别计算以上两个句法结构树的概率值:句法结构树1中:P(tree1)=P(n
r-
>)×P(g
l-
>)×P(nn-
>)×P(ry-
>)
×P(uc-
>)×P
(NP->nr gl)×P(NP->nn)×P(UP->ry
uc)×P(UP->NP UP)×P(S->NP UP)=1.050550673452758E-10句法结构树2中:
P(tree2)=P(nr-
>)×P(g
l-
>)P(nn-
>
)×P(g
l-
>)×P(uc-
>)×P(NP
->nr gl)×P(NP->nn g
l)×P(UP->uc)×P(UP->NP UP)×P(S->NP UP)=3.436190308772433E-11
利用规则集及各规则的概率计算生成每个句法结构树的概率值,根据概率值确定最优树,从而达到消解歧义的目的。
上例“
”的
P(tree1)=1.050550673452758E-10,P(tree2)=
3.436190308772433E-11,P(tree1)>P(tree2),因此可以确定该疑问句的正确句法结构树为第一个句法结构树。
3.4 句法结构树的生成
通过已知的规则集和概率值,利用概率CYK算法可以自动地分析出给定句子的句法结构,从而生成句法结构树。
如句子“
”生成句法
结构树的过程如下:
(1
)规则集及其概率值:S->NP VP#0.002 nn-
>#0.004VP->NP VP#0.002gx-
>#0.
109NP->nn gx#0.007nn-
>#0.004NP->nn#0.401
vt-
>#0.
040VP->vt ry#0.170ry
-
>#0.097(2)利用概率CYK句法解码算法后生成的句法结构树如图4所示。
图4 句法结构树
2
7
2期班玛宝等:基于PCFG的藏文疑问句句法分析
该句法结构树的广义句法结构树为:(S(NP(/nn)(/gx))(VP(NP(/nn))(VP(/vt)(/ry)))())。
4 实验数据及分析
我们从青海师范大学建立的藏语语料库[14]中选择了500个疑问句,对此人工标注句法标记,得到500个结构树库作为实验语料。
实验过程为:
①用CFG模型生成规则;
②用PCFG模型计算由CFG模型生成的各种规则的概率值;
③用CNF模型计算由PCFG模型输出结果中结构共现概率;
④用概率CYK算法对藏文疑问句进行句法分析并生成广义的句法结构树。
实验包括封闭式测试和开放式测试。
封闭测试时,对训练语料中的500个原句进行了测试;开放式测试时,随机找了100个未在训练语料中出现的疑问句进行了测试。
实验结果如表2所示。
表2 藏文疑问句句法分析实验结果
方法训练语料测试方式测试句子数系统分析正
确句子个数
应该标记
节点个数
系统标记正
确节点个数
准确率
/%
召回率
/%
F1值
/%
文献[9]1万句封闭300———81.2——文献[10]1.1万句封闭300———88.7——
本文500句封闭500 488 12 785 12 439 97.6 97.3 97.4开放100 96 2 462 2 349 96.0 95.4 95.7
表2中的准确率、召回率和F1值是自然语言处理领域常用的评价标准,其计算方法如下:
P(准确率)=系统分析正确句子个数
测试句子个数×100%
(16)
R(召回率)=系统标记正确节点个数
应该标记节点个数×100%
(17)
F1=2×P×R
P+R
(18)
从表2中的实验结果可以看出,基于PCFG的藏文疑问句句法分析在封闭测试集上的准确率、召回率和F1值分别达到了97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达到了96.0%、95.4%和95.7%,句法分析效果比文献[9-10]有明显的提高,表明根据具体句型及其特征,针对性的研究句子的句法,其性能有很大的提高。
由于训练语料较少,影响了实验结果。
主要有以下两种错误:
①短语节点标记错误。
句法分析时,句子中的个别短语与上下文相结合时顺序上出现了错误,从而导致短语节点标记错误。
例如“(NP-RP(NP(/nn)(/gz))(RP(VP(/nn)(/vt))(RP(/y)(/ry)))())”,系统将短语“(VP(/nn)(/vt))”与前面短语“(NP(/nn)(/gz))”相结合,从面生成“(VP-RP(VP(NP(/nn)(/gz))(VP(/nn)(/vt)))(RP(/y)(/ry))())”。
这是因为NP与VP相结合构成VP的概率大于VP与RP相结合构成RP的概率。
②词节点标记错误。
由于词性标注错误而导致短语节点标记错误。
例如,“(NP-UP(NP(/nn)(/qd))(UP(MP(/mj))(UP(/ry)(/uc))))())”中词“”是兼类量词mj和疑问代词ry,本句中应该为量词mj,语料中错把“”标注成了疑问代词ry,从而出现了错误的生成结果“(NP-UP(NP(/nn)(/qd))(UP(RP(/ry))(UP(/ry)(/uc))))())”。
5 结束语
疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息抽取和检索等问题中的主要研究句型。
本文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,并归纳了各类藏文疑问句的结构特征,在此基础上利用PCFG对藏文疑问句进行句法分析。
经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%,句法分析效果比现有藏文句法分析有了明显的提高。
测试中主要出现了短语节点标记错误和词节点标记错误两种类型,究其
3
7
中文信息学报2019年
原因是由于训练语料规模较小而造成。
PCFG模型属于监督式学习方法,对训练语料的质量要求很高。
为了能更好地研究藏文句法,今后一方面需不断扩建藏文疑问句句法标记树库来提高句法分析效果,另一方面应研究并尝试无监督式的基于神经网络模型的藏文句法分析技术,以提高藏文句法分析的性能。
参考文献
[1] 完么才让.基于规则的藏语句法分析研究[D].青海:青海民族大学硕士学位论文,2014.
[2] 周青宇.基于深度学习的自然语言句法分析研究[D].哈尔滨:哈尔滨工业大学硕士学位论文,2016.[3] 王鹏,戴新宇,陈家骏,等.基于规则的汉语句法分析方法研究[J].计算机工程与应用,2003,39(29):63-66.[4] 袁里驰.基于统计的句法分析方法[J].中南大学学报(自然科学版),2014(8):2669-2675.
[5] 林颖,史晓东,郭锋.一种基于概率上下文无关文法的汉语句法分析[J].中文信息学报,2006,20(2):1-7.[6] 魏莉.规则和统计相结合的句法分析———一致性检验[J].山西广播电视大学学报,2014(3):40-42.[7] 辛霄,范士喜,王轩,等.基于最大熵的依存句法分析[J].中文信息学报,2009,23(2):18-22.
[8] 完玛扎西.藏语句法分析系统的研究与实现[D].拉萨:西藏大学硕士学位论文,2013.
[9] 华却才让,赵海兴.基于判别式的藏语依存句法分析[J].计算机工程,2013,39(4):300-304.
[10] 华却才让,赵海兴.藏文复合句的依存句法分析[J].中文信息学报,2016,30(6):224-229.
[11] 扎西吉,才智杰,拉玛扎西.藏语判断句的句法结构树构建方法[J].西北民族大学学报(自然科学版),2017
(4):24-27.
[12] 吉太加.现代藏语文法通论[M].兰州:甘肃民族出版社,2000.
[13] 吉太加.藏语句法研究[M].北京:中国藏学出版社,2013.
[14] 才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49.
[15] 柔特.藏文问答系统中问句的分类方法研究[J].计算机工程与科学,2015,37(7):1393-1398
.
班玛宝(1992-),硕士研究生,主要研究领域为
藏文信息处理、藏语自然语言处理。
E-mail:1402554093@qq.co
m
才智杰(1970-),通信作者,教授,硕士生导师,
博士,主要研究领域为藏文信息处理、藏语自然
语言处理。
E-mail:czjqhsd@163.co
m
拉玛扎西(1994-),硕士研究生,主要研究领域
为藏文信息处理、藏语自然语言处理。
E-mail:lhamatashi@outlook.com
4
7。