基于PCFG的藏文疑问句句法分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第３３卷　第２期２０１９年２月
中文信息学报
ＪＯＵＲＮＡＬ　ＯＦ　ＣＨＩＮＥＳＥ　ＩＮＦＯＲＭＡＴＩＯＮ　
ＰＲＯＣＥＳＳＩＮＧＶ
ｏｌ．３３，Ｎｏ．２Ｆｅｂ．，２０１９
文章编号：１００３－００７７（２０１９）０２－００６７－
０８基于ＰＣＦＧ的藏文疑问句句法分析
班玛宝１，２，３，才智杰１，２，３，拉玛扎西１，
２，３
（１．青海师范大学计算机学院，
青海西宁８１００１６；２．藏文信息处理教育部重点实验室青海西宁８１０００８；３．青海省藏文信息处理与机器翻译重点实验室青海西宁８１０００８
）摘　要：藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。

该文通过分析藏文疑问句的构成特点，对藏文疑问句进行了分类，归纳了各类藏文疑问句的结构特征，进而利用ＰＣＦＧ对藏文疑问句进行了句法分析。

经测试，在封闭测试集上的准确率、召回率和Ｆ１值分别达９７．６％、９７．３％和９７．４％，在开放测试集上的准确率、召回率和Ｆ１值分别达９６．０％、９５．４％和９５．７％。

关键词：藏文疑问句；疑问代词；句法分析；ＰＣＦＧ；ＣＹＫ中图分类号：Ｔ
Ｐ３９１文献标识码：ＡＴｉｂｅｔａｎ　Ｉｎｔｅｒｒｏｇａｔｉｖｅ　Ｓｅｎｔｅｎｃｅｓ　Ｐａｒｓｉｎｇ　
Ｂａｓｅｄ　ｏｎ　ＰＣＦＧＢＡＮ　Ｍａｂａｏ１，２，
３，ＣＡＩ　Ｚｈｉｊ
ｉｅ１，２，
３，ＬＡＭＡ　Ｚｈａｘｉ　１，２，
３（１．Ｃｏｌｌｅｇｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ，Ｑｉｎｇｈａｉ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｘｉｎｉｎｇ，Ｑｉｎｇｈａｉ　８１００１６，Ｃｈｉｎａ；２．Ｋｅｙ　Ｌａｂｏｒａｔｏｒｙ　
ｏｆ　ＴｉｂｅｔａｎＩｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ，Ｍｉｎｉｓｔｒｙ　
ｏｆ　Ｅｄｕｃａｔｉｏｎ，Ｘｉｎｉｎｇ，Ｑｉｎｇｈａｉ　８１０００８，Ｃｈｉｎａ；３．Ｔｉｂｅｔａｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇａｎｄ　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎ　Ｋｅｙ　Ｌａｂｏｒａｔｏｒｙ　
ｏｆ　Ｑｉｎｇｈａｉ　Ｐｒｏｖｉｎｃｅ，Ｘｉｎｉｎｇ，Ｑｉｎｇｈａｉ　８１０００８，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｓｙｎｔａｘ　ａｎａｌｙｓｉｓ　ｏｆ　Ｔｉｂｅｔａｎ　ｉｎｔｅｒｒｏｇａｔｉｖｅ　ｓｅｎｔｅｎｃｅｓ　ｈａｓ　ｂｒｏａｄ　ａｐｐｌｉｃａｔｉｏｎ　ｐｒｏｓｐｅｃｔｓ　ｓｕｃｈ　ａｓ　ｉｎ　Ｔｉｂｅｔａｎｑｕｅｓｔｉｏｎ　ａｎｓｗｅｒｉｎｇ　ｓｙｓｔｅｍ，ｓｅａｒｃｈ　ｅｎｇｉｎｅ，ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ　ａｎｄ　ｒｅｔｒｉｅｖａｌ．Ｂｙ　ａｎａｌｙｚｉｎｇ　ｔｈｅ　ｆｅａｔｕｒｅｓ　ｏｆ　Ｔｉｂｅｔａｎｉｎｔｅｒｒｏｇａｔｉｖｅ　ｓｅｎｔｅｎｃｅｓ，ｔｈｉｓ　ｐａｐｅｒ　ｃｌａｓｓｉｆｉｅｄ　ｔｈｅ　Ｔｉｂｅｔａｎ　ｉｎｔｅｒｒｏｇａｔｉｖｅ　ｓｅｎｔｅｎｃｅｓ　ａｎｄ　ｓｕｍｍａｒｉｚｅｄ　ｔｈｅ　ｓｔｒｕｃｔｕｒａｌ　ｆｅａ－ｔｕｒｅｓ　ｏｆ　ｖａｒｉｏｕｓ　Ｔｉｂｅｔａｎ　ｉｎｔｅｒｒｏｇａｔｉｖｅ　ｓｅｎｔｅｎｃｅｓ．Ｔｈｅ　ＰＣＦＧ　ｍｅｔｈｏｄ　ｉｓ　ｕｔｉｌｉｚｅｄ　ｔｏ　ｐａｒｓｅ　ｔｈｅ　Ｔｉｂｅｔａｎ　ｉｎｔｅｒｒｏｇ
ａｔｉｖｅ　ｓｅｎ－ｔｅｎｃｅｓ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔ　ｒｅｖｅａｌｓ　９６．０％，９５．４％ａｎｄ　９５．７％ｉｎ　ａｃｃｕｒａｃｙ，ｒｅｃａｌｌ　ａｎｄ　Ｆ　ｖａｌｕｅ，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｋｅｙ
ｗｏｒｄｓ：Ｔｉｂｅｔａｎ　ｉｎｔｅｒｒｏｇａｔｉｖｅ　ｓｅｎｔｅｎｃｅ；ｉｎｔｅｒｒｏｇａｔｉｖｅ　ｐｒｏｎｏｕｎ；ｓｙｎｔａｃｔｉｃ　ａｎａｌｙｓｉｓ；ＰＣＦＧ；ＣＹＫ收稿日期：２０１８－０９－２９　定稿日期：２０１８－１０－
２９基金项目：国家自然科学基金（６１８６６０３２，６１１６３０１８，６１２６２０５１）；国家社会科学基金（１３ＢＹＹ１４１，１６ＢＹＹ１６７，１５ＢＹＹ１６７）；教育部“春晖计划”合作科研项目（Ｚ２０１２０９３，Ｚ２０１６０７７）；青海省基础研究项目（２０１７－ＺＪ－７６７，２０１９－ＳＦ－１２９，２０１５－ＳＦ－５２０）；“长江学者和创新团队发展计划”创新团队资助项目（ＩＲＴ１０６８）；青海省重点实验室项目（２０１３－Ｚ－Ｙ１７、２０１４－Ｚ－Ｙ３２、２０１５－Ｚ－Ｙ０３）；藏文信息处理与机器翻译重点实验室（２０１３－Ｙ－
１７）；青海师范大学２０１８—２０１９年度创新训练项目０　引言
随着信息技术的不断进步，藏语自然语言处理已经发展到了“句”的层面。

但是由于多种原因，藏文句法分析的研究还未取得重大突破。

若要深层次地理解藏文，就必须对藏文句子进行句
法分析［１］。

迄今为止，有关藏文句法分析方面的
文章都是针对所有藏文句型展开。

然而不同类型的藏文句子在结构特征方面存在明显差异，从而导致藏文句法分析效果不够理想。

针对不同类型
的句子，研究其句法，可以提高藏文句法分析的整
体性能。

疑问句是一种常见的藏文句型，也是藏文问答系统、搜索引擎、信息的抽取和检索等问题中的主要句型。

本文通过分析藏文疑问句的构成特点，对藏文疑问句进行了分类，并归纳了结构特征，进而利用Ｐ
ＣＦＧ研究了藏文疑问句的句法分析。

中文信息学报２０１９年
１　句法分析的研究现状
自２０世纪５０年代开始，句法分析作为自然语言处理领域的核心任务之一，一直是研究人员关注的热点问题［２］。

目前用于句法分析的主要方法有规则法、统计法和规则与统计相结合的方法，统计法中又有基于最大熵的依存句法分析和基于深度学习的句法分析等方法。

文献［３］采用规则的方法，作者从分析汉语的句法特点出发，规定了汉语句法规则，进而研究了汉语句法分析方法。

文献［４］采用了统计方法研究了汉文句法，在正确分词的前提下，句法分析的准确率和召回率分别为８６．９％和８５．７％［４］。

文献［５－６］采用了规则与统计相结合的方法，其中文献［５］分析了ＰＣＦＧ独立假设的局限性，从而在句法结构共现概率中引入了上下文信息，利用Ｉｎｓｉｄｅ－Ｏｕｔｓｉｄｅ算法进行迭代，最后提出了一个基于统计模型的自顶向下的汉语句法分析器，在封闭测试下，其标记准确率和标记召回率分别为８８．１％和８６．８％；文献［６］从单个句法分析标记错误和句法分析层次结构标注错误两个角度进行了探究，利用规则和统计的理论，发现自动修正不一致，其一致性检验的准确率为８７．６％，召回率为９４．８％。

文献［７］采用最大熵的依存句法分析方法，比较了自顶向下（Ｕｐ２Ｄｏｗｎ）算法、自底向上（Ｄｏｗｎ２Ｕｐ）算法和最大生成树（ＭＳＴ）算法的效果，得出最大熵模型的依存句法分析算法中ＭＳＴ算法效果最好的结论。

文献［２］采用深度学习的方法，介绍了前馈神经网络的依存句法分析模型和长短时记忆神经网络的依存句法分析模型，并对基于这两种模型的句法分析效果进行了比较；实验表明，基于前馈神经网络的依存句法分析模型在宾州树库开发集上无标记依存正确率（ＵＡＳ）和带标记依存正确率分别为９１．４％和８９．８％，测试集上无标记依存正确率（ＵＡＳ）和带标记依存正确率分别为９０．２％和８８．５％；基于长短时记忆神经网络的依存句法分析模型在宾州树库开发集上的无标记依存正确率（ＵＡＳ）和带标记依存正确率分别为９１．９％和９０．５％，测试集上的无标记依存正确率（ＵＡＳ）和带标记依存正确率分别为９０．７％和８９．０％。

用于藏文句法分析的主要方法有基于规则和基于判别式的依存句法分析方法。

文献［１，８］采用规则的方法对藏文句法分析的算法进行了研究，并设计和实现了句法分析器，但未考察句法分析效果。

文献［９］提出基于判别式的藏语依存句法分析方法，
采用感知机方法训练句法分析模型，ＣＹＫ自底向上算法解码生成最大生成树，句法分析正确率达到８１．２％。

文献［１０］采用判别式的依存句法分析方法，提出了一种基于判别式的藏文复合句切分标注方法，句法分析的准确率达到了８８．７％。

文献［１１］通过分析藏语判断句的特征，构造了其句法树生成规则，并通过ＰＣＦＧ解决句法歧义问题，最后通过ＣＹＫ算法进行解码，自动生成判断句句法结构树。

２　藏文疑问句的特征
随着信息技术的发展，传统藏文文法对句子的分类已不能满足藏文信息处理的需求。

现代藏文文法借鉴英语和汉语等比较成熟的语法理论，把藏文句子分成了两类，即单句（）和复句（）［１２－１３］。

单句按语义（）被分为６类，分别是有主句（）、无主句（）、存在句（）、特性句（）、自述句（）和神态句（）；按语气（）被分为四类，分别是陈述句（）、疑问句（）、祈使句（）和感叹句（）。

２．１　藏文疑问句及分类
藏文疑问句是对句子按语气分类得到的一种句型，对所述事物的种类和性质等未知而对别人提问的句型
（
）。

藏文句子中的疑问句与陈述句、祈使句和感叹句的主要区别在于语气、感情色彩及疑问代词等方面，其中疑问代词是疑问句最为明显的特征。

疑问句根据语法规则和构成特征，可以分为一般疑问句、强调疑问句和特指疑问句等７类。

（１）一般疑问句（）
一般疑问句的疑问代词有“”，这些疑问代词通常出现在句末，此类疑问句可以互换主语和宾语的位置［１４］。

例如，“”。

（２）强调疑问句（）
强调疑问句就是把答案隐藏在问句中，用
８６
２期班玛宝等：基于ＰＣＦＧ的藏文疑问句句法分析
否定副词“”或“”对肯定的内容用否定的形式表达。

例如，
“
”。

（３
）特指疑问句（）
特指疑问句的疑问代词有“
”
，疑问代词会出现在句首或句末的动词、形容词、助词等谓语成份之前，有时也会出现在句中，通过疑问代词对未知的部分进行提问，要求对方针对未
知的部分作出回答［
１４］。

例如，
“”。

（４
）选择疑问句（）
选择疑问句通过提出两种或两种以上的选项，让回答者从中进行选择。

例如，
“”。

（５
）是非疑问句（）
是非疑问句是指提问者有疑惑而发问并希望从回答中获取未知信息的句子。

例如，
“”。

（６
）疑问句（
）
疑问句是一种出现在口语中的提问方式，
希望对方给予肯定或否定的答复，与一般疑问句的提问格式相似，也可以互换主语和宾语的位置。

疑问句和一般疑问句的主要区别在于运用的
疑问代词不同，并且疑问代词出现的位置也不同。

疑问句的疑问代词“”一般会出现在句末的动词、形容词、助词等谓语成份之前。

例如，“
”。

（７
）自问自答式疑问句（）
自问自答式疑问句的答案不仅出现在问句中，而且还会以提问者自答的形式出现，疑问代词有“
”、“”、
“”，其句型结构为：
“……＋疑问代词
＋＋
……”。

例如，
“
”。

２．２　藏文疑问句的结构特征
在藏文书面语中，每个疑问句至少会有一个疑问代词，而且不同的疑问代词通过与其上下文相结合可以构成不同类型的疑问句。

藏文疑问句的结构特征如表１所示。

表１　藏文疑问句的结构特征
疑问句类型
疑问代词结构特征及说明例句
一般疑问句
Ｓ－＞ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜ＵＰ＋（ａ　ｒｙ）说明：Ｓ＝Ａ＋Ｂ，其中，Ａ∈｛ＮＰ｜ＲＰ｜ＦＰ｜
ＴＰ｜ＶＰ｜ＡＰ｜ＵＰ｝，Ｂ＝（ａ　ｒｙ）
，ａ∈｛ｖｔ｜ａｄ｜ｕｃ｜……｝
（Ｓ（ＮＰ（／ｎｎ））（ＶＰ（ＮＰ（／ｎｒ）（／ｇ
ｚ））（ＶＰ（ＮＰ（／ｎｎ）（／ｒｚ））（ＶＰ（／ｖｉ）（／ｒｙ））））（）））强调疑问句
Ｓ－＞ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜
ＵＰ＋（（ａ）＋ＲＰ）
）说明：Ｓ＝Ａ＋Ｂ，其中，Ａ｛ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜
ＶＰ｜ＡＰ｜
ＵＰ｝，Ｂ＝（（ａ）＋ＲＰ），ａ∈｛ｖｔ｜ａｄ｜ｕｐ｜……｝（Ｓ（ＮＰ（／ｎｒ）（／ｇ
ｚ））（ＲＰ（ＮＰ（／ｎｎ））（ＲＰ（ＡＰ（／ｄｆ）（／ａｄ））（ＲＰ（／ｒｙ））））（）））特指疑问句
Ｓ－＞ＲＰ＋ＮＰ｜ＦＰ｜ＶＰ｜ＡＰ｜ＵＰ，Ｓ－＞ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＡＰ｜ＵＰ＋（ＲＰ＋ＦＰ｜ＶＰ｜ＡＰ｜
ＵＰ），Ｓ－＞ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜ＵＰ（ｒｙ　
ａ）说明：Ｓ＝Ａ＋Ｂ，其中，Ａ∈｛ＲＰ，ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＡＰ｜ＵＰ，ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜
ＵＰ｝，Ｂ∈｛ＮＰ｜ＦＰ｜ＶＰ｜ＡＰ｜ＵＰ，ＲＰ＋ＦＰ｜
ＶＰ｜ＡＰ｜ＵＰ，ｒｙ　ａ｝，ａ∈｛ｖｔ｜ａｄ｜ｕｐ｜……｝（Ｓ（ＲＰ（／ｒｙ））（／ｇ
ｌ））（ＵＰ（ＵＰ（／ｖｔ）（／ｕｘ））（ＵＰ（／ｕｐ）））（））），（Ｓ（ＲＰ（／ｒｒ））（ＵＰ（ＲＰ（／ｒｙ）（／ｇｌ））（ＵＰ（／ｕｃ）））（））），（Ｓ（ＮＰ（／ｎｎ）（／ｒｚ））（ＵＰ（ｒｙ）（／ｕｐ
））（）））选择疑问句
Ｓ－＞（ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜Ｕ
Ｐ＋（ａｒｙ
））＋ＦＰ｜ＶＰ｜ＡＰ｜ＵＰ说明：Ｓ＝Ａ＋Ｂ，Ａ∈｛ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜
ＡＰ｜ＵＰ＋（ａ　ｒｙ）
｝，Ｂ∈｛ＦＰ｜ＶＰ｜ＡＰ｜ＵＰ｝，ａ∈｛ｖｔ｜ａｄ｜ｕｐ
｜……｝（Ｓ（ＶＰ（（ＲＰ（／ｒｒ）（／ｇ
ｘ））（ＶＰ（ＮＰ（／ｎｎ））（ＶＰ（／ｖｔ）（／ｒｙ）
）））（ＶＰ（／ｎｎ）（／ｖｔ
））（）））９
６
续表
中文信息学报２０１９年
疑问句类型疑问代词结构特征及说明例句
是非疑问句
Ｓ－＞（ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜ＵＰ＋（ａ
ｒｙ））＋（ａ）
说明：Ｓ＝Ａ＋Ｂ，Ａ∈｛（ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜
ＡＰ｜ＵＰ＋（ａ　ｒｙ）｝，Ｂ＝（ａ），ａ∈｛ｖｔ｜ａｄ｜ｕｐ
｜……｝
（Ｓ（ＡＰ（ＮＰ（／ｎｒ）（／ｇｚ））（ＡＰ（ＮＰ
（／
ｎｎ））（ＡＰ（／ａｄ）（／ｒｙ））））（ＡＰ（／ｄｆ）（／ａｄ））
（）））
疑问句
Ｓ－＞ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜ＵＰ＋（ｒｙ　ａ）
说明：Ｓ＝Ａ＋Ｂ，Ａ∈｛ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜
ＡＰ｜ＵＰ｝，Ｂ＝（ｒｙ　ａ），ａ∈｛ｖｔ｜ａｄ｜ｕｐ｜……｝
（Ｓ（ＮＰ（／ｎｎ）（／ｇｚ））（ＵＰ（ＮＰ（／ｎｎ））
（ＵＰ（／ｒｙ）（／ｕｃ）））（）））
自问自答式
疑问句
Ｓ－＞（ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜ＡＰ｜ＵＰ＋
）＋ＦＰ｜ＶＰ｜ＡＰ｜ＵＰ
说明：Ｓ＝Ａ＋Ｂ，Ａ∈｛（ＮＰ｜ＲＰ｜ＦＰ｜ＴＰ｜ＶＰ｜
ＡＰ｜ＵＰ＋）｝，Ｂ∈｛ＦＰ｜ＶＰ｜ＡＰ｜
ＵＰ｝，ＲＰ－〉ｒｙ　ａ，ａ∈｛ｇｌ｜ｇｚ｜ｇｘ｜……｝
（Ｓ（ＵＰ（ＲＰ（／ｒｙ）（／ｇｚ））（ＵＰ（／）ｕｐ（／
ｃｎ）））（ＵＰ（ＮＰ（／ｎｓ）（／ｇｚ））（ＵＰ（／ｕｐ）））
（）））
表１中，“Ｓ”表示疑问句子，“－＞”表示“Ｓ”是
由其右边部分构成，“｜”表示或，“＋”表示其左、右两
边相结合，“（）”表示括号中的部分先结合，“ｒｙ”表示
疑问代词的词性标记，“ＮＰ”表示名词短语，“ＲＰ”表
示代词短语，“ＴＰ”表示时间短语，“ＶＰ”表示动词短
语，“ＡＰ”表示形容词短语，“ＵＰ”表示助词短语，
“ＦＰ”表示方位短语。

“”指疑问代词
“”，“”指疑问
代词“”。

３　藏文疑问句句法分析
句法分析指通过某种方式对句子结构进行自动
分析。

上下文无关语法ＣＦＧ（ｃｏｎｔｅｘｔ－ｆｒｅｅ　ｇｒａｍ－
ｍａｒ）是一种较好的句法分析模型，但它不能解决有
歧义句子的语法树解析问题。

从统计上看，一个语
法树解析是否正确，主要与句法规则出现概率有关。

概率上下文无关语法ＰＣＦＧ（ｐｒｏｂａｂｉｌｉｓｔｉｃ　ｃｏｎｔｅｘｔ－
ｆｒｅｅ　ｇｒａｍｍａｒ）在ＣＦＧ的基础上增加了句法规则概
率，提升了句法分析的性能，是一种句法分析的好模
型。

ＣＹＫ（Ｃｏｃｋｅ－Ｙｏｕｎｇｅｒ－Ｋａｓａｍｉ）是基于动态规
划思想设计的一种自底向上对上下文无关文法
ＣＦＧ进行句法分析的算法，也是适用于ＰＣＦＧ剖析
的一种标准的动态规划算法，对给定的句子进行自
底向上分析并生成广义的句法结构树。

本文在藏文
疑问句句法分析时，选择了ＰＣＦＧ模型，并以ＣＹＫ
算法解码。

３．１　模型参数的计算方法
基于ＰＣＦＧ的句法分析模型主要包括语法规
则初始概率值和结构共现概率两个参数，其计算方
法如下。

３．１．１　语法规则的初始概率计算方法
统计训练语料中各规则出现的次数，利用最大
似然估计求出每条规则出现的频率，作为语法规则
的初始概率值，计算如式（１）所示。

Ｐ（Ａ→Ｘ）＝Ｃ
（Ａ→Ｘ）
∑
γ∈（ｖ∪ｖＮ）
Ｃ（Ａ→Ｙ）
（１）
其中，Ｃ（Ａ→Ｘ）表示规则Ａ→Ｘ在树库中出现
的次数，其中Ａ表示非终结符（ｎｏｎｔｅｒｍｉｎａｌ　ｓｙｍ－
ｂｏｌｓ）集，Ｘ表示终结符（ｔｅｒｍｉｎａｌ　ｓｙｍｂｏｌｓ）集，
Ｐ（Ａ→Ｘ）表示规则Ａ→Ｘ的概率估计值。

本文在沿用已有算法的基础上，对训练语料进行
迭代训练，从而得到一个收敛的语法规则。

为了尽量
减少语法规则概率的估计对语料库的依赖，对语法规
则的初始估计概率值进行再次估算，方法如下：
设置一个阈值γ，将语法规则分为高频规则集
ＨＦＲ和低频规则集ＬＦＲ，分别如式（２）、式（３）
所示。

ＨＦＲ＝｛Ａ→Ｘ｜Ｐ（Ａ→Ｘ）＞γ｝（２）
ＬＦＲ＝｛Ａ→Ｘ｜Ｐ（Ａ→Ｘ）≤γ｝（３）
设Ｍ为ＬＦＲ集合中规则的个数，Ｎ为ＨＦＲ中
所有规则的概率值总和，即：
Ｎ＝∑
（Ａ→Ｘ）∈ＨＦＲ
Ｐ（Ａ→Ｘ）（４）
利用如下公式得开始迭代的初始概率值：
０
７
２期班玛宝等：基于ＰＣＦＧ的藏文疑问句句法分析
Ｐ（Ａ→Ｘ）＝ａ·Ｐ（Ａ→Ｘ）Ｎ
，若Ａ→Ｘ∈ＨＦＲ
（５）Ｐ（Ａ→Ｘ）＝１－ａＭ
，Ａ→Ｘ∈ＬＦＲ（６
）这里ａ的取值范围为０～１，
是再次估计后ＨＦ
Ｒ集合中所有规则的估计概率值的总和；同样１－ａ为ＬＦＲ集合中规则的概率值总和。

３．１．２　结构共现概率计算方法
结构共现概率的计算采用最大似然估计的方
法。

处于句首的句法范畴Ｆ向前共现概率Ｐ（ε，Ｆ）、非句首的句法范畴Ｆ向前共现概率Ｐ（ｖ，Ｆ）
、处于句尾的句法范畴Ｅ向后共现概率Ｐ（ε，Ｅ）和非句尾的句法范畴Ｅ向后共现概率Ｐ（ｖ，Ｅ）
计算分别如式（７）～式（１０）所示。

Ｐ（ε，
Ｆ）＝Ｃｏｕｎｔ（Ｆ处于句首）Ｃｏｕｎｔ（所有处于句首的句法范畴）（７
）ｐ（ｖ，Ｆ）＝Ｃｏｕｎｔ（ｖ出现在Ｆ前面）Ｃｏｕｎｔ（ｖ）
（８）Ｐ（ε，
Ｅ）＝Ｃｏｕｎｔ（Ｅ处于句尾）Ｃｏｕｎｔ
（所有处于句尾的句法范畴）（９）ｐ（ｖ，Ｅ）＝Ｃｏｕｎｔ（ｖ出现在Ｅ后面）Ｃｏｕｎｔ
（ｖ）（１０）３．２　零概率问题的解决
从实际的语言现象来看，对于一个确定的训练
语料，即使语料规模再大，也会遇到数据稀疏问题。

其原因在于进行句法分析时，测试语料中会遇到训练语料中从未出现过且合法的新语法规则，从而出现零概率问题。

下面通过实例说明零概率问题对ＰＣＦＧ句法分析的影响。

图１是句子Ｓ＝“
”通
过ＰＣＦＧ模型分析得到的句法分析树。

图１　句法树Ｓ
图１中“／ｒｒ”、“／ｇｌ”、“／ｎｎ”、“／ｇｌ”、“／ｒｙ
”和“／ｖｔ”等是终结符，“Ｓ”、“ＲＰ”和“ＶＰ”等是非终结符。

该句子的概率之积为：
Ｐ（Ｓ）＝Ｐ（ｒｒ－
＞）×Ｐ（ｇ
ｌ－
＞）×Ｐ（ｎｎ－
＞
）×Ｐ（ｇｌ－
＞）×Ｐ（ｒｙ－
＞）
×Ｐ（ｖｔ－
＞）×Ｐ（ＲＰ－＞ｒｒ　ｇｌ）×Ｐ（ＮＰ－＞ｎｎ　ｇ
ｌ）×Ｐ（ＶＰ－＞ｒｙ　ｖｔ）×Ｐ（ＶＰ－＞ＮＰ　ＶＰ）×Ｐ（Ｓ－＞ＲＰ　ＶＰ）假设树中的规则“ｎｎ－
＞
”是训练语料中未
出现的合法的新的语法规则，就意味着Ｐ（ｎｎ－
＞
）的值为零，从而使得Ｐ（Ｓ）的值也为零，故得出这种结论的句法结构树是错误的，因此降低了句法分析的准确率。

为了解决这个问题，Ｇｏｏｄ在１９５３年提出了著名的Ｔｕｒｉｎｇ公式来处理零概率的事件，即Ｇｏｏｄ－Ｔｕｒｉｎｇ数据平滑。

本文也利用数据平滑来解决零概率问题，数据平滑技术采用最大似然估计对语法规则的概率估计进行调整，以保证语法规则的概率都不为零。

数据平滑的基本原则是适当减少藏文训练语料库中出现的语法规则概率，而把减少的那部分概率赋予训练语料中未出现的合法的新的语法规则，过程如下：
设Ｎ为训练的标识数，ｎｒ为语料中出现ｒ次的事件个数，则式（１
１）成立：Ｎ＝
∑ｒ
ｒ×ｎ
ｒ
（１
１）按最大似然估计原理，
出现ｒ次的语法规则Ａ→Ｘ的概率为：
Ｐ（Ａ→Ｘ）＝ｒＮ
（１２）根据式（１２）中Ｔｕｒｉｎｇ公式，
调整出现ｒ次的规则Ａ→Ｘ的概率为：
ＰＴ（Ａ→Ｘ）＝ｒ′Ｎ，ｒ′＝（ｒ＋１）ｎｒ＋１ｎｒ
（１
３）使用Ｇｏｏｄ－Ｔｕｒｉｎｇ公式，可以得到训练语料中所有语法规则的概率和为：
∑
Ａ→Ｘ：Ｃ（Ａ→Ｘ）＞０
ＰＴ（Ａ→Ｘ）＝１－
ｎ１
Ｎ
（１４
）Ｃ（Ａ→Ｘ）＞０表示该语法规则在训练语料中出
现的次数大于零，训练语料中从未出现过的语法规则的概率和为：
∑
Ａ→Ｘ：Ｃ（Ａ→Ｘ）＝０
ＰＴ（Ａ→Ｘ）＝１－
ｎ１
Ｎ
（１
５）Ｃ（
Ａ→Ｘ）＝０表示在训练语料中出现的语法规则次数为零。

３．３　句法排歧
藏文疑问句句法分析中的句法排歧是主要难点，人脑可以通过考虑各种综合因素来避免歧义产生，但计算机难以解决歧义问题。

由于本文对藏文
１
７
中文信息学报２０１９年
疑问句进行句法分析时，测试语料已分好词，故排歧时不需要考虑分词歧义，文章中句法排歧主要解决的是节点的标记。

本文利用统计的方法来计算歧义句中每个词与上下文之间的概率之积，通过找出概率最大的句法结构树来实现消解歧义的目的。

下面通过一个存在节点标记歧义的藏文疑问句来具体分析基于ＰＣＦＧ模型的消解歧义的方法。

例如，
“”规则集及各规则的概率：
Ｓ－＞ＮＰ　ＵＰ＃０．２０７ｎｒ－
＞＃０．０８３ＵＰ－＞ＮＰ　
ＵＰ＃０．２５７ｇｌ－
＞＃０．５９８ＮＰ－＞ｎｒ　ｇｌ＃０．００８ｎｎ－
＞
＃０．
００５ＮＰ－＞ｎｎ＃０．４５５ｒｙ
－
＞＃０．０４８ＵＰ－＞ｒｙ　ｕｃ＃０．０５１ｇｌ－
＞＃０．１１０ＮＰ－＞ｎｎ　ｇｌ＃０．１３８ｕｃ－
＞
＃０．
８９３ＵＰ－＞ｕｃ＃０．
０２４可得两个符合语法规则的句法树，如图２和图３所示。

图２　句法结构树
１
图３　句法结构树２
句法结构树１的广义句法结构树为：（Ｓ（ＮＰ（
／ｎｒ）（／ｇ
ｌ））（ＵＰ（ＮＰ（／ｎｎ））（ＵＰ（／ｒｙ
）（／ｕｃ
）））（））句法结构树２的广义句法结构树为：（Ｓ（ＮＰ（
／ｎｒ）（／ｇ
ｌ））（ＵＰ（ＮＰ（／ｎｎ）（／ｇ
ｌ））（ＵＰ（／ｕｃ
）））（））分别计算以上两个句法结构树的概率值：句法结构树１中：Ｐ（ｔｒｅｅ１）＝Ｐ（ｎ
ｒ－
＞）×Ｐ（ｇ
ｌ－
＞）×Ｐ（ｎｎ－
＞）×Ｐ（ｒｙ－
＞）
×Ｐ（ｕｃ－
＞）×Ｐ
（ＮＰ－＞ｎｒ　ｇｌ）×Ｐ（ＮＰ－＞ｎｎ）×Ｐ（ＵＰ－＞ｒｙ　
ｕｃ）×Ｐ（ＵＰ－＞ＮＰ　ＵＰ）×Ｐ（Ｓ－＞ＮＰ　ＵＰ）＝１．０５０５５０６７３４５２７５８Ｅ－１０句法结构树２中：
Ｐ（ｔｒｅｅ２）＝Ｐ（ｎｒ－
＞）×Ｐ（ｇ
ｌ－
＞）Ｐ（ｎｎ－
＞
）×Ｐ（ｇ
ｌ－
＞）×Ｐ（ｕｃ－
＞）×Ｐ（ＮＰ
－＞ｎｒ　ｇｌ）×Ｐ（ＮＰ－＞ｎｎ　ｇ
ｌ）×Ｐ（ＵＰ－＞ｕｃ）×Ｐ（ＵＰ－＞ＮＰ　ＵＰ）×Ｐ（Ｓ－＞ＮＰ　ＵＰ）＝３．４３６１９０３０８７７２４３３Ｅ－１１
利用规则集及各规则的概率计算生成每个句法结构树的概率值，根据概率值确定最优树，从而达到消解歧义的目的。

上例“
”的
Ｐ（ｔｒｅｅ１）＝１．０５０５５０６７３４５２７５８Ｅ－１０，Ｐ（ｔｒｅｅ２）＝
３．４３６１９０３０８７７２４３３Ｅ－１１，Ｐ（ｔｒｅｅ１）＞Ｐ（ｔｒｅｅ２），因此可以确定该疑问句的正确句法结构树为第一个句法结构树。

３．４　句法结构树的生成
通过已知的规则集和概率值，利用概率ＣＹＫ算法可以自动地分析出给定句子的句法结构，从而生成句法结构树。

如句子“
”生成句法
结构树的过程如下：
（１
）规则集及其概率值：Ｓ－＞ＮＰ　ＶＰ＃０．００２ｎｎ－
＞＃０．００４ＶＰ－＞ＮＰ　ＶＰ＃０．００２ｇｘ－
＞＃０．
１０９ＮＰ－＞ｎｎ　ｇｘ＃０．００７ｎｎ－
＞＃０．００４ＮＰ－＞ｎｎ＃０．４０１
ｖｔ－
＞＃０．
０４０ＶＰ－＞ｖｔ　ｒｙ＃０．１７０ｒｙ
－
＞＃０．０９７（２）利用概率ＣＹＫ句法解码算法后生成的句法结构树如图４所示。

图４　句法结构树
２
７
２期班玛宝等：基于ＰＣＦＧ的藏文疑问句句法分析
该句法结构树的广义句法结构树为：（Ｓ（ＮＰ（／ｎｎ）（／ｇｘ））（ＶＰ（ＮＰ（／ｎｎ））（ＶＰ（／ｖｔ）（／ｒｙ）））（））。

４　实验数据及分析
我们从青海师范大学建立的藏语语料库［１４］中选择了５００个疑问句，对此人工标注句法标记，得到５００个结构树库作为实验语料。

实验过程为：
①用ＣＦＧ模型生成规则；
②用ＰＣＦＧ模型计算由ＣＦＧ模型生成的各种规则的概率值；
③用ＣＮＦ模型计算由ＰＣＦＧ模型输出结果中结构共现概率；
④用概率ＣＹＫ算法对藏文疑问句进行句法分析并生成广义的句法结构树。

实验包括封闭式测试和开放式测试。

封闭测试时，对训练语料中的５００个原句进行了测试；开放式测试时，随机找了１００个未在训练语料中出现的疑问句进行了测试。

实验结果如表２所示。

表２　藏文疑问句句法分析实验结果
方法训练语料测试方式测试句子数系统分析正
确句子个数
应该标记
节点个数
系统标记正
确节点个数
准确率
／％
召回率
／％
Ｆ１值
／％
文献［９］１万句封闭３００———８１．２——文献［１０］１．１万句封闭３００———８８．７——
本文５００句封闭５００　４８８　１２　７８５　１２　４３９　９７．６　９７．３　９７．４开放１００　９６　２　４６２　２　３４９　９６．０　９５．４　９５．７
表２中的准确率、召回率和Ｆ１值是自然语言处理领域常用的评价标准，其计算方法如下：
Ｐ（准确率）＝系统分析正确句子个数
测试句子个数×１００％
（１６）
Ｒ（召回率）＝系统标记正确节点个数
应该标记节点个数×１００％
（１７）
Ｆ１＝２×Ｐ×Ｒ
Ｐ＋Ｒ
（１８）
从表２中的实验结果可以看出，基于ＰＣＦＧ的藏文疑问句句法分析在封闭测试集上的准确率、召回率和Ｆ１值分别达到了９７．６％、９７．３％和９７．４％，在开放测试集上的准确率、召回率和Ｆ１值分别达到了９６．０％、９５．４％和９５．７％，句法分析效果比文献［９－１０］有明显的提高，表明根据具体句型及其特征，针对性的研究句子的句法，其性能有很大的提高。

由于训练语料较少，影响了实验结果。

主要有以下两种错误：
①短语节点标记错误。

句法分析时，句子中的个别短语与上下文相结合时顺序上出现了错误，从而导致短语节点标记错误。

例如“（ＮＰ－ＲＰ（ＮＰ（／ｎｎ）（／ｇｚ））（ＲＰ（ＶＰ（／ｎｎ）（／ｖｔ））（ＲＰ（／ｙ）（／ｒｙ）））（））”，系统将短语“（ＶＰ（／ｎｎ）（／ｖｔ））”与前面短语“（ＮＰ（／ｎｎ）（／ｇｚ））”相结合，从面生成“（ＶＰ－ＲＰ（ＶＰ（ＮＰ（／ｎｎ）（／ｇｚ））（ＶＰ（／ｎｎ）（／ｖｔ）））（ＲＰ（／ｙ）（／ｒｙ））（））”。

这是因为ＮＰ与ＶＰ相结合构成ＶＰ的概率大于ＶＰ与ＲＰ相结合构成ＲＰ的概率。

②词节点标记错误。

由于词性标注错误而导致短语节点标记错误。

例如，“（ＮＰ－ＵＰ（ＮＰ（／ｎｎ）（／ｑｄ））（ＵＰ（ＭＰ（／ｍｊ））（ＵＰ（／ｒｙ）（／ｕｃ））））（））”中词“”是兼类量词ｍｊ和疑问代词ｒｙ，本句中应该为量词ｍｊ，语料中错把“”标注成了疑问代词ｒｙ，从而出现了错误的生成结果“（ＮＰ－ＵＰ（ＮＰ（／ｎｎ）（／ｑｄ））（ＵＰ（ＲＰ（／ｒｙ））（ＵＰ（／ｒｙ）（／ｕｃ））））（））”。

５　结束语
疑问句是一种常见的藏文句型，也是藏文问答系统、搜索引擎、信息抽取和检索等问题中的主要研究句型。

本文通过分析藏文疑问句的构成特点，对藏文疑问句进行了分类，并归纳了各类藏文疑问句的结构特征，在此基础上利用ＰＣＦＧ对藏文疑问句进行句法分析。

经测试，在封闭测试集上的准确率、召回率和Ｆ１值分别达９７．６％、９７．３％和９７．４％，在开放测试上的准确率、召回率和Ｆ１值分别达９６．０％、９５．４％和９５．７％，句法分析效果比现有藏文句法分析有了明显的提高。

测试中主要出现了短语节点标记错误和词节点标记错误两种类型，究其
３
７
中文信息学报２０１９年
原因是由于训练语料规模较小而造成。

ＰＣＦＧ模型属于监督式学习方法，对训练语料的质量要求很高。

为了能更好地研究藏文句法，今后一方面需不断扩建藏文疑问句句法标记树库来提高句法分析效果，另一方面应研究并尝试无监督式的基于神经网络模型的藏文句法分析技术，以提高藏文句法分析的性能。

参考文献
［１］　完么才让．基于规则的藏语句法分析研究［Ｄ］．青海：青海民族大学硕士学位论文，２０１４．
［２］　周青宇．基于深度学习的自然语言句法分析研究［Ｄ］．哈尔滨：哈尔滨工业大学硕士学位论文，２０１６．［３］　王鹏，戴新宇，陈家骏，等．基于规则的汉语句法分析方法研究［Ｊ］．计算机工程与应用，２００３，３９（２９）：６３－６６．［４］　袁里驰．基于统计的句法分析方法［Ｊ］．中南大学学报（自然科学版），２０１４（８）：２６６９－２６７５．
［５］　林颖，史晓东，郭锋．一种基于概率上下文无关文法的汉语句法分析［Ｊ］．中文信息学报，２００６，２０（２）：１－７．［６］　魏莉．规则和统计相结合的句法分析———一致性检验［Ｊ］．山西广播电视大学学报，２０１４（３）：４０－４２．［７］　辛霄，范士喜，王轩，等．基于最大熵的依存句法分析［Ｊ］．中文信息学报，２００９，２３（２）：１８－２２．
［８］　完玛扎西．藏语句法分析系统的研究与实现［Ｄ］．拉萨：西藏大学硕士学位论文，２０１３．
［９］　华却才让，赵海兴．基于判别式的藏语依存句法分析［Ｊ］．计算机工程，２０１３，３９（４）：３００－３０４．
［１０］　华却才让，赵海兴．藏文复合句的依存句法分析［Ｊ］．中文信息学报，２０１６，３０（６）：２２４－２２９．
［１１］　扎西吉，才智杰，拉玛扎西．藏语判断句的句法结构树构建方法［Ｊ］．西北民族大学学报（自然科学版），２０１７
（４）：２４－２７．
［１２］　吉太加．现代藏语文法通论［Ｍ］．兰州：甘肃民族出版社，２０００．
［１３］　吉太加．藏语句法研究［Ｍ］．北京：中国藏学出版社，２０１３．
［１４］　才智杰，才让卓玛．班智达藏文标注词典设计［Ｊ］．中文信息学报，２０１０，２４（５）：４６－４９．
［１５］　柔特．藏文问答系统中问句的分类方法研究［Ｊ］．计算机工程与科学，２０１５，３７（７）：１３９３－１３９８
．
班玛宝（１９９２－），硕士研究生，主要研究领域为
藏文信息处理、藏语自然语言处理。

Ｅ－ｍａｉｌ：１４０２５５４０９３＠ｑｑ．ｃｏ
ｍ
才智杰（１９７０－），通信作者，教授，硕士生导师，
博士，主要研究领域为藏文信息处理、藏语自然
语言处理。

Ｅ－ｍａｉｌ：ｃｚｊｑｈｓｄ＠１６３．ｃｏ
ｍ
拉玛扎西（１９９４－），硕士研究生，主要研究领域
为藏文信息处理、藏语自然语言处理。

Ｅ－ｍａｉｌ：ｌｈａｍａｔａｓｈｉ＠ｏｕｔｌｏｏｋ．ｃｏｍ
４
７。