基于PCFG的藏文疑问句句法分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷 第2期2019年2月
中文信息学报
JOURNAL OF CHINESE INFORMATION
PROCESSINGV
ol.33,No.2Feb.,2019
文章编号:1003-0077(2019)02-0067-
08基于PCFG的藏文疑问句句法分析
班玛宝1,2,3,才智杰1,2,3,拉玛扎西1,
2,3
(1.青海师范大学计算机学院,
青海西宁810016;2.藏文信息处理教育部重点实验室青海西宁810008;3.青海省藏文信息处理与机器翻译重点实验室青海西宁810008
)摘 要:藏文疑问句的句法分析在藏文问答系统、搜索引擎、信息的抽取和检索等领域有着广泛的应用前景。该文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,归纳了各类藏文疑问句的结构特征,进而利用PCFG对藏文疑问句进行了句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。关键词:藏文疑问句;疑问代词;句法分析;PCFG;CYK中图分类号:T
P391 文献标识码:ATibetan Interrogative Sentences Parsing
Based on PCFGBAN Mabao1,2,
3,CAI Zhij
ie1,2,
3,LAMA Zhaxi 1,2,
3(1.College of Computer,Qinghai Normal University,Xining,Qinghai 810016,China;2.Key Laboratory
of TibetanInformation Processing,Ministry
of Education,Xining,Qinghai 810008,China;3.Tibetan Information Processingand Machine Translation Key Laboratory
of Qinghai Province,Xining,Qinghai 810008,China)Abstract:The syntax analysis of Tibetan interrogative sentences has broad application prospects such as in Tibetanquestion answering system,search engine,information extraction and retrieval.By analyzing the features of Tibetaninterrogative sentences,this paper classified the Tibetan interrogative sentences and summarized the structural fea-tures of various Tibetan interrogative sentences.The PCFG method is utilized to parse the Tibetan interrog
ative sen-tences.The experiment reveals 96.0%,95.4%and 95.7%in accuracy,recall and F value,respectively.Key
words:Tibetan interrogative sentence;interrogative pronoun;syntactic analysis;PCFG;CYK收稿日期:2018-09-29 定稿日期:2018-10-
29基金项目:国家自然科学基金(61866032,61163018,61262051);国家社会科学基金(13BYY141,16BYY167,15BYY167);教育部“春晖计划”合作科研项目(Z2012093,Z2016077);青海省基础研究项目(2017-ZJ-767,2019-SF-129,2015-SF-520);“长江学者和创新团队发展计划”创新团队资助项目(IRT1068);青海省重点实验室项目(2013-Z-Y17、2014-Z-Y32、2015-Z-Y03);藏文信息处理与机器翻译重点实验室(2013-Y-
17);青海师范大学2018—2019年度创新训练项目0 引言
随着信息技术的不断进步,藏语自然语言处理已经发展到了“句”的层面。但是由于多种原因,藏文句法分析的研究还未取得重大突破。若要深层次地理解藏文,就必须对藏文句子进行句
法分析[1]
。迄今为止,有关藏文句法分析方面的
文章都是针对所有藏文句型展开。然而不同类型的藏文句子在结构特征方面存在明显差异,从而导致藏文句法分析效果不够理想。针对不同类型
的句子,研究其句法,可以提高藏文句法分析的整
体性能。
疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息的抽取和检索等问题中的主要句型。本文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,并归纳了结构特征,进而利用P
CFG研究了藏文疑问句的句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。
中文信息学报2019年
1 句法分析的研究现状
自20世纪50年代开始,句法分析作为自然语言处理领域的核心任务之一,一直是研究人员关注的热点问题[2]。目前用于句法分析的主要方法有规则法、统计法和规则与统计相结合的方法,统计法中又有基于最大熵的依存句法分析和基于深度学习的句法分析等方法。文献[3]采用规则的方法,作者从分析汉语的句法特点出发,规定了汉语句法规则,进而研究了汉语句法分析方法。文献[4]采用了统计方法研究了汉文句法,在正确分词的前提下,句法分析的准确率和召回率分别为86.9%和85.7%[4]。文献[5-6]采用了规则与统计相结合的方法,其中文献[5]分析了PCFG独立假设的局限性,从而在句法结构共现概率中引入了上下文信息,利用Inside-Outside算法进行迭代,最后提出了一个基于统计模型的自顶向下的汉语句法分析器,在封闭测试下,其标记准确率和标记召回率分别为88.1%和86.8%;文献[6]从单个句法分析标记错误和句法分析层次结构标注错误两个角度进行了探究,利用规则和统计的理论,发现自动修正不一致,其一致性检验的准确率为87.6%,召回率为94.8%。文献[7]采用最大熵的依存句法分析方法,比较了自顶向下(Up2Down)算法、自底向上(Down2Up)算法和最大生成树(MST)算法的效果,得出最大熵模型的依存句法分析算法中MST算法效果最好的结论。文献[2]采用深度学习的方法,介绍了前馈神经网络的依存句法分析模型和长短时记忆神经网络的依存句法分析模型,并对基于这两种模型的句法分析效果进行了比较;实验表明,基于前馈神经网络的依存句法分析模型在宾州树库开发集上无标记依存正确率(UAS)和带标记依存正确率分别为91.4%和89.8%,测试集上无标记依存正确率(UAS)和带标记依存正确率分别为90.2%和88.5%;基于长短时记忆神经网络的依存句法分析模型在宾州树库开发集上的无标记依存正确率(UAS)和带标记依存正确率分别为91.9%和90.5%,测试集上的无标记依存正确率(UAS)和带标记依存正确率分别为90.7%和89.0%。
用于藏文句法分析的主要方法有基于规则和基于判别式的依存句法分析方法。文献[1,8]采用规则的方法对藏文句法分析的算法进行了研究,并设计和实现了句法分析器,但未考察句法分析效果。文献[9]提出基于判别式的藏语依存句法分析方法,
采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树,句法分析正确率达到81.2%。文献[10]采用判别式的依存句法分析方法,提出了一种基于判别式的藏文复合句切分标注方法,句法分析的准确率达到了88.7%。文献[11]通过分析藏语判断句的特征,构造了其句法树生成规则,并通过PCFG解决句法歧义问题,最后通过CYK算法进行解码,自动生成判断句句法结构树。
2 藏文疑问句的特征
随着信息技术的发展,传统藏文文法对句子的分类已不能满足藏文信息处理的需求。现代藏文文法借鉴英语和汉语等比较成熟的语法理论,把藏文句子分成了两类,即单句()和复句()[12-13]。单句按语义()被分为6类,分别是有主句()、无主句()、存在句()、特性句()、自述句()和神态句();按语气()被分为四类,分别是陈述句()、疑问句()、祈使句()和感叹句()。
2.1 藏文疑问句及分类
藏文疑问句是对句子按语气分类得到的一种句型,对所述事物的种类和性质等未知而对别人提问的句型
(
)。藏文句子中的疑问句与陈述句、祈使句和感叹句的主要区别在于语气、感情色彩及疑问代词等方面,其中疑问代词是疑问句最为明显的特征。疑问句根据语法规则和构成特征,可以分为一般疑问句、强调疑问句和特指疑问句等7类。
(1)一般疑问句()
一般疑问句的疑问代词有“”,这些疑问代词通常出现在句末,此类疑问句可以互换主语和宾语的位置[14]。例如,“”。
(2)强调疑问句()
强调疑问句就是把答案隐藏在问句中,用
86