《现代蒙古语名词义素词典》的建设及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《现代蒙古语名词义素词典》的建设及其应用
林八鸽
【摘要】《现代蒙古语名词义素词典》是为实现自动分析与自动生成蒙古语语句
而研制的一部机器词典。
是蒙古语语言知识库的有机组成部分。
《现代蒙古语名词义素词典》采用关系数据库技术,运用特征结构方法,在access数据库中刻画名词及其语义属性信息的二维关系。
作为“蒙古语语言知识库”的一个有机组成部分,该词典对具体的应用系统提供知识准备,具有通用性和可扩充性的特点。
%"Modem Mongolian Noun Sememe Dictionary" is automatic analysis and automatic generation of Mongolian languag a machine dictionary, which is complied for e. It is the organic component of Mongolian language knowledge base. Using the relational database technology and applying feature structure analysis, "Modem Mongolian Noun Sememe Dictionary" describes two dimensional relationships of each noun and their semantic attribute information in access database. This paper will introduce the attribute field and its value of "Modem Mongolian Noun Sememe Dictionary" in detail, and mainly discuss application and significance of development of the dictionary.
【期刊名称】《满语研究》
【年(卷),期】2012(000)002
【总页数】4页(P48-51)
【关键词】现代蒙古语;名词;义素词典;属性字段
【作者】林八鸽
【作者单位】内蒙古民族大学蒙古学学院,内蒙古通辽028043
【正文语种】中文
【中图分类】H351
在蒙古文信息处理中,知识资源的开发和利用是亟待解决的重要工作。
知识资源的开发主要集中在蒙古语语法信息词典的开发,面向信息处理的蒙古语语义研究及语料库的深加工等基础研究方面。
完整地描述蒙古语词语语法、语义特征的知识体系,包括知识本身以及描述这些知识的形式化手段,是正确地分析和生成蒙古语词语和语句的基础。
[1]《现代蒙古语名词义素词典》是为实现自动分析与自动生成蒙古语语句而研制的机器词典,是蒙古语语言知识库的有机组成部分。
《现代蒙古语名词义素词典》采用关系数据库技术,运用特征结构方法,在access 数据库中刻画名词及其语义属性信息的二维关系。
该词典收录《蒙古语语法信息词典名词分库》的所有词条,并把多义词的每个义项按词条输入到词典里,这点与《蒙古语语法信息词典名词分库》不同。
如,“GOOL①文中蒙古文拉丁转写沿用内蒙古大学拉丁字母转写方法。
”一词有“中心、中央、正中”(基本义),“轴心、中枢、枢纽”,“根本、基本”,“要点、中心点、核心、精髓”,“(瓜果谷物等的)心、瓤”,“主动脉”,“(灯、烛的)芯、捻儿”等7个义项,[2]因此该词典收录7个“GOOL”,分别对其进行义素分析。
一、属性字段描述及其取值
根据词典释义,《现代蒙古语名词义素词典》初步设计出易于机器处理的16个属
性字段,今后将不断对其进行扩充或完善。
其中“序号”,“蒙古语”,“拉丁转写”,“词性”等四个属性字段是从《蒙古语语法信息词典名词分库》[3]中继承下来的。
《现代蒙古语名词义素词典》中所设置的属性字段的值有字符型和数字型两种类型。
属性字段名称的设计,尽量使用表示该特征的蒙古语词,以便用户容易从字面上能够意会,采取直接用自然语言形式表示的方法。
如,(MONGGOL)、(GALIG)、(HITAD)。
但为在系统中易于描述和节省字节,有些属性字段名称未直
接用自然语言形式表示,而采用简略代码。
如,(UGES AYIMAG)、(JI-VT)、(TO -VT)、(HEBCI-VDHL)、(ILGA-VDHL)、(ADA-VDH_A)。
《现代蒙古语名词义素词典》中设置的16个属性字段的含义及其取值规格如下。
1.序号(N0):指该名词在《现代蒙古语名词义素词典》中的排列次序。
2.蒙古语(MONGGOL):指该名词的蒙古文书写形式,填写该名词的蒙古文书写形式。
3.子类(UGES AYIMAG):填写名词的子类标记,取值为字符型。
如,
DAYIN(Ne2①文中采用了信息处理用蒙古文词语标记集。
)、BAYILDVGAN(Ne2)。
4.拉丁转写(GALIG):填写该词的拉丁字母转写形式,取值为字符型。
如,
DAYIN(DAYIN)、BAYILDVGAN (BAYILDVGAN)。
5.汉语翻译(HITAD):填写与该词对应的汉语,取值为字符型。
如,DAYIN(战争)、BAYILDVGAN(战斗)。
6.领属的最大语义分类(TO-VT):填写该词领属的最大语义分类标记,取值为字符型。
如,DAYIN(Nh),BAYILDVGAN (Nh)。
7.领属的最小语义分类(JI-VT):填写该词领属的最小语义分类标记,取值为字符型。
如,DAYIN(Nhc),BAYILDVGAN (Nhc)。
8.同义词(ADA- VDH_A):填写与该词同义的词,取值为字符型。
如,EJI(EHE︱
②︱:表示“和”。
MOMO),ECIGE (ABV)。
9.是否有表范围的义素(HEBCI-VDHL):有,填相应义素的拉丁转写;没有不填,取值为字符型。
如,GAR1(〔HOMON+〕),GAR2(〔YAGVM_A+〕)。
10.是否有表本质的义素(MON CI-VDHL):有,填相应义素的拉丁转写;没有不填,取值为字符型。
如,GAR1(〔ERHETEN+〕),GAR2(〔ORON BAYIRI+〕)。
11.是否有表位置的义素(0 BAYI-VDHL):有,填相应义素的拉丁转写;没有不填,
取值为字符型。
如,GAR1(〔DEGEDU MOCI+〕),GAR2(〔JEGUN︱BARAGVN&③&:表示“或”。
BVRVGV︱JOB+〕)。
12.是否有表功能或作用的义素(CIDA&UI-VDHL):有,填相应义素的拉丁转写;没有不填,取值为字符型。
如,GAR1(〔BAGAJI HEREGLEHU+〕),GAR2()。
13.是否有表性质的义素(SIN TEM-VDHL):有,填相应义素的拉丁转写;没有不填,取值为字符型。
如,GOOL6(〔HAMVG DOTONO+〕),G00L7(〔CIHVLA&YEHENGHI+〕)。
14.是否有共同义素(NEYITE-VDHL):有,填相应义素的拉丁转写;没有不填,取值为字符型。
“共同义素”是针对同一语义场里的词而设置的。
如,
GAR1(〔ERHETEN +〕),HOL1(〔ERHETEN+〕)。
15.是否有区别义素(ILGA-VDHL):有,填相应义素的拉丁转写;没有不填,取值为字符型。
“区别义素”是针对同一语义场里的词设置的。
如,GAR1(〔DEGEDU MOCI +〕),HOL1(〔D00RADV MOCI+〕)。
16.义素的数量(VDHL- T0G_A):填写该词的义素数量,取值为数字型。
如,
GAR1(4),HOL1(4)。
二、词典的应用
《现代蒙古语名词义素词典》是为实现自动分析与自动生成蒙古语语句而研制的机器词典,是蒙古语语言知识库的有机组成部分。
义素分析法是语义形式化描述的一种有效的办法。
该词典中,词条不再以词的义项来存贮,而是以义素来存贮,可以
使用少量的义素,对大量而难以穷尽枚举的词义作形式化描述。
由于义素表达式是词义的形式化表示,因而计算机易于找出单词词义的相同点和不同点,发现其细微差别。
这有助于计算机识别语义,提高机器翻译水平;通过义素分析法,计算机可
以了解词与词搭配时的限制,突出义位组合的关系,说明词语的搭配能力;为语言
教学和研究提供新手段。
1.词义描述上的应用。
该词典可以对现代蒙古语名词词义作形式化的描述。
如,“BAYILDVGAN”的义项是“DAYISVNGNAGCI H0YAR ETEGED-UN JEBSEGTU MORGOLDUGEN”,义素是〔DAYISVNGNAGCI ETEGED+〕①〔〕:表示义素;+:表示有该义素;-:无该义素。
〔JEBSEGTU MORGOLDUGEN+〕。
这比义项描述更简明、可观。
2.机器翻译中的应用。
该词典能找出名词词义的相同点和不同点,发现其细微差别。
这有助于计算机识别语义,提高机器翻译水平。
如,“DAYIN”和“BAYILDVGAN”是一组近义词,其词义既有相同点也有不同点。
“BAYILDVGAN”的义素是“〔DAYISVNGNAGCI ETEGED +〕〔JEBSEGTU MORGOLDUGEN+〕”,“DAYIN”的义素是〔DAYISVNGNAGCI ETEGED、VLVS UNDUSUTEN、ANGGI BULUG +〕〔JEBSEGTU MORGOLDUGEN+〕〔YEHE HEBCIY_E +〕。
它们的共同点是动作〔JEBSEGTU MORGOLDUGEN+〕,不同点是动作的实施者(〔DAYISVNGNAGCI ETEGED+〕和〔DAYISVNGNAGCI ETEGED、VLVS UNDUSUTEN、ANGGI BULUG+〕)和实施范围(〔YEHE HEBCIY_E+〕)。
3.句法组合关系中的应用。
通过该词典,计算机可以了解名词与其他词搭配时在语义上受到的限制,从而突出义位组合之间的关系,说明其搭配能力。
如,分析下面两个句子:M0RI EBESU IDEN_E.“马吃草。
”和SIREGE EBESU IDEN_E.“桌子吃草。
”
两个句子在语法上都是“主宾谓”结构,是合理的。
但是在语义上是否合理呢?首
先分析“EBESU IDEN_E(吃草)”是否合理,就要看它们是否有共同义素或相关义素。
“EBESU”的义素是〔VRGVMAL+〕〔NARIHAN ESI TEI+〕〔M0D0、TARIY_A、IDESIN N0G0G_A-〕〔AMITAN-V TEJIGEL
BORDOG_A+〕;“IDEN_E”的义素是〔HOMON、AMITAN+〕〔JAJILVN JALGIHV+〕〔YAGVM_A+〕。
它们有〔AMITAN-V TEJIGEL BORDOG_A +〕和〔HOMON、AMITAN +〕的两个相关义素,所以此组合是合理的。
“MORI”和“SIREGE”是动作的实施者,“MORI”的义素是〔HOHOTEN AMITAN+〕〔BITEGUU TVGVRAI TAI+〕〔DEL TEI +〕〔VNVJV HULHU +〕;“SIREGE”的义素是〔HEREGSEL +〕〔TEGSI HABTAGAI NIGVR TAI+〕〔HEDUN HUL TEI +〕〔YAGVM_A TALBIHV&AJIL-DV HEREGLEHU +〕。
从义素看,“SIREGE”不能与“IDEN_E”组合,没有共同或相关义素。
而“MORI”与“IDEN_E”有共同义素〔AMITAN+〕,所以句子“M0RI EBESU IDEN_E.(马吃草)”在语义上合理,是正确的句子。
而句子“SIREGE EBESU IDEN_E.(桌子吃草)”在句法上合理,语义上不合理,是错误的句子。
4.语言教学中的应用。
通过该词典可以辨析近义名词和理清多义名词各个义项之间的联系。
如,“DAYIN”、“BAYILDVGAN”和“TVLVLDVGAN”等三个词是
一组近义词,其义素分别是“DAYIN”:〔DAYISVNGNAGCI ETEGED、VLVS UNDUSUTEN、ANGGI BULUG +〕〔JEBSEGTU MORGOLDUGEN +〕〔YEHE HEBCIY_E +〕;“BAYILDVGAN”:〔DAYISVNGNAGCI ETEGED +〕〔JEBSEGTU MORGOLDUGEN +〕;“TVLVLDVGAN”:〔DAYISVNGNAGCI ETEGED +〕〔JEBSEGTU MORGOLDUGEN+〕〔OHORHAN
HVGVCAG_A+〕。
从义素可以看出它们的相同点和不同点。
名词“GAR”有4
个义项,分别是〔ERHETEN&MOCI+〕〔HOMON-U +〕〔BAGAJI HEREGLEHU +〕〔DEGEDU MOCI +〕;〔CIDABVRITAN +〕〔YAMAR NIGEN AJIL&TVSHAI MERGEJIL +〕〔HIHU&HEREGLEHU +〕〔0NCA
B0LBASVRANGGVI +〕;〔0R0N BAYIRI +〕〔YAGVMAN- V BAYIRISIL-
VN +〕〔JEGUN ︱BARAGVN&BVRVGV︱JOB+〕〔TAL_A +〕;〔SENJI&ESI +〕〔YAGVMAN-V +〕〔BARIHV&ADHVHV+〕〔HAJAGV TAL_A+〕等。
从这里可以理清“GAR”的那个义项之间的联系。
《现代蒙古语名词义素词典》作为“蒙古语语言知识库”的一个有机组成部分,对各个具体的应用系统提供知识准备,具有通用性和可扩充性的特点。
该词典收录14124个词条,并且这些词条义位数量大,义位的结构又复杂,因此对其进行义
素分析是个庞大的工程。
关于义素分析方法至今还没有公认的简单有效的分析方法,分析结果往往与分析者的知识结构有关,带有一定主观性。
因此,本项课题是开发《现代蒙古语义素词典》的开端,既是基础工作,又是尝试性的工作,在今后的研究工作中将不断地完善该词典。
参考文献:
[1]那顺乌日图.“蒙古语语法信息词典”框架设计[D].呼和浩特:内蒙古大学
博士学位论文,2000:15.
[2]内蒙古大学蒙古学学院蒙古语文研究所.蒙汉词典[K].呼和浩特:内蒙古大学出版社,1999:768.
[3]宝金亮.“蒙古语语法信息词典名词分库”的设计与实现(蒙古文)[D].呼和
浩特:内蒙古大学硕士学位论文,2006:42.。