传统蒙古文在线文本数据库的构筑法与在文本检索系统中
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传统蒙古文在线文本数据库的构筑法与在文本检索系统中的应用 A Method for Producing On-line Text Databases in Traditional
Mongolian and its Application to Text Retrieval
Dula MAN Graduate School of Library, Information and Media Studies University of Tsukuba.
1-2 Kasuga,Tsukuba
305-8550, Japan mandula@slis.tsukuba.ac.jp
Atsushi FUJII
Graduate School of Library,
Information and Media Studies
University of Tsukuba.
1-2 Kasuga,Tsukuba
305-8550, Japan
fujii@slis.tsukuba.ac.jp
Tetsuya ISHIKAWA
Graduate School of Library,
Information and Media Studies
University of Tsukuba.
1-2 Kasuga,Tsukuba
305-8550, Japan
ishikawa@slis.tsukuba.ac.jp Abstract
Exchanging on-line information in the traditional Mongolian script is difficult, due to the
lack of the standard electronization method. Although in Mongolian spelling and meaning can be determined by pronunciation, existing character codes are mainly based on spelling
and cannot represent meaning. To resolve this problem, we propose an electronization method and an input/output interface for the traditional Mongolian script. Additionally, to enhance an on-line text database in traditional Mongolian automatically, we propose a method for transliterating texts in modern Mongolian into traditional Mongolian, because both languages use the same pronunciation system but use different letters. We apply our method to realize a full-text retrieval system for newspaper articles in traditional Mongolian.
关键字: 传统蒙古文,文本电子化,字符编码,字译,全文检索系统
Keywords traditional Mongolian script, electronization of text, character codes,
transliteration, full-text retrieval systems
1.序
随着互联网的普及,在线信息交换已走向日常化、国际化。在这样的高度信息化时代,竖写传统蒙古文的电子化文本却还没有普及。这是由于蒙古文字的特殊性,文字处理软件等各种应用软件都采用着独自的电子化方式,至今还未确立通用性的电子化方式。
蒙古语,包括使用竖写蒙古文字的传统蒙古语,和使用西里尔文字的现代蒙古语的两种文字体系。使用西里尔文字体系的现代蒙古语,电子化方式基本稳定下来,能够进行在线信息交换。本文,主要针对传统蒙古语的电子化方式,和现代蒙古语电子化文本与传统蒙古语电子化文本之间的互相字译规律的研究。以下把西里尔文字书写的现代蒙古语简称为「现代蒙古文」,传统竖写蒙古语简称为「蒙古文」。
蒙古文不能进行在线信息交换,对于使用蒙古文的蒙古人来说,产生了信息利用的不平等,在文化、经济、技术等各个领域呈现出信息差距(digital divide)。要解决这些问题必须首先确立蒙古文电子化的通用方式。
对蒙古文的电子化,作者认为只在计算机的显示器上显示蒙古文字或特定的硬件和软件条件下处理蒙古文是不符合电子化文本的需求。必须在无论什么时候,不管是谁,在通用环境下都可以加工和利用的,具有高度通用性的文本格式才能够满足电子化文本的需求。
自然语言的电子化,有使用该语言固有的字符编码体系(日语的SJIS等),和把该语言的读音信息转写到其他语言的字符编码体系上进行电子化的两种方式。通过现有蒙古文字符编码的分析,作者发现这些蒙古文编码都缺乏通用性。因而,本研究以罗马字转写蒙古文的读音,用ASCII code保存信息来实现蒙古文电子化。实装蒙古文读音输入输出界面进行蒙古文的电子化。并提出,将现代蒙古语电子化文本字译成蒙古文电子化文本的方式,构筑传统蒙古语文本数据库,打好传统蒙古语信息处理研究的基础,实现蒙古文全文检索系统。
2.关于蒙古文电子化的先期研究
蒙古文的电子化研究始于20世纪80年代初。在中国、蒙古、日本、德国等各国至今仍在进行研究。然而,由于蒙古文文字的特殊性,至今尚未确立通用的电子化方式。
到目前为止已提出的关于蒙古文的电子化方式,可分为“以蒙古文字符编码电子化”和“利用罗马字转写输入电子化”的两种。
2.1 字符编码电子化
以蒙古文字符编码的电子化方式有GB,智能,SUDAR,方正,MLS,U nicode等编码体系。GB,智能,方正编码体系着重于将蒙古文字的字形以字素,字母,音节等混合要素进行编码。在本文中这种编码体系叫作混合编码。用混合编码进行电子化的数据不能区别同形异音字,无法进行按音素分解等缺陷。SUDAR编码是按字母编码,但是将蒙古文字的词头,词中,词尾的字形分开编码。按音素分解的词处理时需要编码变换。MLS是以字素编码,不能区分同形异音字和不能保存读音信息[3]。Unicode是以音素编码,是最理想的编码体系。但是,现在还未公开字符集并需要字形字译的生成机制。因此, Unicode还未达到实用阶段。
2.2 罗马字转写电子化
利用罗马字转写的电子化方式,具有代表性的有Oliver Corff提出的电子化方式(以下简称Corff方式)和内蒙古大学提出的电子化方式(以下简称内大方式)。
蒙古文共有7个元音字母,其中第4和第5元音字形完全相同[@o]、第6和第7元音也字形完全相同[@u]。但是,这些同形字发音却不一样。而在Corff方式中,忽略了发音不同的问题,把字形相同的第4、第5元音及第6、第7元音只电子化了第5的[@o]和第7的[@u],因此不能区分同形异音字母。于此相反,内大方式是,为了区分同形异音字采用了一些数字和符号来转
写进行电子化。结果不能处理相应的数字和符号混合在一起的数据。
3.本研究的电子化方式和输入输出界面
正如在第2章里介绍的,现有蒙古文字符编码在实用性上存在问题。因此,本研究采用了用罗马字转写的电子化方式。
蒙古文书面语和口语有差别。口语在地区之间差距较大。但是,书面语相对比较稳定。因此,本研究以书面语为标准进行电子化。
在口语中,第二音节以后一般不出现第四元音 @o 和第六元音 @o/ [1]。这是一种元音脱落现象。但是,在书面语中则需全部标明。例如,在书面语中@oal o sW olosO ,在口语中则 ols 。在后者中出现第2音节的元音脱落现象。到目前为止的先期研究中采用的都是口语体系,造成一部分元音字母的信息损失。而本研究以书面语为标准,以蒙古文发音进行电子化。这样既可以完整的保存蒙古文字母的全部信息,又可在不损失读音信息的情况下与不久的将来公开使用的Unicode进行相互字译。
在本研究,用罗马字转写时不使用数字和罗马字字母以外的符号,只用罗马字字母进行电子化。并且,蒙古文字母的读音以两个以上罗马字构成的读音,利用另外一个罗马字进行电子