基于拓扑特征的纳西东巴文象形文字输入方法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于拓扑特征的纳西东巴文象形文字输入方法研究
王海燕;王红军;徐小力
【摘要】纳西东巴文字是一种比甲骨文还要原始的图画象形文字,该文针对大量纳西经典古籍资料需要录入、整理、分析的需要,设计一种普通用户即可使用的基于拓扑特征的输入方法.首先针对纳西东巴象形文字的1 561个基本字形的五个拓扑特征-块数、孔数、端点数、三叉点数和四叉点数进行了统计和分析,然后基于Java 程序结合TTF字库文件进行了测试,证明了该方法可行.统计结果表明,50％以上的纳西东巴象形文字通过这五个特征可以唯一识别,80％以上的东巴文字通过该方法识别时重复数不高于4,人工输入、识别的效率较高,为纳西东巴象形文字的输入方法提供一种新的思路.
【期刊名称】《中文信息学报》
【年(卷),期】2016(030)004
【总页数】4页(P106-109)
【关键词】纳西;东巴;象形文字;输入方法
【作者】王海燕;王红军;徐小力
【作者单位】北京信息科技大学机电学院,北京100192;北京信息科技大学机电学院,北京100192;北京信息科技大学现代测控技术教育部重点实验室,北京100192;北京信息科技大学现代测控技术教育部重点实验室,北京100192
【正文语种】中文
【中图分类】TP391
东巴文是一种兼备表意和表音成分的图画象形文字，其文字形态十分原始，甚至比甲骨文的形态还要原始，属于文字起源的早期形态，是世界上极少数依旧活着的象形文字，被誉为文字的“活化石”[1]，被国际学界认为是当今世界上唯一还在使用的象形文字[2]。

之所以被称为东巴文，是因为这是纳西族特有的宗教-东巴教的东巴(智者的意思)们所使用的文字，至今仍被在世的东巴祭司使用，用来主持各种仪式、写信、记账等。

东巴们使用这种文字记录的经书称为东巴经(图1)，2003年纳西族东巴经典古籍被联合国教科文组织列为“世界记忆遗产”(Memory of the World)。

东巴经典古籍内容涉及哲学、历史、宗教、医学、天文、地理、民俗、动植物、军事、文学和艺术等领域，堪称纳西族古代社会的百科全书[3-4]。

但是东巴文一般不容易释读，一直被视为“天书”[5]，目前只有该领域的专家学者和几个已年逾古稀的老东巴祭司能释读。

同时，由于历史原因，大多数东巴经典原始手稿在一个世纪前甚至更早，就被世界上许多著名图书馆和博物馆所收藏，其内容又不被收藏者所了解。

因此，针对东巴经典古籍急需抢救的濒危状况，建立了国家社会科学基金重大项目-“世界记忆遗产”东巴经典传承体系数字化国际共享平台建设研究(项目号： 12&ZD234)，实现东巴文化资源的信息化传播，并推动东巴传统文化的保护与发展。

古籍数字化就是采用计算机技术，对古籍文献进行加工、处理，制成古籍文献书目数据库和古籍全文数据库，用以揭示古籍文献中所蕴涵的极其丰富的信息资源，从而达到使用和保护古籍的目的[6]。

从国内外古籍数字化的实践来看,民族古籍数字化涉及的技术领域非常广泛, 包括三维建模、人工智能、声频、视频技术、语言处理技术、光学字符识别等几十种相关技术。

刘洋等利用数字化技术中的虚拟技术较好地解决由于敦煌地域偏远所带来的参观不便,使人们可以免去长途跋涉而欣赏到敦煌的精彩壁画[7]。

本项目组第一子课题主要进行东巴经典的数字化信息采集与释读过程数字记录，工作包括对国内外收藏信息进行汇集，召开国际研讨会，与收藏机构签订协议，实现无争议共享，对国内外藏品实施数据采集；按国际惯例对东巴祭司释读过程进行现场记录；本项目的第二子课题主要进行东巴经典象形文的释读、翻译与编目整理的研究，通过开展田野调查，进行书目整理和编目；共同分析各国藏本的存量、来源、时间等；以学术成果为基础进行调研、分类与整理，对现存编目进行审核、整理、修正与充实。

通过资料的整理与汇总，并借助计算机和网络技术进行存储，形成包括纳西语、汉语、英语的多语语料库，为信息检索和知识库提供素材，为纳西东巴文字库的建立奠定了基础。

但是由于纳西东巴象形文字只有极少数的人能够辨识，很多原始资
料的利
用效率太低，文字的辨识、整理工作非常困难，同时能兼具纳西东巴文知识、现在汉语知识并熟练应用计算机的人非常少，所以建立一种方便快捷的纳西东巴象形文字的输入法非常必要。

通过在丽江研究院调研，目前应用的纳西东巴象形文输入法主要有云龙公司的国际音标输入法和杨晓辉的电子东巴输入法。

前者通过输入国际音标，输出对应的纳西文字，后者有两种输入形式： (1)通过输入纳西音标，输出对应的纳西象形文字；(2)通过输入汉字，输出对应的纳西象形文字。

这三种方法需要用户本身对纳西文字比较熟悉，仅仅适用于纳西东巴文专家，而对于国际共享平台来说，不能满足其他文字研究专家、社会研究专家、历史研究专家以及一般用户的需求，因此，需要开发一种更加简易、容易理解及易于结合图像处理的输入方法。

3.1 拓扑特征的提取
纳西象形文字是一种图画文字，不具备现代汉字那样规范的笔画和顺序，跟甲骨文类似，表现出线条图的特征，因此可以引用图论中图的概念，把纳西象形文字抽象
为图论中的平面无向图来处理，提取其拓扑特征作为识别的依据，初步提取的拓扑特征有：块数、孔数、端点数、叉点数四种，说明如下：
(1) 块数：即图论中的连通分支，即块的个数；
(2) 孔数：即图论汇总的内网孔数；
(3) 端点数：即图论中度数等于1的顶点，对应于字符中线条的末端；
(4) 叉点数：即图论中度数大于2的顶点，对应于线条的交点，包括三叉点、四叉点、五叉点等。

因为是试验性的研究，故目前仅测试了三叉点和四叉点。

纳西古籍中象形文字的变体较多，即同一个字有多种不同的书写形式，目前统计了1 561个基本字形的拓扑特征，同时为了简化输入工作量，将以上四种特征数大于9的统一标记为9，得到的统计特征如表1所示。

3.2 识别统计
对纳西象形文字的基本字体进行拓扑特征统计后，测试其识别效率，步骤如下。

(1) 单独记录所有的纳西骨架字体中的特征数，如：块数，孔数，端点个数，三叉点数，四叉点数；
(2) 将特征数合成一个字符串，如E900的块数目为1，空数为0，端点个数为2，三叉点和四叉点个数都为0，则合并字符串为：“10200”；
(3) 统计不同特征组合字符串的重复数量。

比如统计特征字符串“10200”的个数为15，表明具有同样特征的纳西文字共有15个；而符合特征字符串“59145”的纳西文字仅有1个。

得到的识别统计表如表2所示，得到的统计直方图如图2所示。

可以看出，有一半以上的东巴字通过五个拓扑特征可以唯一定位，有80%以上的东巴字通过这五个特征进行定位时重复数仅有四个，94.3%的东巴字用这五个特征数进行定位时重复数不高于10。

得到纳西象形文字的拓扑特征后，可以写入统计数据库，然后再结合字库文件进行显示。

曲线轮廓纳西象形文字库一般采用TrueType字库结构，这种字库文件由文件首、文件描述表、目录表和描述表四大部分组成。

文字读取采用多级映射字库访问机制，即当用户使用TTF (TrueType Font)纳西文字时，只需给出该纳西文字的机内码，TTF解释器便查找cmap表得到该纳西文字在loca表中的文字字模序号，再从loca表中获得对应纳西文轮廓数据的存放地址，再从glyf中读出轮廓数据。

因此，基于拓扑特征的纳西象形文字输入方法可以总结为：
(1) 基础：建立基于纳西象形文字拓扑特征的统计数据库；
(2) 输入：用户根据象形文字的拓扑特征进行输入，如需要输入纳西象形文字“”时，可以很容易看出其块数为1，孔数为2，端点为4，三叉点数为0，四叉点数
为3，因此可以直接输入12403，也可以输入部分特征，如124**或者12*0*等，程序根据输入的特征条件自动查找匹配的纳西象形文字；
(3) 输出：通过客户端读取用户的输入，在数据库查找匹配拓扑特征的纳西象形文字，然后输出到客户端；
(4) 选择：用户根据需求确定需要输出的纳西象形文字。

例如，用户需要输入纳西象形文字“”时，可以输入特征124**，这时有11个符合此特征的纳西象形文字，用户可以从中选择自己需要的字形；当用户输入
1240*时，可以看到只有一个符合此特征的纳西象形文字，即客户所需要的。

利用Java程序实现的基于纳西象形文字特征的输入方法结果如图3和图4所示。

纳西东巴象形文字对于民族文化和人类文化的传承有非常重要的作用，其输入方法是国际共享平台中非常关键的一步。

因为东巴文字不为一般用户所认识，目前只有该领域的为数不多的专家学者和几个已年逾古稀的老东巴祭司能够释读。

针对大量的东巴古籍需要进行录入、整理、统计分析的现状，在音标输入法、对应汉字输入法之外设计一种新的输入方法，即根据纳西象形文字的拓扑特征进行识别，针对1
561个东巴象形文字的五个拓扑特征(块数、孔数、端点数、三叉点数、四叉点数)进行统计，然后结合TTF字库文件利用Java程序进行文字的录入和显示，为东巴象形文字的输入提供一种新的思路。

东巴象形文字的变体较多，文章仅统计了基本字形，随着研究的深入，需要增加更多扩展字形的统计信息；同时，对于拓扑特征的优化选择及配置，需要进一步的试验，以提高输入效率和识别效率。

致谢感谢国家重大社科基金对于本研究的支持，感谢丽江东巴文化研究院对本研究工作的支持。

【相关文献】
[1] 林向萧. 关于“东巴文是什么文字”的再探讨 [J]. 云南民族学院学报, 2002, 19(5): 83-89.
[2] X L Xu, G X, H J Wang, et al. Construction of an International IT-Driven Sharing Platform for Inheriting and Communication of Dongba Manuscripts [J]. Applied Mechanics & Materials, 2014, 610: 760-763.
[3] 白庚胜. 白庚胜纳西学论集 [M]. 北京: 民族出版社, 2008.
[4] Zheng Liping. The Living Hieroglyphs, The Picture and Characters of Naxi Dongba [J]. Art and Design, 2009, 12: 311-313.
[5] Nishida Tatsuo. The Living Hieroglyph-Naxi Nationality’s Culture [M]. Japan Public Books.1996.
[6] 牛惠萍, 张琳. 对我国古籍数字化相关问题的研究 [J]. 当代图书馆, 2006, 85(1): 39-42.
[7] Liu Yang, Lu Dongming, Diao Changyu, et al. Dunhuang 284 Cave Multimedia Integrated Virtual Exhibit [J]. Journal of Computer-aided Design & Computer Graphics, 2004, 16(11): 1528-1534.。