对藏文字符基本集UNICODE数据库的商榷

合集下载

藏文文本编码识别方法研究

藏文文本编码识别方法研究春燕;曲珍【摘要】讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较.确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分.在对目标样本的测试中,该算法的识别率可达100％.%This paper discusses critical problems with Tibetan encoding identification and conversion. Accordingto Tibetan character structural and its statistical characteristics, it introduces various possible recognition rules, and the results are analyzed and compared. Used characteristics of distance regulation and high frequency between Tibetan syllables to determination encoding identification of FOUNDER Windows, FOUNDER Dos, Tonguer, HURGURNG Windows, HURGURNG Dos, Pandita, the Tibetan encoding based on ASCII, ISO/IEC10646 basic set and Tibetan coded character sets-Extension A, can correctly distinguish Tibetan text with other languages. The rate of recognition reaches 100% using these algorithms on the test documents.【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)001【总页数】4页(P141-144)【关键词】藏文编码;藏文编码识别;音节点【作者】春燕;曲珍【作者单位】西藏大学计算机科学与技术系,拉萨850012;西藏大学计算机科学与技术系,拉萨850012【正文语种】中文【中图分类】TP391.1对藏文文本的识别由两部分实现：一是识别该文本是否为藏文文本，二是识别该藏文文本所使用的编码方案。

有关藏语言文字及藏文字体发展的调查报告

有关藏语言文字及藏文字体发展和完善旳调查汇报【摘要】 : 藏族历史上旳几次文字改革, 采用了调整那个文字母体系, 简化正字法、规范词语、并立法推行等措施。

从而增进了藏语言文字旳原则化和规范化。

藏语言文字是一种民族区别于其他民族旳重要特性之一, 语言文字旳平等是民族平等旳详细体现。

藏语文作为少数民族语言文字旳重要构成部分, 是在特定旳地理环境和文化条件下, 在漫长旳历史长河中逐渐形成和发展起来旳, 有它自身旳稳固性和渐变性。

长期以来, 藏语文在提高藏民族科学文化素质, 发展地区政治、经济、文化事业, 反对民族分裂, 维护祖国统一中发挥着不可替代旳特殊作用。

【关键词】: 藏语言文字藏文字体发展完善藏语言文字及藏文字体发展和完善旳调查汇报藏语言文字发展历史:藏语言文字是中华民族语言文字中具有悠久历史、体现功能完备旳古老语言文字之一, 它承载着藏民族旳历史和文明, 代表着藏民族旳特定思维方式和习惯, 是中华民族多元文化宝库中旳重要构成部分。

藏语文属于汉藏语系, 千百年来一直是西藏人民旳重要交际工具, 是西藏文化旳重要标志和载体, 在中华民族多元语言文化中占有独特地位。

历史之悠久在国内仅次于汉文,半个多世纪以来, 中国政府高度重视保障西藏人民学习使用藏语言文字旳权利, 为增进藏语言文字旳学习、使用和发展作出了巨大努力, 获得了重大进展。

藏语言文字是一种拼音文字, 属辅音文字型, 分辅音字母、元音符号和标点符号3个部分。

其中有30个辅音字母, 4个元音符号, 以及5个反写字母（用以拼外来语）。

辅音字母每4个字母为一组, 共7组半。

藏语言文字标点符号形体简朴、种类很少, 并且, 其使用规则也与其他文字旳标点符号有别。

藏文标点符号共有6种形式, 其中音节之间旳隔音符号使用频率最高。

此外, 尚有云头符, 用于书题或篇首；蛇形垂符, 用于文章开头处；单垂符, 用于短语或句终；双垂符, 用于章节末尾；四垂符, 用于卷次末尾。

基于藏文编码(基本集)国家暨国际标准的藏文输入法研究

基于藏文编码(基本集)国家暨国际标准的藏文输入法研究贺胜;卢亚军
【期刊名称】《图书与情报》
【年(卷),期】2007(000)006
【摘要】藏文输入法是藏文信息处理领域的基础性研究课题,也是藏文信息化建设的一个瓶颈.文章论述了针对现有藏文输入法存在的问题,旨在突破由"文字"信息处理向"语言"信息处理过渡的难题,研究并开发一种基于藏文编码(基本集)国家暨国际标准和Unicode国际编码标准,以及OpenType字体技术,可在Windows Vista和Windows XP下,支持Internet上的藏文信息交换,用于文字信息处理和语言信息处理的藏文输入法的相关问题.
【总页数】5页(P45-49)
【作者】贺胜;卢亚军
【作者单位】南京师范大学文学院,江苏南京,210046;西北民族大学藏语言文化学院,甘肃兰州,730030
【正文语种】中文
【中图分类】H214;TP391
【相关文献】
1.一种基于《信息交换用藏文编码字符集》国际、国家标准的藏文Windows平台的实现方案 [J], 尼玛扎西;拥错;次仁罗布
2.基于国际标准编码的藏文前加字校对模型研究 [J], 刘文香
3.藏文输入法中快速自适应编码查询算法研究与应用 [J], 欧珠;大罗桑郎杰;格桑多吉;仁青谱布;拉巴泽仁;次仁罗布
4.基于国际标准编码系统的藏文分词词典机制研究 [J], 祁坤钰
5.面向藏文基本集编码的单模式匹配算法研究 [J], 春燕;曲珍;许宁
因版权原因，仅展示原文概要，查看原文内容请购买。

关于藏文的研究报告

关于藏文的研究报告藏文是藏族人民使用的一种文字，属于藏缅语系的一种文字系统。

在研究藏文时，可以从以下几个方面进行探讨。

首先，可以对藏文的起源和历史进行研究。

藏文起源于公元7至9世纪，是在印度的梵文和斯坦语基础上发展起来的一种文字。

在历史上，藏文曾经是藏区地方政府和寺庙文书的主要文字，它的使用范围相对较窄。

其次，可以研究藏文的音韵特点。

藏文有30个辅音和6个元音，辅音之间可以组合成约300个辅音复合字母。

在研究藏文的音韵特点时，可以从发音规律、语音变化等方面进行探讨，了解藏文的音韵系统。

此外，可以研究藏文的语法特点。

藏文的语法结构相对简单，以语序为主导，同时有丰富的词缀和合成制度。

在研究藏文的语法特点时，可以从名词、动词、形容词等方面进行探讨，了解藏文的词法和句法结构。

另外，可以研究藏文的书写系统和排版技术。

藏文的书写系统是从左到右的横排，使用楷书体的字形，每个字母之间有一定的间隔。

在研究藏文的书写系统和排版技术时，可以从字母形状、字母排列、字母组合等方面进行探讨，了解藏文的书写规则和排版技巧。

最后，可以研究藏文在当代社会的使用和保护。

随着社会的进步和发展，藏文的使用受到了一些挑战，如数字化时代的影响、人口流动等。

因此，对于藏文的保护和发展也成为重要的课题。

在研究藏文在当代社会的使用和保护时，可以从教育、媒体、政策等方面进行探讨，探索有效的保护和发展措施。

综上所述，对藏文的研究可以从起源和历史、音韵特点、语法特点、书写系统和排版技术、当代使用和保护等方面进行深入探讨，以加深对藏文的认识和理解，为藏文的保护和发展提供参考和支持。

藏语语言模型的研究现状及展望

藏语语言模型的研究现状及展望
2. 词法分析
词法分析是自然语言处理的基础工作，其目的是将连续的文字序列划分成有意义的词
汇单元。

针对藏语词法分析的研究，主要包括分词、词性标注和命名实体识别等任务。

分
词是最基础的任务，目前已有一些基于规则和统计的方法进行研究，并取得了一定的效果。

由于藏语的特殊性和复杂性，对于分词任务的研究还存在一定的挑战。

4. 机器翻译
机器翻译是利用计算机将一种语言的文本转化为另一种语言的任务。

针对藏语机器翻
译的研究，主要包括基于规则的方法和基于统计的方法。

基于规则的方法主要是利用语法
规则和词典进行翻译，但是对于复杂结构和低频词的处理存在一定的困难。

而基于统计的
方法则是通过建立双语平行语料库，采用统计模型进行翻译，如统计短语的翻译概率等。

最近，随着神经机器翻译（NMT）的兴起，基于深度学习的机器翻译方法也逐渐受到关注。

1. 语料资源的扩充
目前，虽然对藏语的语料资源进行了一定的整理和汇总，但是仍然存在规模较小和领
域较为有限的问题。

未来需要进一步扩充和丰富藏语的语料资源，包括不同领域、不同类
型和不同语境下的数据。

3. 神经机器翻译的应用
随着神经机器翻译的兴起，其在机器翻译任务上的性能已经超过了传统的方法。

未来，可以将神经机器翻译的方法应用到藏语的机器翻译任务上，以提高翻译质量和效果。

藏文编码字符集的优化研究

时，使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到Ｂ在ＭＰ中，得藏文编码使
能正确地反应藏文的构件特征，提出用 “ 定藏文编码的使用方法” 消除《本集》用中存在的歧义以及正确还界来基应理解几个字符的属性等问题。关键词：算机应用；文信息处理；文编码；本集；加字计中藏基上
开展基于藏文的研究方面仍然存在一定的局限性。
引言
藏文字符基本集的编码方案于１９９７年９月被
国家技术监督局批准、布为国家标准Ｇ６５— 发Ｂ１９９
同时，在使用时也发现有歧义产生。本文针对这些
ｐｏｓｓａｍｅｈｏ ’ｄｅｉｉａｉｉｔｎｃｄｅｈａａｔｒ ”ｔｌｍｉａｔｈｅｍｅｎｉｆｅｅｃｓａｏｎｈｒｃｒｐｏｅｔｄｏｆ’ ｎｔｆｃｔｏｎｏｆＴｂｅａｏｄｃｒｃｅｓｏｅｉｎｅｔａｎｇｄｉｆｒｎｅｍｉｇｃａａ— ｔｒ．Ａｔｌｓｅｓａｔ，ｓｍｅｏｔｒｐｏｂｅｓｏｈａａｔｒｆａｕｒｓａｏｒｓｎｄｉｇｘｐｌｎａｉｒｅｉｎｅ．ｏｈｅｒｌｍｆｃｒｃｅｅｔｅｎｄｃｒｅｐｏｎｅａｔｏｎｓａｅｍｎｔｏｄＫｅｙｗｏｒ：ｃｐｕｅｐｉａｉｄｓｏｍｔｒａｐｌｃｔｏｎ；Ｃｈｉｓｎｏｒａｉｎｐｒｅｓｎｇ；Ｔｉｅｔｏｄｂｓｃｓｔｈｅｅｔｒｎｅｅｉｆｍｔｏｏｃｓｉｂａｎｃｅ；ａｉｅ；ａｄｌｔｅ

藏语文本信息处理的几个关键问题分析

, , 。 , , , , ,
1 藏语文本信息处理
系统化找准关键问题一一击破 2 关键问题分析
2 1.,来自。标准问题 : 藏语文本标准研究主要是研究以下两个领域一个是藏语文字自身的标准另一个是藏语信息处理方面的标准藏语作为拼音文字的一种在五个省都有使用有三个方言的分支并且在读音使用词汇方面有较大的差异产生的直接后果就是有很多异体字加大了新词语翻译的难度藏语文本中如果有这些问题存在会让文本信息处理变得更加困难 2 0 0 4 年国家语委在人民地名术语等方面制定了一定规范但是还没有国家统一的规范标准的形成语言文字是承载信息的载体而在这个信息化时代国家的信息化水平如何很大程度上是由语言文字信息处理的标准和规范来决定的最终对我国的国际竟争力产生影响藏语字符在过去的几十年里没有统一的编码资源整合信息交流等都受到了很大的制约白白浪费了很多人力财力目前仍然有一定的不利影响存在所以在信息处理标准方面应该加紧研究 22 词典的开发研究研究藏语信息处理所用的词典有两个方面一是研制分词词表二是研制信息词典前者制定统一的分词词表来帮助处理文本分词后者是分析加工文本语料并且提供机器翻译想要编制藏语文本分词词表首先要对大量的文本数据进行挑选将其中具有合理结构明确意义并且比较有代表性的词条挑选出来然后组成词表这个过程不仅漫长而且非常艰难目前还没有关于藏语文本中的词频字串频等的统日数据人工分词语料库也是一片空白无法进行词表的验证这些基础工作没有完善就无法顺利进行藏语文本分词词表的研制在今后的工作中研究者应该直面这些困难积极解决避免重复劳动语法信息词典中的内容是藏语语法词法以及与以信息知识覆盖面非常广泛在机器翻译和深度加工文本语料上意义非常 0 年代以来我国就重视研究语言中的单个词语了因为从上世纪 8 对个体词的规则有了详细而准确的认识以后就可以更好的找出个性中蕴含的深层共性规则了研究藏语语法词典的迫切性体现在两个方面一是为建设大规模标准语料库打下良好的基础句法规则标注词性标注以及语义标准都属于藏语文本语料标注中的内容 ; 二是更好的支持汉藏或者藏汉机器翻译机器翻译所用的词典中必须要有语法词法和语义信息还要包括语义特征固定搭配等内容才可以更好地消除歧义准确的进行语言单位的识别但是目前来说这些都是非常艰巨的任务在未来的语言工程项目

Unicode藏文分词系统的设计

７７
青海师大才智杰先生描述了班智达藏文分词系统的设计和实现，该分词系统只能用于班智达藏文文本
信息技术
象词，在词典中进行整词二分查找。查找不成功则词
长ｌ递次减一并循环，至匹配成功。但是，直据数据统计，语中以单音节、藏双音节、音节和四音节的词汇三
大学祁坤钰先生发表《息处理用藏文自动分词研信究》提出格切分、，边界符判定和模式匹配的多级分词方法。基于规则的藏文分词方法是在海量语言知识库
的基础上进行智能分词。就目前的计算机技术来说，基于纯规则的藏文分词方法在知识库的组织与各模块
《西藏科技）０２７（）１年期总第２２期）２３
文字符号。符号库的元素作为藏语天然的切分特征标
记，可用于文本断句、块等分词处理的前期工作中。分３２ｕｉｏｅ藏文音节字的ｈｓ．ｎｃｄａｈ表
词和接续特征的藏文自动分词方案》《、现代藏语组块分词的方法和过程》《和信息处理用藏文自动分词研究》均对藏文分块方案进行了很有应用价值的学术研
究。
尔科夫模型。与实际的语言相比，该模型有不切实际
假设条件。故此方法在实际应用中有较大的局限性。
北民族大学祁坤钰先生２１０１年１２月发表了《于国基
北京大学计算机语言学研究所陈玉忠先生等人在２００２年发表了《于格助词和接续特征的藏文自动分基

藏文文献数据库建设现状综述★

218收稿日期:2020-03-04*基金项目:国家社会科学基金一般项目(批准号16BTQ037)作者简介:李梦瑶(1996—),女,山西晋城人,研究生,研究方向:文献信息化。

通讯作者:胡建(1980—),男,四川成都人,博士,副教授,研究方向:文献信息化、群体智能。

0 引言藏文创制于约7世纪,距今已有超过1300年的历史,其历史长度、文献丰富程度在我国都仅次于汉文,是璀璨中华文明的重要组成部分[1]。

千年来藏族人民用藏文翻译、记录、总结、编纂了大量文献资料存世。

本文将调研并分析藏文文献的类型和分布情况,以及当前藏文典籍的传承及其保护现状。

1 藏文文献类型及分布情况藏文文献是研究和认识藏族及其思想、哲学、宗教、科学技术等文明极其重要的资料。

藏文文献有古藏文写卷、藏文佛教经典、藏传佛教文化典籍、医学、建筑绘画、语言文字和诗歌、戏剧文献等类型[2]。

其中,古藏文写卷有敦煌古藏文文献、金石铭刻、竹简木牍等;藏文佛教经典除藏文《大藏经》外,藏族学者编写的文集著作也是其重要部分;藏传佛教文化典籍主要包括教派史、寺院志、传记三种。

藏文文献在分布上呈现地域性的特点。

藏区作为藏族人民精神和文化生活的摇篮,藏文文献资源相比于其他地区较为丰富。

在藏区范围内,相关文物、文化部门充分发挥其区域优势,将藏文文献的收集、保护和开发利用工作列为工作重点。

由他们多年的走访、普查、整理建档和购置,积累了数量较多的文献资料。

国内的藏文文献主要分布在西藏、青海、四川、甘肃、云南、北京等地,文献多为古籍、书籍、期刊和图片,广泛为佛教寺院、科研机构、出版机构、公共图书馆以及各民族院校图书馆等单位收藏[3]。

2 国内外藏文文献数据库建设现状由于历史原因,我国有相当一部分藏文文献辗转、流落于海外。

国外学者对涉藏学术领域关注较早,20世纪著名的藏学研究人员有:意大利藏学家朱塞佩·图齐、法国藏学家石泰安、美国著名藏文文献专家金·史密斯以及弗吉尼亚大学戴维·吉玛诺博士等。

藏文输入法和字体

浅析藏文输入法和字体(转载于羊兄）默认分类2010-12-17 21:32:20 阅读405 评论1 字号：大中小订阅在这里我想给大家介绍和分析现有的部分藏文输入法和四十多种字体，并提供下载，不断更新内容！虽然不够严谨学术，但作为一个常识性来了解，并理清思路，从而选择对自己最舒服最便捷，最能有助于推进藏文网络化和国际化的输入法和字体！当我们都默默地达成共识时，不再需要为藏文输入法和字体统一而苦恼，一切都会很自然地走向更好的发展！一、藏文输入法介绍1、同元藏文输入法和字体：同元是最早的藏文软件之一，2005年左右本人就接触过。

2006年考上大学一直使用同元，后来由于班智达的输入便捷和字体的优越性自然放弃了同元，选择了班智达。

优势：无。

虽是国内最早的输入法之一，如今已经逐渐推出网络和办公等应用。

劣势：输入法键盘布局不够灵活，输入法梵文时有困难，字体不够丰富，其中最致命的是它的字体编码不是国际统一的标准，字体都是一些汉字古文或不常用的字体为根基研发的，对藏文字体编码统一、藏文网络化和国家化有很大的阻碍。

趋势：曾经一度使用同元的各种政府或机构的网站和文件等现在基本改用为喜马拉雅（Himalaya、Monlam3）。

下载地址：/f/12106153.html2、班智达输入法和藏文字体：班智达是青海师范大学藏文智能信息处理中心研发的软件，作为最早出世的藏文软件之一，到现在还有庞大的用户群体，甚至不少人爱不释手。

优势：键盘布局适合，输入便捷，同时也是元老级输入法。

劣势：输入梵文有困难，字体不够丰富，字体编码不是国际统一的标准，字体都是一些汉字古文或不常用的字体为根基研发的，对藏文字体编码统一、藏文网络化和国家化有很大的阻碍。

趋势：支持班智达和使用班智达的集中于30多岁的人群中，而年轻人基本都在使用喜马拉雅或Monlam3，所以在未来年轻人势必会带动整个藏文信息发展同时别的人群也势必会靠近年轻人的发展，不然自然会落后会被淘汰。

藏文信息处理技术的研究现状与展望

在自然语言处理方面，藏文自然语言处理技术的研究还处于起步阶段，需要进一步发展和完善。
研究现状概述
藏文信息处理技术研究现状
02
03
藏文数据资源建设
藏文数据资源是藏文信息技术的重要基础，包括藏文语料库、藏文词典等。
藏文信息技术基础研究
01
藏文字符研究
藏文字符集的研究以及藏文字符库的建立，是藏文信息技术的基础。
藏语句法分析技术研究
藏语句法分析是藏文自然语言处理技术的重要方向，包括基于规则的句法分析和基于统计的句法分析等。
藏文智能语音识别是藏文智能语音交互技术的基础，包括基于深度学习的语音识别和基于规则的语音识别等。
藏文智能语音识别技术研究
藏文智能语音合成是藏文智能语音交互技术的另一个基础，包括基于深度学习的语音合成和基于规则的语音合成等。
文物鉴定与保护
03
通过藏文信息处理技术，对藏族文物进行鉴定、保护和修复，提高文保工作效率和准确性。
利用藏文信息处理技术，开发在线教育平台，提供藏语课程、学习资源和互动交流等功能，促进藏族地区的教育普及。
藏文信息处理在教育领域的应用
通过藏文信息处理技术，开发智能辅助教学系统，为教师提供教学辅助工具和学生个性化学习方案，提高教学质量和效果。
技术融合一
藏文信息处理技术与其他技术融合发展展望
藏文信息处理技术的标准化和规范化。未来藏文信息处理技术的发展需要不断推进标准化和规范化工作，制定统一的技术标准和规范，促进技术的交流和应用。
发展方向一
藏文信息处理技术的普及和应用。随着技术的不断发展，未来藏文信息处理技术将得到更广泛的普及和应用，为藏族人民提供更加优质的信息服务，促进藏区经济和文化的发展。
病例资料管理

藏文编码格式

藏文编码格式对于藏文编码格式，现在常用的有两种：一种是Unicode编码，另一种则是Tibetan Machine Uni编码。

Unicode编码是一种国际标准，它可以解决文字的多语种和多方言问题，而且还可以与不同的计算机和操作系统兼容。

Tibetan Machine Uni编码则是一种专门用来显示西藏语言的编码，它的目的是为了更好地显示和打印藏文。

在使用藏文编码格式时，我们需要了解其基本规则，比如：1. 藏文字符单元：一个字母、一个符号或一个音节就是一个单元。

2. 拼写规则：藏文拼写是字母、符号或音节组成的，通常一个字母或一个音节代表一个发音。

3. 音节符号：在藏文中，有许多的音节符号，例如母音符号、声调符号、撇（hŭl）等，需要按照规定使用。

4. 字母分类：藏文中的字母有5类，即yig mgo mdun gyi tshig、yang mgo mdun dkar、yang mgo mdun rtse、yang mgo can yig、yang mgo gzhi med，并且每类字母都有相应的拼写规则和使用方法。

除了以上这些规则外，我们在使用藏文编码格式时还需要注意以下几点：1. 选择合适的编码格式：学习和使用藏文编码格式前，需要考虑与自己使用的软件和操作系统是否兼容，选择合适的编码格式。

2. 练习写字：像其他语言一样，练习写字是非常重要的，不仅可以加深对字母及其组合的认识，还可以提高书写的速度和准确度。

3. 多阅读藏文资料：阅读藏文资料可以帮助我们更好地了解藏文语法规则及其应用。

4. 合理使用输入法：在电脑上输入藏文时，需要使用相应的输入法，熟练掌握藏文输入法能极大提高输入速度和准确度，减轻打字疲劳。

总而言之，藏文编码格式的规则和使用方法需要学习和实践，但只要掌握了它的基本规则、练习了写字，多阅读和合理使用输入法，就可以更好地应用和传承藏文。

Unicode藏文分词系统的设计

作者：才华普布卓玛
作者机构：西藏大学图书馆,西藏拉萨850000
出版物刊名：西藏科技
页码： 77-80页
年卷期： 2012年第7期
主题词：藏文信息处理分词 hash表逐字二分法
摘要：微软公司以叠置引擎和OpenType字库技术为基础，于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。

该系统支持与藏文书写方式相一致的输入法，并能解决国内其他藏文系统普遍存在的缺字问题，其发展趋势很强，已成为藏文资源及藏文应用软件开发的主流平台。

藏文分词作为信息处理的基础性工作之一，在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用，所以很有必要对Unicode藏文文本进行分词研究。

基于Unicode的藏文网页搜索探讨

文为乱码。
第一，收录大众所熟知的、知名度较高的藏文网站。第二，收
Ｕｎｉｃｏｄｅ从３．２版开始，全面支持藏文，为藏文设置了１９２个码点［１＿，同时支持世界大多数文字，使用藏文可以和多种语言文字在页面上并存显示，最新版本的Ｕｎｉｃｏｄｅ已经收录１０万个字符。Ｕｎｉｃｏｄｅ藏文编码很好地解决了藏文字母堆叠的问题，认为藏文字母只分为基字和下接字母两种，改进了藏文字传统的“ 前
文献标识码：Ａ
藏文是藏民族的传统文字，有着悠久的历史，藏文字承载着藏民族文化的传递和延续。在互联网高度发达的今天，越来越多的藏文资讯出现在互联网空间，带给人们更多更丰富的藏民族文化信息和藏文即时信息。习惯于使用搜索引擎访问中英文网站的人们，也渴望拥有藏文网页搜索工具来探索未知的藏文网
２０１４年
第２４卷
第１１期
收稿日期：２０１４ — ０４ — ２１
：ｌ：
基于Ｕｎｉｃｏｄｅ的藏文网页搜索探讨
张云洋，刘芳
（１．西藏大学图书馆，西藏拉萨，８５００００；２．西藏大学工学院，西藏拉萨，８５００００）摘要：藏文网页搜索是藏文计算机技术和藏文网站发展的必然要求，藏文字的特殊
据各编码表与Ｕｎｉｃｏｄｅ码表的对照关系，将这些藏文进行编码转
结构和藏文编码的多样性给网页的统一检索造成一定的困难，使用基于Ｕｎｉｃｏｄｅ的藏

面向藏文基本集编码的单模式匹配算法研究

复杂度为０（Ｍ＋Ｎ）。Ｒ．Ｓ．Ｂｏｙｅｒ和Ｊ．Ｓ．Ｍｏｏｒｅ设计了ＢＭ算法，ＢＭ
算法是一种基于后缀搜索的完成匹配的算法，该算法
时间复杂度在最优情况的下为Ｏ（Ｎ／Ｍ），在最坏的情
受限。在藏文中该匹配算法有进一步改进的空间，文章提出一种改进的针对藏文编码的ＢＭＴ（Ｂｏｙｅｒ — ＭｏｏｒｅＴｉｂｅｔ）模式匹配算法。ＢＭＴ针对藏文ｕｎｉｃｏｄｅ编码以及藏文音节特征，修改并优化了算法匹配过程，在执行精确匹配时消除了冗余匹配，增大了单次精确匹配后的滑动距离。该算法性能优异，算法能
毛鼋ｅ霹长譬奢．
三．乱
基
髻
霹氢
征的分析，在此给提了一种基于藏文文本改进的
分的利用ＢＭ系列来改进算法之间的存在的差异性继而实现失配窗口的右移距离的最大化，尽量减少不必
表１ＢＭ算法移动过程
要的匹配过程。
基于对传统经典匹配算法以及对藏文音节特有特
岳气 ●
的的距离局限在１字节内，故需要对ＢＭ模式匹配算法
单模式匹配算法的研究在国内外都已经比较成
熟。１９７０年，Ｓ．Ａ．Ｃｏｏｋ在理论层面上已经证明了单模式匹配算法的时间复杂度为Ｏ（ｎｌ＋ｎ）Ｊ，Ｂｒｕｔｅ— Ｆｏｒｃｅ（ＢＦ）匹配算法则较为直接，但是测试其时间复杂度时较高，为Ｏ（Ｍ ×Ｎ）。Ｄ．Ｅ．Ｋｎｕｔｈ、Ｖ．Ｒ．Ｐｒａｔｔ和Ｔ．Ｈ．Ｍｏｍｓ则是仿照了Ｃｏｏｋ的证明来构造了ＫＭＰ算

藏文排序研究现状与存在问题

将会为以后藏文研究工作者带来很大其次，选取了一些有代表性的编码序
Ｉ１１ｌ黄鹤鸣，达飞鹏基于排序的现代
方便。文献【５Ｊ讨论了藏语语法规则但列来测试算法的有效性。文献【１３】提藏文音节判ｋＵＩ．计算机应用，２Ｏ（１９（７）．
研究Ｕ１，中文学报，２０１４－５．尼玛扎西藏文信息技术的现状、存
在问题及其前景西藏大学学报，１９９７—１１
现代藏文音节结构判定算法，针对受【１１】提出了根据藏文编码国家标准
ｆ６ｌ江获，康才峻书面藏语排序的数
Ｉ９１黄鹤呜，赵晨星．基于ＤＬＴＣＥＴ的藏文排序方法中文信息学报，２ｏｏ８（７）．
１１珠杰，欧珠．基于藏文编ＧＢ的藏
字结构特点和语法规则的藏文排序，个编码（辅音）在音节结构中的位置。文排序方法研究西藏大学学报，２（１（１８．３３．
大的渴望，１９８６年青海师范大学研发位置的判定。文献【９１提出了引入藏文
的藏文操作系统揭开了藏文信息技术字符集扩展集Ａ中的Ｕｎｉｃｏｄｅ编码
参考文献化发展的序幕，此后国内的藏文信息为排序码对藏文组合字符进行排序的
ｆ１１李继文，刘成，黄鹤鸣．现代藏文音
研究方面计算机技术水平开始逐步提高，藏文信息处理中藏文文字的排序是藏文信息处理领域的一项不可缺少的关键所在，也是一直以来有待解决的问题。目前藏文字排序研究的文献有十几个，文献 … 中可以提出二义性音节在日常生活当中的应用价值；文献【ｌ１中建立了基于Ｕｎｉｃｏｄｅ编码的

sqlserver 藏文排序规则

一、概述SQL Server是一种流行的关系型数据库管理系统，它支持各种语言和字符集。

其中，藏文作为一种冠方语言，其排序规则对于数据库中数据的存储和检索至关重要。

本文将对SQL Server中的藏文排序规则进行深入探讨，以便读者能够更好地理解和应用这一规则。

二、SQL Server中的藏文排序规则简介1. 藏文字符集在SQL Server中，藏文字符集采用Unicode编码，它包括各种藏文字符及其对应的排序规则。

Unicode编码是一种标准化的字符编码集，它为不同语言和文字提供了统一的编码和排序规则。

2. 藏文排序规则SQL Server中的藏文排序规则是基于Unicode编码的，它可以确保不同藏文字符的排序和比较是准确和一致的。

这些规则不仅涵盖了基本的藏文字符，还包括了声调、重复字符和复合字符等特殊情况的处理。

三、SQL Server中的藏文排序规则的应用1. 数据存储在使用SQL Server进行数据存储时，应根据藏文排序规则将数据按照正确的顺序进行排列。

这样可以保证数据的存储和索引性能良好，并且能够正确地进行排序和比较操作。

2. 数据检索在进行数据检索时，SQL查询语句可以利用藏文排序规则进行精确的检索和排序。

这样可以确保检索结果的准确性和一致性，避免因排序规则的不当使用导致的错误结果。

3. 索引优化SQL Server提供了针对藏文排序规则的索引优化功能，它可以根据具体的排序规则进行索引的创建和优化。

这样可以提高数据库的检索效率和查询性能，减少数据访问的时间和成本。

四、SQL Server中的藏文排序规则的设置和配置1. 选择合适的排序规则在创建数据库和表时，应选择合适的藏文排序规则，以确保数据的正确存储和检索。

SQL Server提供了多种藏文排序规则可供选择，用户可以根据实际需要选择最适合的规则。

2. 修改和更新排序规则如果在数据库运行过程中需要修改或更新排序规则，可以通过SQL Server管理工具进行相应的操作。

藏文字笔画编码排序的设想

藏文字笔画编码排序的设想刘城;黄鹤鸣;李继文【摘要】藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.%Tibetan sort will be widely used in every aspect of Tibetan language text information processing,including word,dictionary sequence,system software and other application software.This paper attempts to describe Tibetan writing stroke sorting rules which make more correct,reasonable induction,the purpose is to find a sorting algorithm model that could realize automatically the Tibetan strokes character.And which break the framework in Tibetan character syllable sequence depends only on the syllable key radical structure sorting traditional of thinking.【期刊名称】《计算机系统应用》【年(卷),期】2013(022)005【总页数】3页(P18-20)【关键词】藏文;笔画编码;笔画;模式识别;音节【作者】刘城;黄鹤鸣;李继文【作者单位】青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008【正文语种】中文藏文的字母和其它符号有一定的笔顺, 藏文 1的笔顺有些和汉文字的笔顺一样, 按照笔顺写, 字才写得漂亮. 不过, 笔顺作为规则是活的, 各种教材里的英文字母笔顺体样式就多种多样, 汉字笔顺也时有调整, 所以对藏文的标准不唯一, 是正常现象.1 常见藏文字体的笔画样式概述首先我们来分析以下列出的3套体系的藏文印刷体笔顺, 各有一些差别(包括声调符号). 不难看出他们的字体样式会有所不同, 但字的笔画是近似的. 三类分别为: 一是带有箭头笔画指向的版本藏文字书写,见图1; 二是藏族朋友们初学时, 教师常教的一种藏文字书写笔画顺序, 见图2; 三是藏文报刊、教科书的上的书写版本, 见图3. 图1 带有箭头笔画指向的藏文字书写方式图2 教师常教的一种藏文字书写笔画图3 藏文报刊、教科书的上的书写版本通过上面公认的三套体系的藏文书写版本, 因人而异的会喜欢自己的一套书写藏文的笔画顺序, 作为写惯了中韩文日文的学者朋友们, 肯定会将其与其他文字的书写笔画或方式进行对比, 不难看出, 藏文的笔画字体有其独特的特点是: 每个字母最上一笔是横直的, 字母排列时．上端必须在一条直线上, 形似平顶帽. 由于这种字体多用作刊印书籍、录、写文章的字体, 也成出版字体, 另一种笔顺书写则很随意.对于每一个了解和熟悉藏文字的人, 笔画和书写是习得文字的前提, 因此采取笔画编码形成的输入方法不但规范而且易于掌握, 无需强记, 真正可以做到计算机汉字输入如同写字, 得心应手.2 计算机藏文字笔画编码具有它的科学性计算机藏文字编码包括字库编码和输入法编码两类[1]; 其中输入法编码分为, 键盘输入法编码和非键盘输入法编码; 在键盘输入法编码中主要有音节编码和字型编码两大类. 经过长期深入研究和实践, 我们认为计算机藏文输入法采取笔画编码具有其它方法难以逾越的优势, 它能最有效地解决无法用藏文音符编码输入所有藏文的问题, 它能最有效地解决以往字型类编码难学难记的问题.同样是拼音文字的现代藏文, 也有其科学的、明确的、传统的排序规则, 只是由于现代藏文在字符结构构成、拼写方法和书写走向等方面与英文有所不同,使得对现代藏文排序规则的描述相比英文字符排序要多些步骤.任何一种语言文字都有自己的排序规则, 人们在使用该语言文字时都习惯性的有种共识和规范. 人们在使用这熟知和共同遵守的规则, 可以对各种字符、词典和字、词表以及查找其中的字符进行编排. 例如:英文作为在世界范围内最普遍实用的语言文字, 有其自身的排序规则要求. 在众多程序设计语言的库函数中也都有其字符(串)比较函数(模块), 这样对程序员编程来说很方便, 也更有利于广大用户的使用.3 藏文字的笔画规范3.1 藏文字笔画顺序具有很强的规范性汉字的笔画编码在上世纪八十年代风行一时, 此文的思路基本上按照这个思路进行编码, 因为汉藏文字属于同一体系, 所以从原则上这是讲得通的: 由于国家语言文字委员会对藏文字定有《现代藏文通用字笔顺规范》, 小学藏语文教学必教笔画顺序, 因此采取笔画编码是书写藏文字的人都可接受和掌握, 它不要求什么特殊的记忆, 只要会写的人就能使用, 这点与汉字的笔画编码的理由一致. 汉字的笔画编码已经在被人们广泛使用, 所以藏文字笔画顺序具有很强的规范性.在实际编码中, 由于藏文字结构具有较强的规律性,但是藏文字很少有完全相同的, 个别笔画的使用常常凝聚在部分组合上, 而且藏文字的单音节字符笔画多的达到 6画以内, 按照标准四键编码, 如不进行有效合理的处理, 重码率[1]难以降低. 因此在制定编码技术过程中,必须着重根据藏文字的笔画分布规律, 结构规律, 普通人群的识字规律对所有藏文字笔画和结构以及词组进行充分整理和分析, 确定符合人机行为学的编码规则.藏文字本身由简单的藏文基本音节构成, 也可以看成是由基本笔画通过不同顺序和笔画数组合构成,笔画和笔画顺序完全相同的藏文字极少, 这就使得我们有针对性地采取一定的措施之后, 笔画编码是能够有效地控制编码重码率的.3.2 藏文字笔画的结构藏文字笔画分布规律要求最合理的定义使用的笔画, 在汉字笔画中包括“横、竖、撇、捺、点、折、弯钩、提”, 而在藏文字中这些笔画的使用率各不相同,有些使用率很低, 以30个基字单音节为例研究藏文文字笔画的使用频率分别为: 横的使用率为96.67%、撇的使用率为20.02%、捺的使用率为6.67%竖的使用率为 33.3%、弯钩的使用率为 10.03%、提的使用率为3.33%. 因此需要科学的归类和组合笔画才能最合理的代表藏文字组字信息, 以均匀分布笔画编码.其中结构规律要求最直观的是定义藏文字字型,并科学的确定笔画分配, 藏文字字型包括“左右型、上下型、左中右型、上中下型、独体型”等等, 由于藏文字字符串笔画数多, 笔画编码必须根据字型分配笔画,此时必须考虑编码的重码率, 这一点很重要, 任何编码如果重码率太高, 就意味着输入时需要更多的选择,输入效率不高是一个方案被淘汰的主要原因之一, 因此在藏文字字型选择越多则编码重码率就易于下降,但规则就相对复杂, 因此应尽可能的简单化. 设计补充藏文字笔画编码是由于部分藏文字笔画较少, 不足以编辑四码; 采取两种方法共同补充, 一是按标准藏文音节字母顺序补充, 二是重新按藏文字书写笔画补充, 从而确保了会使用藏文字汉化音的和会藏文字笔画的人均可以方便灵活使用.4 藏文字符音节构成部件的基本字符Unicode现代藏文编码字符集为现代藏文分配的编码空间是从OFOO至OFFF. 其中, 对现代藏文字符的音节是按类连续编码的, 字符的分类规则和排放顺序完全依照现代藏文传统的排序方法. 针对藏文字符的30个辅音字母连续分配于OF4O至0F69之间, 4个元音符号分配于OF71至OF7D之间. 因此, 比较现代藏文字符音节间各构件时, 不需要再为辅音字母和元音字符编码进行编码, 直接比较其字符音节的编码值. 根据Unicode国际字符集编码原则, 现代藏文的上加字音节必定都为非组合用字符区的字符, 下加字音节则都为组合用字符区的字符, 通过代码值就可以正确反映它们的排序顺序. 藏文字符音节构成部件的基本字符具体如下表1:表1 藏文字符音节基本字符表?因此, 要设计符合规范的现代藏文字排序模块, 必须使之完全基于Unicode现代藏文编码字符集及其编码原则, 本文就是基于 Unicode现代藏文编码字符集标准进行应用设计构思的[2-5]. 在藏文字中“横竖撇捺点折弯钩提”对其笔画部首进行编码, 将会很省计算机的内存空间, 处理数据的时间度将会降低. 这样更方便、更有效的字符编码排序的趋势也将会更快捷和简单化.5 对现代藏文字笔画编码排序顺序的构思现代藏文排序将被广泛应用于现代藏文字符的字处理的各个方面, 包括字、词典的排序、系统软件和其他应用软件. 目的是在 Unicode国际字符编码的标准下, 实现一种在计算机里自动分割现代藏文单音节排序的算法模型. 采用藏文笔画编码的排序前提还是要依赖于藏文基本字符音节的科学排序规则.现代藏文字笔画分部有如下表2:表2 现代藏文字笔画分部?掌握藏语知识的人, 他们对现代藏文语言文字的传统人工排序规则很熟悉, 他们能很快的进行编排和查找现代藏文词典. 可是想要在计算机中实现对这一传统的排序规则做一个简单明了而又富有逻辑性的描述却具有一定的挑战性. 现代藏文字符音节的排序是指依照一定的规则, 对输入单个现代藏文音节结构部件进行优先级的排序, 从而指出现代藏文单音节的各个结构部件, 为进一步的多音节现代藏文排序提供很好的参考与实现. 对现代藏文字笔画编码排序顺序则需要把藏文字的基本音节字符掌握清楚, 在其基础上作进一步的细化, 这样藏文字笔画编码排序规则就易于程序设计及算法优化了.参考文献【相关文献】1 张学涛.汉字的笔画、部件、偏旁和基本字四大组成部分—中文信息名词标准化概念探讨.计算机中文环境,1995,(7).2 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定.计算机应用,2009,29(7).3 黄鹤鸣,赵晨星.对DUCET 中部分藏文字母排序码的商榷.计算机工程与应用,2008,44(29).4 扎西次仁.藏文的排序规则及其计算机自动排序的实现.中国藏学,1999,4.5 春燕,曲珍.藏文文本编码识别方法研究.计算机工程与应用,2011,10.6 珠杰,欧珠.基于藏文编码GB的藏文排序方法研究.西藏大学学报(自然学科报版),2008,5.7 江荻,康才晙.书面藏语排序的数学模型及算法.计算机学报,2004,4.8 江荻,燕海雄.藏文字符的分类与功能描述.西藏研究,2010,10(5).9 王华,丁晓青.一种多字体印刷藏文字符识别方法计算机工程,2004,30(13).。

现代藏字全集的属性统计研究

2 藏字全集中藏字的字长统计
一个藏字的字长是指构成该藏字的构件的多少。一个藏字可由一到七个构件构成 ,因此藏字的构造上是不等长的。藏字的构件数的研究对计算机藏文内码、输入编码设计和藏字识别等研究有重要的理论和实践意义。藏字全集中藏字字长的统计结果如表 1 所示。
表 1 藏字全集中藏字字长的统计结果
72
表 2 藏字的结构及所对应的藏字数的统计结果
字符长度
结构方式
组成的藏字个数
一个字符辅音字母
30
基字 + 元音
120
两个字符
基字 + 后字上加字 + 基字
270 33
基字 + 下加字
43
前加字 + 基字 + 后加字
480
前加字 + 基字 + 元音
192
前加字 + 上加字 + 基字
前加字 + 上加字 + 基字 + 下加字 + 元音 + 后加字 + 再后加字
168
占藏字全集的藏字的百分比 ( %)
01155 01619 11495 01170 01222 21474 01990 01103 01160 01680 01077 01010 11531 01887 11995 51567 11082 01412 01639 81907 01031 01928 11438 11732 01351 61124 01789 11190 41330 71979 11552
前加字 + 基字 + 元音 + 后加字 + 再后加字
1344
上加字 + 基字 + 下加字 + 元音 + 后加字