对藏文字符基本集UNICODE数据库的商榷
藏文文本编码识别方法研究
藏文文本编码识别方法研究春燕;曲珍【摘要】讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较.确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCII的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分.在对目标样本的测试中,该算法的识别率可达100%.%This paper discusses critical problems with Tibetan encoding identification and conversion. Accordingto Tibetan character structural and its statistical characteristics, it introduces various possible recognition rules, and the results are analyzed and compared. Used characteristics of distance regulation and high frequency between Tibetan syllables to determination encoding identification of FOUNDER Windows, FOUNDER Dos, Tonguer, HURGURNG Windows, HURGURNG Dos, Pandita, the Tibetan encoding based on ASCII, ISO/IEC10646 basic set and Tibetan coded character sets-Extension A, can correctly distinguish Tibetan text with other languages. The rate of recognition reaches 100% using these algorithms on the test documents.【期刊名称】《计算机工程与应用》【年(卷),期】2013(049)001【总页数】4页(P141-144)【关键词】藏文编码;藏文编码识别;音节点【作者】春燕;曲珍【作者单位】西藏大学计算机科学与技术系,拉萨850012;西藏大学计算机科学与技术系,拉萨850012【正文语种】中文【中图分类】TP391.1对藏文文本的识别由两部分实现:一是识别该文本是否为藏文文本,二是识别该藏文文本所使用的编码方案。
有关藏语言文字及藏文字体发展的调查报告
有关藏语言文字及藏文字体发展和完善旳调查汇报【摘要】 : 藏族历史上旳几次文字改革, 采用了调整那个文字母体系, 简化正字法、规范词语、并立法推行等措施。
从而增进了藏语言文字旳原则化和规范化。
藏语言文字是一种民族区别于其他民族旳重要特性之一, 语言文字旳平等是民族平等旳详细体现。
藏语文作为少数民族语言文字旳重要构成部分, 是在特定旳地理环境和文化条件下, 在漫长旳历史长河中逐渐形成和发展起来旳, 有它自身旳稳固性和渐变性。
长期以来, 藏语文在提高藏民族科学文化素质, 发展地区政治、经济、文化事业, 反对民族分裂, 维护祖国统一中发挥着不可替代旳特殊作用。
【关键词】: 藏语言文字藏文字体发展完善藏语言文字及藏文字体发展和完善旳调查汇报藏语言文字发展历史:藏语言文字是中华民族语言文字中具有悠久历史、体现功能完备旳古老语言文字之一, 它承载着藏民族旳历史和文明, 代表着藏民族旳特定思维方式和习惯, 是中华民族多元文化宝库中旳重要构成部分。
藏语文属于汉藏语系, 千百年来一直是西藏人民旳重要交际工具, 是西藏文化旳重要标志和载体, 在中华民族多元语言文化中占有独特地位。
历史之悠久在国内仅次于汉文,半个多世纪以来, 中国政府高度重视保障西藏人民学习使用藏语言文字旳权利, 为增进藏语言文字旳学习、使用和发展作出了巨大努力, 获得了重大进展。
藏语言文字是一种拼音文字, 属辅音文字型, 分辅音字母、元音符号和标点符号3个部分。
其中有30个辅音字母, 4个元音符号, 以及5个反写字母(用以拼外来语)。
辅音字母每4个字母为一组, 共7组半。
藏语言文字标点符号形体简朴、种类很少, 并且, 其使用规则也与其他文字旳标点符号有别。
藏文标点符号共有6种形式, 其中音节之间旳隔音符号使用频率最高。
此外, 尚有云头符, 用于书题或篇首;蛇形垂符, 用于文章开头处;单垂符, 用于短语或句终;双垂符, 用于章节末尾;四垂符, 用于卷次末尾。
基于藏文编码(基本集)国家暨国际标准的藏文输入法研究
基于藏文编码(基本集)国家暨国际标准的藏文输入法研究贺胜;卢亚军
【期刊名称】《图书与情报》
【年(卷),期】2007(000)006
【摘要】藏文输入法是藏文信息处理领域的基础性研究课题,也是藏文信息化建设的一个瓶颈.文章论述了针对现有藏文输入法存在的问题,旨在突破由"文字"信息处理向"语言"信息处理过渡的难题,研究并开发一种基于藏文编码(基本集)国家暨国际标准和Unicode国际编码标准,以及OpenType字体技术,可在Windows Vista和Windows XP下,支持Internet上的藏文信息交换,用于文字信息处理和语言信息处理的藏文输入法的相关问题.
【总页数】5页(P45-49)
【作者】贺胜;卢亚军
【作者单位】南京师范大学文学院,江苏南京,210046;西北民族大学藏语言文化学院,甘肃兰州,730030
【正文语种】中文
【中图分类】H214;TP391
【相关文献】
1.一种基于《信息交换用藏文编码字符集》国际、国家标准的藏文Windows平台的实现方案 [J], 尼玛扎西;拥错;次仁罗布
2.基于国际标准编码的藏文前加字校对模型研究 [J], 刘文香
3.藏文输入法中快速自适应编码查询算法研究与应用 [J], 欧珠;大罗桑郎杰;格桑多吉;仁青谱布;拉巴泽仁;次仁罗布
4.基于国际标准编码系统的藏文分词词典机制研究 [J], 祁坤钰
5.面向藏文基本集编码的单模式匹配算法研究 [J], 春燕;曲珍;许宁
因版权原因,仅展示原文概要,查看原文内容请购买。
关于藏文的研究报告
关于藏文的研究报告藏文是藏族人民使用的一种文字,属于藏缅语系的一种文字系统。
在研究藏文时,可以从以下几个方面进行探讨。
首先,可以对藏文的起源和历史进行研究。
藏文起源于公元7至9世纪,是在印度的梵文和斯坦语基础上发展起来的一种文字。
在历史上,藏文曾经是藏区地方政府和寺庙文书的主要文字,它的使用范围相对较窄。
其次,可以研究藏文的音韵特点。
藏文有30个辅音和6个元音,辅音之间可以组合成约300个辅音复合字母。
在研究藏文的音韵特点时,可以从发音规律、语音变化等方面进行探讨,了解藏文的音韵系统。
此外,可以研究藏文的语法特点。
藏文的语法结构相对简单,以语序为主导,同时有丰富的词缀和合成制度。
在研究藏文的语法特点时,可以从名词、动词、形容词等方面进行探讨,了解藏文的词法和句法结构。
另外,可以研究藏文的书写系统和排版技术。
藏文的书写系统是从左到右的横排,使用楷书体的字形,每个字母之间有一定的间隔。
在研究藏文的书写系统和排版技术时,可以从字母形状、字母排列、字母组合等方面进行探讨,了解藏文的书写规则和排版技巧。
最后,可以研究藏文在当代社会的使用和保护。
随着社会的进步和发展,藏文的使用受到了一些挑战,如数字化时代的影响、人口流动等。
因此,对于藏文的保护和发展也成为重要的课题。
在研究藏文在当代社会的使用和保护时,可以从教育、媒体、政策等方面进行探讨,探索有效的保护和发展措施。
综上所述,对藏文的研究可以从起源和历史、音韵特点、语法特点、书写系统和排版技术、当代使用和保护等方面进行深入探讨,以加深对藏文的认识和理解,为藏文的保护和发展提供参考和支持。
藏语语言模型的研究现状及展望
藏语语言模型的研究现状及展望
2. 词法分析
词法分析是自然语言处理的基础工作,其目的是将连续的文字序列划分成有意义的词
汇单元。
针对藏语词法分析的研究,主要包括分词、词性标注和命名实体识别等任务。
分
词是最基础的任务,目前已有一些基于规则和统计的方法进行研究,并取得了一定的效果。
由于藏语的特殊性和复杂性,对于分词任务的研究还存在一定的挑战。
4. 机器翻译
机器翻译是利用计算机将一种语言的文本转化为另一种语言的任务。
针对藏语机器翻
译的研究,主要包括基于规则的方法和基于统计的方法。
基于规则的方法主要是利用语法
规则和词典进行翻译,但是对于复杂结构和低频词的处理存在一定的困难。
而基于统计的
方法则是通过建立双语平行语料库,采用统计模型进行翻译,如统计短语的翻译概率等。
最近,随着神经机器翻译(NMT)的兴起,基于深度学习的机器翻译方法也逐渐受到关注。
1. 语料资源的扩充
目前,虽然对藏语的语料资源进行了一定的整理和汇总,但是仍然存在规模较小和领
域较为有限的问题。
未来需要进一步扩充和丰富藏语的语料资源,包括不同领域、不同类
型和不同语境下的数据。
3. 神经机器翻译的应用
随着神经机器翻译的兴起,其在机器翻译任务上的性能已经超过了传统的方法。
未来,可以将神经机器翻译的方法应用到藏语的机器翻译任务上,以提高翻译质量和效果。
藏文编码字符集的优化研究
时 , 使 用 中还 存 在 藏 文 编 码 歧 义 等 缺 陷 。针 对 上 述 问题 提 出 了增 加 三 个 上 加 字 的 编 码 到 B 在 MP 中 , 得 藏 文 编 码 使
能 正 确 地 反 应 藏 文 的构 件 特征 , 提 出用 “ 定藏 文 编 码 的 使 用 方 法” 消 除《 本 集 》 用 中存 在 的 歧 义 以 及 正确 还 界 来 基 应 理 解 几 个 字 符 的 属 性 等 问题 。 关键 词 : 算机 应 用 ; 文信 息 处 理 ; 文 编码 ; 本 集 ; 加 字 计 中 藏 基 上
开展 基 于藏文 的 研 究 方 面仍 然存 在一 定 的局 限性 。
引 言
藏 文字 符 基 本集 的编 码 方 案 于 1 9 9 7年 9月被
国家技术 监 督 局 批 准 、 布 为 国 家标 准 G 65— 发 B 1 9 9
同时 , 在使 用 时 也 发 现有 歧 义 产 生 。本 文 针对 这 些
p o s s a m e ho ’de iia i i t n c de ha a t r ”t lm i at hem e ni fe e c sa on h r c r po e t d of’ ntfc ton ofT be a o d c r c e s o e i n et a ng dif r n e m i g c a a— tr . A tl s es a t,s m e ot r p ob e s o ha a t r f a ur s a o r s ndig xplna i r e i ne . o he r l m fc r c e e t e nd c r e po n e a tonsa e m nto d Ke y wor : c pu e p ia i ds om t r a plc ton;Chi s n or a in pr e sng;T iet od b sc s t he e t r ne e i f m to oc s i b an c e; a i e ; ad l te
藏语文本信息处理的几个关键问题分析
1 藏 语 文 本 信 息 处理
系 统化 找 准 关 键 问 题 一一 击 破 2 关 键 问题 分 析
2 1.,来自。标 准 问题 : 藏语 文 本 标 准 研 究 主要 是 研 究 以 下两 个 领 域 一 个 是 藏语 文 字 自身 的标 准 另一 个 是 藏语 信 息 处 理方 面 的标 准 藏语 作 为拼 音 文 字 的一 种 在 五 个 省 都 有 使 用 有三 个 方 言 的 分 支并且 在 读 音 使 用 词汇 方 面有 较大 的差 异 产 生的直 接后 果就是 有 很 多异 体 字 加大 了新 词 语 翻译 的 难度 藏语 文 本 中如果 有 这些 问题 存在 会让 文 本 信 息 处 理 变 得 更 加 困 难 2 0 0 4 年 国家 语 委 在人 民 地 名 术 语 等 方 面 制定 了 一 定规 范 但 是 还没 有 国家统 一 的规 范标 准 的形 成 语 言 文 字 是承载 信 息 的载体 而 在这 个信 息化 时 代 国家 的信 息化水平 如何 很大程 度 上是 由语 言 文 字 信 息 处 理 的标 准 和 规 范 来决 定 的 最 终 对 我 国 的 国际 竟 争 力 产 生影 响 藏语 字符在 过去的 几 十年 里没 有 统 一 的编码 资 源 整 合 信 息交 流 等 都 受 到 了 很大 的 制 约 白 白浪 费 了 很 多人 力 财 力 目 前仍 然有一 定 的不利影 响 存在 所 以 在 信 息 处理标 准 方 面 应 该 加紧 研 究 22 词 典 的开 发研 究 研 究 藏语信 息 处 理 所 用 的词 典 有两 个方 面 一 是 研 制 分 词词 表 二是 研 制 信 息 词 典 前者制定统 一的分 词词 表 来 帮助处 理 文 本 分 词 后 者是 分 析加工 文 本 语 料并 且 提 供机器 翻 译 想要 编制 藏 语 文 本 分 词词 表 首 先 要 对大量 的文 本 数 据进行挑选 将 其 中具 有 合 理 结 构 明确 意 义并 且 比 较 有 代表 性 的词 条挑选 出来 然后 组成 词 表 这 个 过 程 不 仅 漫长而 且 非 常艰难 目前 还 没 有 关 于 藏语 文 本 中的词频 字 串频 等 的 统 日 数 据 人工分 词语料 库也是 一 片 空 白 无 法进行 词 表 的验 证 这 些 基 础 工作没 有 完善 就 无 法 顺 利 进行 藏 语 文 本 分 词词 表 的研 制 在 今 后的 工作中 研究者应 该 直面 这 些 困 难积 极解 决 避 免 重复 劳动 语 法 信 息词 典 中 的 内容是 藏语语 法 词 法 以 及 与 以 信 息知识 覆盖 面非 常广 泛 在机器 翻译 和 深 度 加 工 文 本 语 料上 意 义 非 常 0 年代 以 来 我 国就重视 研 究 语 言 中 的单个 词 语 了 因 为 从上世 纪 8 对 个 体 词 的规 则有 了 详 细而 准确 的认 识 以 后 就 可 以 更 好 的找出 个 性 中蕴 含 的深 层 共 性 规 则 了 研究 藏语语 法 词 典 的迫切性体 现 在 两个方 面 一 是 为建 设 大规 模标 准 语 料 库 打下 良好 的基 础 句 法 规 则 标 注 词性 标 注 以 及 语 义 标 准 都 属于 藏语 文 本 语 料 标 注 中 的 内容 ; 二是更 好 的 支 持汉 藏 或者 藏 汉 机器 翻译 机器 翻 译 所 用 的词 典 中必须 要有 语 法 词 法 和 语 义信 息 还要 包括 语 义 特 征 固定 搭 配等 内容 才 可 以 更 好地 消 除 歧 义 准确 的进行 语 言 单 位 的识 别 但 是 目前 来说 这 些 都 是 非 常艰 巨 的 任务 在未 来 的语 言工程 项 目
Unicode藏文分词系统的设计
青 海师 大才 智杰 先 生描述 了班 智 达藏 文分词 系统 的设 计 和实 现 , 该分 词 系 统 只 能用 于班 智 达 藏 文 文本
信 息技 术
象词 , 在词 典 中进 行整 词 二 分 查 找 。查 找不 成 功 则 词
长l 递次减 一并 循环 , 至 匹配成 功 。但 是 , 直 据数 据 统 计 , 语 中 以单 音节 、 藏 双音 节 、 音 节 和 四音 节 的词 汇 三
大学祁坤 钰先生 发表 《 息处理用 藏文 自动分 词研 信 究》 提出格切分、 , 边界符判定和模式匹配的多级分词 方 法 。基 于规则 的藏文 分词 方法 是在 海 量语 言知识 库
的基础 上进 行智 能分 词 。就 目前 的计 算 机 技 术 来 说 , 基 于纯 规则 的藏文 分词 方法 在知 识库 的组 织 与各模 块
《 西藏科技) 02 7 ( ) 1 年 期 总第 22期) 2 3
文 字符 号 。符 号库 的元 素作 为藏语 天然 的切分 特征 标
记, 可用 于文 本断 句 、 块等 分词 处理 的前期 工作 中 。 分 3 2 u ioe藏文 音节 字的 h s . ncd ah表
词和接续特征的藏文 自动分词方案》 《 、现代藏语组块 分 词 的方 法 和 过程 》 《 和 信息 处 理用 藏 文 自动分 词 研 究》 均对藏文分块方案进行了很有应用价值的学术研
究。
尔科夫模型 。与实际的语言相 比, 该模型有不切实际
假设 条件 。故此 方法 在 实际应 用 中有较 大 的局 限性 。
北 民族 大 学祁 坤钰 先生 2 1 0 1年 1 2月发 表 了《 于 国 基
北 京 大学 计算 机语 言学 研 究所 陈玉 忠先 生等 人在 20 02年 发表 了《 于格 助词 和 接续 特征 的藏文 自动分 基
藏文文献数据库建设现状综述★
218收稿日期:2020-03-04*基金项目:国家社会科学基金一般项目(批准号16BTQ037)作者简介:李梦瑶(1996—),女,山西晋城人,研究生,研究方向:文献信息化。
通讯作者:胡建(1980—),男,四川成都人,博士,副教授,研究方向:文献信息化、群体智能。
0 引言藏文创制于约7世纪,距今已有超过1300年的历史,其历史长度、文献丰富程度在我国都仅次于汉文,是璀璨中华文明的重要组成部分[1]。
千年来藏族人民用藏文翻译、记录、总结、编纂了大量文献资料存世。
本文将调研并分析藏文文献的类型和分布情况,以及当前藏文典籍的传承及其保护现状。
1 藏文文献类型及分布情况藏文文献是研究和认识藏族及其思想、哲学、宗教、科学技术等文明极其重要的资料。
藏文文献有古藏文写卷、藏文佛教经典、藏传佛教文化典籍、医学、建筑绘画、语言文字和诗歌、戏剧文献等类型[2]。
其中,古藏文写卷有敦煌古藏文文献、金石铭刻、竹简木牍等;藏文佛教经典除藏文《大藏经》外,藏族学者编写的文集著作也是其重要部分;藏传佛教文化典籍主要包括教派史、寺院志、传记三种。
藏文文献在分布上呈现地域性的特点。
藏区作为藏族人民精神和文化生活的摇篮,藏文文献资源相比于其他地区较为丰富。
在藏区范围内,相关文物、文化部门充分发挥其区域优势,将藏文文献的收集、保护和开发利用工作列为工作重点。
由他们多年的走访、普查、整理建档和购置,积累了数量较多的文献资料。
国内的藏文文献主要分布在西藏、青海、四川、甘肃、云南、北京等地,文献多为古籍、书籍、期刊和图片,广泛为佛教寺院、科研机构、出版机构、公共图书馆以及各民族院校图书馆等单位收藏[3]。
2 国内外藏文文献数据库建设现状由于历史原因,我国有相当一部分藏文文献辗转、流落于海外。
国外学者对涉藏学术领域关注较早,20世纪著名的藏学研究人员有:意大利藏学家朱塞佩·图齐、法国藏学家石泰安、美国著名藏文文献专家金·史密斯以及弗吉尼亚大学戴维·吉玛诺博士等。
藏文输入法和字体
浅析藏文输入法和字体(转载于羊兄)默认分类2010-12-17 21:32:20 阅读405 评论1 字号:大中小订阅在这里我想给大家介绍和分析现有的部分藏文输入法和四十多种字体,并提供下载,不断更新内容!虽然不够严谨学术,但作为一个常识性来了解,并理清思路,从而选择对自己最舒服最便捷,最能有助于推进藏文网络化和国际化的输入法和字体!当我们都默默地达成共识时,不再需要为藏文输入法和字体统一而苦恼,一切都会很自然地走向更好的发展!一、藏文输入法介绍1、同元藏文输入法和字体:同元是最早的藏文软件之一,2005年左右本人就接触过。
2006年考上大学一直使用同元,后来由于班智达的输入便捷和字体的优越性自然放弃了同元,选择了班智达。
优势:无。
虽是国内最早的输入法之一,如今已经逐渐推出网络和办公等应用。
劣势:输入法键盘布局不够灵活,输入法梵文时有困难,字体不够丰富,其中最致命的是它的字体编码不是国际统一的标准,字体都是一些汉字古文或不常用的字体为根基研发的,对藏文字体编码统一、藏文网络化和国家化有很大的阻碍。
趋势:曾经一度使用同元的各种政府或机构的网站和文件等现在基本改用为喜马拉雅(Himalaya、Monlam3)。
下载地址:/f/12106153.html2、班智达输入法和藏文字体:班智达是青海师范大学藏文智能信息处理中心研发的软件,作为最早出世的藏文软件之一,到现在还有庞大的用户群体,甚至不少人爱不释手。
优势:键盘布局适合,输入便捷,同时也是元老级输入法。
劣势:输入梵文有困难,字体不够丰富,字体编码不是国际统一的标准,字体都是一些汉字古文或不常用的字体为根基研发的,对藏文字体编码统一、藏文网络化和国家化有很大的阻碍。
趋势:支持班智达和使用班智达的集中于30多岁的人群中,而年轻人基本都在使用喜马拉雅或Monlam3,所以在未来年轻人势必会带动整个藏文信息发展同时别的人群也势必会靠近年轻人的发展,不然自然会落后会被淘汰。
藏文信息处理技术的研究现状与展望
研究现状概述
藏文信息处理技术研究现状
02
03
藏文数据资源建设
藏文数据资源是藏文信息技术的重要基础,包括藏文语料库、藏文词典等。
藏文信息技术基础研究
01
藏文字符研究
藏文字符集的研究以及藏文字符库的建立,是藏文信息技术的基础。
藏语句法分析技术研究
藏语句法分析是藏文自然语言处理技术的重要方向,包括基于规则的句法分析和基于统计的句法分析等。
藏文智能语音识别是藏文智能语音交互技术的基础,包括基于深度学习的语音识别和基于规则的语音识别等。
藏文智能语音识别技术研究
藏文智能语音合成是藏文智能语音交互技术的另一个基础,包括基于深度学习的语音合成和基于规则的语音合成等。
文物鉴定与保护
03
通过藏文信息处理技术,对藏族文物进行鉴定、保护和修复,提高文保工作效率和准确性。
利用藏文信息处理技术,开发在线教育平台,提供藏语课程、学习资源和互动交流等功能,促进藏族地区的教育普及。
藏文信息处理在教育领域的应用
通过藏文信息处理技术,开发智能辅助教学系统,为教师提供教学辅助工具和学生个性化学习方案,提高教学质量和效果。
技术融合一
藏文信息处理技术与其他技术融合发展展望
藏文信息处理技术的标准化和规范化。未来藏文信息处理技术的发展需要不断推进标准化和规范化工作,制定统一的技术标准和规范,促进技术的交流和应用。
发展方向一
藏文信息处理技术的普及和应用。随着技术的不断发展,未来藏文信息处理技术将得到更广泛的普及和应用,为藏族人民提供更加优质的信息服务,促进藏区经济和文化的发展。
病例资料管理
藏文编码格式
藏文编码格式对于藏文编码格式,现在常用的有两种:一种是Unicode编码,另一种则是Tibetan Machine Uni编码。
Unicode编码是一种国际标准,它可以解决文字的多语种和多方言问题,而且还可以与不同的计算机和操作系统兼容。
Tibetan Machine Uni编码则是一种专门用来显示西藏语言的编码,它的目的是为了更好地显示和打印藏文。
在使用藏文编码格式时,我们需要了解其基本规则,比如:1. 藏文字符单元:一个字母、一个符号或一个音节就是一个单元。
2. 拼写规则:藏文拼写是字母、符号或音节组成的,通常一个字母或一个音节代表一个发音。
3. 音节符号:在藏文中,有许多的音节符号,例如母音符号、声调符号、撇(hŭl)等,需要按照规定使用。
4. 字母分类:藏文中的字母有5类,即yig mgo mdun gyi tshig、yang mgo mdun dkar、yang mgo mdun rtse、yang mgo can yig、yang mgo gzhi med,并且每类字母都有相应的拼写规则和使用方法。
除了以上这些规则外,我们在使用藏文编码格式时还需要注意以下几点:1. 选择合适的编码格式:学习和使用藏文编码格式前,需要考虑与自己使用的软件和操作系统是否兼容,选择合适的编码格式。
2. 练习写字:像其他语言一样,练习写字是非常重要的,不仅可以加深对字母及其组合的认识,还可以提高书写的速度和准确度。
3. 多阅读藏文资料:阅读藏文资料可以帮助我们更好地了解藏文语法规则及其应用。
4. 合理使用输入法:在电脑上输入藏文时,需要使用相应的输入法,熟练掌握藏文输入法能极大提高输入速度和准确度,减轻打字疲劳。
总而言之,藏文编码格式的规则和使用方法需要学习和实践,但只要掌握了它的基本规则、练习了写字,多阅读和合理使用输入法,就可以更好地应用和传承藏文。
Unicode藏文分词系统的设计
作者: 才华 普布卓玛
作者机构: 西藏大学图书馆,西藏拉萨850000
出版物刊名: 西藏科技
页码: 77-80页
年卷期: 2012年 第7期
主题词: 藏文信息处理 分词 hash表 逐字二分法
摘要:微软公司以叠置引擎和OpenType字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。
该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,其发展趋势很强,已成为藏文资源及藏文应用软件开发的主流平台。
藏文分词作为信息处理的基础性工作之一,在藏文信息检索、自动校对、机器翻译等领域有着广泛的应用,所以很有必要对Unicode藏文文本进行分词研究。
基于Unicode的藏文网页搜索探讨
第一 , 收录大众所熟 知的 、 知名度较高的藏文 网站 。第二 , 收
U n i c o d e 从3 . 2版开始 , 全面支持藏文 , 为藏文设置 了 1 9 2 个 码点 [ 1 _ , 同时支 持世 界大多数 文字 , 使用藏 文可以和多种语言文 字在页面上并存显示 ,最新版本 的 U n i c o d e已经收录 1 0 万个字 符 。U n i c o d e藏文编码很好地解决 了藏文字母堆叠 的问题 , 认为 藏文字母 只分为基字和下接字母两种 , 改进 了藏文字传统 的“ 前
文献标识码 : A
藏文是藏 民族 的传统文字 , 有着悠久 的历史 , 藏 文字 承载着 藏民族文化 的传递和延续 。在互联 网高度发达的今天 , 越来越多 的藏文资讯出现在互联 网空间 ,带给人们更多更丰 富的藏民族 文化信息和藏文即时信 息。习惯 于使用搜索引擎访 问中英文网 站的人们 ,也渴望拥有藏文网页搜索工具来探索未 知的藏文网
2 0 1 4 年
第2 4 卷
第1 1 期
收稿 日期 : 2 0 1 4 — 0 4 — 2 1
: l :
基于 U n i c o d e 的藏 文 网页搜 索探讨
张 云 洋 , 刘 芳
( 1 . 西藏大学图书馆 , 西藏拉萨 , 8 5 0 0 0 0 ; 2 . 西藏大学工学院 , 西藏拉萨 , 8 5 0 0 0 0 ) 摘 要: 藏 文网 页搜 索是藏 文计 算机技 术和藏文 网站发展 的必然要 求 , 藏 文字的特殊
据各编码表与 U n i c o d e 码表 的对 照关 系 , 将这些藏文进行编码转
结构和藏 文编码的 多样性给 网页的统一检 索造成一定的 困难 ,使 用基 于 U n i c o d e的藏
面向藏文基本集编码的单模式匹配算法研究
复杂度 为 0( M +N) 。 R . S . B o y e r和 J . S . Mo o r e设 计 了 B M 算法 , B M
算法 是一 种基 于后 缀搜 索 的完 成 匹配 的算 法 , 该 算 法
时 间复杂 度在 最优 情 况 的下 为 O( N / M) , 在 最 坏 的情
受限 。在藏 文 中该 匹配算 法有进 一 步 改进 的 空 间 , 文 章提 出一种 改进 的针 对 藏 文编 码 的 B MT ( B o y e r — Mo o r e T i b e t ) 模 式 匹配算 法。B MT针 对藏 文 u n i c o d e编码 以及 藏 文音 节特 征 , 修 改 并优 化 了算 法 匹配 过 程, 在执 行 精确 匹配时 消除 了冗余 匹配 , 增 大 了单 次精 确 匹配后 的 滑动 距 离。该 算 法性 能优 异 , 算法 能
毛 鼋 e 霹 长 譬 奢 .
三 . 乱
基
髻
霹 氢
征的分 析, 在 此 给 提 了 一 种 基 于 藏 文 文 本 改 进 的
分 的利用 B M 系列来 改进 算法之 间 的存在 的 差异 性继 而实现 失 配窗 口的 右移 距 离 的 最 大化 , 尽 量 减 少 不必
表 1 B M 算 法 移 动 过 程
要 的匹 配过 程 。
基 于对传 统经 典 匹配算 法 以及对 藏文音 节特有 特
岳 气 ●
的的距离 局 限在 1 字节 内, 故需要对 B M 模式 匹配算法
单模 式 匹 配算 法 的 研 究 在 国 内 外 都 已经 比 较 成
熟 。1 9 7 0年 , S . A. C o o k在 理 论 层 面 上 已经 证 明 了 单 模 式 匹配 算 法 的时 间复 杂 度 为 O( n l +n ) J , B r u t e— F o r c e ( B F ) 匹配 算 法 则 较 为 直 接 , 但 是 测 试 其 时 间 复 杂度 时较 高 , 为 O( M ×N) 。D . E . K n u t h 、 V . R . P r a t t 和 T . H. Mo m s 则是 仿 照 了 C o o k的证 明来 构 造 了 K MP算
藏文排序研究现状与存在问题
将 会 为 以后藏 文研 究工 作者 带来 很大 其次 ,选取了一些有代表性 的编码序
I11l黄鹤 鸣 ,达 飞 鹏 基 于排序 的现 代
方 便 。文 献 【5J讨论 了藏 语语 法规 则但 列 来测 试 算 法 的有 效 性 。文献 【13】提 藏 文音 节判 k UI.计 算机 应 用 ,2O(19(7).
研 究U1,中文学报 ,2014-5. 尼玛扎 西 藏文信 息技 术的现状 、存
在 问题及其 前景 西藏 大学学报 ,1997—11
现代 藏 文音 节结 构判 定 算法 ,针 对受 【11】提 出 了根 据 藏 文 编 码 国 家 标 准
f6l江获 ,康 才 峻 书 面藏 语 排 序 的 数
I91黄鹤 呜 ,赵 晨 星.基 于 DLTCET 的 藏 文排 序 方 法 中文信 息 学报 ,2oo8(7).
11珠 杰 ,欧珠 .基 于藏 文编 GB的 藏
字 结 构 特 点 和语 法 规 则 的 藏 文 排 序 , 个编 码 (辅 音 )在 音 节结 构 中的 位 置 。 文排 序 方法研 究 西藏 大学学报 ,2(1(18.33.
大 的 渴望 ,1986年 青海 师 范 大学 研发 位置的判定。文献【91提 出了引入藏文
的藏 文操作 系 统揭 开 了藏文 信息 技术 字 符 集 扩 展 集 A 中 的 Unicode编 码
参 考文 献 化发展的序幕,此后 国内的藏文信息 为排序码对藏文组合字符进行排序的
f11李继 文 ,刘成 ,黄 鹤鸣 .现代 藏 文音
研 究方 面计 算机 技 术水 平开 始逐 步提 高 ,藏 文信 息处 理 中藏文 文字 的排 序 是藏 文 信息 处理 领域 的 一项 不可 缺少 的 关键 所在 ,也 是一 直 以来有 待 解决 的 问题 。 目前藏 文字 排序 研 究的 文献 有 十 几个 ,文 献 … 中可 以提 出 二 义性 音 节 在 日常 生 活 当中 的应 用 价 值 ;文 献 【l1中 建 立 了基 于 Unicode编 码 的
sqlserver 藏文排序规则
一、概述SQL Server是一种流行的关系型数据库管理系统,它支持各种语言和字符集。
其中,藏文作为一种冠方语言,其排序规则对于数据库中数据的存储和检索至关重要。
本文将对SQL Server中的藏文排序规则进行深入探讨,以便读者能够更好地理解和应用这一规则。
二、SQL Server中的藏文排序规则简介1. 藏文字符集在SQL Server中,藏文字符集采用Unicode编码,它包括各种藏文字符及其对应的排序规则。
Unicode编码是一种标准化的字符编码集,它为不同语言和文字提供了统一的编码和排序规则。
2. 藏文排序规则SQL Server中的藏文排序规则是基于Unicode编码的,它可以确保不同藏文字符的排序和比较是准确和一致的。
这些规则不仅涵盖了基本的藏文字符,还包括了声调、重复字符和复合字符等特殊情况的处理。
三、SQL Server中的藏文排序规则的应用1. 数据存储在使用SQL Server进行数据存储时,应根据藏文排序规则将数据按照正确的顺序进行排列。
这样可以保证数据的存储和索引性能良好,并且能够正确地进行排序和比较操作。
2. 数据检索在进行数据检索时,SQL查询语句可以利用藏文排序规则进行精确的检索和排序。
这样可以确保检索结果的准确性和一致性,避免因排序规则的不当使用导致的错误结果。
3. 索引优化SQL Server提供了针对藏文排序规则的索引优化功能,它可以根据具体的排序规则进行索引的创建和优化。
这样可以提高数据库的检索效率和查询性能,减少数据访问的时间和成本。
四、SQL Server中的藏文排序规则的设置和配置1. 选择合适的排序规则在创建数据库和表时,应选择合适的藏文排序规则,以确保数据的正确存储和检索。
SQL Server提供了多种藏文排序规则可供选择,用户可以根据实际需要选择最适合的规则。
2. 修改和更新排序规则如果在数据库运行过程中需要修改或更新排序规则,可以通过SQL Server管理工具进行相应的操作。
藏文字笔画编码排序的设想
藏文字笔画编码排序的设想刘城;黄鹤鸣;李继文【摘要】藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.%Tibetan sort will be widely used in every aspect of Tibetan language text information processing,including word,dictionary sequence,system software and other application software.This paper attempts to describe Tibetan writing stroke sorting rules which make more correct,reasonable induction,the purpose is to find a sorting algorithm model that could realize automatically the Tibetan strokes character.And which break the framework in Tibetan character syllable sequence depends only on the syllable key radical structure sorting traditional of thinking.【期刊名称】《计算机系统应用》【年(卷),期】2013(022)005【总页数】3页(P18-20)【关键词】藏文;笔画编码;笔画;模式识别;音节【作者】刘城;黄鹤鸣;李继文【作者单位】青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008【正文语种】中文藏文的字母和其它符号有一定的笔顺, 藏文 1的笔顺有些和汉文字的笔顺一样, 按照笔顺写, 字才写得漂亮. 不过, 笔顺作为规则是活的, 各种教材里的英文字母笔顺体样式就多种多样, 汉字笔顺也时有调整, 所以对藏文的标准不唯一, 是正常现象.1 常见藏文字体的笔画样式概述首先我们来分析以下列出的3套体系的藏文印刷体笔顺, 各有一些差别(包括声调符号). 不难看出他们的字体样式会有所不同, 但字的笔画是近似的. 三类分别为: 一是带有箭头笔画指向的版本藏文字书写,见图1; 二是藏族朋友们初学时, 教师常教的一种藏文字书写笔画顺序, 见图2; 三是藏文报刊、教科书的上的书写版本, 见图3. 图1 带有箭头笔画指向的藏文字书写方式图2 教师常教的一种藏文字书写笔画图3 藏文报刊、教科书的上的书写版本通过上面公认的三套体系的藏文书写版本, 因人而异的会喜欢自己的一套书写藏文的笔画顺序, 作为写惯了中韩文日文的学者朋友们, 肯定会将其与其他文字的书写笔画或方式进行对比, 不难看出, 藏文的笔画字体有其独特的特点是: 每个字母最上一笔是横直的, 字母排列时.上端必须在一条直线上, 形似平顶帽. 由于这种字体多用作刊印书籍、录、写文章的字体, 也成出版字体, 另一种笔顺书写则很随意.对于每一个了解和熟悉藏文字的人, 笔画和书写是习得文字的前提, 因此采取笔画编码形成的输入方法不但规范而且易于掌握, 无需强记, 真正可以做到计算机汉字输入如同写字, 得心应手.2 计算机藏文字笔画编码具有它的科学性计算机藏文字编码包括字库编码和输入法编码两类[1]; 其中输入法编码分为, 键盘输入法编码和非键盘输入法编码; 在键盘输入法编码中主要有音节编码和字型编码两大类. 经过长期深入研究和实践, 我们认为计算机藏文输入法采取笔画编码具有其它方法难以逾越的优势, 它能最有效地解决无法用藏文音符编码输入所有藏文的问题, 它能最有效地解决以往字型类编码难学难记的问题.同样是拼音文字的现代藏文, 也有其科学的、明确的、传统的排序规则, 只是由于现代藏文在字符结构构成、拼写方法和书写走向等方面与英文有所不同,使得对现代藏文排序规则的描述相比英文字符排序要多些步骤.任何一种语言文字都有自己的排序规则, 人们在使用该语言文字时都习惯性的有种共识和规范. 人们在使用这熟知和共同遵守的规则, 可以对各种字符、词典和字、词表以及查找其中的字符进行编排. 例如:英文作为在世界范围内最普遍实用的语言文字, 有其自身的排序规则要求. 在众多程序设计语言的库函数中也都有其字符(串)比较函数(模块), 这样对程序员编程来说很方便, 也更有利于广大用户的使用.3 藏文字的笔画规范3.1 藏文字笔画顺序具有很强的规范性汉字的笔画编码在上世纪八十年代风行一时, 此文的思路基本上按照这个思路进行编码, 因为汉藏文字属于同一体系, 所以从原则上这是讲得通的: 由于国家语言文字委员会对藏文字定有《现代藏文通用字笔顺规范》, 小学藏语文教学必教笔画顺序, 因此采取笔画编码是书写藏文字的人都可接受和掌握, 它不要求什么特殊的记忆, 只要会写的人就能使用, 这点与汉字的笔画编码的理由一致. 汉字的笔画编码已经在被人们广泛使用, 所以藏文字笔画顺序具有很强的规范性.在实际编码中, 由于藏文字结构具有较强的规律性,但是藏文字很少有完全相同的, 个别笔画的使用常常凝聚在部分组合上, 而且藏文字的单音节字符笔画多的达到 6画以内, 按照标准四键编码, 如不进行有效合理的处理, 重码率[1]难以降低. 因此在制定编码技术过程中,必须着重根据藏文字的笔画分布规律, 结构规律, 普通人群的识字规律对所有藏文字笔画和结构以及词组进行充分整理和分析, 确定符合人机行为学的编码规则.藏文字本身由简单的藏文基本音节构成, 也可以看成是由基本笔画通过不同顺序和笔画数组合构成,笔画和笔画顺序完全相同的藏文字极少, 这就使得我们有针对性地采取一定的措施之后, 笔画编码是能够有效地控制编码重码率的.3.2 藏文字笔画的结构藏文字笔画分布规律要求最合理的定义使用的笔画, 在汉字笔画中包括“横、竖、撇、捺、点、折、弯钩、提”, 而在藏文字中这些笔画的使用率各不相同,有些使用率很低, 以30个基字单音节为例研究藏文文字笔画的使用频率分别为: 横的使用率为96.67%、撇的使用率为20.02%、捺的使用率为6.67%竖的使用率为 33.3%、弯钩的使用率为 10.03%、提的使用率为3.33%. 因此需要科学的归类和组合笔画才能最合理的代表藏文字组字信息, 以均匀分布笔画编码.其中结构规律要求最直观的是定义藏文字字型,并科学的确定笔画分配, 藏文字字型包括“左右型、上下型、左中右型、上中下型、独体型”等等, 由于藏文字字符串笔画数多, 笔画编码必须根据字型分配笔画,此时必须考虑编码的重码率, 这一点很重要, 任何编码如果重码率太高, 就意味着输入时需要更多的选择,输入效率不高是一个方案被淘汰的主要原因之一, 因此在藏文字字型选择越多则编码重码率就易于下降,但规则就相对复杂, 因此应尽可能的简单化. 设计补充藏文字笔画编码是由于部分藏文字笔画较少, 不足以编辑四码; 采取两种方法共同补充, 一是按标准藏文音节字母顺序补充, 二是重新按藏文字书写笔画补充, 从而确保了会使用藏文字汉化音的和会藏文字笔画的人均可以方便灵活使用.4 藏文字符音节构成部件的基本字符Unicode现代藏文编码字符集为现代藏文分配的编码空间是从OFOO至OFFF. 其中, 对现代藏文字符的音节是按类连续编码的, 字符的分类规则和排放顺序完全依照现代藏文传统的排序方法. 针对藏文字符的30个辅音字母连续分配于OF4O至0F69之间, 4个元音符号分配于OF71至OF7D之间. 因此, 比较现代藏文字符音节间各构件时, 不需要再为辅音字母和元音字符编码进行编码, 直接比较其字符音节的编码值. 根据Unicode国际字符集编码原则, 现代藏文的上加字音节必定都为非组合用字符区的字符, 下加字音节则都为组合用字符区的字符, 通过代码值就可以正确反映它们的排序顺序. 藏文字符音节构成部件的基本字符具体如下表1:表1 藏文字符音节基本字符表?因此, 要设计符合规范的现代藏文字排序模块, 必须使之完全基于Unicode现代藏文编码字符集及其编码原则, 本文就是基于 Unicode现代藏文编码字符集标准进行应用设计构思的[2-5]. 在藏文字中“横竖撇捺点折弯钩提”对其笔画部首进行编码, 将会很省计算机的内存空间, 处理数据的时间度将会降低. 这样更方便、更有效的字符编码排序的趋势也将会更快捷和简单化.5 对现代藏文字笔画编码排序顺序的构思现代藏文排序将被广泛应用于现代藏文字符的字处理的各个方面, 包括字、词典的排序、系统软件和其他应用软件. 目的是在 Unicode国际字符编码的标准下, 实现一种在计算机里自动分割现代藏文单音节排序的算法模型. 采用藏文笔画编码的排序前提还是要依赖于藏文基本字符音节的科学排序规则.现代藏文字笔画分部有如下表2:表2 现代藏文字笔画分部?掌握藏语知识的人, 他们对现代藏文语言文字的传统人工排序规则很熟悉, 他们能很快的进行编排和查找现代藏文词典. 可是想要在计算机中实现对这一传统的排序规则做一个简单明了而又富有逻辑性的描述却具有一定的挑战性. 现代藏文字符音节的排序是指依照一定的规则, 对输入单个现代藏文音节结构部件进行优先级的排序, 从而指出现代藏文单音节的各个结构部件, 为进一步的多音节现代藏文排序提供很好的参考与实现. 对现代藏文字笔画编码排序顺序则需要把藏文字的基本音节字符掌握清楚, 在其基础上作进一步的细化, 这样藏文字笔画编码排序规则就易于程序设计及算法优化了.参考文献【相关文献】1 张学涛.汉字的笔画、部件、偏旁和基本字四大组成部分—中文信息名词标准化概念探讨.计算机中文环境,1995,(7).2 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定.计算机应用,2009,29(7).3 黄鹤鸣,赵晨星.对DUCET 中部分藏文字母排序码的商榷.计算机工程与应用,2008,44(29).4 扎西次仁.藏文的排序规则及其计算机自动排序的实现.中国藏学,1999,4.5 春燕,曲珍.藏文文本编码识别方法研究.计算机工程与应用,2011,10.6 珠杰,欧珠.基于藏文编码GB的藏文排序方法研究.西藏大学学报(自然学科报版),2008,5.7 江荻,康才晙.书面藏语排序的数学模型及算法.计算机学报,2004,4.8 江荻,燕海雄.藏文字符的分类与功能描述.西藏研究,2010,10(5).9 王华,丁晓青.一种多字体印刷藏文字符识别方法计算机工程,2004,30(13).。
现代藏字全集的属性统计研究
2 藏字全集中藏字的字长统计
一个藏字的字长是指构成该藏字的构件的多少。一个藏字可由一到七个构件构成 ,因此 藏字的构造上是不等长的 。藏字的构件数的研究对计算机藏文内码 、输入编码设计和藏字识 别等研究有重要的理论和实践意义 。藏字全集中藏字字长的统计结果如表 1 所示 。
表 1 藏字全集中藏字字长的统计结果
72
表 2 藏字的结构及所对应的藏字数的统计结果
字符长度
结 构 方 式
组成的 藏字个数
一个字符 辅音字母
30
基字 + 元音
120
两个字符
基字 + 后字 上加字 + 基字
270 33
基字 + 下加字
43
前加字 + 基字 + 后加字
480
前加字 + 基字 + 元音
192
前加字 + 上加字 + 基字
前加字 + 上加字 + 基字 + 下加字 + 元音 + 后加字 + 再 后加字
168
占藏字全集的藏字的 百分比 ( %)
01155 01619 11495 01170 01222 21474 01990 01103 01160 01680 01077 01010 11531 01887 11995 51567 11082 01412 01639 81907 01031 01928 11438 11732 01351 61124 01789 11190 41330 71979 11552
前加字 + 基字 + 元音 + 后加字 + 再后加字
1344
上加字 + 基字 + 下加字 + 元音 + 后加字
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( u+O6 ) FA 的属性值 ; 修改组合用下加字元 u+ FO O9—u+ F C OB  ̄ 用 的上加字元 (
中图分类号 : ̄ 1 ' 39 I
合定位 (
c — o b i — S) a C m in aas字段 的值; l ng 增加组合
u)建议增加 3 个复元音. ; 6 通过这些修改藏文编码字符集基本集将更加完善 .
收稿 日期 :0 6—0 20 4—2 0
) 应当是下接于基本字元 , 所以它在 Un o e i d c
作者简介 : 鸣(9 9 , 藏族 )青海人 , 黄鹤 16 一)男( , 青海师范 大学物理系讲师 , 研究方 向: 模式识别
维普资讯
4 0
善的地方 , 这直接影响着藏文字符扩展集 A的字符编码数据库的建立. 经仔细研究后提出以下几点修改 和补充建议 : 修改字元 ( 0 ) u+ 与 ( 0 B ) u+ F C 的属性值 ; 修改字元 ( 0 6 ) u+ FA 的属性值 ; 修改组
合用下加字元 U+ F U+ F C 09 0 B 的组合定位 (a o i l C m in — l s字段的值 ; C nn a — o b i Ca ) c ng s 增加组合用的
N . o3
第3 期
对 藏 文字 符基 本 集 UNI O E数 据 库 的 商榷 C D
黄鹤鸣 契嘎 ・ , 德熙嘉措2
(. 1青海师范大学 物理系 , 青海 西宁 800 ;. 1082青海藏文信息技术研究所 。 青海 西 宁 80o) 1o8
摘 要: 本文提出了对藏文编码字符集基本集的几点修改建 议 ; 修改字元 - <u+O B ) F 2 与 ( U+O C 的属性值 ; Rj ) 修改字元
文献标识码 : A 文章编号 : 0 — 5 2 2 0 )3 0 3 — 3 1 1 7 4 (0 6 0 — 0 9 0 0
关键词: 藏文 ; 信息技术; 字符编码 ; n oe U id 数据库 ; e 标准
万国代码组织( n o在各种语言文字的字符编码方面具有权威性 , Ui) c 字符编码国际标准的制定要遵 从 Un o i 所制定的字符编码数据库的 Un o e c i d 标准 . c 藏文编码字符基本集的国际标准的制定 , 同样遵从 了字符编码数据库的 U i d 标准 , n oe c 这样才能在信息技术 中, 基本实现 了藏文字符 的表示、 交换 、 处理、 存储 、 输入及显现 . 但我们在制定藏文字符扩展集 A时, 发现藏文字符基本集的 U i d 数据库有不完 n oe c
即字元 : ( 0 B ) ^ u+ F 2 与字元 : u+0 B ) U i d 字符数据库中相应的记录应填写如下 : J ( F C 在 n oe c
0 R ; B TA S TI E N UN OI ED I T R R ; N ET E A Mn;0 ; S ; ; ; ; ; 2 2 N M ; ;N ; ;
+
1
=
面 பைடு நூலகம்
类似的字符有 : ( F A )乓 U+ 3 0 、 ( F 2 ) 而在组合字符 ( F F ) 乏 U+ 3 4 、 ( F E )丐 U+ 4 9 等. U+ 3 3 中基本字 元是 9 U+ F 9 , ( 0 4 )上加字是上加不变形字元 : :
+
=
类似的组合字符有: ( F 6 ) ( F 6 ) . 甭 U+ 84 U+ 84 等
因此藏文字符 有作为基本字元 、 上加变形字元 、 上加不变形字元 、 下加变形字元 、 下加不变形字元 等五种形式 , 藏文编码字符基本集对下加变形字元 : 与下加不变形字元 : 在字形上作了明确的区分 ,
但在属性方面的区分不严格. 其中下加变形字元 : (
基金项 目: 息产业部信部运 [ o ]9 号 信 2 233 o
青 海师范 大 学学 报 ( 自然科 学版 )
20 0 6生
字符数据库 中对应记录的组合定位字段的属性值应该是 2 2 而下加不变形字元 : u+ F C 应 当出 0; ( 0 B )
现在基本字元 的下部 , 以它在 U i d 字符数据库中对应记录的组合定位字段的属性值应该是 20 所 n oe c 2.
上加 字元 ( AG ; R U)增加 3 6个复合 元音 .
1 修改建议
1 1 修 改 宇元 ( . U+0 B ) F 2 与 ( U+O B 的属性 值 , F C) 严格 区分下 加变形 宇元 ( +0 B ) U F 2 与下 加不 变形 宇元 ( U+0 B F C)
在藏文 中字符 ( A) R 有多种形式 : 有基本字元 : R )U+ F 2 T B T N L T E A)有下 ( A ( 0 6 ; IE A E T R R , 加 不 变形 字元 : R ( ( A)U+0 B TIE A L 3 NE L 1] RFX D—F R R , 下加变形 F C; B T N S 丌J OI D Er E IE r O M A)有 字元 : R )0 ; IE L U J I E E T RR )在藏文字符基本集 中将这几个字元在字形 ( A (F l T B NS B O N D L T E A , 2 上作了严格的区分. 但是还应该有上加变形字元 : 与上加不变形字元 : . 例如 , 在组合字符 币( U+ l 中基 本字 元是 : ( E) 1 U+0 4 )上加字 是 上加变 形字元 : R : F0 , ( A)
维普资讯
20 年 06
青海师范大学学报 ( 自然科学版) J r l f i ̄ i o a U i rt N t aSi c) on w r l n e i( a r e e u aoQ N m v sy u l c n
2 a