试提一种新的藏文音节字排序模型
藏文音节字的频次统计
音 节 分 隔符 来识 别藏 文音 节 字的 方法 ,设 计 实现 了藏 文音 节 字 频 次统 计软 件 ,并从 不 同的 角度 对 统计 结
果 和错误 音 节 的类 型进行 了分析 。
关键 词 藏文 ;音 节 字 ;频 次 ;统计
DOI:10.162494.cnki。54-1034/c.2016.01.009
2藏 文音 节 字频次 统 计软 件 的设计 与 实现
2.1藏 文音 节 字频 次统 计 算法 的思 想
纯藏 文 文 本 中每 个 音节 以音 节 点“,”(OxOFOB)或 单 垂 符“1”(Ox0FOD)隔开 ,但 对 现 代藏 文 文 本分 析 发
现 ,现 代 的藏 文文 本 中 既有汉 文 、也 有英 文和 一 些特 殊 的符 号 ,并且 这 些特 殊字 符 与藏 文音 节之 间省略 了
收稿 日期 :2016-03—24 基金项 目:2013年度 国家 自然科 学基金项 目“跨语言社会 舆情分析基础理论 与关键技术研 究”(项 目号 :61331013);2015年 度 国家 自然科 学基 金项 目“基 于深度 学 习的藏语 网络舆情监测 中的大数据处 理研 究”(项 目号:61540060);2015年度 西藏 自 治区高等 学校人 文社会科 学研 究项 目“藏文 音节 字的频度 统计”(项 目号 :sk2O15—06)阶段性成果。 第 一作者简介 :普次仁 ,男,藏族 ,西藏 日喀则人 ,西藏大 学藏 文信 息技 术研 究 中心副教 授 ,主要研 究方 向为藏文信息处理。
2013年年 底 西藏 大 学完 成 了教 育部 、国家 语 委 民族 语 言文 字规 范标 准建 设 与信 息 化 项 目“大 型藏 文 基础 语料 库 建设 ”(MZl15—039) 。“大型 藏文 基础 语 料库 ”是 一个 大型 的藏 语通 用语 料库 ,为 语 言文字 的信 息处 理 、语 言文 字规 范和 标 准 的制 定 、语 言文 字 的学术 研 究 、语 文 教 育和语 言 文字 的社 会 应用 等服 务 。该 课题 借 助 计算 机 技 术和 语 言 学 理论 的 新成 就 及 其研 究 方法 ,参照 国家语 委 现 代汉 语 语 料库 ,结 合 藏语 语 料 本 身 的特 点 ,建 立 了一 个 1亿 5千 万藏 文 字 符 的 大 型藏 文 平 衡 语料 库 。该 数 据 的 时 间跨 度 为 1986 ̄ 2013年 ;数据 来 源 主 要有 报 纸 、电子 资源 、期 刊 、书籍 和 网 络 ;区域 覆 盖 了北 京 、甘 肃 、青 海 、四川 和 西藏 。 该数 据库 作为 本 论文研 究藏文 音节 字频 次 统计 的数 据源 。
融合La格虚词语义信息的藏文La格分类模型
第62卷 第4期厦门大学学报(自然科学版)V o l .62 N o .4 2023年7月J o u r n a l o f X i a m e nU n i v e r s i t y (N a t u r a l S c i e n c e )J u l .2023h t t p :ʊjx m u .x m u .e d u .c n d o i :10.6043/j.i s s n .0438-0479.202209022融合L a 格虚词语义信息的藏文L a 格分类模型班玛宝1,2,慈祯嘉措1,2,3,4,5,张 瑞1,2,才让加1,2,3,4,5*(1.青海师范大学计算机学院,青海西宁810016;2.省部共建藏语智能信息处理及应用国家重点实验室,青海西宁810008;3.青海省藏文信息处理与机器翻译重点实验室,青海西宁810008;4.藏文信息处理教育部重点实验室,青海西宁810008;5.青海省藏文信息处理工程技术研究中心,青海西宁810008)摘要:采用深度学习方法实现藏文L a 格()分类是一项具有挑战性和重要研究意义的藏语自然语言处理任务.藏文L a 格的自动分类更加依赖于上下文语义信息和特征的时序性,该文通过分析L a 格虚词的用法及语义特征,在设计L a 格虚词语义信息标记算法的基础上,提出一种融合L a 格虚词语义信息的藏文L a 格分类模型.该模型首先以每个音节及对应L a 格虚词或其它音节的语义特征嵌入作为输入,丰富嵌入向量的语义信息,增加输入特征的多样性;然后采用一维卷积融合并学习每个音节及对应L a 格虚词或其它音节语义信息的局部特征向量,提高卷积层的空间特征学习能力;其次使用双向长短时记忆网络(l o n g s h o r t -t e r m m e m o r y )(L S T M )学习时序特征,提高时序特征的学习能力;最后使用注意力机制对双向L S T M 层每一时刻的输出特征进行加权融合,充分利用每一时刻的输出特征,以提高最终文本表示的特征质量.在T L D 藏文L a 格数据集上的实验结果显示,该模型的分类效果优于基线模型及仅用藏文音节嵌入的模型,在测试集上的分类准确率为93.10%.关键词:自然语言处理;L a 格虚词;语义信息;神经网络;L a 格分类中图分类号:T P 391.1 文献标志码:A 文章编号:0438-0479(2023)04-0695-09收稿日期:2022-09-15 录用日期:2022-11-21基金项目:国家自然科学基金(61866032,619660316,622061146);青海省重点研发项目(2022-G X -104)*通信作者:z w x x z x @163.c o m引文格式:班玛宝,慈祯嘉措,张瑞,等.融合L a 格虚词语义信息的藏文L a 格分类模型[J ].厦门大学学报(自然科学版),2023,62(4):695-703. C i t a t i o n :B A N MB ,C I Z J C ,Z H A N GR ,e t a l .T i b e t a nL a c a s e c l a s s i f i c a t i o nm o d e lw i t h f u s e dL a c a s e f u n c t i o nw o r d s e m a n t i ci n f o r m a t i o n [J ].JX i a m e nU n i vN a t S c i ,2023,62(4):695-703.(i nC h i n e s e) L a 格是藏文语法典籍‘三十颂“中的重点和难点[1],也是八格()中的主要研究内容.传统藏文文法中,从格语法角度出发,对藏文语义进行了一些探讨和研究,为进一步研究奠定了基础.仅L a 格虚词的用法就占据着八格中的三席,分别是业格()㊁为格()和依格(),另外同格()和时格()也是L a 格常见的两类用法.因此详细分析L a 格虚词的几种用法,研究藏文L a 格分类技术,在藏语格语法研究㊁语法功能研究和自然语言理解等藏语自然语言处理任务中具有广泛的应用前景.此外,L a 格是藏语文课本中必学的一个重点知识,唯有熟练掌握其概念和用法,才能准确区分藏文L a 格句子类型,并进一步深入分析每个句子的实际语义.可见研究基于机器学习方法的藏文L a 格分类技术在L a 格学习中也具备一定的实际应用价值.近年来,随着深度学习技术的不断成熟[2-3],卷积神经网络(c o n v o l u t i o n a l n e u r a l n e t w o r k ,C N N )㊁循环神经网络(r e c u r r e n t n e u r a l n e t w o r k ,R N N )和一些混合神经网络被逐渐应用于句子分类任务.因R N N 存在梯度消失和梯度爆炸问题,所以通常会使用其变体 长短时记忆网络(l o n g s h o r t -t e r m m e m o r y,L S T M ).K i m [4]提出了一种基于卷积神经网络的句子分类模型,在7个任务上测试,有4个任务都取得了当时最佳研究结果.Z h a o 等[5]提出了一种基于注意力的C N N 句子分类模型,经实验表明,该模型的句子分类性能优于传统C N N 模型.V i e i r a 等[6]使用C N N 进行多组实验,考查了句子分类模型性能对超参数变化的敏感程度.高云龙等[7]提出了基于稀疏自学习C N N的句子分类模型,经实验表明,该模型取得了较好的分类效果.L i u 等[8]提出了一种用于句子分类的多粒度注意力门控C N N ,经实验表明,该模型的句子分类准确率比标准C N N 提高了3.1%.汪冉等[9]提出了极Copyright ©博看网. All Rights Reserved.厦门大学学报(自然科学版)2023年h t t p :ʊjx m u .x m u .e d u .c n 性转移L S T M 树结构网络模型,经实验表明,该模型在斯坦福情感数据集上的句子分类效果优于L S T M和递归神经网络等模型.F e n t a w 等[10]提出了一种用于句子分类的胶囊网络(C a ps N e t s ),经实验表明,其句子分类性能优于C N N 和R N N 模型.李文宽等[11]提出了一种基于C N N 和贝叶斯分类器的句子分类模型,经实验表明,该模型优于只使用深度学习的模型或传统的句子分类模型.从上述研究可见,英㊁汉文通过理论和方法的创新,对常用句子分类模型进行优化和改进,已成功将深度学习方法运用到了句子分类任务中,并取得了可喜的研究结果,为进一步研究奠定了基础.常见的藏文文法均对藏文句型及分类方法进行了一定的研究,为研究基于深度学习方法的藏文句子自动分类技术奠定了理论基础.有关藏文句子自动分类的研究及文献报道极少.柔特等[12]提出了一种基于R N N 的藏文句型分类方法,经实验,其分类准确率为85.61%.B a n 等[13]提出了一种基于短语特征的藏文疑问句分类方法,经实验,其分类准确率为96.98%.班玛宝等[14]提出了一种融合双通道音节特征的藏文L a 格自动分类模型,经实验,其分类准确率为90.26%,取得了较好的分类效果,对藏文L a 格自动分类任务的研究具有开创性意义.但该模型[14]存在两点可改进之处:一是该模型没有学习到以藏文L a 格虚词为核心的上下文语义信息,然而经研究发现,藏文L a格虚词在不同L a 格句型中的语义功能及使用频度均有所差异[1];二是该模型采用了二维卷积模式,然而研究表明,一维卷积更适用于序列数据,如自然语言处理领域,而二维卷积则更适用于计算机视觉和图像处理领域[15-16].针对藏文L a 格的分类对以L a 格虚词为核心的局部空间特征的依赖度大㊁对特征的时序性要求高和文献[14]中模型存在的不足,本文通过分析L a 格虚词的语义特征及用法,在设计藏文L a 格虚词语义信息标记算法的基础上,提出了一种融合L a 格虚词语义信息的藏文L a 格分类模型.该模型以每个音节及对应L a 格虚词或其他音节的语义信息作为输入,增加了特征的多样性,丰富了输入特征的语义信息;为了提高局部空间特征的学习能力,采用一维卷积操作学习局部特征并融合每个音节及对应L a 格虚词或其它音节的语义信息,提高了卷积层的空间特征学习能力;为了提高模型学习时序特征的能力,使用双向L S T M 对时序特征进行了更合理地学习;为了充分利用双向L S T M 层各时刻的输出特征,使用注意力机制对每一时刻的输出特征进行加权融合,提高了最终的特征质量;最后,进行多组对比实验,验证本文模型的优越性.1 藏文L a 格虚词语义信息标记算法1.1 L a 格虚词的用法及语义特征分析由于L a 格中的虚词与虚词 在业格㊁为格㊁依格㊁同格和时格中的用法基本相同,所以统称它们为L a 格.根据L a 格虚词的语法和语义功能,L a 格虚词的用法可以分成表示业格㊁为格㊁依格㊁同格和时格的五类句型,藏文L a 格句子实例见表1.表1 藏文L a 格句子实例T a b .1 E x a m p l e s o f T i b e t a nL a c a s e s e n t e n c e s 句型实例业格句译:在森林里砍树.为格句译:为藏区的发展给予了很多帮助.依格句译:今年在森林里长着很多松树.同格句译:把汉文新闻翻译成了藏文.时格句译:在开全国会议时进行演讲.在‘藏语语法疑难释义“和‘藏语语法研究“中提到不同L a 格虚词在各类用法(L a 格句子)中的语义功能和使用度都有差异[1,17],故本文对其进行了总结和分析:1)L a 格中自由虚词不一定可以随机替换不自由虚词.在L a 格句子中,根据L a 格虚词的添接规则,原则上自由虚词 或 可以随机替换其余5个不自由虚词,但在实际使用中会出现不可替换或替换后不恰当的现象.如 替换成后句型会发生改变,替换成后会出现L a 格虚词使用不恰当的现象.2)L a 格中自由虚词的使用形自由义不自由.在L a 格虚词的不同用法中,自由虚词 和 的使用虽在形式上自由,但在语义上不自由.如替换成后会出现L a 格虚词使㊃696㊃Copyright ©博看网. All Rights Reserved.第4期班玛宝,等:融合L a 格虚词语义信息的藏文L a 格分类模型h t t p :ʊjx m u .x m u .e d u .c n 用不恰当的现象, 替换成后语义会发生变化.3)L a 格虚词在不同用法中的使用度不同.相比其他L a 格虚词,自由虚词 和 分别在依格和业格中的使用度较高,而在同格和时格中的使用度则偏低[1,17].另外不自由虚词在不同L a 格句子中的使用度也有所不同[1,17].1.2 L a 格虚词语义信息标记算法L a 格根据虚词的语义功能和添接规则分成了不自由虚词和自由虚词两种,其中,为不自由虚词,其添接受前一音节后加字的限制,需在后加字为 的音节后添接 ;后加字为 和再后加字 之一的音节后添接;后加字为之一的音节后添接 ;后加字是或没有后加字的音节后添接 或 .和 是自由虚词,其添接不受前一音节后加字的限制,可自由添接.L a 格虚词的详细添接规则见表2.表2 藏文L a 格虚词的添接规则T a b .2 A d d i n g ru l e s o f t h eT i b e t a nL a c a s e f u n c t i o nw o r d s 后加字L a 格虚词不自由虚词自由虚词或㊁或㊁㊁㊁㊁或或无或虽然所有L a 格虚词的总体用法一致,但因藏文L a 格虚词的语义功能和语言表达能力强于其他藏文虚词,在具体用法中的语义功能和使用度均会有一定的差异[1].故在藏文L a 格分类任务的建模中,若模型除了获取每个L a 格句子的文本表示外,还能获取不同L a 格虚词的语义信息,将有利于进一步提升模型性能.基于此,本文将通过设计L a 格虚词语义信息标记算法,标记L a 格句子中L a 格虚词和其他音节的语义信息,以供模型在训练时学习到更加丰富和多样的语义特征.藏文L a 格虚词语义信息标记算法的主要功能是根据藏文L a 格虚词的用法及添接规则,在识别出所有输入L a 格句子中L a 格虚词的基础上,标记每个L a 格虚词的语义信息,并为其余音节都标记了语义信息 O 以便后续神经网络的建模.藏文L a 格虚词语义信息标记算法详见算法1.算法1 藏文L a 格虚词语义信息标记算法.I n pu t :S D ,L ʊS D 是至少含一个L a 格虚词的L a 格句子集,L ѳ[ , , , , , , ]O u t pu t :S T ʊS T 为标记好L a 格虚词和其它音节语义信息的L a 格句子集1:S T =[]2:f o r S i n S D do 3: N S =L T a g ge r (S ,L )ʊ调用标记每个句子中L a 格虚词语义信息的L T a g g e r 函数,将已标记L a 格虚词语义信息的句子赋值给N S4: f o r C i n N S d o ʊ遍历句子中的每个音节5: i f / i n C t h e n ʊ判断/ 是否在音节中,若在,说明N S 是已标记语义的L a 格虚词6: N S [N S .i n d e x (C )]=(C .s p l i t ( / )[0],C .s pl i t ( / )[1])ʊ将 /L 4 等形式替换成( , L 4 )的形式7: e l s e ʊ将L a 格虚词之外的音节都替换成( C , O )的形式8: N S [N S .i n d e x (C )]=N S [N S .i n d e x (C )]+ , + O 9: S T ѳN S ʊ将标记好L a 格虚词和其它音节语义信息的句子逐条添加到列表S T 中10:r e t u r n S T 11:f u n c t i o n L T a g g e r (S e n t e n c e ,L )ʊ定义L T a g g e r 函数用以标记每个句子中L a 格虚词的语义信息12: S ѳS e n t e n c e .s p l i t ()13: l a l i s t =[C h a r f o r C h a r i n S i f C h a r i n L ]ʊ获取每个句子中潜在的L a 格虚词14: i f l a l i s t .l e n gh t >=2t h e n ʊ判断潜在的L a 格虚词个数是否大于等于215: f o r l a i n l a l i s t d o 16: i f l a 的用法满足表2中不自由虚词的添接规则t h e n17: S [S .i n d e x (l a )]=S [S .i n d e x (l a )]+ /L +s t r(L .i n d e x (l a )+1)ʊ将L a 格虚词替换成 /L 4 的形式18: e l s e ʊ潜在L a 格虚词为自有虚词或 的情况19: S [S .i n d e x (l a )]=S [S .i n d e x (l a )]+ /L +s t r(L .i n d e x (l a)+1)20: e l s e ʊ只有一个潜在L a 格虚词的情况21: S [S .i n d e x (l a )]=S [S .i n d e x (l a )]+ /L +s t r (L .i n d e x (l a )+1)算法1中的S D 表示完成音节切分的藏文L a 格句子集,如 等.S T 是调用函数L T a g ge r 标记好L a 格虚词和其他音节语义信息后返回的L a 格句子集,如 [( , O ),( , O),( , L 7 ),( , O ),( , O ),( , O ),( , O )] 等. L 1,L 2, ,L 7 依次表示L a格虚词的类别语义信息, O 表示其他音节的语义信息.㊃796㊃Copyright ©博看网. All Rights Reserved.厦门大学学报(自然科学版)2023年h t t p :ʊjx m u .x m u .e d u .c n 2 融合L a 格虚词语义信息的藏文L a 格分类模型本文模型的设计思路是在输入音节序列特征的基础上,额外加入L a 格虚词(用L i 标记7个La 格虚词中的第i ɪ[1,7]个L a 格虚词的语义信息)和其他音节(用 O 标记其它音节)的语义信息来增强输入部分的语义表达,进而达到优化模型性能的效果.基于此,我们提出了一种融合L a 格虚词语义信息的藏文L a 格分类模型,总体模型架构如图1所示.主要由6部分组成,分别如下:1)输入层:输入利用算法1标记好L a 格虚词和其他音节语义信息的藏文L a 格句子,输入单元为音节;2)嵌入层:将每个音节及对应L a 格虚词或其他音节的语义信息 L i或 O 映射成低维语义向量;3)卷积层:为了避免破坏特征的时序信息,模型仅采用一维卷积,通过拼接嵌入层的每个音节及对应L a 格虚词或其他音节的语义特征向量,完成每个音节及对应L a 格虚词或其他音节语义信息的融合,进而提取输入文本的空间语义特征;4)双向L S T M 层:以提高时序特征的学习能力为目的,本文在卷积操作后直接拼接双向L S T M 学习文本时序特征;5)注意力机制层:为了充分利用双向L S T M 层每个时刻的输出,使用注意力机制对双向L S T M 层各时刻的输出特征进行加权融合;6)分类层:将注意力机制层输出的句子级语义向量输入到全链接层和S o f t m a x 层进行最终的L a 格分类.图1 融合L a 格虚词语义信息的藏文L a 格分类模型架构F i g .1T i b e t a nL a c a s e c l a s s i f i c a t i o nm o d e l a r c h i t e c t u r ew i t h f u s e dL a c a s e f u n c t i o nw o r d t y pe i nf o r m a t i o n 2.1 嵌入层给定一个包含T 个音节及对应L a 格虚词或其他音节语义信息标记的L a 格句子S ={(c 1,t 1),(c 2,t 2), ,(c n ,t T )},为了将S 中的每个音节c i 及对应La 格虚词或其他音节的语义信息t i 映射成实值向量e ci和e t i ,需要分别从音节嵌入矩阵W c h a r ɪR d c|V |及对应L a 格虚词或其他音节语义信息的语义特征嵌入矩阵W t a g ɪR d t|V |中查找S 中的每个c i 及t i ,其中矩阵W c h a r 和W t a g 是模型要学习的参数,V是词汇表大小,d c 是音节嵌入的大小,dt是音节语义特征嵌入的大小,与d c的大小相等.所以可以使用矩阵和向量的乘积将c i 和t i 映射成e c i 和e t i:e c i =W c h a r v i,(1)e t i =W t a g v i ,(2)其中,v i 是大小为|V |的向量,在e c i 和e ti 处的索引值为1,其他位置的值均为0.至此,藏文L a 格句子可以作为实值向量e s ={(e c 1,e t 1),(e c 2,e t 2), ,(e c T ,e t T )}送入模型.㊃896㊃Copyright ©博看网. All Rights Reserved.第4期班玛宝,等:融合L a 格虚词语义信息的藏文L a 格分类模型h t t p :ʊjx m u .x m u .e d u .c n 2.2 卷积层为了增加文本表示的空间维度和特征多样性,达到丰富特征表达的目的,本节将音节嵌入e c i 及对应La 格虚词或其他音节的语义特征嵌入e ti进行拼接后作为卷积层的输入,采用一维卷积提取固定感受视野下的局部空间特征,并完成对e c i 和e ti 两种语义信息的融合,融合语义信息的形式化表示如下:g f 1, ,gf T =C O N V k ([e c 1,e t 1], ,[e c T ,e t T ]),(3)其中,C O N V k 表示一维卷积层,k 是卷积核大小,即感受视野.2.3 双向L S T M 层在句子和短文本分类任务中,卷积之后直接使用池化操作容易造成文本时序信息的损失,进而影响模型性能[14,18].为了避免卷积之后直接进行池化操作而对时序特征造成破坏,将在卷积操作后拼接双向L S T M 来学习文本的时序特征,以提高模型对上下文时序信息的学习能力.双向L S T M 层的输入向量为卷积层的输出特征,所以t 时刻双向L S T M 层的最终输出可以表示为h t ,其计算过程如下:h 1ң, ,h T ң=L S T M f (g f 1, ,g f T ),(4)h 1ѳ, ,h T ѳ=L S T M b (g f 1, ,gf T ),(5)h t =h t ң+h tѳ ,(6)其中,L S T M f 和LS T M b 分别表示正向L S T M 和反向L S T M ,h t ң和h tѳ分别表示t 时刻L S T M 的正向和反向的输出值,t ɪ[1,T ].2.4 注意力机制层为了充分将注意力聚焦在L S T M 层各时刻输出特征中贡献较大的文本特征上,本文在双向L S T M 层后采用注意力机制对各个时刻的输出特征进行加权融合.假设双向L S T M 层t 时刻的输出向量用H t 表示,e t 表示H t 对L a 格句子语义的重要程度,a t 表示H t 对整个L a 格句子语义表示贡献的权重.根据上述定义,可得注意力权重的计算方法如式(7)和式(8)所示.e i =u T ㊃t a n h (W a ㊃H t +b a ),(7)a t =e x p (e t )ðTj=0ex p (e j ),(8)其中:u T ㊁W a 和b a 是模型需要学习的参数,t a n h 为非线性激活函数.通过式(8)能够计算出双向L S T M 层所有时刻的注意力权重,然后对其进行加权求和便可得到注意力机制层最终输出的特征向量V :V =ðTt =0a t ㊃H t ,(9)其中:T ={t 0,t 1, ,t n -1};n 是每条藏文L a 格句子包含的音节数,即句子长度.2.5 分类层得到注意力机制层的最终输出V 后,就可以通过全连接层和S o f t m a x 层预测L a 格的类型.用S (S i ɪS )表示V 经过全连接层输出的文本语义特征向量,则模型将某条藏文L a 格句子预测为i 类的概率为p i ,其计算过程如下:S =s o f t m a x (W i ㊃V +b i ),(10)p i =e x p (S i )ðnm =1ex p (S m ),n =5,(11)其中,i ɪ[1,5],分别表示5种藏文L a 格句子类型,n 表示句型数目,s i 表示S 中属于类别i 的分值,W i 与b i 为全连接层需要学习的参数.3 实 验3.1 实验环境与数据说明3.1.1 实验环境实验设计平台是A n a c o n d a ,采用的框架为K e r a s,后端为T e n s o r f l o w 框架.其他配置参数见表3.表3 实验环境配置T a b .3 E x p e r i m e n t a l e n v i r o n m e n t c o n f i g u r a t i o n 实验环境配置参数操作系统U b u n t u 20.04.2L T S开发语言P yt h o n 3.6C P U /内存I n t e l (R )X e o n (R )G o l d5112@3.60G H z/128G B G P U /显存N V I D I AQ u a d r oP 6000/24G B运行环境C UD A9.0C U D N N7.6.53.1.2 实验数据说明为了确保实验结果的可对比性,所用实验数据是文献[14]中所构建的L a 格分类数据集,为后续方便使用,简称藏文L a 格分类数据集为T L D .该数据集共有20000条L a 格句子,每条句子有且仅含一个L a 格虚词,其中业格句有6964条,为格句有2684条,依格句有3104条,同格句有3595条,时格句有3653㊃996㊃Copyright ©博看网. All Rights Reserved.厦门大学学报(自然科学版)2023年h t t p :ʊjx m u .x m u .e d u .c n 条,分别占总数据集的34.82%㊁13.42%㊁15.52%㊁17.98%和18.26%.实验时,按8ʒ1ʒ1的比例将数据集T L D 分成了训练集㊁验证集和测试集.3.2 基线方法与参数设置3.2.1 基线方法选择目前仅有一篇有关藏文L a 格自动分类的文献报道,若只选择该文献为基线验证本文模型的有效性,则会显得基线方法偏少,致使实验的说服力大打折扣.所以为了充分验证本文模型的效果,选了两类基线方法,为了便于下文写作,称第一类为基线一,第二类为基线二.基线一是在句子和短文本分类任务中常用的7个经典基线模型,基线二是文献[14]中的模型,是仅有的一篇有关藏文L a 格自动分类的文献报道.1)F a s t T e x t :是F a c e b o o k 于2016年提出的一种快速文本分类工具[19].2)T e x t R N N :是一种运用于多标签分类问题的方法,结构非常灵活[20].3)B i -L S T M :是一种采用双向L S T M 进行关系分类的方法,在文本分类任务中取得了理想的性能[21].4)B i -L S T M+A t t:是一种基于注意力机制的双向长短时记忆关系分类网络,在文本分类任务中也取得了理想的性能[22].5)T e x t C N N :是应用于句子分类任务的首个卷积神经网络模型,为句子级分类任务提供了便利[4].6)T e x t R C N N :是一种应用于文本分类任务的循环卷积神经网络,集成了R N N 和C N N 的优点[23].7)C -L S T M :是一种使用单通道的多路卷积加双向L S T M 进行文本分类的方法[24].8)S F -C +L S T M+A t t:是一种融合双通道音节特征的单向L S T M 藏文L a 格分类模型[14].9)S F -C +B i -L S T M+A t t:是一种融合双通道音节特征的双向L S T M 藏文L a 格分类模型[14].F W S -C -B i -L S T M+A t t 是本文模型,F W S 表示融合L a 格虚词语义信息,C 表示一维卷积操作,A t t表示注意力机制.与文献[14]的主要区别在于输入特征的构建㊁卷积特征的学习及特征向量的融合,该模型用更为简捷的特征融合方式以及更低维度的特征输入和卷积操作,有效降低内存开销和计算复杂度的同时确保了更佳的模型性能.3.2.2 实验参数设置在实验过程中,为了确保实验结果的可对比性,对所有模型的超参数进行了调参范围限定[18],经过多次调参,最终在有限的范围内选择了当前最优的超参数组合,本文模型的主要参数见表4.表4 模型参数T a b .4 M o d e l pa r a m e t e r s 参数名参数值参数名参数值最长音节数20损失函数c a t e g o r i c a l _c r o s s e n t r o p y 批处理大小16辍学率0.25卷积核数量200学习率0.0001卷积核大小3优化函数A d a mL S T M 大小128迭代次数403.3 实验结果与分析3.3.1 各模型的分类性能对比为了验证本文方法的有效性和优越性,分别在两类基线方法上对比了藏文L a 格的分类效果,选用的评价指标分别是精度(P )㊁召回率(R )㊁F 1值和准确率(A C C ),实验结果见表5.表5 藏文L a 格分类实验结果T a b .5 E x pe r i m e n t a l r e s u l t s of T i b e t a nL a c a s e c l a s s i f i c a t i o n 单位:%实验模型P R F 1A C C基线一F a s t T e x t88.6787.5188.0988.10T e x t R N N87.7386.5687.1487.16B i -L S T M88.0786.5487.4587.50B i -L S T M+A t t 88.2686.9387.5987.75T e x t C N N 89.1887.6888.4288.50T e x t R C N N86.0884.7385.4085.50C -L S T M88.8387.7688.2988.34基线二S F -C +L S T M+A t t 88.8387.7688.2988.34S F -C +B i -L S T M+A t t 90.5889.7790.1790.26本文F W S -C -B i -L S T M+A t t 93.1493.0193.0793.10从表5中可以看出,相较基线一中的7种方法,本文模型的分类准确率平均提高了5.55个百分点,相较基线二中的两种方法,本文模型的分类准确率平均提高了3.8个百分点,表明本文模型取得了更好的分类效果,验证了本文模型的优越性.原因有四,一是本文使用藏文L a 格虚词语义信息标记算法,增加了输入特征的多样性,丰富了嵌入向量的语义信息;二是采用一维卷积操作对每个音节及对应㊃007㊃Copyright ©博看网. All Rights Reserved.第4期班玛宝,等:融合L a 格虚词语义信息的藏文L a 格分类模型h t t p :ʊjx m u .x m u .e d u .c n L a 格虚词或其他音节的语义特征向量进行了融合,增加了文本表示的空间维度,提高了文本表示的空间特征质量;三是采用双向L S T M 学习时序特征,更合理地学习了文本时序特征,提高了文本的时序特征质量;四是采用注意力机制计算双向L S T M 层每一时刻输出特征的贡献值,并进行加权融合,更加充分地学习了每一时刻的输出特征,提高了最终文本表示的质量.本文经分析实验结果发现,影响模型性能欠佳和引起错误的主要原因有二,一是部分L a 格句子无法仅凭上下文时序特征㊁语法结构和浅层语义信息进行分类,如: 和属于业格,而 和分别属于同格和依格.和 中,前一句属于同格,而后一句属于依格.可见,上述句子需要根据具体的语境㊁语用目的和深层语义来判断其类别.二是有些藏文L a 格句子存在兼类现象,如:㊁和等L a 格句子可以根据对 ㊁和 的不同理解分为业格或时格.可见,类似于上述藏文L a 格句子需要理解其深层语义信息和具体的语用目的才能准确分类.3.3.2 特征学习方式对模型性能的影响为了验证本文方法中融合L a 格虚词语义信息方法的有效性以及模型拼接方式的科学性,一是比较了使用L a 格虚词语义信息标记算法前后模型的分类性能;二是比较了不同卷积模式对模型分类性能的影响;三是比较了使用单向L S T M 时和双向L S T M 时模型的分类效果;四是比较了不加或加注意力机制时模型的分类效果,实验结果见图2.可以看出,使用L a 格虚词语义信息标记算法后的藏文L a 格分类准确率比使用前高3.17个百分点,验证了L a 格虚词语义信息标记算法的有效性;只使用一维卷积操作时模型的藏文L a 格分类准确率比使用标准一维C N N 时高1.57个百分点,表明不使用池化法的一维卷积模式更有利于提升模型性能;卷积后直接拼接双向L S T M 时的藏文L a 格分类准确率比卷积后直接拼接单向L S T M 时高1.78个百分点,表明卷积后拼接双向L S T M 学习时序特征的方法更有效;加注意力机制时的分类准确率比不加时高2.24个百分点,表明本文模型在双向L S T M 后加注意力机制时,可以充分利用双向L S T M 层每一时刻的输出特征,进而提高模型最终获取的特征质量,达到提高模型分类性能的效果.1和2分别表示未使用和使用L a 格虚词语义信息标记;3和4分别表示标准一维C N N 和一维卷积操作(无池化);5和6分别表示单向和双向L S T M ;7和8分别表示不加和加注意力机制.图2 特征学习方式对模型性能的影响F i g .2I n f l u e n c e o f f e a t u r e l e a r n i n g me t h o d s o nm o d e l pe rf o r m a n c e 3.3.3 融合L a 格虚词语义信息前后的对比实验为了验证本文设计的L a 格虚词语义信息标记算法的通用性和易用性,分别在基线一的7种分类模型上对比了融合L a 格虚词语义信息前后的效果,结果详见图3.图3 融合L a 格虚词语义信息前后的对比实验F i g .3Ac o m p a r a t i v e e x p e r i m e n t b e f o r e a n d a f t e r f u s i n gt h e t y pe i nf o r m a t i o n o f L a c a s e f u n c t i o nw o r d s 从图3中的实验结果可以看出,使用藏文L a 格虚词语义信息标记算法后,各种神经网络分类模型的藏文L a 格句子分类效果均优于使用前的效果,分类准确率平均提高了1.89个百分点,验证了藏文L a 格虚词语义信息标记算法的通用性和易用性.另外,因㊃107㊃Copyright ©博看网. All Rights Reserved.。
藏文排序方法研究与拓展
藏文排序方法研究与拓展汉藏文字排序方法研究与拓展1. 简介汉藏文排序方法是一种文字排序方法,旨在提高屏幕文字的可读性,而避免了键入文字时的乱序问题。
汉藏文排序法的由来得到了众多名家的学术探讨和研究,尤其是汉语语排序始创于19世纪早期,但自上个世纪以来,它也受到了藏文排序的启发而不断发展的。
本文将在介绍汉藏文排序方法的基础上,介绍其研究内容及拓展方向。
2. 汉语语排序简介汉语语排序是一种文字排序法,旨在改善文字的可读性以及减少打字时的乱序问题。
按照文字中的汉语拼音,文字的笔画数量等原则,以数字的顺序来给汉字排序,使得它们按顺序排列,以便进行有效识读。
这种排序方法在历史上已有很多应用,包括汉字查字典、阅读练习等。
3. 藏文排序简介藏文排序法也是一种文字排序方法,其本质上和汉语排序法类似,但是它根据藏文结构把字母排序,以字符及长度为要素,依次将藏文字母排序,以降低藏文乱序情况。
4. 测试结果分析以参与汉藏文排序的专家组和有关测试结果为基础,文字排序标准的主要考察对象在关键字分析上,效果上比汉语语排序来得更好,词语阅读理解上,汉藏文排序进一步改善汉语语排序,提升了字面可读性,大大提高了读者的阅读理解情况;另外,从连词结构上来看,汉藏文排序的结净层次更为系统,更易于便捷的连贯阅读。
5. 拓展方法汉藏文排序法在文字排序方面广受关注,然而,也有另外的拓展方法,主要分为两方面:(1)改革汉藏文排序法本身,它不仅涉及字母给字笔画数量的排序,同时还需要结合文本环境考虑语义及释义,以提升文本可读性和可调整性;(2)基于汉藏文排序法的应用研究,可以开发识字、识读等类型软件,以便有效提高汉藏文精准排序后的文字可读性。
6. 结论本文介绍了汉藏文排序法的发展历史、测试结果以及扩展方法,它可以为进一步探究各文字的排序规则提供参考,从而改善文字的可读性,提高读者对文本的理解能力。
当然,文字排序还需要加以不断的总结,像英文的字典排序法就是一个很好的参考标准,这也为汉藏文排序法的探究带来了另外一个层面的展望。
藏文拼音口诀,适合不懂藏文的拉萨同学
藏文拼音口诀,适合不懂藏文的拉萨同学1拼音藏文好学又好用,三十字母四元符。
藏文讲究元身论,还讲阴阳和纲常。
一字共有七字位,身元头足前后尾。
身元俱一不可缺,犹如身体和灵魂。
前头身足成声母,元后尾等成韵母。
三十字母分阴阳,坝,白,佰,斑,般为阳。
代表读音不送气,霸,柏,败,班,颁中性。
代表读音为送气,罢,百,拜,搬,板少阴。
代表又送又不送,无前无头是送气。
爸,摆,稗,扳为太阴,代表兼有鼻音在。
其余阴字梆无性,所有字母之根子。
中性字母兼帮音,所有字母兼梆音。
汉语拼音aoe,藏文梆与元符拼。
梆是身字也是元,代表元身一体论。
半,办,绊,邦,帮,梆与,阳性中性高平调。
其余读作低升调,遇到特定韵母时。
高平转成高降调,低升转成低升降。
一般情况不变调,除非组词连读时。
简称平降升曲调,罢,拜,搬,扳,伴,邦,爸,,稗,半,办等可做后,其中罢,拜,搬,扳,伴,又可做为身前字,其中罢,爸,搬,扳等,可以添加尾字邦,瓣,半,办,版可做足,只能配于特定身,无前或前为搬时,半,办,邦等可做头,如此算来七字位,三头四足加一尾,前五后十是大概。
声母变化如下面,少阴与足成基础,遭遇前头不送气,若是前字扳,伴与,头字办时兼鼻音,其余声母无变化。
韵母变化如下面,默认元音与元符,默认后字与后字,构成总共50韵。
罢,拜,搬,邦等后字,爸,扳连带尾字邦,乃是至阳至阴韵,导致音调要转换。
至此可以拼单字,注意头足变形体,还有几个特殊字,连读语法需另讲。
2连读变音说实话不知道。
3助词藏文语法很简单,文言虚词比较难。
先学口语再文言,先记例句再接续。
文言句法有八格,一格实词乃基础。
其余结合助字分,从呼谓属业为依。
从格例如弊扳,稗邦,涤爸邦,呼格例如冻,扳,弊扳,谓格例如闭邦,独,辫稗,属格例如弊扳,卞,脆,业格例如弊扳,办,雕爸,,为格例如拌,蒂,传稗,依格例如弊扳,稗,底拜,合成一句如下句: 弊扳,稗,底拜,斑敌,脆,炒,翟邦,弊扳,稗邦,吹拜,炒,独,搬,辫稗,弊扳,办,拌,扳,拌,蒂,涤爸邦,皆是实词接助字八格之中谓属格,助字接法是一样。
藏文字笔画编码排序的设想
藏文字笔画编码排序的设想刘城;黄鹤鸣;李继文【摘要】藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.%Tibetan sort will be widely used in every aspect of Tibetan language text information processing,including word,dictionary sequence,system software and other application software.This paper attempts to describe Tibetan writing stroke sorting rules which make more correct,reasonable induction,the purpose is to find a sorting algorithm model that could realize automatically the Tibetan strokes character.And which break the framework in Tibetan character syllable sequence depends only on the syllable key radical structure sorting traditional of thinking.【期刊名称】《计算机系统应用》【年(卷),期】2013(022)005【总页数】3页(P18-20)【关键词】藏文;笔画编码;笔画;模式识别;音节【作者】刘城;黄鹤鸣;李继文【作者单位】青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008;青海师范大学计算机学院,西宁810008【正文语种】中文藏文的字母和其它符号有一定的笔顺, 藏文 1的笔顺有些和汉文字的笔顺一样, 按照笔顺写, 字才写得漂亮. 不过, 笔顺作为规则是活的, 各种教材里的英文字母笔顺体样式就多种多样, 汉字笔顺也时有调整, 所以对藏文的标准不唯一, 是正常现象.1 常见藏文字体的笔画样式概述首先我们来分析以下列出的3套体系的藏文印刷体笔顺, 各有一些差别(包括声调符号). 不难看出他们的字体样式会有所不同, 但字的笔画是近似的. 三类分别为: 一是带有箭头笔画指向的版本藏文字书写,见图1; 二是藏族朋友们初学时, 教师常教的一种藏文字书写笔画顺序, 见图2; 三是藏文报刊、教科书的上的书写版本, 见图3. 图1 带有箭头笔画指向的藏文字书写方式图2 教师常教的一种藏文字书写笔画图3 藏文报刊、教科书的上的书写版本通过上面公认的三套体系的藏文书写版本, 因人而异的会喜欢自己的一套书写藏文的笔画顺序, 作为写惯了中韩文日文的学者朋友们, 肯定会将其与其他文字的书写笔画或方式进行对比, 不难看出, 藏文的笔画字体有其独特的特点是: 每个字母最上一笔是横直的, 字母排列时.上端必须在一条直线上, 形似平顶帽. 由于这种字体多用作刊印书籍、录、写文章的字体, 也成出版字体, 另一种笔顺书写则很随意.对于每一个了解和熟悉藏文字的人, 笔画和书写是习得文字的前提, 因此采取笔画编码形成的输入方法不但规范而且易于掌握, 无需强记, 真正可以做到计算机汉字输入如同写字, 得心应手.2 计算机藏文字笔画编码具有它的科学性计算机藏文字编码包括字库编码和输入法编码两类[1]; 其中输入法编码分为, 键盘输入法编码和非键盘输入法编码; 在键盘输入法编码中主要有音节编码和字型编码两大类. 经过长期深入研究和实践, 我们认为计算机藏文输入法采取笔画编码具有其它方法难以逾越的优势, 它能最有效地解决无法用藏文音符编码输入所有藏文的问题, 它能最有效地解决以往字型类编码难学难记的问题.同样是拼音文字的现代藏文, 也有其科学的、明确的、传统的排序规则, 只是由于现代藏文在字符结构构成、拼写方法和书写走向等方面与英文有所不同,使得对现代藏文排序规则的描述相比英文字符排序要多些步骤.任何一种语言文字都有自己的排序规则, 人们在使用该语言文字时都习惯性的有种共识和规范. 人们在使用这熟知和共同遵守的规则, 可以对各种字符、词典和字、词表以及查找其中的字符进行编排. 例如:英文作为在世界范围内最普遍实用的语言文字, 有其自身的排序规则要求. 在众多程序设计语言的库函数中也都有其字符(串)比较函数(模块), 这样对程序员编程来说很方便, 也更有利于广大用户的使用.3 藏文字的笔画规范3.1 藏文字笔画顺序具有很强的规范性汉字的笔画编码在上世纪八十年代风行一时, 此文的思路基本上按照这个思路进行编码, 因为汉藏文字属于同一体系, 所以从原则上这是讲得通的: 由于国家语言文字委员会对藏文字定有《现代藏文通用字笔顺规范》, 小学藏语文教学必教笔画顺序, 因此采取笔画编码是书写藏文字的人都可接受和掌握, 它不要求什么特殊的记忆, 只要会写的人就能使用, 这点与汉字的笔画编码的理由一致. 汉字的笔画编码已经在被人们广泛使用, 所以藏文字笔画顺序具有很强的规范性.在实际编码中, 由于藏文字结构具有较强的规律性,但是藏文字很少有完全相同的, 个别笔画的使用常常凝聚在部分组合上, 而且藏文字的单音节字符笔画多的达到 6画以内, 按照标准四键编码, 如不进行有效合理的处理, 重码率[1]难以降低. 因此在制定编码技术过程中,必须着重根据藏文字的笔画分布规律, 结构规律, 普通人群的识字规律对所有藏文字笔画和结构以及词组进行充分整理和分析, 确定符合人机行为学的编码规则.藏文字本身由简单的藏文基本音节构成, 也可以看成是由基本笔画通过不同顺序和笔画数组合构成,笔画和笔画顺序完全相同的藏文字极少, 这就使得我们有针对性地采取一定的措施之后, 笔画编码是能够有效地控制编码重码率的.3.2 藏文字笔画的结构藏文字笔画分布规律要求最合理的定义使用的笔画, 在汉字笔画中包括“横、竖、撇、捺、点、折、弯钩、提”, 而在藏文字中这些笔画的使用率各不相同,有些使用率很低, 以30个基字单音节为例研究藏文文字笔画的使用频率分别为: 横的使用率为96.67%、撇的使用率为20.02%、捺的使用率为6.67%竖的使用率为 33.3%、弯钩的使用率为 10.03%、提的使用率为3.33%. 因此需要科学的归类和组合笔画才能最合理的代表藏文字组字信息, 以均匀分布笔画编码.其中结构规律要求最直观的是定义藏文字字型,并科学的确定笔画分配, 藏文字字型包括“左右型、上下型、左中右型、上中下型、独体型”等等, 由于藏文字字符串笔画数多, 笔画编码必须根据字型分配笔画,此时必须考虑编码的重码率, 这一点很重要, 任何编码如果重码率太高, 就意味着输入时需要更多的选择,输入效率不高是一个方案被淘汰的主要原因之一, 因此在藏文字字型选择越多则编码重码率就易于下降,但规则就相对复杂, 因此应尽可能的简单化. 设计补充藏文字笔画编码是由于部分藏文字笔画较少, 不足以编辑四码; 采取两种方法共同补充, 一是按标准藏文音节字母顺序补充, 二是重新按藏文字书写笔画补充, 从而确保了会使用藏文字汉化音的和会藏文字笔画的人均可以方便灵活使用.4 藏文字符音节构成部件的基本字符Unicode现代藏文编码字符集为现代藏文分配的编码空间是从OFOO至OFFF. 其中, 对现代藏文字符的音节是按类连续编码的, 字符的分类规则和排放顺序完全依照现代藏文传统的排序方法. 针对藏文字符的30个辅音字母连续分配于OF4O至0F69之间, 4个元音符号分配于OF71至OF7D之间. 因此, 比较现代藏文字符音节间各构件时, 不需要再为辅音字母和元音字符编码进行编码, 直接比较其字符音节的编码值. 根据Unicode国际字符集编码原则, 现代藏文的上加字音节必定都为非组合用字符区的字符, 下加字音节则都为组合用字符区的字符, 通过代码值就可以正确反映它们的排序顺序. 藏文字符音节构成部件的基本字符具体如下表1:表1 藏文字符音节基本字符表?因此, 要设计符合规范的现代藏文字排序模块, 必须使之完全基于Unicode现代藏文编码字符集及其编码原则, 本文就是基于 Unicode现代藏文编码字符集标准进行应用设计构思的[2-5]. 在藏文字中“横竖撇捺点折弯钩提”对其笔画部首进行编码, 将会很省计算机的内存空间, 处理数据的时间度将会降低. 这样更方便、更有效的字符编码排序的趋势也将会更快捷和简单化.5 对现代藏文字笔画编码排序顺序的构思现代藏文排序将被广泛应用于现代藏文字符的字处理的各个方面, 包括字、词典的排序、系统软件和其他应用软件. 目的是在 Unicode国际字符编码的标准下, 实现一种在计算机里自动分割现代藏文单音节排序的算法模型. 采用藏文笔画编码的排序前提还是要依赖于藏文基本字符音节的科学排序规则.现代藏文字笔画分部有如下表2:表2 现代藏文字笔画分部?掌握藏语知识的人, 他们对现代藏文语言文字的传统人工排序规则很熟悉, 他们能很快的进行编排和查找现代藏文词典. 可是想要在计算机中实现对这一传统的排序规则做一个简单明了而又富有逻辑性的描述却具有一定的挑战性. 现代藏文字符音节的排序是指依照一定的规则, 对输入单个现代藏文音节结构部件进行优先级的排序, 从而指出现代藏文单音节的各个结构部件, 为进一步的多音节现代藏文排序提供很好的参考与实现. 对现代藏文字笔画编码排序顺序则需要把藏文字的基本音节字符掌握清楚, 在其基础上作进一步的细化, 这样藏文字笔画编码排序规则就易于程序设计及算法优化了.参考文献【相关文献】1 张学涛.汉字的笔画、部件、偏旁和基本字四大组成部分—中文信息名词标准化概念探讨.计算机中文环境,1995,(7).2 黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定.计算机应用,2009,29(7).3 黄鹤鸣,赵晨星.对DUCET 中部分藏文字母排序码的商榷.计算机工程与应用,2008,44(29).4 扎西次仁.藏文的排序规则及其计算机自动排序的实现.中国藏学,1999,4.5 春燕,曲珍.藏文文本编码识别方法研究.计算机工程与应用,2011,10.6 珠杰,欧珠.基于藏文编码GB的藏文排序方法研究.西藏大学学报(自然学科报版),2008,5.7 江荻,康才晙.书面藏语排序的数学模型及算法.计算机学报,2004,4.8 江荻,燕海雄.藏文字符的分类与功能描述.西藏研究,2010,10(5).9 王华,丁晓青.一种多字体印刷藏文字符识别方法计算机工程,2004,30(13).。
藏文组字部件的自动识别与字排序研究
藏文组字部件的自动识别与字排序研究才华【摘要】藏文字有着独特的构字规则,组字部件的自动识别在藏文字、词、句层面的信息化处理有重要的应用.文章提出的藏文字部件自动识别方法理念为,现代藏文字按其第一个部件字符的不同分成5种结构类型,每一种类型又按其字长分为若干个子类,在每个子类中定义各字的部件识别算法,最后在藏文组字部件识别的基础上,给每个部件赋予序值,实现藏文字的有效排序.【期刊名称】《西藏大学学报(自然科学版)》【年(卷),期】2014(029)002【总页数】7页(P81-86,101)【关键词】藏文信息处理;构字部件;字符序值;字排序【作者】才华【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391.1微软公司以叠置引擎和Open Type字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。
该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,[1]该系统成为藏文电子资源及藏文应用软件开发的主流平台,基于该系统的藏文字及其组字部件的自动识别,是藏文字、词层面信息化研究的一项基础工作。
根据现代藏文文法,揭示并实现组字部件的自动识别对藏文字、词、句法层面的信息化有着重要的作用。
藏语为单音节语种,属拼音文字。
现代藏文有30个辅音字母,4个元音字母。
图1为典型的藏文字结构图。
藏文字由一到七个不同数量的部件字符纵横叠加组合而构成,出现在不同位置上的部件字符有着确定的数量及字形。
[2]图1中,A、B、C、D、F、G分别代表字部件中辅音字符出现的位置及与之对应的辅音字符集,依次叫做前加字符、上加字符、基本字符、下加字符、后加字符及再后加字符;E代表元音出现的位置,元音字符只能附着在某个基本字符或叠加字的上下部分,不能单独成字;英文字母的顺序代表了藏文字的拼读与书写顺序。
在Unicode或小字符集编码体系中,藏文字是以纵横动态组合叠加技术而生成的。
基于排序的现代藏文音节判定
基于排序的现代藏文音节判定
藏文音节是藏族联系语言的特殊特征,人们有着无穷无尽的发音组合,因此,基于排序的现代藏文音节判定是必不可少的。
什么是基于排序的现代藏文音节判定呢?简而言之,这是一种利用它的拼写和语法,准确判定藏文音节的系统。
它使用了可用于排序的若干特殊字符,以及具有实时融合语和藏文发音规则,可以准确地指定藏文音节判定的方法。
将拼写清单中的每个字根据发音规则组织到一起可以生成不同的发音搭配,能够实时计算出藏文音节判定的结果。
与传统的藏文音节判定方法相比,基于排序的现代藏文音节判定方法具有可靠性和精确性的优点。
首先,它支持实时融合语的藏语发音规则,正确地确定发音模式。
此外,该方法还可以避免出现不太常见的发音规律,并能更有效地识别出拼写错误。
最重要的是,它使用了可用于排序的特殊字符,从而更准确地指定出藏文音节。
基于排序的现代藏文音节判定已经被众多学者认可,由于其准确性、可靠性和快速性,它已成为大量学术论文以及科技领域的标准方法。
总之,基于排序的现代藏文音节判定可提供高效精确的发音规则,正式成为学术研究以及科技领域的新宠。
它不仅改善了日常发音搭配,提高了学习藏文的效率,而且还为研究者提供了便利,增加了藏文文化的价值,从而推动藏族精神文化的传承。
藏文字母后加字的组合法及其用法道客巴巴
藏文字母后加字的组合法及其用法道客巴巴(最新版)目录1.藏文字母概述2.藏文字母后加字的组合法3.藏文字母后加字的用法4.藏文字母后加字在实际应用中的例子正文【藏文字母概述】藏文是一种独特的文字系统,用于记录藏语。
它由 4 个元音和 30 个辅音构成,这些字母可以组合形成音节和词汇。
藏文字母是藏文的基础,它们在藏文中扮演着至关重要的角色。
【藏文字母后加字的组合法】藏文字母可以通过后加字进行组合,形成不同的音节和词汇。
这种组合法是藏文中最常见的构词方法。
后加字是指在藏文字母后面添加一个或多个字母,以改变原字母的发音和意义。
这种组合法使得藏文具有丰富的音韵变化和词汇表达能力。
【藏文字母后加字的用法】在藏文中,后加字的用法有多种,主要包括以下几种:1.添加一个字母:在藏文字母后面添加一个字母,形成一个新的音节。
例如,在“ka”(嘎)后面添加“-i”(西),形成“kasi”(嘎西),意为“红色”。
2.添加两个字母:在藏文字母后面添加两个字母,形成一个新的音节。
例如,在“na”(那)后面添加“-m”(美)和“-i”(西),形成“nammi”(那美),意为“天空”。
3.添加三个字母:在藏文字母后面添加三个字母,形成一个新的音节。
例如,在“ra”(惹)后面添加“-ong”(翁)、“-i”(西)和“-ng”(嗯),形成“raongiang”(惹嗯翁),意为“宇宙”。
【藏文字母后加字在实际应用中的例子】在藏文中,后加字的组合法被广泛应用于词汇构成和句子表达。
例如,在藏语中,“拉萨”(Lhasa)意为“神之地”,其中“拉”(La)意为“神”,“萨”(sa)意为“地”。
在这个词中,后加字“-s”(地)被添加到“拉”(La)后面,形成了“拉萨”(Lhasa)。
总之,藏文字母后加字的组合法是藏文中重要的构词方法,使得藏文具有丰富的音韵变化和词汇表达能力。
现代藏文音节判定算法
现代藏文音节判定算法摘要:音节判定是藏文字典排序的基础。
建立了基于unicode 编码的现代藏文音节结构判定算法。
针对受语法影响的现代藏文音节进行预处理,使其满足一般现代藏文音节的结构;对含有占位辅音和含有不占位辅音两种情况分别进行判定。
本算法能正确地判断所有藏文音节的结构。
关键词:现代藏文;藏文排序;音节结构;程序判定中图分类号:tp312 文献标识码:a 文章编号:16727800(2013)0020038020 引言由于藏文独特的二维结构,使得对藏文的排序较其他一维拼音文字复杂。
因为藏文音节的unicode编码的顺序与藏文的字典序是不同的,所以首先要对藏文音节进行判定,即确定其中的基本辅音、前加辅音、上加辅音、下加辅音、元音以及后加辅音、又后加辅音,使其满足藏文的字典序。
目前,讨论藏文字符排序的文献有\[1-6\] ,其中文献\[1-3\]讨论了藏文的序性,建立了排序模型。
文献\[4-5\]以文献\[1-3\]中的序性为基础首次在linux平台上实现了藏文字符的排序但有以下不足:①没有讨论受语法影响的现代藏文音节的排序;②没有讨论一般藏文字母组合(本文特指不构成音节的字母组合)的排序;③没有实现梵音藏文音节的现代藏文字典序排序;④没有实现梵音藏文音节的梵音藏文字典序排序。
文献\[6\]讨论了对受语法影响音节的处理,并建立了一般的音节判定方法,但是对于一般音节的判定用程序实现起来比较复杂,本文沿用了文献\[6\]对于受语法影响的音节的处理,对于一般音节的判定进行了简化,便于编程实现。
为了实现对音节的判定,首先简要介绍下现代藏文音节的结构特点。
1 现代藏文结构特点一个完整的、没有语法影响的现代藏文音节是前加辅音、基本辅音、上加辅音、下加辅音等7个字母的二维组合。
由于除基本辅音外的其它位置上的字母都可以空缺,因此,现代藏文音节有多种可能的结构,本文统一用图1表示(虚线框表示可以空缺的部分)。
另外,语法会对部分音节的拼写产生影响,这种影响可以分3种情况:①受影响的音节仍具有图1所示的结构,例如:音节;②受影响的音节具有图2所示的结构,例如:音节;③受影响的音节不具有图1或图2的结构,例如:音节。
藏文字笔画编码排序的设想
2 0 1 3年 第 2 2卷 第 5期
Abs t r a c t :Ti be t a n s o r t wi l l be wi d e l y u s e d i n e ve r y a s pe c t o f Ti b e t a n l a ng u a g e t e x t i n f o r ma t i o n p r o c e s s i n g, i n c l u di ng wo r d ,di c t i o n a r y s e q u e n c e ,s y s t e m s o f t wa r e a n d o t he r a p pl i c a t i o n s o f t wa r e .Thi s p a p e r a t t e mp t s t o de s c r i b e Ti b e t a n wr i t i n g s t r o ke s o r t i n g r u l e s wh i c h ma ke mo r e c o r r e c t , r e a s o n a b l e i n d uc t i o n , t h e p u r p os e i s t o in f d a s O r t i ng a l g o r i t h m mod e l t ha t c o u l d r e a l i z e a u t o ma t i c a l l y t h e Ti be t n s a t r o k e s c ha ra c t e r .And whi c h b r e a k t h e f } 锄 e wo r k i n Ti b e t a n c h ra a c t e r s y l l a bl e s e q u e n c e d e p e n d s o nl y o n t h e s y l l a b l e k e y r a d i c a l s ru t c t ur e s o r t i n g t r a di t i o n a l o f t h i n k i 学基金( 6 0 9 6 3 0 1 6 ) ; 藏文信息处理省部共建重点实验室开放课题
基于排序的现代藏文音节判定
龙源期刊网
基于排序的现代藏文音节判定
作者:黄鹤鸣,达飞鹏
来源:《计算机应用》2009年第07期
摘要:音节类型的程序判定是藏文字典排序的基础。
建立了基于结构的现代藏文音节判定规则,并且将不满足该规则的藏文字母组合看作梵音藏文音节。
首先,根据编码序列中占位编码、不占位编码的个数以及相互间的位置关系,判断一个编码序列是否满足现代藏文音节结构,如果满足则进一步确定各个编码(字母)在音节结构中的位置;其次,根据正字法对各个位置上字
母的约束来判断这个编码序列是否表示一个现代藏文音节;最后,选取了一些有代表性的编码序列来测试算法的有效性。
关键词:现代藏文;排序;音节结构;程序判定
中图分类号: TP391.1文献标志码:A。
藏文字母后加字的组合法及其用法道客巴巴
藏文字母后加字的组合法及其用法道客巴巴摘要:一、藏文字母后加字的组合法1.藏文字母的组成2.后加字的类型及作用3.后加字与藏文字母的组合方式二、藏文字母后加字的用法1.用于表示声调2.用于表示复数3.用于表示敬语和谦辞4.用于表示词性变化5.用于表示时态和语气正文:藏文字母后加字是藏语拼写中一个重要的组成部分,通过后加字可以对藏文字母进行进一步的细分和表达。
以下是关于藏文字母后加字的组合法及其用法。
一、藏文字母后加字的组合法藏文字母后加字主要分为四类:声调后加字、复数后加字、敬语与谦辞后加字、词性变化后加字。
这些后加字可以通过不同的组合方式与藏文字母进行搭配,形成丰富的表达。
1.藏文字母的组成藏文字母共有30 个,包括7 个基本母音字母、24 个辅音字母。
基本母音字母包括:a、i、u、e、o、oe、a;辅音字母包括:k、g、ng、h、ch、j、zh、ph、b、m、l、y、r、s、ts、d、t、n、p、v、f、w。
2.后加字的类型及作用(1)声调后加字:用于表示藏语的5 个声调,分别为高平调、高升调、高降调、中平调、低调。
声调后加字共有5 个,分别为:上加字“”、上加字“”、上加字“”、中加字“”、下加字“”。
(2)复数后加字:用于表示名词的复数形式。
复数后加字共有8 个,分别为:后加字“”、“”、“”、“”、“”、“”、“”、“”。
(3)敬语与谦辞后加字:用于表示敬语和谦辞,以表达说话者对对方的尊敬和谦逊。
敬语与谦辞后加字共有8 个,分别为:后加字“”、“”、“”、“”、“”、“”、“”、“”。
(4)词性变化后加字:用于表示名词、动词、形容词等词性的变化。
词性变化后加字共有15 个,分别为:后加字“”、“”、“”、“”、“”、“”、“”、“”、“”、“”、“”、“”、“”、“”。
3.后加字与藏文字母的组合方式后加字与藏文字母的组合方式主要取决于藏语的语法规则。
一般来说,后加字位于藏文字母的下方,紧挨着藏文字母进行拼写。
藏文音节拼写检查的CNN模型
藏文音节拼写检查的CNN模型SE Chajia;GONG Baocairang;CAI Rangjia【摘要】藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用.该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵.然后构建了适合于藏文音节拼写检查的C N N模型,使用1364880个藏文音节进行训练.最后对68244个藏文音节进行测试.实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%.【期刊名称】《中文信息学报》【年(卷),期】2019(033)001【总页数】7页(P111-117)【关键词】藏文音节;音节矩阵;CNN模型;拼写检查【作者】SE Chajia;GONG Baocairang;CAI Rangjia【作者单位】;;【正文语种】中文【中图分类】TP3910 引言藏文拼写检查是藏文自然语言处理及应用中一个基础性的工作,在许多领域有着广泛的使用价值。
例如,应用于文字处理、文字识别、文本生成、文本校对、语料库建设[1-2]等。
自动拼写检查即可以减轻人为劳力,也可以避免检查遗漏等现象。
目前主流的方法是基于N-gram分析法、查字典法、词形距离法、相似键法以及骨架键法等[3]。
藏文作为拼音文字也存在拼写检查的问题。
文献[4]统计了基于大规模网络语料的藏文音节拼写错误,在20 743个互不相同的藏文音节中有9 700个拼写错误的音节,占藏文音节的46.76%,因此有必要提出一种有效的拼写检查方法。
现有的藏文音节拼写检查方法主要是基于规则法[5-7]。
文献[7]根据藏文文法提出一个拼写检查方法并分为三个步骤:第一步使用藏文音节识别算法进行音节识别;第二步排除非藏文音节的字符(如藏文数字、非藏文字符和字丁个数大于7的音节等);第三步对待处理的藏文音节进行拼写检查。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
q
q 币 团 1 1 1 1 1 2 3 4 5 6
q 目
这对 序 值计 算来 说 是 很 大 的 浪 费 。与 此 相 反 , 二 种 第
排 序方 式有 序可 循 , 形式 简 单 , 更容 易被 查询 者 掌握 且 其 排序 规 律 , 有 明显 的使用 价 值 。 具
词典 编 篡 和信 息检 索 以及其 他 的应用 软 件 中有 非 常重
干 的两 部分 。没 有 明显 的划 分 点 可 言 , 对 词 典 的查 这
询者 非 常重要 。
要 的应 用 。 由于 藏 文 编 码 的不 等 长 和 其 构 字 的复 杂 性 , 文音 节字 的 自动 排序 不像 汉文 和英 文一 样 简单 。 藏 建立 一 种 简便 又合 理 的排序 模 型是藏 文 自动排 序 算法
《 西藏科技)02年 1 ( )1 2 期 总第 26期) 2 种 新 的 藏 文 音 节 字 排 序 模 型
、
才华 普 布 卓 玛 ( 西藏 大 学 图书馆 , 藏 拉 萨 西
摘
80 0 ) 50 0
要 : 节 字 的排 序 是 藏 文 字 词排 序 的 基 础 , 目前 还 没 有 统 一 的规 范标 准 。本 文 对 《 编 藏 文 字 音 但 新
同的序 值 。
表 1 基 字 丌 1
9 - " l 9
媚 栅 加符组庠 加鹌 加祷 禽德上辜 牢 禽馕上拿= 享 窖
基 本 字 符2 值目 m 、 悸 序 表 8 习 1
在 略去后 加 字 和元 音 的情 况 下 , 图 中 的音 节 字 上 是 以基字 , 加 二 层 叠 字 , 加 字 ( 字 , 加 二 层 叠 下 前 基 下
基字 , 加字 , 前 叠字 , 元音 , 加字 后 即 每 个 音 节 字 对 应 于 一 个 数 序 列 Sq ec eune= Aii D E , BC 序列 的每 个 项 由以下 的规 定 编 号 及 赋
典》 中任 意部 首 内部 的音 节排 序做 一种 同一 而 合 理 的调 整 , 出一 种 形 式 简便 , 算 快 捷 的排 序 模 型 , 提 运
供 以参考 。
关键词 : 藏文 信 息处理
藏 文音 节 字排序
排 序模 型 组 合序 值
音 节序 列码
藏 文 音节 字 的排 序 问 题 是 藏 文词 排 序 的基 础 , 在
得 以实 现 的基 础 。
12 对 《 编藏 文字 典》 内部编 排顺 序 的调整 . 新 中
如 果处 于 中间 的带 前加 字 的部 分 ( 值 6, , , 序 7 8 9, l 1 ,2对 应 的音节 字 ) 0,1 1 原封 不 动地 移 到后 续 前 加 字 部分( 序值 1 应 的音节 字 ) 9对 之前 , 即如下 表所 示 。
序如 下 :
《 编藏文字典》 新 中藏 文音节字的排序 音节字
字 典 顺 序
这样 , 整个 排 序可 以 由前加 字来 划分 为二 , 序结 排
构 清晰 , 规则 简单 , 又不违 背 传统 字词 典 的基本 排序 规
律。
对 于 词典用 户来 讲 , 二种 排序 方式更 容 易掌 握 , 第
字典顺序
音节字 字典 顺 序 音 节 字 字 典 顺 序
1
2
3
4
丌 1
5
6
7
8
日 1 ’ q
典 都 以藏 文三 十个 字 母 的前 后 顺 序 编 排 , 在 某 个部 但 首 的 内部 排序上 存 在着 差异 。到底 哪一 种排 序 方式具
有科 学 性 , 还没 有定 论 。
值。
6 9
字 ) 上 加 二 层 叠 字 , 层 叠 字 , 加 字 ( 加 二 层 叠 , 三 前 上 字, 三层 叠 字 ) 种 模 式 排 序 的。其 中有 前 加 字 部 分 这 是分 开 而不 连续 的 , 有 前 加 字 符 的 音 节 字 分 成 不相 带
信 息 技 术
音节字 丌 1 1 哥 币 亘
1 传 统 藏 文 词 典 的 编 排 顺 序
17 99年 由青海 民族 出版社 出版 发行 的《 编 藏文 新 字 典》 藏 区 流 行 的传 统 藏 文 词 典 中 的 代 表 性 出 版 是
物, 使用 量 很大 。就 编排 顺 序而 言 , 有 传统 藏文 字词 所
2 1 基 字序 值 A . ;
序 值 基 字 序 值 基 字 序 值 基 字 序 值
《 西藏科技)02年 1 ( ) 1 2 期 总第 26期 ) 2
表4
组 合 序 值 表 及 其 含 义
如 表 1所示 , 照 藏文辅 音 字母 的传 统顺 序 , 音 按 在 节 字 的构造 中处 于基 本 字 位 置 的字 符 A 分 别 赋 予 不 ;
1 .1
1 2 3 4
圈
5
丌 1
6 7 8
查 阅也 简单 。第 一 种编 排顺 序虽 被许 多词 典 编辑 者使
用, 但建 立 对应 的排 序 模 型时 , 免某 些 序 值 要 重 复 , 难
音 节 字 字 典 顺 序
音 节 字
q日 q 11 9
1 1 0 1
q q 币
2 藏 文 音 节 字 排 序 的数 学模 型
对 《 编藏 文 字 典 》中音 节 字 的原 编 排 顺 序 稍 作 新
调整 后 , 以归 纳 出整个 音节 表 的排 序模 型 。 可
字典顺序
1 1 1 2 2 2 2 7 8 9 O 1 2 3
9 目
l 1 1 1 1 1 1 O 1 2 3 4 5 6 q 司 q 司 羽 币 雹
1 1 1 2 2 2 2 7 8 9 0 1 2 3
11 《 . 新编 藏 文字 典》 中藏 文音 节字 的排 序 在 《 编藏 文字 典》中 , 新 同一 部首 的 内部 音 节 字排