面向自然语言处理的现代缅文分词规范研制与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第 30 卷第 1 期2024 年 2 月
Vol. 30 No.1February 2024
面向自然语言处理的现代缅文分词
规范研制与应用
*
陈 宇1a ,秦董洪1b ,张 慧1b ,张啸岩1b ,杨国影2,欧江玲1a ,庞俊彩3,
4
(1.广西民族大学 a.东南亚语言文化学院,b.人工智能学院,广西 南宁 530007;2.北京大学 外国语学院,北京 100083;3.云南大学 外国语学院,云南 昆明 650504;
4.国防科技大学 外国语学院,江苏 南京 210000)
摘 要:缅文分词是缅甸语自然语言处理中不可缺少的基础性工作之一,而分词规范则是
进行自动分词技术研究的关键问题。

该文参考了中文、藏文等文种的分词经验,结合缅文自身特点、缅文在计算机中的编码特点和缅甸语语法,研制了一套较系统的、适用于现代缅文的分词规范;并基于该规范对缅文开源人工标注分词语料库myPOS 0.9进行人工重新标注,实验结果证明在6种常见分词算法条件下该分词规范性能更优。

关键词:缅甸;自然语言处理;现代缅文;分词规范
中图分类号: TP391.4 文献标识码: A 文章编号: 1673-8462(2024)01-0091-08
1 研究背景
1.1 现代缅文与自然语言处理
现代缅文是缅甸联邦共和国的官方文字,属于婆罗米文字的一种,主要运用于书写缅甸语;稍加修改后,也同时作为孟语、掸语和克耶语等缅甸其他民族语言的文字。

从字形上看,缅文字母呈圆形,形状如同大小不同的圆圈拼接、套叠而成;从书写方式上看,缅文自左向右书写,书写时词与词之间不存在间隔标记,但一般会在虚词之后进行间隔,缅文在计算
机输入时亦继承了这一特点。

[1]
最早的缅文计算机字体产生于20世纪90年代前后,但是缅文计算机字体的使用一度十分混乱,出现了多字体编码同时使用的局面。

长期以来,在缅甸主要流行的Zawgyi 字体并不符合国际通行的Uni⁃code 字体编码标准,这大大地阻碍了缅甸的数字化进程。

直到2019年10月,在民盟政府的字体改革政策推动下,全国开始统一使用符合Unicode 标准的缅
文字体,成为最后一个采用Unicode 标准的国家。

[2]相对于英文、中文等通用语种的文字,缅甸自然语言处理发展程度较低。

这一方面是受到缅甸经济
∗ 收稿日期:2024⁃01⁃10.
基金项目:国家自然科学基金资助项目(61462009, 61862007);广西自然科学基金资助项目(2018GXNSFAA281269);广西研究生教育创新计划项目(YCSW2023268);广西民族大学教改项目(2021XJGY10)。

作者简介:陈宇(1999-),男,广西桂林人,广西民族大学东南亚语言文化学院硕士研究生,研究方向:语料库语言学、缅甸语
自然语言处理。

通信作者:秦董洪(1974-),男,广西南宁人,博士,广西民族大学人工智能学院教授,研究方向:自然语言处理,语音识别与
合成。

广西民族大学学报(自然科学版)
JOURNAL OF GUANGXI MINZU UNIVERSITY
(Natural Science Edition )
91
2024 年 2 月第30 卷广西民族大学学报(自然科学版)
发展以及数字化发展水平的限制,自然语言处理方面的人才也相对匮乏;另一方面,缅文字体编码的长期不统一,特别是Zawgyi等不符合Unicode标准编码的字体的缺陷,亦对缅甸语自然语言处理的发展起到了不小的阻碍作用。

因此,诸如缅文分词、词性标注等相对基础的自然语言处理工作,目前仍处于研究不充分的阶段;而针对实体识别、机器翻译、语音识别、语音合成等更深层的内容的研究,目前学界仍然涉猎较少。

1.2 国内外研究现状
分词是指针对词与词之间不存在间隔标记的文字,基于一定规范,将文本按分词单位进行划分的过程。

进行自动分词的研究,分词规范的制定是基础且不可或缺的一环。

目前在我国,中文和藏文都有了分词的国家标准,也有包括如针对彝文、蒙古文等其他少数民族文字分词规范的研究,这些规范都大大促进了各个文种自动分词研究的发展。

目前,虽然学界还没有专门针对缅文分词规范的研究,但是缅文自动分词的研究成果却不少,这些研究必然都是以一定的分词规范作为依据的。

从分词规范角度进行划分,目前缅甸语的自动分词研究可以分为基于词典和基于人工标注两类:
一方面,针对缅甸语的机械分词研究主要是使用音节匹配方法或是统计方法,此时的缅文分词规范主要依据是词典。

Hla Hla Htay等(2008)主要将包含《缅甸正字法》、《缅英词典》和《缅甸语词典》等的词典列表作为自动分词的依据,使用音节最长匹配的方法进行缅文自动分词研究;[3]Aye Myat Mon (2010)等以词典和语料库中的词汇作为自动分词的依据,提出了基于规则的启发式方法和统计方法相结合的方式进行缅甸语分词;[4]杨馨(2018)以《缅英词典》作为自动分词的依据,使用正向最大匹配结合判决规则进行分词。

这类方法简单照搬现有词典或语料库资源,没有考虑语言学上的“词”与自然语言处理中的“分词单位”的区别,且存在较多的未登录词和歧义切分的问题,分词准确率无法得到保障。

[5]另一方面,针对缅甸语的机器学习和深度学习分词必须基于在一定分词规范指导下所构建的人工标注语料库。

Chenchen Ding等(2016)认为:“缅甸语中‘word(词)’难提供一个最终明确的定义,但必须建立一个更标准化的原则。

”[6]而同团队的Khin War War Htike等(2017)表示:“缅甸语单词通常可以通过词根、前缀和后缀的组合来识别。

”[7]虽然论文中没有提及他们所根据的分词规范,但其同团队成员Ye Kyaw Thu的Github页面中公布了他们进行分词人
工标注的6条规范,[8]与包含10条规则概述和13条具体说明的《信息处理用现代汉语分词规范(GBT 13715-1992)》以及36条规范的《信息处理用藏文分词规范(GBT 36452)》相比,[9-10]该规范无疑是过于粗糙了,而针对该规范公开的人工标注语料库“my⁃POS”中出现了大量前后矛盾的地方,以缅甸著名组织“(意为:我缅人协会)”为例,在其myPOS 0.9语料库中共出现了7次,其中2次将其标注为一个分词单位,5次将其标注为两个分词单位,而这个词该如何切分,6条分词规范中并没有直接说明;另外,该分词规范亦存在不少不合理之处,如将
包含否定副词
“”的“(意为:不感兴趣)”视为一个分词单位等。

林颂凯等(2018)在使用缅甸仰光计算机大学的在线分词工具对语料进行分词后,通过“人工校对”得到40万音节词的语料;[11]马昌娥(2019)进行自动分词研究的实验数据来源于缅甸语专家的“人工分词文本”,[12]但两篇论文中并没有“人工校对”和“人工分词”的规范进行说明,研究所使用的分词规范并不透明。

而从上述不同的论文中所举的例子上看,不同团队使用的分词规范并不相同。

虽然针对缅文分词,缅甸国内外已进行了较多的研究,其中不乏使用较先进的算法进行自动分词训练。

但是目前还没有专门针对缅文分词规范的研究,研究界对如何进行缅文分词尚未达成共识。

可以看出,为现代缅文研制一套公开、详细的分词规范是十分必要的。

一方面,不仅有利于弥补目前相关研究内容的不足;另一方面,基于该规范指定的分词模型亦可以为语料库语言学、语料库翻译学和计算语言学等方向的缅甸研究提供数据支撑。

1.3 研究方法
现代缅文分词规范的主要是由国内四个高校的缅甸语专家负责研制的,并由自然语言处理专家进行实验论证。

该规范研制主要经过以下三个步骤:第一,初步研制分词规范。

该规范以中文、藏文等文字的分词规范研究成果为对比,总结各种现有规范的优劣,并参考现代缅文在语言学和计算机编码上的特点进行规范的设计。

此外,还结合现有缅文分词研究成果及公开缅文语料库,对分词规范进行完善,得到现代缅文分词规范的初稿。

第二,对分词规范进行多轮检查并定稿。

将分词规范初稿发送至其他团队成员,要求团队成员对分词规范进行深入学习。

团队成员根据规范对语料库进行分词,从而挖掘分词规范中待商榷之处,并通过
92
2024 年第 1 期数
学与计算机技术
●陈宇,秦董洪,张慧,等/面向自然语言处理的现代缅文分词规范研制与应用
讨论进行规范的确认。

该规范经过来自全国4个缅甸语高校的专家的4轮的磋商论证,最终得到分词规范的定稿。

第三,通过实验对分词规范性能进行测试。

团队成员对公开的缅甸语分词语料库myPOS 0.9进行预处理,并根据现代缅文分词规范的定稿进行重新人工分词标注。

自然语言处理方面的专家使用目前6种常见分词算法进行对比实验。

实验结果证明基于该分词规范的分词模型性能更优。

2 设计思路
2.1 确立分词单位
进行分词规范的研究,首先需要确定的是“分词”中“词”的概念。

“词”在语言学上被认为是最小的能够自由运用的语言单位,但是“分词”中的词与语言学上对词的定义稍有不同。

准确地说,“分词”中的“词”是“分词单位”的缩写,在国家标准《信息处理用现代汉语分词规范(GBT 13715-1992)》中,“分词单位”被定义为“信息处理使用的、具有确定的语义或语法功能的基本单位。

它包括本规范的规则限定的词和词组。

”[9]
不难看出,“分词单位”的定义比传统语言学上的“词”的概念更宽泛,这一定义既结合了语言学的理论,又是参考语料库中真实语料,更有利于通过算法进行自动分词的研究。

在现代缅文中,缅文中的分词单位不止包括字典中所包含的词以及一些使用频繁的词组,也囊括了一些真实语料中所涉及的人名、地名、国名等。

从结构上看,分词单位内部关系十分紧密,切分后可能会导致理解上出现歧义;从音节数量上看,缅文的分词单位一般为1至4个音节,在一些特殊情况下,如地名、国名等,则可能超过5个音节。

2.2 深度结合缅甸语语法体系
在设计分词规范的过程中,在组织架构、内容编排和例子展示上充分结合了钟智翔与曲永恩(2014)著的《缅甸语语法》、汪大年与杨国影(2016)著的《实用缅甸语语法》和缅甸教育部缅甸文委员会(2016)著的《
(缅甸语语法)》。

[1,13-14]
在组织架构上,主要有以钟智翔、曲永恩(2014)著的《缅甸语语法》为主,内容编排和例子展示则是结合了三本语法书,使分词规范能够符合语言学理论的一般原则。

2.3 语义切分为主,结构切分为辅
分词应该遵循语义与结构切分的统一,其中,在具体语料的切分过程中,应遵循语义切分为最高原
则。

[15]
一个词或者词组拆分后,如违背原义,则一律
不予切分,以
“”为例,按照结构,本应该切分为“
(脸)”和“
(绿)”两个分词单位,但该
词组结合后派生了“陌生人”这一新意,拆分后便无法表达这一意思,则不予切分,因此,
“”应
为一个分词单位。

在不违背语义切分原则的基础上,应结合结构进行分词单位的切分。

以“(管理)”为例,从
语义上看,它是

”一词的名词化形式,将其作
为一个分词单位并不违背原义,而从结构上看


作为名化助词,常单独作为分词单位,因此该词应予以切分;而“(文化)”,该词虽然也是

(礼貌)”一词名化派生而来,结构上虽然符
合切分的条件,但语义上却生成了“文化”这一新意,则应单独作为一个分词单位。

2.4 尽量与中文分词规范保持一致
设计分词规范的最终目的是服务于我国学者进行缅甸研究,在不违背上述两条规则的基础上,分词规范设计应该尽量结合我国现有中文分词规范结果,做到能一致之处尽量一致。

这样有利于双语翻译模型的研究,使基于分词规范相近的双语语料进行翻译模型的训练能够得到更好的训练效果,也有利于在进行语料库翻译学的研究时,更好地对两种语言进行量化分析对比。

2.5 特殊规则优先于普遍规则
分词规范具有一些普遍的规则,比如标点符号一般会单独作为一个分词单位,但是也不乏存在一些特殊情况,如在表达概数时,

”中的“-(短横
杠号)”按照普遍的规则,应单独作为一个分词单位,但是在概数的特殊规则里,数词连用表达概数时,应单独作为一个分词单位,此时,根据特殊规则优于普遍原则的做法,不应予以切分,这也同时是“语义切分为主”这一最高原则的体现。

3 分词细则
3.1 名词
3.1.1 一般名词
3.1.1.1 名词或关系紧密的名词词组为一个分词单
位。

示例:
3.1.1.2 前接成分与其他部分组合而成的名词为一
93
2024 年 2 月 第30 卷
广西民族大学学报(自然科学版)
个分词单位。

示例:
3.1.1.3 其他部分与后接成分组合而成的名词为一
个分词单位。

示例:
3.1.1.4 如有多个前接成分或后接成分,为一个分词
单位。

示例:
3.1.1.5
 外来音译词为一个分词单位。

示例:3.1.2 人名
3.1.2.1
 缅文人名为一个分词单位。

示例:3.1.2.2 其他国家、其他民族的人名按其习惯形式予
以切分。

示例:
3.1.3 敬语、职衔名
3.1.3.1 敬语、职衔名与人名间一律予以切分。

示例:
3.1.3.2 简称、
尊称为一个分词单位。

示例:3.1.4 地名
3.1.
4.1 国名不论长短,
为一个分词单位。

示例:
3.1.
4.2 地名中的通名和专名间一律不予切分。

示例:
3.1.
4.3 多层级的行政地名,根据层级逐一予以切
分。

示例:
3.1.5 机构名
机构名的全名按组成其全名的分词单位予以切分。

示例:
3.1.6 族群名
族群名的名称与表达其种类的(民族、人种、文
种、语种等)之间一律不予切分。

示例:
3.1.7 时间名词
3.1.7.1 季节、月份、每周的七天一律为一个分词单
位。

示例:
3.1.7.2 “年、月、日、时、分、秒”分别为一个分词单
位。

示例:
3.1.8 方位名词
方位名词为一个分词单位。

示例:
3.1.9 处所名词
处所名词为一个分词单位。

示例:3.1.10 其他专有名词
其他专有名词为一个分词单位。

示例:
3.1.11 名词性词组
结合紧密,切分后如违背原义的名词性词组,为一个分词单位。

示例:
3.1.12 名词的变调
名词或名词性词组的最后一个音节原为低平
调,表达与后接词的领属关系或作为宾语而变为高降调时,为一个分词单位。

示例:
3.2 代词3.2.1 人称代词
3.2.1.1
 人称代词为一个分词单位。

示例:
3.2.1.2 代词的变调
代词的最后一个音节原为低平调,表达与后接词的领属关系或作为宾语而变为高降调时,为一个分词单位。

示例:
94
2024 年第 1 期数
学与计算机技术
●陈宇,秦董洪,张慧,等/面向自然语言处理的现代缅文分词规范研制与应用
3.2.2 指示代词
指示代词为一个分词单位。

示例:
3.2.3 疑问代词
3.2.3.1
 疑问代词为一个分词单位。

示例:
3.2.3.2 疑问代词与后接所问的对象间予以切分。

示例:
3.2.4 反身代词
反身代词为一个分词单位。

示例:
3.3 形容词3.3.1 单纯形容词
单纯形容词为一个分词单位。

示例:
3.3.2 合成形容词
3.3.2.1 合成形容词如结合紧密,则为一个分词单
位。

示例:
3.3.2.2 如结合不紧密,
则予以切分。

示例:3.3.3 形容词的重叠形式
形容词的重叠形式“AA 、ABB 、AAB ”为一个单位。

示例:
3.3.4 形容词的最高级
形容词的最高级的前接部分()、形容词本身
及后接部分(
)应予以切分。

示例:
3.4 数词3.
4.1 计数词
3.4.1.1 基数词不论长短,
为一个分词单位。

示例:3.4.1.2 分数、百分数、倍数的数字部分与其他部分
切分。

示例:
3.4.1.3 小数用数字表示时,为一个分词单位;使
用读音的方式表示时,数字部分与其他部分切分。

示例:
3.4.2 序数词
序数词为一个分词单位。

示例:
3.4.3 概数
3.4.3.1 概数的数字部分与其表示概数的助词部分
予以切分。

示例:
3.4.3.2 使用基数词连用表达概数时,为一个分词单
位。

示例:
3.4.3.3 表示不确定的数量时,表示概数的词与所指
向的名词间予以切分。

示例:
3.5 量词3.5.1 单纯量词
单纯量词为一个分词单位。

示例:3.5.2 复合量词
复合量词为一个分词单位。

示例:
3.5.3 量词特殊情况
3.5.3.1 当数词为十的倍数时,量词与前接成分
“”
之间一律予以切分。

示例:
3.5.3.2 数词与重叠使用的量词联合表示概数时,为
一个分词单位。

示例:
3.6 动词3.6.1 普通动词
普通动词为一个分词单位。

示例:
95
2024 年 2 月 第30 卷
广西民族大学学报(自然科学版)
3.6.2 连动式动词
3.6.2.1 结合紧密的连动式动词词组为一个分词单
位。

示例:
3.6.2.2 关系不紧密的连动式动词词组则一律予以
切分。

示例:
3.7 副词
副词为一个分词单位。

示例:
(否定副词)
3.8 助动词
助动词为一个分词单位。

示例:
多个助动词相连时,则逐一予以切分。

示例:
3.9 成分助词3.9.1 普通成分助词
成分助词为一个分词单位。

示例:
3.9.2 多段式成分助词
多段式成分助词各段分别为一个分词单位。

示例:
3.10 连词3.10.1 普通连词
普通连词为一个分词单位。

示例:
3.10.2 多段式连词
多段式连词各段分别为分词单位,且每一段的词性均标记为连词。

示例:
3.11 助词3.11.1 名化助词
名化助词与其之前接的动词或形容词切分后,如不违背原义,则一律切分;如违背原义,则不予一律切分。

示例:
3.11.2 其他助词
其他助词为一个分词单位。

示例:
3.12 感叹词
感叹词为一个分词单位。

示例:
3.13 拟声词
拟声词为一个分词单位。

示例:
3.14 成语俗语
3.1
4.1 四音节及四音节以下的成语俗语
四音节及四音节以下的成语俗语为一个分词单位。

示例:
3.1
4.2 五音节及五音节以上的成语俗语
五音节及五音节以上的成语俗语切分后如不违背原有组合的意义,予以切分。

示例:
3.15 前接成分
根据语义切分的原则,前接成分与其他部分切分时,后接成分为一个分词单位。

示例:
3.16 后接成分
根据语义切分的原则,后接成分与其他部分切分时,后接成分为一个分词单位。

示例:
3.17 标点符号3.17.1 固定标点符号
固定标点符号为一个分词单位。

固定标点符号有:
|(单杠号);‖(双杠号);‖ ‖(大双杠号、对双杠号)
3.17.2 外来标点符号
外来标点符号为一个分词单位。

外来标点符
号有:
()(括号);—(长横线号);-(短横杠号);/(斜杠号);‘’(单引号)“”(双引号);…(省略号);?(问号);!(感叹号);
(空格)96
2024 年第 1 期数
学与计算机技术
●陈宇,秦董洪,张慧,等/面向自然语言处理的现代缅文分词规范研制与应用
3.17.3 非缅文字符串与其他未知符号
非缅文字符串与其他未知符号为一个分词单位。

示例:
Myanmar |China |Office |Windows 3.18 缩略词
缩略词为一个分词单位。

示例:
4 实验设置与结果
4.1 语料库的创建
本文主要以公开人工标注语料库myPOS 0.9作
为研究对象对研制的现代缅文研究规范进行性能测试。

首先,在Ye Kyaw Thu 的Github 页面中下载my⁃POS 0.9语料库;[8]
接着,对语料库中包含拼写错误内
容、非现代缅文内容和隐藏空格等的内容进行整理和清洗;最后,根据本文研制的分词规范对该语料库重新进行人工分词标注,得到“myPOS 0.9-New Scheme ”语料库。

这两份对比语料库音节次和句次均相同;但由于分词规范的差异,两份语料库的词次并不相同。

具体语料库信息见表1:
4.2 实验设置
本文选取了6种不同的常见分词模型,均按照8∶1∶1的比例设置训练集、开发集和测试集,进行对比语料库分词性能的测试。

一方面,“机器学习分词”选取了HMM 和CRF 两种算法。

分别使用训练集和开发集来训练HMM ,形成Topic1和Topic2,在myPOS 0.9和myPOS 0.9-New Scheme 的测试集进行性能测试。

同理训练CRF ,形成Topic3和Topic4,在两个测试集上进行性能测试。

另一方面,“深度学习分词”选取了LSTM 、BiL⁃STM+CRF 、BERT 和Roberta+CRF 共4种模型。

分别使用两个语料库的训练集和开发集来训练LSTM ,形成Topic5和Topic6,在两个测试集上进行性能测试;同理在BiLSTM+CRF 上在myPOS 0.9和myPOS 0.9-New Scheme 进行同样操作形成 Topic7和Topic8后进行性能测试。

BERT 在加载huggingface 上的bert -base -multilingual -cased 预训练模型后,在两个语料库上进行微调形成Topic9和
Topic10,然后在myPOS 0.9和myPOS 0.9-New Scheme 的测试集进行性能测试;而RoBERTa+CRF 则在加载huggingface 上的roberta -base 预训练模型后微调形成Topic11和Topic12。

各实验均使用F1值作为主要评价指标,Preci⁃sion 和Recall 分别为准确率和召回率,计算方法如
下:F1 = 2*Precision*Recall
Precision +Recall。

4.3 实验数据与结果
实验结果分为两组,分别为基于公开人工分词标注语料库myPOS 0.9进行预训练的Topic1、Topic3、Topic5、Topic7、Topic9和Topic11;以及基于本文研制的现代缅文分词规范进行重新标注后的myPOS 0.9-New Scheme 的Topic2、Topic4、Topic6、Topic8、Topic10和Topic12。

实验结果为在相同条件下多次在各自测试集上实验的平均值,实验结果详见表2:
从实验结果来看,使用本文分词规范的myPOS 0.9-New Scheme 语料库的实验结果均高于基于公开语料库myPOS 0.9的实验结果。

其中以基于CRF 算法构建的模型性能差距最大,在新的分词规范下,模型F1值高了2.19%。

这些指标显示,针对同样的语料,使用本文研制的现代缅文分词规范具有更好的性能表现,也从技术指标角度证明了构建一套公开、详细的分词规范的必要性。

5 结语
缅文分词是缅甸语自然语言处理的不可缺少的基础性工作之一,分词规范是进行自动分词技术的关键问题。

本文参考中文、藏文等文种的分词规范经
表1 对比语料库及基本信息
语料库名称
myPOS 0.9
myPOS 0.9-New Scheme
音节次319097319097
词次213,699216,032
句次10,17210,172
表2 对比实验结果
模型Topic1Topic2
Topic3Topic4Topic5Topic6Topic7Topic8Topic9Topic10Topic11Topic12
语料库
myPOS 0.9
myPOS 0.9-New Scheme myPOS 0.9
myPOS 0.9-New Scheme myPOS 0.9
myPOS 0.9-New Scheme myPOS 0.9
myPOS 0.9-New Scheme myPOS 0.9
myPOS 0.9-New Scheme myPOS 0.9
myPOS 0.9-New Scheme
精准率(%)78.5779.1993.8395.9388.5089.6292.6293.2491.7893.6990.2892.30
召回率(%)77.2178.3793.5795.8288.5288.4192.7793.2093.2394.2491.5292.40
F1值(%)77.7578.7193.6995.8888.5188.9792.6993.2292.5093.9690.9092.35
97
2024 年 2 月第30 卷广西民族大学学报(自然科学版)
验,结合缅文自身特点、缅文在计算机中的编码特点和缅甸语语法,制定了一套现代缅文分词规范。

该规范的研制不但得到了缅甸语学界专家的直接参与与检验,从对比实验上看亦具有更好的性能表现。

制作一套得到语言学和计算机科学双重验证的现代缅文分词规范,一方面,是希望基于此规范制作现代缅文自动分词模型,从而推动实体识别、机器翻译等更深层的缅甸语自然语言处理研究;另一方面,也是希望对现在所进行的语料库语言学、语料库翻译学和计算语言学等方面的缅甸研究有所裨益。

致谢:在论文撰写过程中,钟智翔教授、孙衍峰教授、朱君博士、杜瓦底敦外教和马晨颖硕士均提出过宝贵的意见。

学报编辑部老师在论文排版、校稿方面等提供了很大的帮助,在此一并表示感谢!
[参考文献]
[1] 钟智翔.缅甸语语法[M].北京:世界图书北京出版公司, 2014.
[2] 宁威,吴婷.缅甸文编码趋向统一[C]∥语言生活皮书——
世界语言生活状况报告.北京:商务印书馆有限公司,2021: 75-81.
[3] HLA HLA HTAY,KAVI NARAYANA MURTH MUR⁃THY.Myanmar word segmentation using syllable level lon⁃gest matching[C]∥Proceedings of the 6th Workshop on Asian Language Resources,2008.
[4] AYE MYAT MON,MYINT MYINT THEIN,et al.Anal⁃ysis of Myanmar Word boundary and segmentation by using Statistical Approach[C]∥International Conference on Adva⁃
nced Computer Theory & Engineering,IEEE,2010. [5] 杨馨.面向语音合成的缅语文本分析[D].昆明:云南大学, 2018.
[6] CHENCHEN DING,YE KYAW THU,et al.Word Seg⁃mentation for Burmese (Myanmar)[J].ACM Transactions on Asian and Low-Resource Language Information Processing, 2016,15(4):1-10.
[7] HTIKE WAR WAR HTIKE,YE KYAW THU,et ⁃parison of six POS tagging methods on 10K sentences Myan⁃mar language(Burmese)POS tagged corpus[C]∥Proceedings of the CICLING,2017.
[8] YE KYAW THU.myPOS[EB/OL].[2023-06-10].https:∥/ye-kyaw-thu/myPOS.
[9] 国家技术监督局.信息处理用现代汉语分词规范:GB/T 13715-1992[S].北京:中国标准出版社,1993.
[10] 国家市场监督管理总局,国家标准化管理委员会.信息处
理用藏文分词规范:GB/T 36452-2018[S].北京:中国标准出版社,2018.
[11] 林颂凯,毛存礼,余正涛,等.基于卷积神经网络的缅甸语
分词方法[J].中文信息学报,2018,32(6):62-70,79. [12] 马昌娥.面向语音合成的缅甸语文本分析与实现[D].昆
明:云南大学,2019.
[13] 汪大年,杨国影.实用缅甸语语法[M].北京:北京大学出版
社,2016.
[14]
.
[15] 关白.信息处理用藏文分词单位研究[J].中文信息学报,
2010,24(3):124-128.
[责任编辑苏琴]
Research and Application of Modern Burmese Word
Segmentation Scheme for Natural Language Processing
CHEN Yu1a, QIN Donghong1b, ZHANG Hui1b, ZHANG Xiaoyan1b,
YANG Guoying2, OU Jiangling1a, PANG Juncai3,4(a.School of Southeast Asian Studies,b.School of Artificial Intelligence,1.Guangxi Minzu University,
Nanning 530007,China;2.School of Foreign Languages,Peking University,Beijing 100083,China;
3.School of Foreign Languages,Yunnan University, Kunming 650504,China;
4.School of Foreign
Languages,National University of Defense Technology,Nanjing 270000,China)Abstract:Burmese word segmentation is one of the indispensable basic tasks in Burmese language natural language processing,and word segmentation specification is the key problem in the research of automatic word segmentation. By referring to the experience of word segmentation in Chinese, Tibetan and other languages, and combining the characteristics of Burmese, the coding characteristics of Burmese in computer and the grammar of Burmese,the paper put forward to a set of relatively systematic word segmentation scheme suitable for modern Burmese; Based on this scheme, the Burmese open-source manual label word segmentation corpus is re-labeled. The experimental results show that the performance of this word segmentation scheme is better under the condition of six common word segmentation algorithm.
Keyword:Myanmar; Natural Language Processing; Modern Burmese; Word Segmentation Scheme
98。

相关文档
最新文档