基于深度学习的藏文分词关键技术研究[]

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于深度学习的藏文分词关键技术研究

[ ]

摘要:藏语信息化处理对于藏语的传承与发展具有重要意义。目前我国对于藏语信息化研究已经具有较高水平。其中,藏文分词是藏文信息处理的基础任务,受到藏文研究人员的广泛关注。现阶段,在藏文分词任务中,主要的研究方法从传统的方法(字符串匹配和统计分词)转向深度学习。本文结合传统方法和深度学习的优势,提出了基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法Self-Attention CRF。通过藏文分词数据集,并进行实验,本文的算法在精准率提升了1.9%、召回率提升了1.2%、F1分数指标提升了3.2%。

关键词:藏文信息化;藏文分词;深度学习;条件随机场;自注意力机制

1.引言

藏族文字(藏文)作为历史悠久的文字,用独特的书写符号记录和传承珍贵的藏族文化。现阶段,随着数字化、信息化时代的到来,藏文信息化使得藏文研究换发出新的生命力。

藏文分词是藏文信息处理的基础和前提[1]。而藏文与汉语在语法上存在较大差异,因此,需要针对藏文的特殊语法结构设计分词算法。传统的藏文分词方法有字符串匹配方法和统计分词方法,取得了较为理想的分词效率和分词结果。随着深度学习和藏语语料的不断发展,基于深度学习的[2,3,4]藏文分词方法获得了较大关注。

但是,现有分词方法存在以下局限:

(1)传统藏文分词方法精度上低于深度学习方法;

(2)深度学习的分词方法, 以循环神经网络(Recurrent neural network,RNN)[5]和长短期记忆网络(Long short-term memory, LSTM)[6]为例,训练

效率较低,下一个分词结果需要等待前一个结果输出。并且,该模型无法更大范

围获得上下文信息。

因此,本文基于现有藏文分词方法,结合传统方法的和深度学习方法的

优势,克服以上局限,主要贡献如下:

(1)构建藏文分词数据集;

(2)引入自注意力机制self-attention [7],并行提取藏文文本信息;

(3)提出基于条件随机场CRF[8]和自注意机制self-attention[7]的藏文

分词算法,进一步提升藏文的分词模型的精度和效率。

2.相关工作

本节将具体介绍藏文分词的两类方法:传统分词方法和基于深度学习的分词

方法。

2.1传统分词方法

我们将传统分词方法分为基于字符串匹配和基于统计的分词方法。

2.1.1 字符串匹配方法

基于字符串匹配的分词算法又称作机械分词方法。该方法

按照一定的滑动(扫描)方式将待分词的句子中的词条与语料库中的词进行匹配,然后返回分词结果。以正向最大匹配算法为例:首先需要给定一个最大的词条长度,假设定义最大词条长度(滑动窗口的长度)为max_num=3,我们首先取出句

子的前3个字符,看前3个字符是否存在于词库中,如果存在,则返回第一个分词,滑动窗口向后滑动3个位置;如果不存在,我们把滑动窗口从右向左缩小1,判断前两个字符是否存在于词库,如果存在,则返回这个分词,滑动窗口向后滑

动2,不存在则继续缩小滑动窗口......直至将整个句子遍历完,就得到了最后

的分词结果。

2.1.2 统计分词的方法

在基于统计的分词方法应用统计学习模型,分析分词(词语切分)规律,实现对藏文文本的分词过程。基于统计分词的方法的关键步骤为:(1)按照统计模型得出分词结果;(2)在分词结果中得出概率最高(结果)最好的模型。

目前,基于统计的分词方法有:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM)[40],最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。

2.2基于神经网络的分词方法

基于神经网络的方法在自然语言处理中,以循环神经网络(RNN)模型为主。RNN模型是基于过去的输入和当前的输入,预测下一个输出结果。RNN模型在藏语分词任务重取得了较好的结果。但是对于长文本分词任务效果不佳。随后,基于Long short-term memory(LSTM)的方法有效的解决了该问题。

综上:传统的分词方法和基于神经网络的分词方法各具优势。本文研究如何结合两类方法的优势,设计精度和准确率更高的藏文分词算法。

3.方法设计

本节主要介绍基于基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法(如图1所示)。

图1 藏文分词算法CRF-Attention架构图

3.1藏文数据集构建

本文研究的藏文数据是通过网络爬取工具爬取藏文数据。然后通过人工校验进行人工分词和表述。因此,本文所构建的藏文数据集包含11215条藏文文本数据集。我们将其命名为Tibetan-Words.

3.2分词算法Self-Attention CRF

本文设计的分词算法为:基于条件随机场和自注意机制的藏文分词算法(CRF-Attention)(架构图如图1所示)。因此,CRF-Attention算法分为两个模块:CRL和Self-Attention。

3.2.1 Self-Attention模块

(1)词向量初始化

首先我们应用词向量(word2vec)算法,将输入的藏文文本转为词向量。并且,由于word2vec不包含词向量的位置信心,在中增加词向量的位置信息。其中,是每个词的位置向量。

(2)自注意力机制(Self-Attention)

在Self-Attention模块中,使用点乘计算词向量之间的相

关性。例如,输入的词向量是X,每个单位应用向量乘法,初始化关键向量Key (K),查询向量Query (Q),评估向量V (V):

(1)

然后,通过注意力机制获得嵌入向量:

(2)

最后,通过前馈神经网络( feed-forward neural network, FFN)生成最后

输出向量Z:

Z= FFN(

按照以上计算过程,输入藏文词向量被依次转为基于注意力机制的向量表示。

(3)多头自注意机制(Multi-headed Self-attention)

为了提升注意力机制的性能,我们引入多头自注意力机

制(Multi-headed Self-attention),希望基于相同的注意力机制学习到不同

的词嵌入表达。并且,将不同的自注意机制的词向量连接组合。我们的目标是

创建一个上下文向量作为注意力模型的输出。因此,要将各个注意力头产生的上

相关文档
最新文档