结合全局词向量特征的循环神经网络语言模型_李华

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图1
结合特征层的循环神经网络语言模型结构 The structure of recurrent neural network language model with feature layer
Fig. 1
第6 期

华 等: 结合全局词向量特征的循环神经网络语言模型
717
输入向量w ( t ) 和输出向量 y ( t ) 与词汇表大小 V 有相同的维度。网络的参数训练采用通过时间的 反 向 传 播 算 法 ( BackPropagation Through Time , BPTT) 。输出向量 y( t) 代表在给定当前词 w ( t ) 、 上 下文向量 s( t -1 ) 和特征向量 f ( t ) 的情况下, 词汇表 中待预测词的概率分布。 隐含层和输出层的计算公式如下 : s ( t ) = σ ( Uw ( t ) + Ws ( t - 1 ) + F f ( t ) ) y( t) = g( Vs( t) + Gf( t) ) σ( z) 为 sigmoid 激活函数 σ ( z ) = 其中, 为 softmax 激活函数 g( z m ) = ( 1) ( 2) 1 , g ( z) 1+e -z
第 32 卷 第 6 期 2016 年 6 月
文章编号: 1003-0530 ( 2016 ) 06-0715-09




JOURNAL OF SIGNAL PROCESSING
Vol. 32 No. 6 Jun. 2016
结合全局词向量特征的循环神经网络语言模型
李 华 屈 丹 张文林 王炳锡 梁玉龙
[7 ] 度消失 ( Vanishing Gradient ) 问题 , 并且模型难以 优化, 使得 在 实 际 应 用 时 只 能 利 用 有 限 步 长 的 信 [6 ] [ 5 ]
所示, 由输入层 ( Input Layer ) 、 隐含层 ( Hidden Layer) 、 输出层 ( Output Layer ) 及 其 相 应 的 权 重 组 成。 hot 编码方式来 其中, 输入词向量 w ( t ) 可采用 One表示, 即当前位置的词为 1 , 其他词为 0 , 因此词向量 hot 编码方式给每个 维数与词汇表尺寸相同。 One词分配一个数字 ID, 这种方法简单易用, 因此广泛 应用于自然语言处理任务中。 循环神经网络的训 练过程大致为: 输入词向量 w ( t ) 经过隐含层的处 理, 在输出层产生待预测词的概率分布 。 其中, 隐 含层状态 s( t ) 包含了历史信息。 因此, 网络的输入 是由输入向量w ( t) 和上一时刻的隐含层的输出 s ( t -1 ) 构成, 用于计算当前隐含层的状态 s( t) ; 而 s ( t ) 加入到网络的训 又作为下一时刻词w ( t +1 ) 的历史, 练中。通过隐含层的不断循环, 在词预测的过程中 充分利用了历史信息。 循环神经网络的训练算法 使得在训练的过程中, 实际输出和期望输出之间会 产生一个误差信号, 误差信号向后传播至隐含层, 并随着时间不断减弱, 由此造成梯度消失问题, 限 制了网络对无限长距离历史信息的学习能力 。 为了增强网络学习长距离历史信息的能力 , 本 文采用改进的循环神经网络结构, 即在传统循环神 经网络 模 型 的 基 础 上 加 入 了 特 征 层 ( Feature Layer) , 网络结构如图 1 分别与隐含层和输出层相连, ( b) 所示。特征层 f ( t ) 表示额外的输入向量, 包含 了对输入词向量的补充信息。
[3 ]
, 因此在
提出了大规模分层神经
收稿日期: 2015-09-21 ; 修回日期: 2015-12-22
716




第 32 卷
针对模型的规模和训练数据的增 网络语言 模 型, 加, 通过切分语料、 并行化训练和减少每个子网络的 输出词汇大小, 在不影响词错误率的情况下大大缩减
[ 4 ] 了训练时间。2013 年, 李海生等人 针对输出层结
Байду номын сангаас
Recurrent Neural Network Language Model with Global Word Vector Features
LI Hua QU Dan ZHANG Wenlin WANG Bingxi LIANG Yulong
( Institute of Information System Engineering,PLA Information Engineering University,Zhengzhou,Henan 450002 ,China) Abstract : Aiming at the insufficient learning ability of long distance information for neural network based language model, a recurrent neural network language model with the global word vectors ( GloVe) is proposed in this paper. Firstly,global word vectors are trained by GloVe algorithm. Secondly,global word vectors are regarded as feature vector inputs to the recurrent neural network with feature layer. Compared with that of incorporating local word vectors, the GloVe based language model captures the semantic and syntactic information using global statistical information. Experiments on perplexity and continuous speech recognition are performed on Penn Treebank and Wall Street Journal corpus respectively. The results show that the relative perplexity improvement over the conventional recurrent neural network language model reaches 20. 2 % and the word error rate of speech recognition system decreases 18. 3 % . Key words: recurrent neural network; language model; global word vector; speech recognition
CBOW 模型是利用上下文来预 层、 投影层及输出层, gram 模 型 是 利 用 当 前 词 测当 前 词 w ( t ) , 而 Skipw ( t) 来预测其上下文。 为了有效地获取词的分布 式表示, 模型在传统神经网络模型的基础上, 去除 含有大量运算量的非线性隐含层, 而在映射层采用 linear 模型结构。 一种 Log语料库中词的统计信息, 如词频、 词的共现等, 是训练词向量的主要资源。 局部词向量只能利用 有限长的窗口进行滑动来获得词的上下文信息 , 因 而不能充分的利用这些统计信息。
表明, 本文提出的方法不仅能够降低语言模型的困 惑度, 而且能够提高语音识别系统的识别率 。
2
结合特征层的循环神经网络语言模型
循环神经网络语言模型的网络结构如图 1 ( a )
构进行了优化, 利用一些子层来代替标准的输出层, 输出结构采用词聚类方法, 因此能够处理任意大小的 词汇量, 同时降低了前馈神经网络的运算量。 在前馈神经网络中, 信息是从输入单元到输出单 元的单向流动, 而现实生活中信息之间有着复杂的时 间关联性, 尤其对于语音信号这种序列输入的任务, 在对其进行建模时需要能够同时处理高维度的多种 输入信息, 但前馈神经网络缺乏学习输入信息的整体 Mikolov 等人 在 逻辑序列的能力。针对这一问题, 2010 年提 出 了 循 环 神 经 网 络 语 言 模 型 ( Recurrent Neural Network Language Model,RNNLM ) , 通过循环 层的定向循环, 能够实现对之前信息的有效利用, 因而能够充分分析输入信息之间的整体逻辑序列 , 具有对时间序列进行显性建模的能力。 为了降低 Mikolov 等人 对输 隐含层和输出层之间的运算量, 出层的结构进行了改进, 引入了分类层, 有效地提 高了网络的运算效率。 但是循环神经网络存在梯
( 解放军信息工程大学信息系统工程学院 ,河南郑州 450002 ) 摘 要: 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题 , 本文提出了结合全局词向量特征
的循环神经网络语言模型 。首先利用 GloVe( Global Word Vectors ) 算法训练出全局词向量, 然后将其作为特征向 量输入到引入特征层的循环神经网络中进行训练 。 相对于局部词向量方法, 全局词向量能够利用全局统计信息 来训练出含有更加丰富的语义和句法信息词向量 。 为了验证新方法的性能, 本文在 Penn Treebank 和 Wall Street Journal 语料库上分别进行困惑度和连续语音识别实验 。实验结果表明结合全局词向量的循环神经网络语言模型 的困惑度相比传统的循环神经网络语言模型降低了 20. 2 % ,同时语音识别系统的词错误率降低了 18. 3 % 。 关键词: 循环神经网络; 语言模型; 全局词向量; 语音识别 中图分类号: TN912. 3 文献标识码: A DOI: 10. 16798 / j. issn. 1003-0530. 2016. 06. 011
[1 ]
络( Feed Forward Neural Network ,FFNN ) 建立模型, 利用词的分布式表达 ( Distributed Representation ) 使 得有相同语义的词聚集在一起, 解决了数据稀疏问 题。但前馈神经网络的缺点之一是运算复杂度过 JeffKuo 等人 高。2012 年,
1
引言
统计语言模型已广泛应用于语音识别、 拼写检
实际应用中有一定的局限性。 gram 模型存在的数据稀疏问题, Bengio 针对 N等人
[2 ]
于 2001 年在文本语料库上使用前馈神经网
查、 文本生成、 机器翻译和手写识别等任务中。 传 统的统计语言模型的目标是在给定词序列的情况 下, 对下一个可能出现的词进行概率估计 。 其中, Ngram 模型是最早也是应用最为广泛的一种建模 gram 模型存在数据稀疏问题 方法, 但 N基金项目: 国家自然科学基金项目 ( 61175017 )
810] 息。文献[ 采用在循环神经网络中引入长短时 Term Memory ,LSTM ) 单元来避免 记忆( Long Short该问题, 用 LSTM 单元替代循环神经网络的隐含层 单元, 通过门控单元来控制信息的读写和存储 , 还 可以用 于 时 序 分 析 中 上 下 文 信 息 的 提 取 。 文 献 [ 11] 采用了基于局部词向量的神经网络语言模型 进行建模, 但仍然存在词向量所涵盖的语义和句法 信息受限的问题。 本文针对循环神经网络语言模型对历史信息 学习能力不足的问题, 首先利用语料库的全局统计 [12 ] 再将词向量作为特征向量输 信息训练出词向量 , 入到循环神经网络中, 以增强模型对长距离信息的 学习能力。 由于词向量在实际训练过程中使用了 上下文信息来编码词汇, 相对于局部词向量而言, 在代数运算下表现出更加丰富的语义和语法相似 性。为了验证本文算法的性能, 采用 Penn Treebank 语料库和 Wall Street Journal 语料库, 分别对困惑度 和连续语音识别的词错误率进行实验。 实验结果
相关文档
最新文档