基于神经网络隐马尔可夫模型的混合

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于神经网络/隐马尔可夫模型的混合

语音识别方法的研究现状

摘要:作为大词汇量连续语音识别系统的主流技术,隐马尔可夫模型(HMM )方法已经取得了相当的成功。但是,由于HMM 在理论上的一些缺陷,使得目前的连续语音识别系统只能在非常有限的范围内得到应用。也就是说,从根本意义上说,语音识别是一个尚未解决的问题,仍旧是一个科学上的问题,离工程化还有相当的距离。所以,不断地探索新模型与新方法对彻底解决这一问题至关重要。另一方面,近几年的研究表明,神经网络(ANN )具有极强的对复杂模式的分类能力。在连续语音识别的研究中,理应考虑结合两者之长来提高识别系统的性能,尤其是声学层面上的识别率。本文旨在介绍国外这方面的前沿成果,并结合我们自己在这方面的工作,对其发展方向提出一些看法。

关键词:神经网络,隐马尔可夫模型,混合方法。

一. 概况

近年来,自动语音识别的研究已经取得了非常大的进步,许多科研单位和大公司的语音识别系统在实验室中都表现出了较高的识别率。但是,这些识别系统在实际场合的应用效果是不能令人满意的,或者说,目前的识别系统只能在非常有限的范围内得到应用。 为了根本解决语音识别问题,我们还必须不断地探索新模型与新方法。首先,我们回顾一下当前语音识别中最为成功的方法。

语音的产生可以看作是由信息源通过一个有噪信道,把语言序列W 转换为一个信号序列S 的过程[1],如图1所示。因此,语音识别就是一个最大后验概率(MAP )的解码问题。

有 噪 信 道

通 道 解 码

图1

根据贝叶斯公式,该解码问题被表示为:

arg max (/)arg max

(/)()()

W W P W A P A W P W P A ∈∈=ΓΓ

其中A 是声学特征向量,P(A/W)是声学模型,P(W)是语言模型,可以认为P(A)与P(W)无关

[2][3],则(1)式等同于:

argmax (/)argmax (/)()

W W P W A P A W P W ∈∈=ΓΓ

在识别系统的识别单元确定下来以后,通常对每个识别单元建立一个HMM,并通过大量的语音数据来训练每个HMM的参数,因此在识别过程中,P(A/W)的求取就是计算声学观测向量与每个HMM的相似度。

二. HMM与ANN应用于语音识别时各自存在的一些问题

2.1 HMM的特点

HMM在语音处理的各个领域中的应用都获得了巨大的成功,但它的一些缺陷也使系统性能难以进一步提高。我们不妨用表1来列举其用于语音识别时的优缺点[4]。

用于连续语音识别的HMM方法

优点缺点

丰富的数学框架对模式的辨识能力差强有力的学习和解码方法要求声学特征内部各分量不相关

对时间序列信号的处理能力强状态序列由一个一阶Morkov链产生

表 1

从表1可以看出,为了用HMM来表示语音的产生,必须建立一些假设,在此基础上设计训练和识别算法,而这些假设与实际情况不一定相符,这正是HMM理论的缺陷所在。

2.2人工神经网络方法的特点

利用神经方法进行连续语音识别的方法很多,比较有代表意义的有[5][6][7][8]等,它们共同的思想就是利用ANN强大的静态模式分类能力,结合HMM或DP的时间处理能力,用混合模型来描述语音的产生模型。这样做的主要原因是因为目前的ANN结构缺乏时序信号的处理能力[9]。虽然可以通过扩展网络的拓扑结构或引入反馈以获得局部的时间处理能力,如TDNN[10]和RNN[11],但对于时变性和随机性都很强的连续语音信号来说,还尚未找到有效的方法,即仅用ANN把输入的声学向量序列转换为输出的语音单元序列。

三. 基于ANN/HMM的混合识别系统

如上所述,采用混合方法来结合ANN与HMM两者之长,是可能提高识别器性能的一条途径。这种混合方法的基本思路可以简单描述为:训练神经网络用于HMM状态的分类,神经网络的输出被解释为在声学特征向量窗口中某一帧特征向量的后验概率,即有: gl(xn,)=p(q/x) (3)

其中??是声学特征向量,??是神经网络的参数,??是神经网络的输出。在估计系统参数时,ANN和HMM各自训练;在进行识别时,对每一帧声学特征向量,用神经网络的输出替代传统HMM方法中每个状态的输出概率,并以Viterbi算法或其它DP算法动态搜索最佳状态路径。实现这种系统的神经网络可以有多种形式,如MLP,RNN或RBF网络等等。

3.1 ANN输出的概率解释

为了使神经网络适用于HMM统计模型框架的计算,必须对神经网络的输出赋予统计意义。这方面代表性的工作有[5][12][13][14][15],本文给出关于神经网络输出概率解释的一种通用证明

考虑神经网络的MSE训练准则:

?????????????????

其中??????表示教师信号,?????????是神经网络的实际输出信号,K 是模式总数,N是训练次数。如果训练数据充分,对于连续值的特征向量,MSE准则可表示为:

???????????//

可以看出,在(7)式中,第二项独立于神经网络的输出??,所以最小化MSE准则函数(4)就等价于选择神经网络的参数来最小化(7)式的第一项。而(7)式最小化的结果就是:神经网络的输出??是后验概率??的最佳估计。

上述证明过程只与训练神经网络的准则函数有关,所以适用于各种结构的神经网络。同时,对于相对熵准则函数,也有类似的结果[15]。不难看出,上述结论必须满足两个前提条件,即:

£¨1£© 用以完成后验概率估计的神经网的结构必须足够复杂,能实现两个空间之间的任意非线性映射。

£¨2£© 神经网络的训练必须达到全局最小点,这样才能保证??与??在某种“最佳”

意义上最为接近。

3.2有代表性的ANN/HMM混合识别系统

N.Morgan和H.Bourlard提出的基于MLP/HMM的非特定人连续语音识别混合系统[17]非常具有代表性,下面对它做简单描述。

图 2

如图2所示,在混合系统中,MLP估计每个识别单元(音素)对应于每个HMM状态的后验概率,而用有时长(duration)信息的HMM中的Viterbi算法实现语音的规整。用MLP所估计的后验概率,不能直接用于Viterbi计算,必须除以每个识别单元的先验概率,从而得到因子化的语音特征向量与HMM状态之间的似然度,即有:

??????????????????

由于利用神经网络而不是传统的HMM的B矩阵(离散情况)或混合高斯曲线(连续情况)来估计每个HMM状态的输出概率,可以适用多种特征而不必考虑它们之间是否相关。在这个系统中,送入神经网的声学特征包括:12阶PLP系数,对数能量,基音等。同时,按照HMM 的假设,有:

???????????????

而混合系统则可这个条件为:

?????????????????/

即在局部观察值模型中,含有声学上下文(acoustic context)参数。按照(10)式,图2所示

相关文档
最新文档