基于HMM与神经网络的语音识别技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5卷 第11期 中 国 水 运 Vol.5 No.11 2007年 11月 China Water Transport November 2007
收稿日期:2007-9-25
作者简介:邹超君 女(1981-) 衡阳师范学院计算机科学系 助教 学士 (421008) 研究方向:企业信息化、电子商务,人工智能等
基于HMM 与神经网络的语音识别技术研究
邹超君 黄 琰 邓秋香
摘 要:语音识别主要是让机器准确地识别出语音的内容。利用隐马尔科夫链(HMM)与人工神经网络(ANN) 各自的优点,通过HMM/ ANN 混合模型处理语音识别有综合的优势。本文就其中的各主要技术展开论述。 关键词:HMM ANN 语音识别
中图分类号:TP311.131 文献标识码:A 文章编号:1006-7973(2007)11-0118-02
一、语音识别技术概述
语音识别系统本质上是一种模式识别系统,目前有很多语音识别算法,但其基本原理和基本技术相似。一个完整的语音识别系统一般都包括有语音特征提取、模式匹配和参考模式库3个基本单元,它的基本结构如图1所示。
1.语音特征提取
所谓特征提取就是从语音信号中提取用于语音识别的有用信息,其基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质特征的参数抽取出来,如平均能量、平均跨零率、共振峰、LPC 系数、MFCC 系数等。
图1 语音识别系统基本结构
2.模式匹配(识别算法)
这是整个语音识别系统的核心,它是根据一定规则(如HMM)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与参考模式库之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息,得到最佳的识别结果。
3.参考模式库
在识别之前首先建立参考模式库,通过讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。
二、语音识别主流技术比较
1.基于隐马尔科夫模型HMM (Hidden Markov Model)的识别算法
该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各
种突发情况。因此,HMM 算法具有良好的识别性能和抗噪性能。他的缺点在于统计模型的建立需要依赖一个较大的语音库,这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算) 的运算量相对较大, 通常需要具有一定容量SRAM 的DSP 才能完成。
2.基于人工神经网络ANN( Artificial Neural Network)的识别算法
使用多层神经网络,不同层之间的神经元通过一定的加权系数相互连接,这些加权系数可以在训练中进行学习,每一个神经元对所有输入进行读取,然后把结果传给下一层的神经网节点上。但是ANN 相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN 的系统识别性能不高,所以目前ANN 通常在多阶段识别中与HMM 算法配合使用。
三、HMM/ANN 混合模型对于识别的影响 1.HMM 的建模假设及对识别系统的影响
HMM 存在着很多和语音信号的实际情况不相符合的先验假设和训练方面的缺陷。这些假设使HMM 对协同发音建模困难,同时HMM 方法不同于人脑对语音的处理理解方式,其自适应能力、鲁棒性都不理想。因此必须在探索人脑机理的基础上,寻求新的途径。
2.ANN 用于语音识别的优势
ANN 采用非线性处理单元来模拟人脑神经元,用处理单元之间的可变连接强度来模拟神经元的突触行为,构成了一个大规模并行的非线性系统。神经网络技术以其自适应性、并行性、非线性、鲁棒性和学习特性而被广泛应用于语音识别领域。
由于HMM 的时序性强、神经网络的多输入可以考虑帧间相关性和分类能力强等方面的综合优势,采用HMM/ ANN 混合模型用于语音识别很合适。
四、HMM/ANN 模型的结构
HMM 的特点是能够有效地提取时序特征,但仅能够用到各个模型中的累积概率最大的状态,而并没有充分利用其
第11期 邹超君等:基于HMM与神经网络的语音识别技术研究 119
它状态的累积概率,同时还忽略了各个模式之间相似特征,
从而影响了HMM识别的性能。
将自组织神经网络(Self - organized Neural Network,
SONN)改进后用于HMM语音识别,并利用自组织神经网
络能够确定样本空间概率聚类中心的自组织能力对语音进行
识别,具体方法是将HMM 中所有状态累积概率:
123
{,,,...,}
L
X x x x x
=11
{(1),...,(),...,(1),...,()}
K K
T T T T
a a N a a N
=
作为自组
织神经网络分类器的输入特征,其中k 为所要识别的语音基
元个数,k = {1 ,2 , ⋯,K},以汉语中的数字识别为例,
选择K= 10。神经网络模型由输入层、隐层和输出层构成,
如图2 所示。输入层包括L 个神经元,与HMM中各个语
音基元的状态累积概率相对应;隐层为动态组织层,包括P
个神经元,P 在网络训练中动态变化;输出层包括K(10)
个神经元,每个神经元分别对应于一个要识别的语音基元。
这种网络结构具有自组织神经网络的特点,学习速度快。
图2 HMM/ANN模型
五、改进的混合模型
1.特征参数的提取
靠特征提取从语音信号中提取出对语音识别有用的信
息,并去除对语音识别无关紧要的冗余信息,获得影响语音
识别的重要信息。
目前多采用的是LPCC特征。LPCC系数主要是模拟人
的发声模型。而MFCC参数比LPC倒谱系数更符合人耳的
听觉特性,在有信道噪声和频谱失真情况下,能产生更高的
识别精度。研究者由心理学实验得到了类似耳蜗作用的一组
滤波器组,即Mel 频率滤波器组。Mel 频率可表示为:
2595log(1/700)
M el
f f
=+。将频率按照上式变化到Mel 域后,
Mel 带通滤波器组的中心频率是按照Mel频率刻度均匀排
列的。Mel 倒谱系数计算如下:
(1)经信号进行分帧、预加重和汉明窗处理,然后进行
短时傅立叶变换并得到其频谱。
(2)求出频谱平方,即能量谱,并用M 个Mel 带通
滤波器进行滤波。
(3)将每个滤波器的输出取对数,得到相应频带的对数
功率谱,并进行反离散余弦变换,得到L 个MFCC 系数,
一般L 取12~16个左右,MFCC系数为:
1
log()cos[(0.5)/]
M
n
k
c x k k n M
π
=
=−
∑n=1,2,…,L
(4)将直接得到的MFCC 特征作为静态特征,再将该
静态特征做一阶和二阶差分,得到动态特征。
2.网络中隐节点数目的优化
网络结构的改进主要体现在找到最优的隐节点的数目。
隐节点的确定方式如下:
(1)用迭代自组织数据分析方法得到训练数据的聚类中
心的数目,再为属于不同类的一对聚类中心分配一个隐节点。
由此估计出一个对于训练和训练后的剪枝都合适的隐节点的
数目N 。
图3 一种新的隐节点剪枝算法
(2)训练N 个节点的MLP 网络。
(3)通过迭代去除网络中冗余隐节点。如图3 所示,
在移去节点A 后,调整余下节点的权参数,使得节点B 的
净输入值在最小平方定义下近似保持不变,即对于训练集中
所有的模式有:
,,,
{,,}{,}
()()(),{1,2,...,}
j B j j B j B j
j A C D j C D
w y n w y n n N
δ
∈∈
=+∀∈
∑∑
其中
,j B
w代表节点j 到B 的权值,
,j B
δ代表节点j 到
B的残差,()
j
y n代表第n 个节点的输出值,这就相当于
一个线性方程:
A
C B
A B
D B
A
(1)
(1)(1)
M
(N)(N)(N)
C D
C D
y
y y
M M
y y y
δ
ω
δ
⎛⎞
⎛⎞
⎛⎞⎜⎟
⎜⎟=
⎜⎟⎜⎟
⎜⎟
⎝⎠
⎜⎟⎜⎟
⎝⎠⎝⎠
,
,
,
用LMS 迭代法可以得到这个线性方程在最小平方意义
下的最优解
C B
D B
δδ
,,
( ,)为了保证输入输出关系,应该去
掉使线性方程的残差达到最小的结点。
六、结论
实验证明:在许多识别任务上,改进的混合HMM/ ANN 模
型的识别性能比具有相同参数数目和输入特征的传统HMM/
ANN要好。要实现相同的识别性能,HMM/ ANN系统必须
使用更多的参数和更复杂的模型结构。充分显示了混合
HMM/AN作为一种新的语音识别系统模型具有强大生命
力。
参考文献
[1] 宋叔飚.神经网络在语音识别中的应用研究(硕士学位论
文).西安:西北工业大学.2002.
[2] 张有为.混合HMM/ ANN 模型在汉语语音识别的应用
(硕士学位论文).广州:华南理工大学.2000.
[3] 胡光锐,吴硕.自组织特征映射神经网络用于语音识别的
研究.应用科学学报.1997.15 (1):55~60.
[4] 李晶皎.语音识别中HMM与自组织神经网络结合的混合
模型.东北大学学报(自然科学版).1999..