基于径向基神经网络的数字_0_9_语音识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第33卷第6期江西师范大学学报(自然科学版)Vo.l33No.6 2009年11月J O URNAL OF JI ANGXI N ORMAL UNI VERSIT Y(NAT URAL SCIENCE)Nov.2009
文章编号:100025862(2009)0620701205
基于径向基神经网络的数字/00~/90语音识别
余华,李海洋,李启元
(海军工程大学电子工程学院,湖北武汉430033)
摘要:介绍了语音信号分析方法中的线性预测编码技术和滤波器组分析方法,并推导了MFCC系数.分
析并讨论了语音识别研究中径向基神经网络的设计原则,以及特征参数等对语音识别结果的影响.实验
结果表明:基于径向基神经网络的语音识别方法有着较好的识别性能和应用效果,针对非特定人的孤立
词识别,识别率可以达到90%以上.
关键词:语音识别;特征提取;美尔倒谱系数;径向基神经网络
中图分类号:TP391.42文献标识码:A
语音信号识别的研究目的是让机器/听懂0人类口述的语言.现阶段的语音识别方法有多种,主要包括:隐马尔可夫模型(HM M)、神经网络模型(ANN),以及隐马尔可夫模型与神经网络模型相结合(HM M/ANN),其中神经网络的语音识别方法不像传统方法需要进行输入模式与标准模式的比较匹配,而是依靠神经网络中大量的连接权值对输入模式进行非线性运算,产生的最大输出兴奋点代表相应的模式类.由于神经网络反映了人脑功能的基本特征,具有自组织性、自适应性和连续学习的能力,而且网络是可以训练的,即可以随着经验的积累而改变自身的性能,且神经网络处理数据还具有高度的并行性,能够进行快速判决并具有容错性,特别适合于解决像语音识别这类难以用算法来描述而又有大量样本可供学习的问题.因此,语音识别的神经网络方法是未来语音识别研究的重点.本文主要对基于径向基神经网络的/00~/90数字语音识别算法进行了分析和研究[125].
1语音识别系统概述
每一个语音识别系统都必须有一个词汇表,系统只能识别表中所包含的词条,词的数量越多则系统的实现越困难.词数小于100时称为小词汇表,100~500称为中词汇表,超过500时称为大词汇表.被识别语音按述说方式可分为孤立词识别、连接词识别和连续语音识别等3种识别方式.孤立词识别方式是指说话人每次只说一个词、一个词组或一条命令让识别系统识别,其中的词汇或命令在词汇表中都算作一个独立词条.语音识别系统可以是针对一个用户,称为特定人识别;若是针对任何人的,称为非特定人识别;如果只需识别语音中关键的词条,则称为关键词识别.首先将语音信号预处理,将发音的模拟信号转化为数字量,并进行端点检测等;完成预处理之后接下来重要的一环就是特征参数提取,用来对模型进行训练和匹配.在训练阶段,将语音信号的特征参数进行处理后,为每个词条得到一个模型,保存为模型库.在识别阶段,语音信号经过相同的处理得到特征参数,生成测试模型,与参考模型进行匹配,将匹配分数最高的参考模型作为识别结果.
2径向基神经网络结构及相关算法
2.1广义RBF神经网络模型
正规化网络的训练样本X i与/基函数0<(X,X i)是一一对应的,当N很大时,网络实现很复杂,且在求
收稿日期:2009204221
基金项目:国家/8630计划(2007AD A299)资助项目.
作者简介:余华(19732),女,江西南昌人,讲师,理学博士研究生,主要从事人工智能与模式识别、现代信号处理、计算机网络安全、智能信号处理等方面的研究.
解网络的权值时容易产生病态问题.解决这一问题可以用Ga lerk i n 方法来减少隐层神经元个数,假设训练样本有N 个,如图1所示
.
输入层 N 个基函数的隐含层 输出层图1 广义RBF 神经网络模型广义网络的输入层有M 个神经元,其中任一神经
元用m 表示;隐层有i(i <N )个神经元,任一神经元用
i 表示,第i 个隐单元的激励输出为/基函数0<(X ,
t i ),其中t i =[t i 1,t i 2,,,t im ,,,t i M ](i =1,2,,,I )为
基函数的中心;输出层有J 个神经元,其中任一神经元
用j 表示.隐层与输出层突触权值用w ij (i =1,2,,,N,
j =1,2,,,P )表示.在上图中输出单元还设置了阙值
U 0,其做法是令隐含层的一个神经元G 0的输出恒为1,
而令输出单元与其相连的权值为w 0j (j =1,2,,,J ).
设训练样本集为X =[X 1,X 2,,,X N ]T
其中任一
训练样本X k =[x k 1,x k 2,,,x k M ](k =1,2,,,N ),对应
的实际输出为Y k =[y k 1,y k 2,,,y kJ ](k =1
,2,,,N )期望输出为d k =[d k 1,d k 2,,,d k J ](k =1,2,,,N ).在实
际应用中,为使RBF 网络的实现方便,我们习惯选用
广义的RBF 网络.
2.2 RBF 网络的学习算法
RBF 网络要学习的参数有3个:基函数的中心和方差以及权值.根据径向基函数中心选取方法的不同,RBF 网络有多种学习方法,其中最常用的有4种学习方法:随机选取中心法,自组织选取中心法,有监督选取中心法和正交最小二乘法.在这里,我们采用自组织选取中心法.这种方法由两个阶段构成:自组织学习阶段,即学习隐层基函数的中心与方差的阶段;有监督学习阶段,即学习输出层权值的阶段.
(1)学习中心t i 自组织学习过程要用到聚类算法,常用的聚类算法是K 均值聚类算法.假设聚类中心有I 个(I 的值由先验知识决定),设t i (n )是第n 次迭代时基函数的中心,K 一均值聚类算法具体步骤为:(a)初始化聚类中心,即根据经验从训练样本集中随机选取I 个不同的样本作为初始中心t i (0),设置迭代步数n =0.(b)随机输入训练样本X k .(c )寻找训练样本X k 离哪个中心最近,即找到i(X k )使其满足i(X k )=arg m i n +X k -t i (n)+,i =1,2,,,I,其中,t i (n)是第n 次迭代时基函数的第i 个中心.(d)调整中心,用公式
t i (n +1)=t j (n)+G [X k (n )-t i (n)],当i =i(X k )
t i (n ), 其他调整基函数的中心.G 是学习步长且0<G <1.(e)判断是否学完所有的训练样本且中心的分布不再变化,是则结束,否则n =n +1转到第二步.最后得到的t i =[t i 1,t i 2,,,t i m ,,,t i m ](i =1,2,,,I )即为RBF 网络最终的基函数中心.
(2)确定方差R i ,中心一旦学完后就固定了,接着要确定基函数的方差,当RBF 选用高斯函数,即
G(+X k -t i +)=exp -
12R 2i +X k -X t +2,方差可用R 1=R 2=,=R I =d m ax 2I
计算,I 为隐单元的个数,d m ax 为所取中心的最大距离.(3)学习权值w ij (i =1,2,,,I ;j =1,2,,,J ).权值的学习可以用L MS 方法,L MS 算法的输入为RBF 网络隐层的输出,RBF 网络输出层的神经元只是对隐层神经元的输出加权求和,因此RBF 网络的实际输出为:Y(n)=G (n)W(n ),其中Y(n)=[y kj (n )],k =1,2,,,N;j =1,2,,,J.
2.3 RBF 网络与多层感知器的比较
RBF 网络与多层感知器都是非线性多层前向网络,它们都是通用逼近器.对于任一个多层感知器,总存在一个RBF 网络可以代替它,反之亦然.但是,这两个网络也存在着很多不同点:(1)RBF 网络只有一个隐702江西师范大学学报(自然科学版)2009年
层,而多层感知器的隐层可以是一层也可以是多层的.(2)多层感知器的隐层和输出层其神经元模型是一样的.而RBF 网络的隐层神经元和输出层神经元不仅模型不同,而且在网络中起到的作用也不一样.(3)RBF 网络的隐层是非线性的,输出层是线性的.然而,当用多层感知器解决模式分类问题时,它的隐层和输出层通常选为非线性的.当用多层感知器解决非线性回归问题时,通常选择线性输出层.(4)RBF 网络的基函数计算的是输入向量和中心的欧氏距离,而多层感知器隐单元的激励函数计算的是输入单元和连接权值间的内积.(5)多层感知器是对非线性映射的全局逼近,而RBF 网络使用局部指数衰减的非线性函数(如高斯函数)对非线性输入输出映射进行局部逼近.这也意味着,逼近非线性输入输出映射,要达到相同的精度,RBF 网络所需要的参数要比多层感知器少得多.
由于RBF 网络能够逼近任意的非线性函数,可以处理系统内在的难以解析的规律性,并且具有极快的学习收敛速度,因此RBF 网络有较为广泛的应用,目前己成功地用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等[629].
3 仿真实验及结果分析
3.1 语音库的建立
语音样本的采集是应用W indo ws 自带的录音机附件来完成的.在采集过程中,将直接剔除那些明显被偶然因素干扰和因说话人本身造成的不规则样本[10212]
.本文以0~9这10个数字作为实验对象,取得了大量的原始语音信号样本.下面以数字/30为例来说明.图2给出了语音/30的原始波形,图3为抽样后语音信号/30的时间历程波形图. 图2 给出了语音/30的原始波形 图3 抽样后语音信号/30的时间历程波形图
3.2
特征参数提取
图4 语音信号/30的第4帧12阶MFCC 系数
语音信号的时域特征参数,诸如短时能量参数或者短时平均过
零率主要是用于进行端点检测,对语音识别起关键作用的是频域参
数.实际中常用的特征描述包括:线性预测系数LPC 、线性预测倒谱
系数L PCC ,以及美尔倒谱系数MFCC [11,13].本文采用了MFCC 系数
作为语音特征参数.
计算特征参数之前,首先需要确定模型阶次.模型阶次的正确
选择十分重要,它不但决定了特征矢量的长度,而且是所选模型能
否全面刻画语音信号的重要标志.可以证明,模型阶次在12~20阶
之间能对绝大多数语音信号模型取得足够的逼近.针对MFCC 系数
的模型阶数取为12阶.图4为12阶MFCC 系数.
3.3 特征参数的归一化特征参数MFCC 系数的分布区间相对较大,这样在神经网络调整权值时会带来难度.所以,必须将这些系数进行归一化处理,将其映射到区间[-1,1]内.计算方法为:有输入样本X =[X 1,X 2,,,X m ],M 为输入
703第6期余 华,等:基于径向基神经网络的数字/00~/90语音识别
样本的维数.归一化之后的样本为X c ,且有
X c k =
X k X 21+X 22+,+X 2m .3.4 RBF 神经网络的识别仿真
针对本文前面生成的数字0~9的语音信号样本,分别通过采用相应的预处理、特征提取和码本产生方法进行了计算.12阶美尔倒谱系数作为特征参数,用K 均值算法将帧数规整到4帧,作为神经网络的输入.
当用12阶美尔倒谱系数作为特征参数时,网络参数设置为:网络的层数为3,输入层神经元个数为48,隐含层的神经元个数通过仿真确定,输出神经元个数为10,初始权值取为(-1,1)之间的随机数,利用函数ne wrbe 创建一个精确的神经网络,该函数在创建RBF 网络时,自动选择隐含层的数目,使得误差为 =netrbe(P,T ,SPREA D ),其中P 为输入矢量,T 为目标矢量.SPREA D 为径向基函数的分布密度,S PREA D 越大,函数越平滑.由于网络的建立过程就是训练过程,因此得到的网络net 已经是训练好了的.训练20次的语音信号识别率如表1所示.
表1 训练20次的数字语音信号/00~/90识别率
待识别语音信号
0123456789平均识别率识别率0.850.800.950.951.000.950.800.800.950.85
0.89 由表1的结果可以看出,径向基函数网络对各个数字的识别率差异有所减小,识别率最高可达100%,对应的语音信号为数字/40,识别率最低为80%,对应的语音信号为数字/10,/60和/70,平均识别率为89%.而且,识别率较低的数字都是易混淆的词,比如/10和/70;/00和/60
;/60和/90,这表明RBF 网络在识别易混淆词时不够理想.
图5 识别率随训练样本数的变化3.5 RBF 神经网络识别方法的性能分析
3.5.1 训练次数的需求分析 对于识别方法和软件而言,在保证一定
识别率的条件下,自然是所需要的训练样本越少越好,所以对样本个数
的需求是判断语音识别方法和软件系统性能的一个基本指标.采用与前
述类似的预处理、分帧、特征提取方法及参数设置,径向基函数网络进行
了计算,得到了识别率随训练样本数的变化,如图5所示.(1)随样本数
目的增加识别率呈上升趋势.(2)径向基函数网络,在样本数为40时即
可达到满意的识别率,样本增加到60或更多时,识别率并没有明显的提
高.
(3)合理地选取学习率函数是获得较为理想的聚类和分类输出的关键;训练次数的增加,有益于性能的提高,但训练时间加长;训练样本数的增加能改善模型性能,但同样是以图6 识别率与信噪比的关系曲线
牺牲训练时间为代价.
3.5.2 观测噪声的影响 前面所使用的原始语音信号是在室内条件下
获得的,该类信号相对比较稳定,受到的污染也较少,所以一般识别率也
较高.但在实际应用当中,所观测到的语音信号的质量千差万别.加性噪
声大大降低了识别率,尤其是宽带高斯白噪声.即使在信噪比为40dB 的
情况下,算法在不作任何语音增强处理时识别率会很低.识别率与信噪比
的关系如图6所示.
4 结束语语音识别是一门内涵丰富、应用广泛的技术,即使是简单的孤立词
语音识别系统,在实现时也存在着很大的困难.根据神经网络模式识别方法,针对孤立词语音识别,将RBF 方法应用到语音识别中,通过实验比较和分析了样本训练次数和训练样本数目等对语音识别模型的训练和识别性能所产生的影响;扩充语音资料库后对识别模型进行了测试,得到了较好的识别率,进一步表明基于RBF 神经网络的语音识别方法具有较好的扩容性、泛化能力以及快速反应的特征.
704江西师范大学学报(自然科学版)2009年
总的来说,要达到实用的效果还需要进一步改进,包括进一步考虑在噪音环境下实现抗噪声语音信号端点检测和特征提取;如果选取不同的语音特征参数,则语音识别模型具有不同的识别性能,应比较、分析各自优缺点及其适用环境,有区别地加以应用;另外,需要进一步合理扩充语音资料库,大量增加实验样本,以便于做更深层次的研究.
参考文献:
[1]L Guoy un ,Jiang Dong me ,i Sah liH,et a.l A novel DB N mode l for l arge vocabulary conti nuous speech recogn iti on and phone seg 2
m enta ti on[C].US A :F l or i da ,2007:3972402.
[2]R avyse Ilse ,Jiang DM,Jiang X Y ,et a.l DBN based m ode ls f or aud i o 2visua l speech analysis and recog n iti on[C ].H angzho u :PC M,
2006:19230.
[3]B il m es ,Barte l s C.Graph ica l m o de l arch itectures for speech recognitio n [J].IEEE Sig na l P rocessi ng M agaz i ne ,2005,22(5):892
100.
[4]Go wdy J N ,Sub ra m anya A ,Ba rtels C ,et a.l DBN 2based m ultistrea m m o de l s for aud i o 2visua l speech recogn ition[C].USA :IEEE ,
2004:9932996.
[5]Pota m i anos G ,Ne ti C .R ecent advances i n the auto m a tic recogn itio n of aud i ovisua l speech[J].P roc I EEE ,2003,91(9):13062
1326.
[6]Sch liep A ,Schnhuth A ,Ste i nhoff C .U si ng hidden ma rkov m ode ls to ana l yze gene expressio n ti m e course data[J].B i oi n f or m atics ,
2003,19(1):2552263.
[7]B il m es J ,Z we i g G .The graphical models tool k i t :an o pen source soft ware syste m for speech and ti m e 2series processi ng[C ].USA :
IEEE ,2002:391623919.
[8]Ne fian A ,L i ang L ,P iX ,et a.l Dyna m i c Bayes i an net works for audio 2vi sua l speech recognitio n[J].Journal on App lied S i gnal P ro 2
cessi ng ,2002(11):127421288.
[9]Dupont S ,Lue tti n J .Audio 2vi sua l speech m ode ling for conti nuous speech recog n iti on[J].IEEE Trans on Mu lti m ed i a ,2000,2(3):
1412151.
[10]刘俊华.遗传算法与神经网络在语音识别中的应用[J].机电工程,2007,24(12):20222.
[11]杨熙,苏娟,赵鹏.MATLAB 环境下的语音识别系统[J].电声技术,2007,31(2):51253.
[12]林坤辉,息晓静,周昌乐.基于HMM 与神经网络的声学模型研究[J].厦门大学学报:自然科学版,2006,45(1):44246.
[13]李锦,何培宇.一种改进的基于小波去噪HM M 非特定人语音识别算法[J].四川大学学报:自然科学版,2007,44(1):69272.
The R ecogn ition T echnology of the Speech for
D i gita ls /00~/90Based on the RBF N eura l N etwork
Y U H ua , LI H a i 2yang , LI Q i 2yuan
(College ofE l ectrical Engi n eeri ng ,NavalUn ivers it y .ofE ngi neeri ng ,W uhan H ubei 430033,Ch i na)
Abstr act :D iscussed the technology of linear pred icti o n code and the bandpass filters ana lysis me t h od ,the reduced t h e MFCC para meters .The desi g ning pri n ciple of RBF and the eff ects of f eat u re para m eter to speech recogniti o n re 2su lts are ana l y zed and d iscussed .Experi m ent result sho w better recogniti o n perf or m ance and particu l a r application advantages are ach ieved by the method f or speech recognition based on RBF f or the isolated word recognition (I W R ),the recogniti o n accuracy is over than 90%.
K ey w ord s :speech recogn iti o n ;rad ial 2basis f unction neural net w or ks ;f eature extraction
(责任编辑:冉小晓)705
第6期余 华,等:基于径向基神经网络的数字/00~/90语音识别。

相关文档
最新文档