语音识别系统及其特征参数的提取研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机与现代化
2009年第9期
J I S UANJ I Y U X I A NDA I HUA
总第169期
文章编号:100622475(2009)0920167202
收稿日期:2009204215
基金项目:广西壮族自治区教育厅科研资助项目(200808MS008)
作者简介:魏星(19802),男,四川资中人,桂林电子科技大学硕士研究生,桂林航天工业高等专科学校计算机系讲师,研究方向:计算机网络,语音信号处理;周萍(19632),女,桂林电子科技大学计算机与控制学院副教授,研究方向:语音信号处理。
语音识别系统及其特征参数的提取研究
魏 星
1,2
,周 萍
1
(1.桂林电子科技大学计算机与控制学院,广西桂林541004;2.桂林航天工业高等专科学校计算机系,广西桂林541004)
摘要:在语音识别系统中,特征参数的选择对系统的识别性能有关键性的影响,本文主要研究几种重要的语音特征参数,包括线性预测倒谱系数、美尔倒谱系数、基于小波分析的参数等,并对这些参数进行了分析和比较,最后对语音识别的研究未来进行了展望。
关键词:语音识别;线性预测倒谱系数;美尔倒谱系数;小波分析
中图分类号:TP391 文献标识码:A do i:10.3969/j .issn .100622475.2009.09.048
Research on Speech Recogn iti on System and Its Character isti c Param eters Extracti on
W E I Xing 1,2
,Z HOU Ping
1
(puter and Contr ol College,Guilin University of Electr onic Technol ogy,Guilin 541004,China;2.Depart m ent of Computer Science,Guilin College of Aer os pace Technol ogy,Guilin 541004,China )
Abstract:I n s peech recogniti on syste m,the choice of characteristic para meters of the syste m has key influce t o identify the i m pact of perf or mance .This paper researches on several i m portant para meters of the voice characteristics,including the linear p redicti on cep stru m coefficient,Mel 2Frequency Cep strum Coefficient,the para meters based on wavelet analysis,etc .And these parameters are analyzed and compared .Finally,p r os pected the s peech recogniti on research in future .
Key words:s peech recogniti on;linear p redicti on cep stru m coefficient;Mel 2Frequency Cep strum Coefficient;wavelet analysis
0 引 言
说话人识别(Speaker Recogniti on,SR ),也称为声
纹识别(Voicep rint Recogniti on ),是利用说话人的语音信号同预先提取的说话人语音特征相比较来确定或鉴别说话人身份的技术。每个人由于自己独特的声道特性和发音特点,使其讲话具有区别于其他说话人的特征,这就是说话人识别的基本依据。
说话人识别基本上有两条思路。一是基于模型的,即为语音的生成过程建立一个物理模型,通过求解微分方程得到模型参数,最终达到识别目的。线性预测分析方法和一些学者采用的反演方法,就是采取这种思路的。另一思路是利用信号处理技术,模拟被识别人的语音的过程,从语音信号中提取可唯一表征人个体因素的特征参数,利用这些参数进行识别。
1 语音识别技术存在的问题
近二十年来,说话人识别方面探索十分活跃,目前,在语音识别技术方面虽然取得了一定成功,但仍然存在问题,主要有以下几个方面:
(1)尚未找到简单可靠的说话人语音特征参数:语音信号中既包含了讲话内容的语义信息,又包含了说话人发声特征的个性信息,到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没有找到简单的声学参数能够可靠地识别说话人。
(2)语音信号的变异性:语音信号的变异性从本质上使说话人特征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确定性。
(3)说话人识别的应用还受到伪装发音等问题的困扰。
2
语音识别系统构成
图1 说话人识别系统原理框图
说话人识别系统的基本原理如图1所示,主要包括以下几个阶段:(1)语音信号的预处理。通过预处理滤除掉各种噪声和干扰,提升信号中的高频部分,并进行端点检测,去掉非有效语音帧,为特征提取提供有效的语音段。(2)语音特征参数的提取。即提取能够有效表征说话人特征的参数。(3)说话人参数模型的建立和模型匹配距离的计算。在训练阶段,系统的每个使用者说出训练语句,提取说话人的语音特征,系统据此建立并存储每个使用者的参考模型;在识别阶段,由待识别说话人的语音信号经过特征提取后形成的待测模型,然后与系统训练时产生的参考模型进行比较。(4)对于说话人确认系统,通过判断测试语音两个模型的匹配距离是否小于一定阈值来做出判决,若确认成功,则对参考模型进行更新。如图1所示。
3 说话人特征参数的提取
语音参数的选择是整个话者识别系统的基础,对正确识别率有着直接的影响,如何找到稳定有效的特征参数来表征说话人,是说话人识别中的关键问题。
目前常用的特征参数包括线性预测倒谱系数(L inear Predicti on Cep stru m Coefficient,LPCC )、美尔倒谱系数(Mel 2Frequency Cep stru m Coefficient,MF 2CC )、基于小波分析的特征参数提取等。传统的特征参数采用短时傅立叶分析(STFT ),将语音信号分割成10~20m s 的小帧,以满足短时平稳的要求。但实际上语音信号的频谱特性是随时间变化的,是一种典型的非平稳信号,而小波分析正是一种处理非平稳信号的有力武器。在语音识别和说话人识别中,关于小波分析的应用仍然处于探索阶段。3.1线性预测倒谱系数
LPCC 系数是一种非常重要的特征参数。它的
主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道响应,而且往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,因此在识别中取得了较好的效果。它的基本思想是:一个语音信号的采样值可以用过去若干个采样值的线性
组合来逼近。通过使实际语音采样值与线性预测采样值的均方误差达到最小,可以确定唯一的一组线性预测系数。通过原理的分析,就是要求LPC 参数,主要是使预测误差的均方值最小。随着p 的增大,总能使均方值减小,但当p 增加到一定程度以后,再增大p 值也只能使均方值有微弱下降,而且p 值选得很大虽然可以略微改善逼近效果,但也带来一些负作用。一方面是加大了计算量,另一方面有可能增添一些不必要的细节,比如在用声道模型谱进行共振峰分析时反而使效果变坏。线性预测参数是模拟人的发音器官的,每段声管则对应一个线性预测模型的极点。一般情况下,极点的个数在12~16个之间,就可以足够清晰地描速语音信号的特征。3.2美尔倒谱系数
与普通实际频率倒谱分析不同,MFCC 的分析着眼于人耳的听觉特性,Mel 频率尺度的值大体上对应于实际频率的对数分布关系,更符合人耳的听觉特性。MFCC 参数的突出优点是不依赖全极点语音产生模型的假定,考虑了人耳的听觉感知特性,抗噪声和抗频谱失真能力较强,从而提高识别系统的性能。但是在系统实时处理上,与LPCC 参数相比,MF 2CC 参数计算有两个缺点:一是计算量大,计算时间长,很难达到实时性;二是精度难以保证,由于MFCC 参数的计算需要FFT 变换和对数操作,影响了计算的动态范围,要保证其在单片机或DSP 平台上的运算速度,就只有牺牲参数精度。3.3基于小波包分析的特征参数
将小波变换引入语音特征参数的提取,用离散小波(包)变换代替短时傅立叶变换或直接利用小波知识来进行新参数的提取。由于语音信号的非平稳性,可以用小波包分析代替语音信号处理中的傅立叶分析和滤波器组,导出基于小波包分析的语音特征。
近年来的方法有:用小波变换代替离散余弦变换
分离滤波器输出能量[1]
,直接采用小波变换和小波包
变换的子带能量作特征[2]
,用固定小波分解树计算子
带能量[3]
。在TI M I T 标准语音库上,文献[1]和文献[3]进行了音素识别,文献[2]进行了说话人识别。在音素识别中,小波方法在变化剧烈的如爆破音上具有优势,传统的傅立叶方法在周期性较强的如元音上具有优势。而在说话人识别中,两种方法差别不大。
4 未来研究方向
说话人识别的研究主要集中在以下几个方面:如
何增强特征矢量的鲁棒性和辨识
(下转第172页)