基于动量项先验信噪比估计的语音增强算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于动量项先验信噪比估计的语音增强算法
沈锁金;刘伟;魏静
【摘要】先验信噪比(Signal Noise Ratio,SNR)估计的精度影响着语音增强算法的性能.直接判决(Decision Directed,DD)算法是最常用的先验信噪比估计算法,但是,该算法估计的增强语音语音失真严重.首先介绍了语音增强算法的基本理论并分析了DD算法、TSNR算法和融入动量项算法,然后运用MATLAB软件进行实验仿真,对比分析了融入动量项算法的性能优势.
【期刊名称】《电声技术》
【年(卷),期】2017(041)001
【总页数】4页(P55-57,62)
【关键词】先验信噪比;语音增强;语音失真;动量项
【作者】沈锁金;刘伟;魏静
【作者单位】烟台大学光电信息科学技术学院,山东烟台264005;烟台大学光电信息科学技术学院,山东烟台264005;烟台大学光电信息科学技术学院,山东烟台264005
【正文语种】中文
【中图分类】TN912.3
语音增强算法的目的就是有效消除干扰噪声,提高接收端语音质量[1]。
经过30多年的发展,语音增强算法在很多领域都有应用,例如:在语音识别系统中,消除噪声使得机器更清晰地识别人的语音指令;在助听器中引入语音增强技术,提高人耳
对语音信号的感知度;在会议通信中语音增强算法可以提高会议通信质量。
经典的语音增强算法有谱减法、维纳滤波法和基于统计模型的语音增强算法[2]。
语音增强算法中有很多参数,增益因子是其中之一。
增益因子又是先验信噪比(SNR)的函数,所以,对先验SNR估计算法的研究引起很多研究者的注意。
经典的先验SNR估计算法是DD算法。
为了改进DD算法,TSNR(Two-step Noise Reduction)算法和自适应平滑因子算法被提出。
本文研究了融入动量项的DD算法,取得了很好的增强效果。
语音增强技术中的纯净语音x(t)、噪声信号d(t)和带噪语音信号y(t)的时域表达式[3]为
y(t)=x(t)+d(t)
时域语音信号通常会被变换到变换域进行研究,通常可以变换到DFT域,N点DFT变换后,与时域语音对应的语音谱[4]表示为
Ym,k=Xm,k+Dm,k,k=0,1,2,…,N-1
估计的纯净语音可以由增益因子Gk,m表示[5]为
增益因子Gk,m是先验SNR和后验SNR的函数。
先验SNR[6]为
后验SNR为
通常选用维纳滤波算法下的增益因子
时域语音信号可以通过N点IDFT 变换得到
DD算法的定义[6]为
Plapous等人基于DD算法,提出了TSNR算法,该算法事实上是由两步DD算法组成的:第一步,利用DD算法估计的先验SNR计算增益因子;第二步,用增益因子的估计与带噪语音谱估计的乘积代替纯净语音谱估计,利用先验SNR的定义,得到TSNR算法估计的先验SNR。
可以表示[7]为
DD算法估计的先验SNR在语音突变段跟踪瞬时SNR时会出现一帧的延时,对当前时刻的先验SNR进行计算时,引入一个动量项α(γm-1,k-γm-2,k),即变成了
融合动量项的DD算法,表示[5]为
(1-τ)B(ρk,m-1)
从理论上来说,引入动量项可以有效加速估计SNR对瞬时SNR的跟踪速度。
如
果SNR在m-1帧有较大变化时,动量项的数值也跟着变大,那么对于估计先验SNR的修正量变大。
因此,m帧的先验SNR估计中会增加修正量,进而加快了
估计量对瞬时SNR的跟踪性能,并可以在静音区使得先验SNR的估计曲线变化
较小,从而达到抑制音乐噪声的目的。
但是,由于动量项中的α是固定值,无法
对动量项进行自适应调节,势必会影响估计的先验SNR的性能。
本文基于MMSE准则对动量因子进行自适应调节,改进后的先验SNR即变动量
因子的DD算法,可以表示[5]为
(1-τ)B(ρk,m-1)
建立代价函数
求导,求极值得到变动量因子
变动量因子DD算法有效改进了动量因子DD算法的自适应更新问题,进一步改
善了估计的先验SNR的性能。
变动量因子DD算法的步骤为:首先,得到带入式(15)计算然后得到最后利用式(4)得到增强语音谱[5]。
为了对比DD算法、TSNR算法、融合动量因子的先验SNR估计算法和融合变动
量因子的先验SNR估计算法性能,本文运用MATLAB软件进行仿真,绘出纯净
语音信号、带噪语音信号、DD算法估计的纯净语音、TSNR算法估计的纯净语音、融合动量因子的先验SNR算法估计的纯净语音和融合变动量因子的先验SNR算
法估计的纯净语音的语谱图(图1)。
纯净语音信号取自语音库,Input SNR=5 dB,所有信号的取样频率均为8 kHz,仿真实验中切割帧长K=256,重叠率为50%,
所有算法的平滑因子设置为0.98[5-8]。
对比图1(a)~(f),四种先验SNR估计算法性能各有优缺点:DD算法的计算复杂
度低且可以有效的抑制音乐噪声,但是在语音突变段有严重的语音失真;TSNR算法相比于DD算法有效地解决了语音失真问题,但是计算量大大增加;融合动量
因子DD算法算法也有效解决了DD算法的语音失真问题,但是无法自适应调节
先验SNR,融合变动量因子算法不仅有效消除了音乐噪声和语音失真问题,还可
以自适应调节先验SNR。
本文主要研究了经典的DD算法、改进算法TSNR算法和融入动量因子DD算法,进一步研究了变动量因子先验SNR估计问题,理论分析了各种算法的性能优缺点,运用仿真实验验证了融入变动量因子DD算法的性能优势。
沈锁金(1990—),女,硕士生,电路与系统专业,主研语音增强;。