谱减法原理及其实现过程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(
二〇一二年六月
语音信号处理专题报告
学校代码: 10128 学 号:
题 目:谱减法原理及其实现过程 学 院: 专 业: 学生姓名: 学 号: 班 级:
谱减法原理及其实现过程
摘要
本文主要研究谱减法原理及其实现过程及了解其在语音增强中的应用,目的是增强语音质量,减少语音失真和提高其可懂度。S. Boll 假设噪声是平稳的或缓慢变化的加性噪声,并且语音信号和噪声信号不相关的情况下,提出了谱减法(SS:Spectral Subtraction)。该方法能够抑制背景噪声的影响,但由于其局部平稳性的假设与实际情况并不相符,因此效果不理想,残留的音乐噪声较大;Berouti 在传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制,提高了谱减法的性能,但是其修正系数和最小值是根据经验确定的,适应性较差;P. Lockwood在谱减法的基础上提出了非线性谱减法(NSS:Non-liner Spectral Subtraction),它根据语音信号的信噪比自适应调节语音增强的增益函数,提高了语音的信噪比,而信噪比并不能正确反映信号的听觉质量,因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量;Boh Lim Sim等人也提出了与此相近的改进算法,虽然提高了信号的信噪比,但残留的音乐噪声较大;Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中,部分解决了谱减法残留音乐噪声大的问题,但在信噪比较低或非平稳的情况下,其增强效果不理想;
I.Cohen 等人首先估计语音信号概率密度函数,然后在此基础上改进了对数谱估计算法,使得改进的算法对非平稳噪声具有良好的抑制作用,该算法的缺点是语音信号的概率密度函数较难估计。噪声参数估计的准确与否直接会影响谱减法语音增强效果,因此,带噪语音中背景噪声参数的估计问题值得关注。
最后,基于噪声与语音具有一定的相关性的实际情况,我们提出了算法的进一步改进设想,并对此思想做出了数学推导,得到了算法进一步改进的方向及可行性。
关键词:语音增强;谱减法;噪声估计;仿真实验;改进算法
目录
一、语音增强方法的理论分析 4
1.1引言4
1.2语音增强算法4
二、谱减法 4
2.1谱减法原理 4
2.2谱减法建立的假设6
2.3实现过程7
2.3.1基于谱减法的语音增强算法流程7
2.3.2仿真实验的结果8
三、改善算法,减少音乐噪声10
四、数学推导及进一步改进思想10
五、参考文献11
一、语音增强方法的理论分析
1.1 引言
语音增强的目标是从含有噪声的语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得,所以实际应用中总是视具体情况而有所侧重的。
带噪语音的噪声类型可以分为加性噪声和非加性噪声。加性噪声有宽带的,窄带的,平稳的,非平稳的,白噪声,有色噪声,等;非加性噪声如乘性噪声,卷积噪声等。一般,语音增强处理的噪声指环境中的噪声,而这些噪声主要是高斯白噪声,这种噪声一般符合如下的假设:
(1)噪声是加性的。
(2)噪声是局部平稳的。局部平稳是指一段加噪语音中的噪声,具有和语音段开始前那段噪声相同的统计特性,且在整个语音段中保持不变。也就是说,可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。
(3)噪声与语音统计独立或不相关。
1.2. 语音增强算法
根据语音和噪声的特点,出现了很多种语音增强算法。比较常用的有噪声对消法、谱相减法、维纳滤波法、卡尔曼滤波法、FIR 自适应滤波法等。此外,随着科学技术的发展又出现了一些新的增强技术,如基于神经网络的语音增强、基于HMM 的语音增强、基于听觉感知的语音增强、基于多分辨率分析的语音增强、基于语音产生模型的线性滤波法、基于小波变换的语音增强方法、梳状滤波法、自相关法、基于语音模型的语音增强方法等。
此处主要介绍谱减法。
二、谱减法
2.1谱减法原理
谱相减方法是基于人的感觉特性,即语音信号的短时幅度比短时相位更容易对人的听觉系统产生影响,从而对语音短时幅度谱进行估计,适用于受加性噪声污染的语音。
处理宽带噪声的最通用技术是谱相减法,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感,因而这种方法主要针对短时幅度谱。所谓“谱相减”就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱,其效果相当于在变换域对带噪信号进行了某种均衡化处理。相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,而且经过改进后效果也较好。
传统的谱减法即在频域将带噪语音的功率谱减去噪声的功率谱,得到语音的功率谱估计,开方后就得到语音幅度估计,将其相位恢复后再采用逆傅立叶变换恢复时域信号。考虑到人耳对相位的感觉不灵敏,相位恢复时所采用的相位是带噪语音的相位信息。
由于语音是短时平稳的,所以在短时谱幅度估计中认为它是平稳随机信号,假设)(m s 、)(m n 和)(m y 分别代表语音、噪声和带噪语音,)(ωs S 、)(ωn S 和)(ωy S 分别表示其短时谱。假设噪声)(m n 是与语音)(m s 不相关的加性噪声。于是得到信号的加性模型:
)()()(m n m s m y += (3-1)
经过加窗处理后的信号分别表示为)(m y w ,)(m s w ,)(m n w ,则有
)()()(m n m s m y w w w += (3-2)
对上式两端分别做傅立叶变换,得
)()()(w N w S w Y w w w += (3-3)
对功率谱有
)()()()(|)(||)(||)(|**222w N w S w N w S w N w S w Y w w w w w w w +++= (3-4) 可以根据观测数据估计2|)(|ωw Y ,其余各项必须近似为统计均值。由于和独立,则互相的统计均值为0,所以原始语音的估值为
]|)([||)(||)(|222w N E Y w S w w w -=∧
ω (3-5)
为了估计噪声功率,采用了端点检测法。因为噪声是局部平稳的,故可以认为发音前的噪声与发音期间的噪声功率谱相同,因而可以利用发语音前的“寂静