基于改进型谱减法的语音增强技术研究

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于改进型谱减法的语音增强

摘要

本文主要研究改进型谱减算法在语音增强中的应用，目的是增强语音质量，减少语音失真和提高其可度懂。我们首先介绍了语音增强的研究意义，然后介绍了语音信号的相关理论，进而阐述了语音增强的基本谱减法的原理，并在此基础上提出了一种改进型谱减算法。该算法通过语音激活检测(端点检测法)来确定“寂静段”（纯噪声段），从而对噪声功率谱进行重新估计。为了减小基音检测算法可能产生的检测误差，采用了组合递归平滑法来减小噪声谱估计的误差。

整个仿真实验中，我们对引入的加性噪声进行处理，其噪声谱估计的性能可在本文中的MATLAB仿真实验中体现。

仿真结果表明，该算法在去除背景噪声的同时，保证了较小的语音失真、提高了信噪比，达到了较好的测听效果。

最后，基于噪声与语音具有一定的相关性的实际情况，我们提出了算法的进一步改进设想，并对此思想做出了数学推导，得到了算法进一步改进的方向及可行性。关键词：语音增强；谱减法；噪声估计；端点检测；组合递归平滑；仿真实验；改进算法

第1章背景介绍

1.1研究背景

人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音已非纯净的原始语音信号，而是受噪声污染的带噪语音信号。例如，安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如，室内会议电话的交混回响随同语音广播到每个会议地点，影响收听效果。再如深海潜水员在氦-氧面罩内讲话引起的失真，语言障碍残疾人的语音失真，有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。

环境噪声污染使许多语音处理系统的性能急剧恶化。例如，语音识别己取得重大进展，正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码(如：声码器)，也遇到类似问题。由于语音生成模型是低速率参数编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强作为一种预处理手段，不失为解决噪声污染的一种有效途径。

在实际需求的推动下，早在上个世纪60年代语音增强这个研究课题就引起人们的注意，此后40多年人们一直锲而不舍地进行这方面的研究。随着数字信号处理理论的成熟，70年代曾形成一个理论研究高潮，取得了一些基础性成果，并使语音增强发展成为语音信号处理的一个重要分支。进入80年代后，DSP(数字信号处理)技术的发展和成熟为语音增强的实时实现提供了可能。

语音增强不但与语音信号数字处理理论有关，而且涉及到人的听觉感知和语音学范畴。再者，噪声的来源众多，随应用场合而异，它们的特性也各不相同。即使在实验室仿真条件下，也难以找到一种通用的语音增强算法能适用于各种噪声环境，所以必须针对不同噪声，采用不同的语音增强对策。目前，某些语音增强算法在实

际应用中己经证明是有效的，它们大体上可分为四类：噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。

语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常都是随机的，从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪音，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法，可以显著地降低背景噪声，改进语音质量，但并不能提高语音的可懂度，甚至略有下降。

语音增强是语音信号处理的一个重要分支，该技术已广泛应用于无线电话、电话会议、场景录音和军事窃听等领域。语音增强技术无论在日常生活中，还是在军事领域，或者在语音信号处理技术中都很有应用价值。因此研究语音增强算法有很重要的实用价值。

1.2 语音增强的历史和发展现状

语音增强方法的研究始于20世纪70年代中期，随着数字信号处理理论的成熟，语音增强发展成为语音信号处理领域的一个重要分支。1978年，Lim和Oppenheim提出了语音增强的维纳滤波方法。1979年，Boll提出了谱相减方法来抑制噪声。1980年，Maulay和Malpss提出了软判决噪声抑制方法。1984年，Ephraim和Malah提出基于MMSE短时谱幅度估计的语音增强方法。

在近30年的研究中，各种语音增强方法不断被提出，奠定了语音增强理论的基础；并使之逐渐走向成熟。近些年来，随着VLSI技术的发展和高速DSP芯片的出现，使语音增强的实时实现成为可能。语音增强方法逐步走向实用，同时新的语音增强方法又相继涌现，如基于小波变换的方法，基于人耳掩蔽效应的方法等。

目前常用的语音增强算法分为如下几类：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。

其中，谱相减法、维纳滤波法、最小均方误差法等算法的研究是基于短时谱估计的语音增强算法，这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中以最小均方误差准则估计语音信号正交展开系数的模值。该类方法具有适应信噪比范围大、方法简单、易于实时处理等优点。尽管该方法研究比较早，但仍具有很强的生命力，成为应用最广泛的语音增强方法。

1.3 谱减法语音增强的研究现状

S. Boll 假设噪声是平稳的或缓慢变化的加性噪声，并且语音信号和噪声信号不相关的情况下，提出了谱减法(SS：Spectral Subtraction)。该方法能够抑制背景噪声的影响，但由于其局部平稳性的假设与实际情况并不相符，因此效果不理想，残留的音乐噪声较大；Berouti在传统谱减法的基础上增加了调节噪声功率谱大小的系数和增强语音功率谱的最小值限制，提高了谱减法的性能，但是其修正系数和最小值是根据经验确定的，适应性较差；P. Lockwood在谱减法的基础上提出了非线性谱减法(NSS：Non-liner Spectral Subtraction)，它根据语音信号的信噪比自适应调节语音增强的增益函数，提高了语音的信噪比，而信噪比并不能正确反映信号的听觉质量，因此用信噪比作为调整估计参数的依据并不能提高信号的听觉质量；Boh Lim Sim 等人也提出了与此相近的改进算法，虽然提高了信号的信噪比，但残留的音乐噪声较大；Virag将人耳的掩蔽特性应用到非线性谱减法的增强算法中，部分解决了谱减法残留音乐噪声大的问题，但在信噪比较低或非平稳的情况下，其增强效果不理想；

I.Cohen 等人首先估计语音信号概率密度函数，然后在此基础上改进了对数谱估计算法，使得改进的算法对非平稳噪声具有良好的抑制作用，该算法的缺点是语音信号的概率密度函数较难估计。

噪声参数估计的准确与否直接会影响谱减法语音增强效果，因此，带噪语音中背景噪声参数的估计问题值得关注。

1.4 本文主要的研究内容

本文分析了基本谱减法的原理，并在此基础上提出一种改进型谱减法：基于语音活性检测(Voice Activity Detector)噪声估计方法进行噪声估计，从而减小噪声估计