语音降噪 LMS算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图 2-1
带噪语音模型
而说噪声是局部平稳，是指一段带噪语音中的噪声，具有和语音段开始前那段噪声相同的统计特性，且在整个语音段中保持不变。也就是说，可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。
2.3 几种传统的语音降噪方法
通过对前人在噪声抵消方面的研究的学习和总结，现以语音信号为例，列举几种语音降噪的方法并对其性能进行简单介绍如下：
2.3.4 子空间语音降噪法
子空间语音降噪法[5-7]将带噪语音信号投影到语音信号子空间和噪声子空间两个子空间，语音信号子空间中主要为语音信号，但还含有少量的噪声信号，噪声子空间只含有噪声信号，因此对纯净语音的估计可以不考虑噪声子空间中的分量，只保留语音信号子空间中的分量。在信号与噪声子空间分解算法中先对信号进行一些假设：语音信号与噪声都是零均值的随机过程；语音信号在短时内是平稳的；语音信号与噪声是正交的；噪声是一个随机的白噪声；所有的信号都是各态历经的，即可以用时间平均来代替统计平均。根据时域约束条件，可以推导出语音信号失真最小情况下的最优估计器。在线性信号模型中，假定纯净语音信号为：
所谓自适应滤波器就是以输入和输出信号的统计特性的估计为依据，采取特定算法自动调整滤波器系数，使其达到“最佳”滤波特性的一种算法或装置。自适应滤波器通常由滤波器结构和自适应算法两部分构成，本文致力于研究自适应算法。
3.1.1 滤波器结构
自适应滤波器的结构可以是 IIR 型结构和 FIR 型结构。但在实际应用中，一般都采用 FIR 型，其主要原因是，FIR 结构的自适应技术实现容易，其权系数的修正就调节了滤波器的性能，同时还可以保证其稳定性。对于 IIR 滤波器，当自适应处理过程中，极点移出单位圆之外时，就会使滤波器产生不稳定。一个自适应的 FIR 滤波器的结构，可以是横向结构（transversal structure），对称结构（symmetric transversal structure）以及格形结构（lattice structure）。其中横式滤波器由于结构简单且易于实现而应用最为广泛，文章后面的自适应滤波器仿真都是采用横向型结构。横式滤波器如图 3-1 所示。
论文
幅度值时，将其置零。频谱减法的主要思想是认为：含噪语音在噪声平均功率以上的部分就是语音功率，其余则认为是噪声功率。这种显然忽略了噪声和语音的随机特性。在含噪语音的功率谱中，噪声平均功率以上部分并非全是语音，其中肯定有不少加性噪声成分存在，其下部分则也必有语音成分存在。因此，这种方法对提高语音信噪比十分有限，而且还会引起语音的失真。特别是在低信噪比时，这种方法很难提高语音质量，更难提高语音可懂度。普减法的优点在于它的算法简单，并且可以较大幅度地提高信噪比，其缺点是增强后的语音中含有明显的音乐噪声，这是由频谱相减而产生的一种残留噪声，具有一定的节奏起伏感，故而被称为音乐噪声。
（2-5）
其中， S 和 N 分别表示语音信号的失真和残留噪声。有研究表明[8]，子空间法在低信噪比时效果要差一些，而在高信噪比时效果较好。同时还须注意的是，子空间法的计算量较大，所以实时性会稍差些。
2.3.5 自适应噪声抵消法
就目前而言，带自适应滤波器的自适应噪声抵消法对含噪声语音的降噪效果较好。因为这种方法比其它方法多用了 1 个参考噪声作为辅助输入，从而获得了比较全面的关于噪声的信息，因而能得到更好的降噪效果。特别是在辅助输入噪声与语音中的噪声完全相关的情况下，自适应噪声抵消法能完全排除噪声的随机性，彻底地抵消语音中的噪声成分，从而无论在信噪比 SNR（Signal to Noise Ratio）方面还是在语音可懂度方面都能获得较大的提高[9]。其工作原理实质上为以均方误差 E[e 2 (n)] 或方差 e 2 (n) 最小为准则，对噪声 d (n) 进行最优增强语音的目的。随着理论性能研究的不断深入，应用日趋广泛。
语音降噪
LMS 算法
论文
第2章
2.1 引言
语音降噪的模型与方法
语音降噪主要研究如何利用信号处理技术消除信号中的强噪声干扰，从而提高输出信噪比以提取出有用信号的技术。消除信号中噪声污染的通常方法是让受污染的信号通过一个能抑制噪声而让信号相对不变的滤波器，此滤波器从信号不可检测的噪声场中取得输入，将此输入加以滤波，抵消其中的原始噪声，从而达到提高信噪比的目的。
2.3.1 频谱减法
频谱减法是利用噪声的统计平稳性以及加性噪声与读音不相关的特点而提出的一种语音增强方法。这种方法没有使用参考噪声源，但它假设噪声是统计平稳的，即有语音期间噪声振幅谱的期望值与无语音间隙噪声的振幅谱的期望值相等。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱，与含噪语音频谱相减，得到语音频谱的估计值。当上述差值得到负的
2.3.3 小波变换法
小波分析是一种时频分析，而传统的信号分析是建立在傅立叶变换的基础之上的。由于傅立叶分析使用的是一种全局的变换，因此无法表达信号时频局域性质，而这种性质恰恰是非平稳信号如语音信号最根本和最关键的性质。 Mallat 最早建立了多分辨率分析框架与小波分析的关系[4]。小波变换能将信号在多个尺度上进行子波分解，各尺度上分解所得的子波变换系数代表原信号在不同分辨率上的信息。它具有多分辨率分析的特点，而且在时频域都具有表征信号局部特征的能力。它克服了短时傅立叶变换固定分辨率的缺点，在信号的高频部分，可以获得较好的时间分辨率，在信号的低频
S Y
（2-2）
其中Ψ 为 K × M 的矩阵，其秩为 M（M<K），Y 是 M ×1 的矩阵。S 的协方差矩阵为：
RS {S S T } RY T
（2-3）
其中 RY 为 Y 的协方差矩阵，为正定的。 RS 的秩为 M。有了前述的假设，可以将带噪语音信号表示为：
论文
别是第二共振峰比第一共振峰更为重要。
2.2.2 噪声的特性
噪声来源于实际的应用环境，因而其特性变化无穷，噪声可以是加性的，也可以是非加性的。考虑到加性噪声更普遍且易于分析问题，并且对于部分非加性噪声，如乘积性噪声或卷积性噪声，可以通过同态变换而成为加性噪声，这里我们仅讨论加性噪声。加性噪声大致可分为周期性噪声、冲激噪声和宽带噪声：（1）周期性噪声周期性噪声的特点是有许多离散的窄谱峰，它往往来源于发动机等周期运转的机械，如或交流声会引起周期性噪声。周期性噪声引起的问题可以通过功率谱发现，并通过滤波或变换技术将其去掉。（2）冲激噪声冲激噪声表现为时域波形中突然出现的窄脉冲，它通常是放电的结果。消除这种噪声可根据带噪语音信号幅度的平均值确定闽值，当信号幅度超过这一阈值时判为冲激噪声，然后进行消除。（3）宽带噪声宽带噪声的来源很多，如热噪声、气流如风、呼吸噪声及各种随机噪声源等，量化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠，因而消除它最为困难，这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声，通常认为是白色高斯噪声不具有白色频谱的噪声，可以先进行白化处理。对于非平稳的宽带噪声，情况就更为复杂一些。本文中研究的噪声等以人的呼吸或实验室环境下的噪声为主要对象，这种噪声一般符合如下的假设：（1）噪声是加性的；（2）噪声是局部平稳的，局部平稳是指一段带噪语音中的噪声，具有和语音开始前那段噪声相同的统计特性，且在整个语音段中保持不变，也就是说，可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性；（3）噪声与语音独立或不相关。
2.3.2 线性滤波法
线性滤波法主要是利用了语音的产生模型。对于受加性稳态白噪声干扰的语音信号来说，语音的频谱又以根据语音的产生模型近似地用含噪语音来预测得到。而噪声频谱则用其期望值来近似。这样得到了语音和噪声近似的频谱后就可得到滤波器，由此滤波器可使语音得到增强。线性滤波法不仅用到了噪声的统计知识，还用到了部分语音知识，但显然这些知识都是一种近似的代替。因此这种方法对提高语音信噪比和可懂效果十分有限。特别是当信噪比较低时，对语音参数的预测误差明显增大，从而降噪效果就不明显，并且当噪声不是白噪声时，按照语音的产生模型就很难准确预测语音参数[3]。因此对有色噪声线性滤波方法就能难以应付。
论文Βιβλιοθήκη 部分可以获得较高的频率分辨率，特别适用于像语音信号、地震信号等非平稳信号的处理。由于信号和随机噪声在不同尺度的特性关系，许多研究学者已利用这种特性进行信号的去噪处理，并取得较好的效果。但是，由于用子波系数去噪时，需要选择和确定一个用于取舍信号和噪声模极大值的阈值，而在实际应用中该阈值是较难选择确定的。另外，也有学者采用二进子波、子波包和带子波进行语音增强，但这些方法的频率划分是一种倍频程关系，与人耳所固有的对语音的频域感知特性不完全吻合。
2.2 语音和噪声的特性
2.2.1 语音的特性
（1）语音是时变的、非平稳的随机过程人类发音系统生理结构的变化速度是有一定限度的，在一段时间内（10-30ms），人的声带和声道形状是相对稳定的，因而语音的短时谱具有相对稳定性，所以在语音分析中就可利用短时谱的这种平稳性[1]。（2）语音可分为浊音和清音两大类浊音在时域上呈现出明显的周期性，在频域上有共振峰结构，而且能量大部分集中在较低频段内而清音段没有明显的时域和频域特征，类似于白噪声。在语音增强研究中，可利用浊音的周期性特征，采用梳状滤波器提取语音分量或者抑制非语音信号，而清音则难以与宽带噪声区分。（3）语音信号可以用统计分析特性来描述由于语音是非平稳的随机过程，所以长时间的时域统计特性在语音增强的研究中意义不大。语音的短时谱幅度的统计特性是时变的，只有当分析帧长趋于无穷大时，才能近似认为其具有高斯分布。高斯分布模型是根据中心极限定理得到的，将高斯模型应用于有限帧长只是一种近似的描述。在宽带噪声污染的语音增强中，可将这种假设作为分析的前提。（4）语音感知对语音增强研究有重要作用人耳对语音的感知主要是通过语音信号频谱分量幅度获得的，人耳对频率高低的感受近似与该频率的对数值成正比。共振峰对语音的感知十分重要，特
X S N Y N
（2-4）
其中 X 、S 和 N 分别是 K 维的带噪语音信号、纯净语音信号和噪声向量。设 ~ S H X 为纯净语音信号的估计，其中 H 为 K×K 阶矩阵。则该估计器的误差信号ε为：
论文
~ S S (H I ) S H N S N
论文
2.2.3 带噪语音模型
本文中研究的噪声是以工厂噪声、人的噪音以及汽车噪声等为主要对象，一般符合如下的假设噪声是加性的、局部平稳的、噪声与语音统计独立或不相关。带噪语音模型表达式如下[2]
y ( n) s ( n) d ( n)
（2-1）
其中 s (n) 表示纯净语音， d (n) 表示噪声， y (n) 表示带噪语音。带噪语音模型如图 2-1 所示：
2.4 本章小结
本章首先对语音和噪声的特性进行了简要介绍，随后讨论了几种语音降噪的模型与实现方法以及各自的优缺点。文章的后几章主要是选用自适应噪声抵消技术进行语音降噪处理，并将进行详细的陈述，所以本章只是简要的对自适应噪声抵消的方法做了介绍。
论文
第3章
3.1 引言
自适应滤波器和噪声抵消的算法
论文
第一章是绪论部分，阐述了课题研究的背景、目的和意义。第二章介绍了几种常见的语音降噪方法，并对每种方法进行了简单的分析，针对文章研究的内容，选择了适合的语音降噪方法。第三章先介绍了自适应滤波器技术原理，接着分析了噪声抵消算法的原理及算法性能比较，最后对 LMS 算法进行了详细分析。第四章对两种变步长 LMS 算法做了进一步的改进，对所提出的算法进行性能仿真，并针对仿真结果进行算法的可行性和性能分析。第五章引入并改进了频域快速 LMS 算法，并针对仿真结果进行算法的可行性和性能分析。第六章是对全文的总结，分析了本文的主要研究成果，并对未来工作进行了分析与展望。