远场麦克风阵列语音增强技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
近年来,随着人工智能的快速发展,语音作为人机交互的重要入口受到了广泛关注,国内外对于语音交互的研究又掀起了一个新的高潮。
麦克风阵列利用了语音信号的空间信息,比单通道语音信号有更多的空时信息,具有更高的增益、波束灵活性和抑制噪声能力强等优点。
广义旁瓣消除(Generalized Sidelobe Cancelling,GSC)算法把波束形成中的约束问题转化为无约束问题且不需要估计噪声的先验信息,在工程中应用广泛。
然而,在实际的应用场景中,由于存在麦克风不匹配、时延估计不准、期望方向误差和混响等问题,在下支路会有期望语音信号的泄露,从而导致在自适应噪声消除模块会发生期望信号对消的问题。
此外,在语音增强的过程中,会引起部分语音特征的失真,降低语音识别系统的噪声鲁棒性和识别率,需要对语音信号进行特征增强。
本文主要研究了鲁棒GSC自适应波束形成和语音特征增强算法,主要研究内容如下:
首先,针对传统的GSC算法在自适应噪声相消时容易发生期望信号对消,且在上支路采用传统固定波束形成算法使得GSC输出信号鲁棒性较低的问题,本文提出一种改进的鲁棒GSC算法。
在自适应噪声消除模块中,采用信号的相干性和能量比来联合控制自适应噪声相消器系数的更新,且在上支路采用鲁棒的超指向波束形成算法。
提出的改进算法不仅有效地减少了期望信号的对消问题,还进一步提升了算法的鲁棒性和低频特性。
其次,针对远场麦克风阵列语音识别中由于噪声影响导致语音特征失真的问题,本文深入分析了信号特征域和基于信号处理的语音特征增强,将多通道语音存在信息融入维纳滤波语音特征增强。
相对传统的维纳滤波特征增强算法,改进算法能进一步抑制GSC输出信号的残留噪声,从而提高语音识别系统的噪声鲁棒性和识别率。
最后,根据真实场景下录制的多通道语音数据仿真表明,本文提出的基于相干性和能量比的鲁棒GSC自适应波束形成算法,以及基于多通道语音存在的特征增强算法能够有效地保持期望信号不失真,同时提升识别系统的噪声鲁棒性和识别率。
关键词:麦克风阵列,语音增强,广义旁瓣消除器,特征增强
Abstract
In recent years,with the rapid development of artificial intelligence,speech signal has received extensive attention as an important interface for human-computer interaction, and research on speech technology all over the world has set off a new climax.The microphone array utilizes the spatial information of the speech signal,which explore more space-time information than the single-channel method,has the advantages of higher gain,beam flexibility,and strong noise suppression.The Generalized Sidelobe Cancelling(GSC)algorithm transforms the constrained problem in beamforming into an unconstrained problem and does not require a priori information for noise estimation.It is widely used in engineering.However,in practical application scenarios,due to problems such as microphone mismatch,inaccurate delay estimation,expected direction error,and reverberation,there will be leakage of the desired speech signal in the blocking matrix, which will lead to the problem of desired signal cancellation in the adaptive noise cancellation module.In addition,in the process of speech enhancement,it will cause distortion of some speech features,reduce the noise robustness and recognition rate of the speech recognition system,so it is necessary to enhance the feature of the speech signal. This thesis mainly studies robust GSC adaptive beamforming and speech feature enhancement algorithms.The main research contents are as follows:
Firstly,the conventional GSC algorithm is prone to the desired signal cancellation during adaptive noise cancellation,and the conventional fixed beamforming algorithm is used in the upper branch to make the GSC output signal less robust.This thesis proposed an improved robust GSC algorithm.In the adaptive noise cancellation module,the coherence and energy ratio of the signal are used to jointly control the update of the adaptive noise canceller coefficients,and the robust superdirective beamforming algorithm is used in upper branch.The proposed improved algorithm not only effectively reduces the cancellation of the desired signal,but also further improves the robustness and low-frequency characteristics.
Secondly,for the problem of distortion of speech features due to noise in far-field microphone array speech recognition,this paper deeply analyzes the signal feature domain and speech feature enhancement based on signal processing,and integrates multi-channel speech presence information into Wiener filter speech feature enhancement.
Compared with the traditional Wiener filtering feature enhancement algorithm,the improved algorithm can further suppress the residual noise of the GSC output signal, thereby improving the noise robustness and recognition rate of the speech recognition system.
Finally,the simulation of multi-channel speech data recorded in real scenes shows that the robust GSC adaptive beamforming algorithm based on coherence and energy ratio proposed in this thesis,and the feature enhancement algorithm based on the existence of multi-channel speech,can both effectively maintain the desired signal undistortion,while improving the noise robustness and recognition rate of the recognition system.
Keywords:microphone arrays,speech enhancement,generalized sidelobe canceller, feature enhancement
目录
图录和表录 (VII)
注释表 (IX)
第1章绪论 (1)
1.1研究背景及意义 (1)
1.2国内外研究现状 (2)
1.2.1单通道语音增强技术 (2)
1.2.2麦克风阵列语音增强技术 (4)
1.3本文主要贡献和内容安排 (7)
第2章麦克风阵列信号处理基础 (9)
2.1语音信号与噪声信号 (9)
2.1.1语音信号特性 (9)
2.1.2噪声信号特性 (10)
2.2阵列信号处理基础 (11)
2.2.1近场与远场模型 (11)
2.2.2短时傅里叶变换 (12)
2.3阵列信号处理模型 (13)
2.3.1阵列信号建模 (13)
2.3.2阵列性能指标 (15)
2.3.3延迟求和波束形成器 (17)
2.4自适应滤波算法简介 (19)
2.4.1自适应滤波基本原理 (19)
2.4.2基础自适应滤波算法 (19)
2.5语音特征增强 (21)
2.6语音质量评价标准 (23)
2.6.1主观评价指标 (23)
2.6.2客观评价指标 (24)
2.7本章小结 (25)
第3章鲁棒GSC自适应波束形成算法 (26)
3.1引言 (26)
3.2传统GSC波束形成算法 (28)
3.2.1固定波束形成算法 (28)
3.2.2传统GSC算法阻塞矩阵及输出 (32)
3.3改进的基于相干性和能量比的鲁棒GSC算法 (33)
3.3.1算法概述 (33)
3.3.2改进的GSC算法求相干性 (33)
3.3.3改进的GSC算法求能量比 (37)
3.3.4改进GSC算法输出 (39)
3.4仿真实验 (41)
3.4.1实验环境设置 (41)
3.4.2实验结果分析 (43)
3.5本章小结 (46)
第4章基于多通道语音存在信息的特征增强 (47)
4.1引言 (47)
4.2变换域的信号建模 (48)
4.3改进的维纳滤波特征增强方法 (51)
4.3.1传统的维纳滤波算法 (51)
4.3.2改进的维纳滤波特征增强算法 (53)
4.4仿真实验 (55)
4.4.1实验设置说明 (55)
4.4.2实验结果分析 (56)
4.5本章小结 (59)
第5章总结与展望 (60)
5.1本文工作总结 (60)
5.2研究展望 (61)
参考文献 (63)
致谢 (68)
攻读硕士学位期间从事的科研工作及取得的成果 (69)
图录和表录
图1.1维纳滤波算法结构图 (3)
图1.2谱减法原理框图 (3)
图2.1语音信号产生的模型框图 (9)
图2.2麦克风阵列近远场关系模型 (12)
图2.3均匀线性阵列示意图 (14)
图2.4延迟求和波束形成器在不同频率下的波束图 (18)
图2.5不同麦克风数量时的WNG和DI图 (18)
图2.6自适应滤波器框图 (19)
图2.7语音识别系统原理框图 (22)
图2.8客观评价指标PESQ结构框图 (25)
图3.1传统GSC结构框图 (28)
图3.2DSB和鲁棒SDB对比波束图 (31)
图3.3DSB和鲁棒SDB的白噪声增益和指向性因子图 (32)
图3.4本章改进的GSC结构框图 (34)
图3.5原始一路信号的时域和频域图 (35)
图3.6信号相干性图 (36)
图3.7信号能量比图 (38)
图3.8能量比系数图 (39)
图3.9联合的自适应步长控制因子图 (40)
图3.10六麦环形麦克风阵列开发板实物图 (41)
图3.11实际场景录制图 (42)
图3.12音乐干扰下各算法时域和频域对比图 (44)
图3.13不同干扰噪声下各算法PESQ均值 (45)
图3.14不同干扰噪声下各算法频域分段信噪比均值 (45)
图3.15不同干扰角度、不同期望信号距离下各算法PESQ均值 (46)
图4.1传统的远场麦克风阵列语音识别系统框图 (53)
图4.2改进的远场麦克风阵列语音识别系统框图 (54)
图4.3点源干扰环境下,各个特征增强算法处理后信号的时域对比图 (57)
图4.4点源干扰环境下,各个特征增强算法处理后信号的频域对比图 (57)
图4.5不同干扰情况下,各个特征增强算法PESQ均值 (58)
表2.1主观评价MOS评分表 (24)
表4.1不同特征域下信号的对应关系 (50)
表4.2本章改进算法具体实施步骤 (55)
表4.3三种特征增强算法的识别率(%)对比 (56)
注释表
GSC Generalized Sidelobe Canceller,广义旁瓣消除器
SNR Signal to Noise Ratio,信噪比
SIR Signal to Interference Ratio,信号干扰比
DWT Discrete Wavelet Transformation,离散小波变换
SVD Singular Value Decomposition,奇异值分解
EVD Eigen Value Decomposition,特征值分解
FFT Fast Fourier Transform,快速傅里叶变换
FBF Fixed Beamformer,固定波束形成器
DSB Delay and Sum Beamformer,延迟求和波束形成器
FSB Filter and Sum Beamformer,滤波求和波束形成器
MVDR Minimum Variance Distortionless Response,最小方差无失真响应LCMV Linearly Constrained Minimum Variance,线性约束最小方差BM Blocking Matrix,阻塞矩阵
ANC Adaptive Noise Canceller,自适应噪声相消器
DOA Direction of Arrival,波达方向
ABM Adaptive Blocking Matrix,自适应阻塞矩阵
CCAF Coefficient-Constraint Adaptive Filter,系数约束自适应滤波NCAF Norm-Constraint Adaptive Filter,范数约束自适应滤波
DAP Double Affine Projection,双仿射投影
FNLMS Fast Normalized Least Mean Square,快速归一化最小均方BLSTM Bidirectional Long Short-Term Memory,双向长短期记忆
DFT Discrete Fourier Transform,短时傅里叶变换
BP Beampattern,波束图
WNG White Noise Gain,白噪声增益
DF Dtivity Factor,指向性因子
DI directivity index,指向性指数
LMS Least Mean Square,最小均方算法
NLMS Normalized Least Mean Square,归一化最小均方
ASR Automatic Speech Recognition,自动语音识别
DNN Deep Neural Network,深度神经网络
MFCC Mel Frequency Cepstral Coefficient,梅尔倒谱系数
LPC Linear Prediction Coefficient,线性预测系数
ECC Energy Cepstral Coefficient,能量的倒谱系数
CMN Cepstral Mean Normalization,倒谱均值归正
JSTN Joint Spectral and Temporal Normalization,倒谱和时间域的联合归正
SPLICE Stereo Piecewise Linear Compensation for Enviromment,立体声分段线性补偿
MOS Mean Opinion Score,平均意见得分
ITU International Telecommunication Union,国际电信联盟SSNR Segment Signal-to-Noise Ratio,分段信噪比
PESQ Perceptual Evaluation of Speech Quality,感知语音质量评估
GSC-CP Generalized Sidelobe Canceller based on Correlation and Signal Output Power Ratio,基于相干性和能量比的广义旁瓣消除器
SDB Superdirective Beamformer,超指向波束形成器DSR Distant Speech Recognition,远程语音识别DCT Discrete Cosine Transform,离散余弦变换
V AD V oice Activity Detection,语音活动检测
第1章绪论
1.1研究背景及意义
噪声无处不在,它们不同程度地影响着语音通话和人机交互的质量。
麦克风阵列语音增强就是通过由一系列麦克风组成的阵列来增强期望方向的目标语音信号,同时抑制非期望方向上的噪声来达到语音增强的目的。
随着科学技术的发展,语音信号作为一种高效、准确、重要的信息传递载体也广泛应用于社会的各个方面。
从Amazon的智能音箱“Echo”到阿里的“天猫精灵”,再到小米的智能家居,这些基于语音技术的产品已经慢慢融入到了人们生活的各个方面。
随着近几年人工智能的火热发展和人们对于语音质量的更高要求,传统的单通道语音增强在强噪、混响和其他非平稳干扰的环境下,其算法效果难以满足实际的语音交互需求。
为了更好地解决这个问题,提升语音的可懂度和质量,研究人员引入麦克风阵列来增强语音[1]。
对于单通道语音增强算法,主要是在时-频域对语音信号进行处理,当干扰为非稳态噪声或者和期望语音相近时,算法性能会大大降低。
麦克风阵列不仅能利用信号的时-频信息,还能利用空间信息,能够增强期望方向上的信号,同时抑制其它方向上的干扰信号,显著提升信噪比(Signal to Noise Ratio, SNR)或信号干扰比(Signal to Interference Ratio,SIR)。
相对于单个麦克风,麦克风阵列具有更高的增益、波束灵活性、抗干扰能力强等优点[2]。
例如,在对远距离语音信号进行拾音时,由于麦克风阵列的高增益特性,更有利于获取远场环境下的弱语音信号。
此外,麦克风阵列本身具有空域滤波特性,可以灵活抑制不同方向上的干扰,而且在盲源分离和声源定位等领域也应用广泛[3]。
基于麦克风阵列的语音信号处理,是在传统的阵列信号处理基础上结合了语音信号处理。
麦克风阵列是由多个声学传感器按照一定的几何结构组成,常见的麦克风阵列可分为线性阵列、环形阵列和球形立体阵列,在实际应用场景中可根据不同需求选择相应的阵列形状。
例如,线性阵列主要应用于智能电视、降噪耳机等领域;环形阵列主要应用于智能音箱、商场导购机器人、智能家居等;球形阵列则多用在移动机器人、虚拟现实和军事领域。
在当前智能音箱和智能家居火热发展的大背景下,本文将主要讨论环形麦克风阵列。
综上所述,在当前语音增强领域,应用阵列信号处理的先进技术和算法,研究和改进基于麦克风阵列的语音增强算法,使得改进算法对于多种噪声具有很好的抑制能力是本文研究的目的和意义。
然而,由于应用场景的复杂性和噪声的多样性,现有的算法在某些特定场景下仍不能达到理想的效果,因此研制鲁棒性强的麦克风阵列语音增强算法显得尤为重要[4]。
1.2国内外研究现状
1.2.1单通道语音增强技术
语音增强技术最早可以追溯到19世纪60年代,
Schroeder 在贝尔实验室用功率谱减法对模拟信号做了语音降噪。
到了20世纪60年代,随着数字信号处理技术的发展和成熟,单通道语音增强算法由于其算法复杂度低、计算量小、硬件要求低等优点得到了深入研究和广泛应用。
单通道语音增强又可分为时域方法和频域方法,且通常情况下以频域方法为主。
1978年,Lim 和Noppenheim 将维纳滤波理论用于单通道语音增强,并取得较好的降噪效果[5]。
1979年,Boll 提出了谱减法对语音信号进行去噪,此后许多改进的谱减法也相继被提出来[6]。
由于谱减法计算简单、易于实现,在实际场景中应用广泛。
然而,减法过程会引入语音信号失真,即所谓的
“音乐噪声”,使语音听起来有着“叽里咕噜”的声音。
1984年,Grossman 和Morlet 提出了基于小波变换的语音增强方法,该方法通过离散小波变换(Discrete Wavelet Transformation,DWT)将带噪语音信号在多尺度上进行分解,然后根据信号和噪声在不同尺度上有着不同的传递特征来重构出语音信号[7]。
1995年,Ephraim 提出了子空间算法,该算法把带噪语音信号分为相互正交的信号子空间和噪声子空间,舍弃噪声子空间中的信号并且保留信号子空间中的信号,从而达到语音增强的目的[8]。
维纳滤波语音增强的基本原理是根据最小化期望语音信号和估计信号之间的均方误差来求取最优的滤波器系数,从而得到纯净语音信号。
Lim 和Oppenheim 首先把维纳滤波理论用于语音去噪,并取得良好效果。
参考如图1.1所示的滤波问题,设计一个线性时不变系统,当噪声为加性噪声,输入信号为()y n 时,使得输出信号为ˆ()x
n 在一定程度上逼近期望信号()x n 。
当估计误差ˆ()()()e n x n x n =-趋近于0时,求得的最优滤波器称为维纳滤波器。
维纳滤波是一种重要的语音增强算法,该算法
能消除“音乐噪声”。
在噪声抑制能力上,该算法抑制平稳噪声能力强,但不能有效抑制非平稳噪声。
图1.1维纳滤波算法结构图
谱减法是最常用的单通道语音增强算法之一。
该算法假定噪声为加性噪声且语音信号和噪声不相关,从带噪语音信号谱中减去估计出的噪声功率谱,最后得到增强后的语音信号。
如图1.2所示,()y n 为带噪语音信号,()x n 和()d n 分别为纯净语音信号和加性噪声。
根据人耳对语音信号相位不敏感原理,将带噪语音信号()y n 进
行傅里叶变换后减去估计出的噪声谱()D
,并利用带噪语音的相位最后得到增强语音ˆ()x
n 。
虽然谱减法易于实现,并能有效地抑制平稳噪声,但当噪声谱过估计时容易产生“音乐噪声”,使得算法性能大打折扣。
为了解决这一问题,许多学者提出了改进的谱减算法,比如非线性谱减法、多带谱减法、MMSE 谱减法、基于感知特性的谱减法等等。
图1.2谱减法原理框图
小波变换语音增强算法首先将带噪语音信号进行小波变换得到小波系数,然后估计噪声的功率谱和确定小波域门限,最后根据语音信号和噪声信号的系数特征恢复出纯净的语音信号。
该算法在低信噪比情况下仍可以有效地抑制噪声,缺点是算法计算量大,难以在实际工程中广泛应用。
子空间算法是基于线性代数的一种语音增强算法,它将带噪信号通过矩阵分解为语音信号子空间和噪声子空间。
其中,语音信号子空间包含大部分语音信号和少量噪声,噪声子空间仅包含分解后的部分噪声。
对信号进行子空间分解采用线性代数中的正交矩阵分解,主要包括奇异值分解(Singular Value Decomposition,SVD)和特征值分解(Eigen Value Decomposition,EVD)两种分解方法。
子空间方法已经被广泛应用于多通道语音处理、系统辨识、图像增强、谱分析等领域。
以上的单通道语音增强算法以其算法简单、计算量较小、硬件要求低等优点得到了深入研究和广泛应用。
缺点是算法性能严重依赖于噪声估计的准确性,此外,单通道语音增强对非平稳噪声抑制能力有限,且在低信噪比情况下,输出的语音信号有一定的失真,因此单通道语音增强算法在实际应用场景中很受限制。
因此,研究人员提出了麦克风阵列语音增强技术。
1.2.2麦克风阵列语音增强技术
上个世纪八十年代中期,基于麦克风阵列的波束形成算法开始应用于语音增强,并在九十年代后期逐渐成为研究热点。
麦克风阵列的理论基础是阵列信号处理,主要不同的是麦克风阵列主要处理宽带语音信号,阵列信号处理主要处理雷达、声呐和射电天文中的窄带信号。
在应用场景上,麦克风阵列主要对室内的语音信号进行处理,由于存在多径反射、混响等问题,更加增大了语音处理的难度。
此外,各种干扰和噪声,如干扰声源、自噪声等影响,这些因素也给麦克风阵列语音增强带来了更大的机遇和挑战。
如何在抑制干扰和噪声的同时尽可能保证期望语音信号不失真是麦克风阵列语音增强的目标。
20世纪50年代,两次世界大战催生了一系列研究成果,包括信息论、声呐、雷达等等。
到了70年代,维纳滤波理论、概率统计、快速傅里叶变换(Fast Fourier Transform,FFT)、自适应滤波理论等重要研究成果也相继被提出,极大地推动了数字信号处理的发展,并进一步推动了麦克风阵列技术的发展。
在波束形成技术中,
最简单且最早应用于工程的固定波束形成器(Fixed Beamformer,FBF)是延迟求和波束形成器(Delay and Sum Beamformer,DSB)。
其基本原理是:首先对每个麦克风接收到的信号进行时延估计,时域上的延迟在频域表现为乘上一个复指数,然后以参考麦克风为基准对其它麦克风进行时延补偿,最后将每个麦克风加权求和得到增强的信号。
DSB具有结构简单、易于实现、对硬件设备要求低等优点,以及对不相干的空间白噪声抑制效果明显。
但对于和期望语音类似的相干噪声,例如同样是干扰的人声,或者在混响较高的场景下,噪声抑制能力有限。
此外,DSB波束主瓣宽度随着麦克风个数增加、麦克风间距增大、频率的升高而变窄,在低频部分几乎没有波束指向性,因此在低频时相当于没有空域滤波作用。
例如,当麦克风个数为6,麦克风间距为4cm时,DSB对频率在1600Hz以下的信号响应为全通滤波器。
1995年,针对DSB存在的问题,Flanagan和Jan在DSB的结构上提出滤波求和波束形成器(Filter and Sum Beamformer,FSB)[9]。
FSB在每个麦克风输出信号后设置一个FIR 滤波器,最后对信号进行加权求和,该算法更适合在混响条件下抑制噪声。
FBF适用于一些简单的、固定的应用场景,当声源位置改变或者干扰源移动时,固定波束形成算法就体现出它的局限性。
为了更好地抑制噪声,需要采用自适应波束形成算法来自适应地更新麦克风阵列的系数,实现算法随着环境自适应变化。
1969年,Capon提出了最早的自适应波束形成算法,即最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束形成算法[10]。
其基本原理是在期望方向上把期望语音信号无失真作为约束条件,求取最优的滤波器系数使得麦克风阵列输出功率最小。
相比于DSB,该算法能够自适应地根据环境变化来调整阵列的滤波器系数,从而取得最大的噪声抑制。
1972年,Frost将MVDR中的约束条件扩展为一组线性方程来表示,提出了线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成算法,该算法是MVDR波束形成算法的推广[11]。
1982年,Griffths和Jim在Frost自适应波束形成算法的基础上提出了广义旁瓣消除(Generalized Sidelobe Cancelling,GSC)算法,该算法将LCMV中的约束问题转化为无约束问题[12]。
GSC算法将LCMV权重矢量矩阵分解为自适应和非自适应两部分,上支路为约束子空间,非自适应权重就在约束子空间中;下支路为约束空间的正交空间,称为阻塞矩阵,自适应权重位于该正交空间中。
所以GSC和LCMV 在理论上是等价的,同时GSC避免了矩阵求逆运算和对噪声信息的直接估计,在实
际工程中应用广泛。
例如百度的麦克风阵列语音增强方案是基于GSC的麦克风阵列语音增强,其典型产品“小度小度”在智能音箱领域受到了广泛关注。
传统的GSC自适应波束形成器结构可以分为三个模块:固定波束形成器(Fixed Beamformer,FBF)模块、阻塞矩阵(Blocking Matrix,BM)模块和自适应噪声相消器(Adaptive Noise Canceller,ANC)模块。
其中,FBF作用为在抑制大部分方向性干扰噪声时输出期望语音信号,传统的GSC算法在FBF模块采用延迟求和固定波束形成器。
由于DSB在低频部分为全通滤波器,导致传统GSC算法在低频时对噪声的抑制能力有限从而残留部分噪声。
BM的作用是阻塞期望语音信号通过并且保留参考噪声,即多通道带噪语音信号经过导向矢量对齐后通过Griffths-Jim矩阵,在期望方向形成零馅,生成多路噪声参考信号。
ANC模块的作用是通过自适应算法进一步消除残留噪声。
在理想条件下,当期望信号波达方向(Direction of Arrival,DOA)估计准确时,GSC算法在保证期望语音信号不失真的同时抑制大部分方向性干扰噪声。
然而,由于实际应用场景下存在混响、延迟估计不准、多径反射、DOA误差、麦克风阵列阵元匹配度差等问题,在BM模块会有期望信号泄露,进一步使得在ANC 模块发生期望信号对消,从而导致期望语音失真。
针对这一问题,1999年,日本研究人员Hoshuyama提出了一种基于自适应阻塞矩阵(Adaptive Blocking Matrix,ABM)的鲁棒自适应GSC波束形成算法[13]。
相比传统GSC算法,该算法对BM和ANC 做了改进:在BM模块采用系数约束自适应滤波(Coefficient-Constraint Adaptive Filter, CCAF)替换原来的Griffths-Jim矩阵,在ANC模块采用范数约束自适应滤波(Norm-Constraint Adaptive Filter,NCAF)代替LMS算法。
2001年,考虑到实际的声学传递情况和房间混响,Gannot提出基于传递函数的广义旁瓣消除器(Transfer Function Generalized Sidelobe Cancelling,TF-GSC),该方法是GSC在频域的扩展,能够更加精确地确定导向矢量,减少期望语音的泄露[14]。
2004年,Cohen进一步改进了TF-GSC,在基于语音存在概率的条件下优化了TF-GSC算法[15]。
2011年,Khayeri等人提出在BM模块采用LCMV波束形成器替换传统的阻塞矩阵,一定程度上减少了期望语音的泄露[16]。
2014年,研究学者在传统GSC基础上引入双仿射投影(Double Affine Projection,DAP),该算法在BM模块后面加一个滤波器,能进一步抑制期望信号泄露[17]。
2017年,Li等人在传统GSC基础上加入DOA估计,通过对期望信号角度的准确估计来增强BM模块对于期望信号的阻塞能力[18]。
2019年,
Feng Ni等人提出基于线性麦克风阵列的鲁棒GSC算法,通过先验信噪比来控制ANC模块的更新,从而防止期望信号对消,该方法在人声干扰和音乐干扰情况下具有较强的鲁棒性和噪声抑制能力[19]。
综上,对于GSC改进算法大多是针对基于导向矢量和BM的改进,也有研究人员在ANC模块进行改进,通过控制ANC中自适应算法的更新准则和收敛速度来消除噪声。
在文献[20]中,Hoshuyama通过采用FBF和ABM的输出信号功率比来控制ABM和ANC的更新,一定程度上解决了期望信号对消的问题。
在文献[21]中,Priyanka等人提出用快速归一化最小均方(Fast Normalized Least Mean Square, FNLMS)自适应算法更新ANC模块,该方法具有收敛速度快和复杂度低等优点。
多通道带噪语音信号经过自适应波束形成后会残留部分噪声,且在远场语音识别系统中由于残留噪声的存在而导致语音特征失真[22]。
针对语音特征失真的问题,Martin等人提出在模型域采用双向长短期记忆(Bidirectional Long Short-Term Memory,BLSTM)递归神经网络来进行特征增强,该方法在低信噪比时有较高的识别率[23]。
Hong等人提出在特征域进行语音特征增强,通过在倒谱域对带噪语音进行分解来达到增强语音信号特征的目的[24]。
1.3本文主要贡献和内容安排
针对上述波束形成算法研究的现状和不足,本文主要研究了GSC自适应波束形成算法和基于维纳滤波的特征增强。
通过GSC自适应滤波算法抑制方向性干扰噪声和减少期望语音信号的失真来提高输出信噪比,从而达到语音增强的目的。
在本文中,首先,提出一种用于GSC的新的自适应滤波器系数更新算法。
使用经过超指向波束形成器后的信号与原始信号求相干性,再用DSB输出信号与原始信号在一定频点范围内求能量比,用求得的相干性和能量比来联合控制自适应噪声相消器的更新。
提出的改进算法不仅减少了期望信号的对消问题,而且在相干性和能量比的联合控制下还提升了算法的鲁棒性。
其次,带噪语音通过改进的GSC算法后,为了进一步提升自动语音识别系统的噪声鲁棒性和识别率,本文提出了基于多通道语音存在信息的维纳滤波特征增强。
由于将多通道语音存在信息融入到噪声功率谱估计中,使得改进算法在低信噪比情况下也具有良好的噪声抑制能力。
此外,在改进GSC算法的上支路采用了鲁棒超指向波束形成算法,进一步提升了算法的鲁棒性和低频特性。