加入变遗忘因子QR-RLS去混响模型的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加入变遗忘因子QR-RLS去混响模型的研究
作者:冯涛孙怡然
来源:《现代信息科技》2022年第08期
摘要:在封闭的环境内,声源发出的语音信号不可避免会因为房间冲激响应产生一定的混响,造成语音质量和辨识度下降,给通信的对方带来一定的困难。
因此,高效的语音去混响算法变得特别引人注目,研究过程中最常用的方法就是多通道线性预测自适应去混响算法,文章将详细介绍该算法,提出新的时变遗忘因子,控制方案并改进了QR-RLS算法,不仅提高了去混响的能力,还提高了算法的稳定性。
关键词:去混响;多通道线性预测;自适应滤波;最小二乘法;QR分解;时变遗忘因子
中图分类号:TP18 文献标识码:A文章编号:2096-4706(2022)08-0095-03
Research on QR-RLS De-Reverberation Model with Variable Forgetting Factor
FENG Tao, SUN Yiran
(Nanjing University of Information Science and Technology, Nanjing 210044, China)
Abstract: In a closed environment, the speech signal emitted by the sound source will inevitably produce a certain reverberation due to the room impulse response, which will cause the speech quality and recognition to decline, and bring certain difficulties to the other side of communication. Therefore, efficient speech de-reverberation algorithms have become particularly attractive. The most commonly used method in the research process is the multi-channel linear prediction adaptive de-reverberation algorithm. This paper will introduce the algorithm in detail and
propose a new time-varying forgetting factor, control scheme and improve the QR-RLS algorithm. It not only improves the ability of de-reverberation, but also improves the stability of the algorithm.
Keywords: de-reverberation; multi-channel linear prediction; adaptive filtering; least square procedure; QR decomposition; time-varying forgetting factor
0 引言
麦克风阵列技術在多通道语音去混响中是众所周知的,它可以通过空间区分不同方向的声音,在一定程度上抑制混响。
在多通道线性预测的原理是设计一个线性预测器,估计出语音的混响部分,从混响语音中减去被估计出的部分就能估计出期望的语音信号。
RLS算法在矩阵逆变换的过程中条件数会增多,使该算法存在潜在的不稳定问题,以及使用常数遗忘因子而导致系统突然变化时收敛缓慢等问题。
前者可以用QR分解解决,而后者常用自适应遗忘因子来解决
本文提出了一种基于滤波器系数近似导数的VFF控制方案。
其主要思想是通过权值向量的变化来衡量自适应滤波器的收敛行为。
在接近稳态时,权值向量表现出更少的变化,并且可以使用更小的步长。
同样,当权值向量表现出相当大的变化时,可以选择更大的步长。
这种方法也适用于RLS算法。
仿真结果表明,该算法不仅提高了去混响的能力,还提高了稳定性。
1 信号模型
现在假设在一个密闭的环境中,有且只有一个声源,这个声源产生的语音信号由M个麦克风捕捉,而麦克风捕获的信号不可避免会带有噪声,因此,麦克风捕捉到的信号可以表示为:
y(n)=x(n)+v(n)(1)
其中,y(n)表示麦克风捕捉到的信号,x(n)表示语音信号,v(n)是加性噪声。
为了接下来的讨论方便,令v(n)=0。
对时域信号采用短时傅里叶变换后,第m个麦克风捕获到的信号可以表示为:
xm(k,n)=dm(k,n)+um(k,n)(2)
混响信号u(k,n)能表示为:
(3)
用Lg代表MCLP滤波器的长度,τ作为时域内的预测延时,gm是线性预测过滤器的预测系数,对每个频点进行计算后,省略掉k,公式可以表示为:
x(n)=d(n)+u(n)(4)
将(3)式带入(4)式可得需要的估计信号为:
(5)
其中:
(6)
(7)
“^”表示估计值,H 代表复杂共轭。
是预测系数矩阵。
τ为预测延时,直接语音部分和最早的反射部分保留为所需要的语音成分。
直接语音信号可以通过减去来自混音的u(n)来获得。
2 基于最小二乘法的多通道线性预测算法
采用式(5)(6)表示的去混响模型,需要求解预测系数矩阵。
文献[1]提出了一种基于约束MCLP的自适应语音去混响方法,该方法通过最大化时频域内期望语音信号的稀疏性来获得预测滤波器,即:
(8)
w(n)用来表示加权系数;γ的取值介于(0,1),表示为遗忘因子;加权系数又可以表示为:
(9)
ε是个无穷小的数,用于保证w(n)是一个非负数,p代表形状参数,假设后期混响服从指数分布,则d(n)的功率谱密度就可以表示为:
(10)
其中:
(11)
(12)
(13)
、、表示信号的功率谱密度,α表示衰减系数,Td用来表示最早反射的语音部分持续时间,T60代表混响时间,nτ表示每一帧对应的时延,β是平滑因子。
代入公式得出后期混响的估计值为:
(14)
3 基于QR分解最小二乘法的多通道线性预测(QR-RLS)
若采用最小二乘法递归求解可以表示为:
(15)
(16)
(17)
由于式(17)中矩阵求逆过程的条件数增大,只用最小二乘法来求解会存在潜在的不稳定问题,通过QR分解的方法减少条件数,可以表现出更好的数值稳定性。
利用QR分解原理可以对上述式子进行重新整理算法过程具体为:
初始化:
(1)给定了已扩充的数据矩阵:
(18)
其在(n-1)帧处的QRD为:
(19)
这里的Q(n-1)和是酉矩阵和上三角矩阵。
(2)形成新的增强的数据矩阵:
(20)
此处的,获得新的QRD由基文斯旋转或住户反射作为:
(21)
(3)处理三角系统。
通过反向替换的LS估计得。
4 加入时变遗忘因子的QR-RLS(VFF-QR-RLS)
在QR-RLS算法中加入时变遗忘因子,不仅能提供更好的数值稳定性,还具有快速的瞬态收敛和跟踪性能。
与传统的VFF方案不同,所提出的VFF控制方案是基于滤波器系数的近似导数。
该方法可以表述为:
(22)
(23)
(24)
此处的wi(n)表示的是第i个滤波器的抽头,是它的近似时间倒数。
η是计算平滑抽头权重的遗忘因子。
表示一个向量的l1范数,其中,在原算法中的作用有两个方面:首先,在具有系数脉冲响应的时常通道中,它们允许显著的抽头权重获得更大的步长,这就能有有一个更快的初始收敛速度。
其次,由于能够反应滤波器权值的时间变化,所以它在缓慢时变的信道中产生更快的跟踪速度。
当算法收敛到其稳态时,的值会逐渐减小,并从其初始值逐渐收敛到一个非常小的值,但在跟踪时变通道的脉冲响应时,该值相当不稳定。
因此我们提出了一个通过将自适应滤波器的收敛状态映射到时变遗忘因子γ(n)的期望方差。
更准确地说,我们计算的近似导数的绝对值为Gc(n):
(25)
并计算通过一个时间长度为T的时间窗内对其取平均为,取的平均值再用来表示。
将和进行归一化,我们得到了,这是自适应滤波器的一个更稳定的收敛度量,用γL和γH来表示上下界,并且在每次迭代更新时候的γ(n)表示为:
(26)
将(26)替换(8)中的γ,便得到了VFF-QR-RLS。
5 仿真结果
5.1 仿真环境
本文的设置了两个麦克风组成麦克风线性阵列,用于模拟人耳,并对一段11 s的混响信号进行去混响。
实验中的各项参数如表1所示。
5.2 实验结果
算法的性能用Mel频率倒谱系数距离改善(ΔMFCC)来评估,Mel频率倒谱系数(MFCC)把纯净语音作为参考信号,分别计算参考信号与混响信号和去混响信号之间的MFCC失真距离,记作MFCCin和MFCCout。
然后两者作差便得到Mel频率倒谱距离改善(∆MFCC),该值越大时,说明去混响效果越好。
RLS和QR-RLS算法的遗忘因子γ的取值为0.96,而VFF-QR-RLS的遗忘因子,
γL=0.96,γH=0.99。
仿真结果如图1所示。
由图2上和图2中可知,QR-RLS具有和RLS相同的效果,并且通过QR分解的方法减少条件数,还可以表现出更好的数值性质。
图中画圈的部分进行比较可以发现,VFF-QR-RLS算法能够更快趋于稳定,有更好的数值稳定性。
为了进一步评估算法的性能和去混响效果,本文还采用了语音质量感知评价对实验中的去混响语音进行评估,最终得分取的是10组不同的模拟混响样本实验结果的平均值,不同算法去混响信号得分如图2所示(混响时间T60=(300 ms,600 ms,900 ms)),从图中数据可以看出,在不同混响程度中,VFF-QR-RLS算法的得分都是最高的,这也验证了算法的有效性。
6 结论
本文对基于QR-RLS的多通道线性预测去混响算法进行了改进,加入了时变遗忘因子,该方法提高了算法的去混响能力以及数值的稳定性。
仿真的实验结果验证了该算法的有效性。
参考文献:
[1] JUKIĆ A,WATERSCHOOT T,GERKMANN T,et al. Multi-Channel Linear Prediction-Based Speech Dereverberation With Sparse Priors [J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(9):1509-1520.
[2] 云霞.基于Mel倒譜和Bark谱失真距离的汉语音质客观评价研究 [D].成都:西南交通大学,2004.
[3] WU M Y,WANG D L. A two-stage algorithm for one-microphone reverberant speech enhancement [J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(3):774-784.
[4] 李毅.自适应滤波及滤波算法研究 [D].西安:西北工业大学,2003.
[5] XIANG T. Study on Speech Enhancement with Reverberation [D].Nanjing:Nanjing University,2020.
作者简介:冯涛(2000.11—),男,汉族,江苏无锡人,本科在读,研究方向:语音去混响;孙怡然(2001.01—),男,汉族,江苏淮安人,本科在读,研究方向:语音去混响。
收稿日期:2022-03-01。