一种MMSE语音增强算法的研究与实现

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

电子科技 2004 年第 8 期（总第 179 期）
一种 MMSE 语音增强算法的研究与实现
张运伟，陈健，傅丰林
（西安电子科技大学通信工程学院，陕西西安 710071）
摘
要
介绍了单话筒采集条件下基于语音短时对数谱的最小均方误差(MMSE-LSA)估计的语音增强算法，
以及语音帧和噪声帧判别的有声/无声检测方法。将语音信号的相位提取后存储起来，然后对纯净语音的短时对数谱作最小均方误差估计，处理后的语音由估计得到的幅度谱和存储的相位重建。试验证明 MMSE-LSA 的增强效果很好，尤其在信噪比低时更为明显。关键词语音增强；短时对数谱；最小均方误差；有声/无声检测 TN912.3
假设有方差也是缓变的，可以近似认为保持不变，另外，假设 Yk (i ) 与 Yk ( j ) 是彼此独立的。由于
µ < 2（9）
Yk (m) = X k ( m) + Dk (m) ， X k ( m) 与 Dk (m ) 均为高斯分布，所以 Yk ( m ) 也是高斯分布，方差为
{
µ
}
（3）
µ ∫0 ∫0 a k p (Yk ak ,α k )p (a k ,α k )dak dα k ∞ 2ð ∫0 ∫0 p(Yk a k ,α k ) p(a k ,α k )da k dα k
此处基于高斯模型假设， p(⋅) 为概率密度函数，
收稿日期：2001-05-09
19
一种 MMSE 语音增强算法的研究与实现
285 x m （取帧长 K 为 256 点）。 254 σ 2 ≈256 σ 2
当信噪比 SNR 为 0dB 时，语音信号能量 S 可表示为：S= χ
2 0.5(256)
4 算法的实现及仿真结果
该算法是利用 Matlab 进行仿真的。通过对时域波形的观察，表明 MMSE 的语音增强算法能够有效地滤除背景噪声，在用了有声／无声判断后， “音
d
（19）
由图 1 可见， f es ( x / S ) 是将 f ed ( x ) 向右平移了 S，而 S 是一帧含噪语音中纯语音信号的能量，通过连续统计 M 帧含噪语音信号的能量做出能量直方图，得到其短时能量概率密度的最大值 xm，由此计算出 σ 。
2
ff
fed (x) fe s ( x / S )
利用式(8)和(10)，从式(7)可得
d Φ dµ Z
k
Yk
(µ )
µ =0
∞ ( −v k ) r 1 1 1 = ln λ k − c + ∑ 2 2 r! r r =1
(11) 把式(11)代入式(2)，应用式(7)，得到谱估计
∞ −t ξk 1 e Ak = exp ∫ dt Rk 1 +ξk Hale Waihona Puke Baidu v t ∧
中图分类号
1 引言
在语音通信过程中，语音信号会不同程度地受到各种各样的干扰，影响了语音的质量与自然度。因此需要从带噪语音信号中提取尽可能纯净的原始语音，对带噪语音信号进行语音增强处理，从而达到抗噪效果。语音增强主要解决两个问题，一是改进语音质量，消除背景噪声，是听者乐于接受，不觉疲劳，这是主观度量；二是消除干扰噪声，提高语音的可懂度，这是客观度量。常用的增强方法有中心消波、谱减法、自适应抵消法等，这些方法都能够降低噪声，但效果不是很好，而且自适应抵消法需要两路信号，实际应用中往往只能提供一路信号，适用范围有限。该文研究了只有一路带噪语音信号可以利用的单声道语音增强方法 ,即基于语音短时对数谱的最小均方误差 (MMSE-LSA) 估计的语音增强算法。
k
（6）这里 ξ k 和 γ k 分别称之为先验和后验信噪比。把式（4），（5）代入式（3）计算积分可得
(12)
ΦZ
k
Yk
(µ) = λµk/ 2 Γ (µ / 2 + 1)M (− µ / 2;1;−v k )
3 先验信噪比和噪声帧的确定
MMSE-LSA 估计是在假定先验信噪比 ξ k 和噪声方差 λ d ( k ) 已知的条件下得到的。然而，此处讨论的语音增强，所用的参数是提前未知的，仅有带噪语音可以利用。因而，在实际系统中，这些参数通常由估计得到。先验信噪比和如何判别语音帧与噪声帧是关键的问题。 3.1 最大似然估计方法求 ξ k
EII EII
S
e
EE II
x
图1
T x eT 、及误判概率 f es ( x / S ) f e ( x)
d
这里，称将一帧纯噪声误判为语音的概率为 EI，将一帧纯语音误判为噪声的概率为 EII。由于噪
声的概率密度分布函数服从 χ 分布，因而可根据
2
电子科技/2004 年 8 月 15 日 21
一种 MMSE 语音增强算法的研究与实现
{ }，λ (k ) = E {X }分别为语音和
2 ∆ 2 x k
噪声的第 k 个频谱分量的方差
d Γ (µ / 2 + 1) dµ
µ =0
= −c / 2
(10)
v k 定义如下，
∆ λ (k ) ∆ ξk Rk2 x vk = γ k ；ξk = ；γ k = ， 1 + ξk λd ( k ) λd ( k ) ∆
FFT 变换后的第 k 个频谱分量。语音增强的任务就是利用已知的噪声功率谱信息，从 y (t ) 中估计出
x (t ) ，即由 {Y0 , Y1 , L } 估计出 X k 。这里仅对频谱
幅度的对数感兴趣，而认为相位对语音质量影响不大，带噪语音的短时谱可用快速傅里叶变换一帧的计算得到，其相位提取后存储起来，然后对纯净语音的短时对数谱作最小均方误差估计。处理后的语音由估计得到的幅度谱和相位重建。因而估值问题可以简化为估计 Ak 。 Ak 的估计式可写成
i=0
K −1
(18)
es = ∑ [s(i )]2 + ∑ [d (i )]2 = S + ed ，其中
i =0 i =0
K −1
K −1
其条件概率分布为：
1 x−S x−S ( 2 ) K / 2−1 exp (− ) x>S K /2 2 2 Γ( K / 2)σ σ 2σ 2 f e (x / S ) = 0 x≤S
上 α 分位点及所需的 EI 来确定判决门限 eT。如要求 EI=10%时，eT=
乐噪声”也大幅度降低。图 2 是对信噪比为 5dB 的含噪语音信号进行噪声滤除的结果。图 2（a）为原始的纯净语音信号，图 2（b）为含噪语音信号，图 2（c）为用了 MMSE 增强算法的结果。试验对不同信噪比条件下的含噪语音进行了增强，通过观察语音信号的时域波形，表明基于 MMSE 的增强算法能够有效的去除背景噪声的影响，对比传统的 LMS 算法和谱减法， MMSE 能更有效地改善语音质量，并且随着信噪比的降低，对噪声的抑制效果也越来越明显。
(a)
(b)
(c) 图2 时域语音波形比较
22
IT Age/Aug. 15, 2004
一种 MMSE 语音增强算法的研究与实现
5 总结
主要研究了基于短时对数谱的语音增强 (MMSE-LSA)算法, 以及算法中先验信噪比的估计方法和有声和无声帧的判别方法，试验表明该算法能够有效地滤除噪声，并且运算量不大，适用范围广。参考文献
]
（15）
式中增加了可调参数α 、 β （ 0 ≤ α ≤ 1, β ≥ 1 ），（13）
求最大似然估计，得到 λ x (k ) 的估值：
1 L−1 2 λ x ( k ) = ∑ R k ( m − l ) − λd ( k ) L l =0
∧
(14)
f d (i) ( x) =
1 x2 exp( − ) 2σ (2 π)1/2 σ
1 Wang D L, Lim J S, The Unimportance of phase in Speech Enhancement. IEEE Transactions on Acoustics,Speech,and Signal Processing, 1982, 30(4): 679-681. 2 Agawal T, Kabal P, Pre-Processing of Noisy Speech for Voice Codes. Proc. IEEE Workshop on Speech Coding (Tsukaba, Japan), 2002, 169-171. 3 Cohen I. Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log- Spectral Amplitude Estimator. IEEE Signal Processing Letters. 113-116. 4 Cohen I, Berdugo B. Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, 2001, 2403-2418. 5 Epram Y, Malah D. Speech Enhancement Using a Minumum 2002, 9(4):
∑n
n =1
1
r
， c = 0.5772156649 0 是欧拉常
λ x ( k ) + λ d (k ) ，有
数。把式(9)逐项地微分有 20 IT Age/Aug. 15, 2004
一种 MMSE 语音增强算法的研究与实现
p[Yk ( m), Yk ( m − 1), L | λ x ( k ), λ d (k ) ] =
∂ 1 ∞ (−v) r 1 M (− µ / 2;1 − v k ) µ =0 = − ∑ ∂µ 2 r =1 r! r µ ∞ (− µ ) r ln Γ (µ / 2 + 1) = −c + ∑ r α r 2 r =2 2 r
这里 α r =
∆ ∞
（8）
L 个连续的观测量 {Yk (m), Yk (m − 1),L , Yk (m − L + 1)} ，其中 Yk ( j ) 代表第 j 帧的第 k 个频率点的带噪频谱观测值，由于语音是缓变的，上述 L 帧语音的第 k 个频率点的
（7） Γ (⋅) 是伽码函数， M (a; c; x) 为合流超几何函数。
M (a; c; x ) = ∑
r =0 ∆
∞
( a) r x (c ) r r!
∆
r
这里 ( a ) r = 1 ⋅ a ⋅ ( a = 1) L ( a + r − 1) ， ( a ) 0 =1 。式 (7) 中出现的 M (− µ / 2;1;−v k ) 在 | µ |< 2 时逐项地微分，在 µ = 0 可导出
(16)
在实际使用时，式(14) 的滑动平均用迭代平均来代替，使用以下的估计式
∧ ∧ γ k (m) = max α γk (m − 1) + (1 −α) γk (m) /β,1 +ε,
一帧不含语音的纯噪音信号，能量可表示为
e d = ∑ [d(i )]2 ,它的概率密度可表示为：
ε≥0 ∧ ξ k (m) = max γ k (m) − 1, ε ，ε ≥ 0
它们的值由经验和主观试听决定。 3.2 语音帧与噪声帧的判别
语音帧与噪声帧判别原理：一般认为噪声为一零均值高斯过程，其概率密度为：
∏
l =0
L −1
exp[ −
Yk ( m − l )
2
λ x (k ) + λ d ( k ) π[λ x ( k ) + λ d ( k ) ]
Ak = exp{E [ln Ak Yk ]}
∧
设 Z k = ln Ak ，则有
ΦZ
k
Yk
µ (µ) = E{exp(µZ k ) Yk } = E{ Ak | Yk } （1）
得到
E{ln Ak Yk } =
d Φ dµ Z
k
Yk
(µ) µ = 0
（2）
2 短时对数谱的 MMSE 语音增强算法
设观察到的一帧带噪信号为
i =0
K −1
1 x x ( 2 ) K / 2−1 exp (− 2 ) x > 0 2 K /2 2σ 2 Γ( K / 2)σ σ f e ( x) = 0 x≤0
d
(17)
对于一帧含噪语音，由于语音信号 s(i)和噪音 d(i)不相关，则它的信号能量为：
S = ∑ [ s(i )]2
p(Yk ak , α k ) =
1 1 2 exp− Yk − a k exp( jα k ) πλ d (k ) λ d (k )
(4)
2 ak ak p(a k , α k ) = exp− πλ d (k ) λ x (k )
（5）
∆
λ d (k ) = E D k
利用式 (1) 计算Φ Z k Yk (µ) ，得到 E ln Ak Yk 。由于Φ Z k Yk (µ) = E Ak Yk
∞ 2ð
{
}
y (t ) = x (t ) + d (t ),0 ≤ t ≤ T ，其中 x (n) 为纯净语音信号， d (t ) 为平稳、加性、高斯白噪声。令 Yk = Rk exp[jθ k ]， X k = Ak exp[jα k ] ， Dk 分别表示带噪语音 y (t ) 、信号 x (t ) 和噪声 d (t ) 进行