一种MMSE语音增强算法的研究与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电子科技 2004 年第 8 期(总第 179 期)
一种 MMSE 语音增强算法的研究与实现
张运伟,陈 健,傅丰林
(西安电子科技大学通信工程学院,陕西 西安 710071)


介绍了单话筒采集条件下基于语音短时对数谱的最小均方误差(MMSE-LSA)估计的语音增强算法,
以及语音帧和噪声帧判别的有声/无声检测方法。将语音信号的相位提取后存储起来, 然后对纯净语音的短时对数 谱作最小均方误差估计,处理后的语音由估计得到的幅度谱和存储的相位重建。试验证明 MMSE-LSA 的增强效 果很好,尤其在信噪比低时更为明显。 关键词 语音增强;短时对数谱;最小均方误差;有声/无声检测 TN912.3
假 设 有 方差也是缓变的,可以近似认为保持不变,另外, 假 设 Yk (i ) 与 Yk ( j ) 是 彼 此 独 立 的 。由于
µ < 2(9)
Yk (m) = X k ( m) + Dk (m) , X k ( m) 与 Dk (m ) 均为高 斯 分 布 , 所 以 Yk ( m ) 也 是 高 斯 分 布 , 方 差 为
{
µ
}
(3)
µ ∫0 ∫0 a k p (Yk ak ,α k )p (a k ,α k )dak dα k ∞ 2ð ∫0 ∫0 p(Yk a k ,α k ) p(a k ,α k )da k dα k
此处基于高斯模型假设, p(⋅) 为概率密度函数,
收稿日期:2001-05-09
19
一种 MMSE 语音增强算法的研究与实现
285 x m (取帧长 K 为 256 点) 。 254 σ 2 ≈256 σ 2
当信噪比 SNR 为 0dB 时,语音信号能量 S 可 表示为:S= χ
2 0.5(256)
4 算法的实现及仿真结果
该算法是利用 Matlab 进行仿真的。 通过对时域 波形的观察,表明 MMSE 的语音增强算法能够有 效地滤除背景噪声, 在用了有声/无声判断后, “音
d
(19)
由图 1 可见, f es ( x / S ) 是将 f ed ( x ) 向右平移 了 S,而 S 是一帧含噪语音中纯语音信号的能量, 通过连续统计 M 帧含噪语音信号的能量做出能量 直方图,得到其短时能量概率密度的最大值 xm,由 此计算出 σ 。
2
ff
fed (x) fe s ( x / S )
利用式(8)和(10),从式(7)可得
d Φ dµ Z
k
Yk
(µ )
µ =0
∞ ( −v k ) r 1 1 1 = ln λ k − c + ∑ 2 2 r! r r =1
(11) 把式(11)代入式(2),应用式(7),得到谱估计
∞ −t ξk 1 e Ak = exp ∫ dt Rk 1 +ξk Hale Waihona Puke Baidu v t ∧
中图分类号
1 引 言
在语音通信过程中,语音信号会不同程度地受 到各种各样的干扰,影响了语音的质量与自然度。 因此需要从带噪语音信号中提取尽可能纯净的原 始语音,对带噪语音信号进行语音增强处理,从而 达到抗噪效果。 语音增强主要解决两个问题,一是改进语音质 量,消除背景噪声,是听者乐于接受,不觉疲劳, 这是主观度量;二是消除干扰噪声,提高语音的可 懂度, 这是客观度量。 常用的增强方法有中心消波、 谱减法、自适应抵消法等,这些方法都能够降低噪 声,但效果不是很好,而且自适应抵消法需要两路 信号,实际应用中往往只能提供一路信号,适用范 围有限。该文研究了只有一路带噪语音信号可以利 用的单声道语音增强方法 ,即基于语音短时对数谱 的最小均方误差 (MMSE-LSA) 估计的语音增强算 法。
k
(6) 这里 ξ k 和 γ k 分别称之为先验和后验信噪比。把式 (4) , (5)代入式(3)计算积分可得
(12)
ΦZ
k
Yk
(µ) = λµk/ 2 Γ (µ / 2 + 1)M (− µ / 2;1;−v k )
3 先验信噪比和噪声帧的确定
MMSE-LSA 估计是在假定先验信噪比 ξ k 和噪 声方差 λ d ( k ) 已知的条件下得到的。然而,此处讨 论的语音增强,所用的参数是提前未知的,仅有带 噪语音可以利用。因而,在实际系统中,这些参数 通常由估计得到。先验信噪比和如何判别语音帧与 噪声帧是关键的问题。 3.1 最大似然估计方法求 ξ k
EII EII
S
e
EE II
x
图1
T x eT 、 及误判概率 f es ( x / S ) f e ( x)
d
这里,称将一帧纯噪声误判为语音的概率为 EI,将一帧纯语音误判为噪声的概率为 EII。由于噪
声的概率密度分布函数服从 χ 分布,因而可根据
2
电子科技/2004 年 8 月 15 日 21
一种 MMSE 语音增强算法的研究与实现
{ },λ (k ) = E {X }分别为语音和
2 ∆ 2 x k
噪声的第 k 个频谱分量的方差
d Γ (µ / 2 + 1) dµ
µ =0
= −c / 2
(10)
v k 定义如下,
∆ λ (k ) ∆ ξk Rk2 x vk = γ k ;ξk = ;γ k = , 1 + ξk λd ( k ) λd ( k ) ∆
FFT 变换后的第 k 个频谱分量。语音增强的任务就 是利用已知的噪声功率谱信息,从 y (t ) 中估计出
x (t ) ,即由 {Y0 , Y1 , L } 估计出 X k 。这里仅对频谱
幅度的对数感兴趣,而认为相位对语音质量影响不 大,带噪语音的短时谱可用快速傅里叶变换一帧的 计算得到,其相位提取后存储起来,然后对纯净语 音的短时对数谱作最小均方误差估计。处理后的语 音由估计得到的幅度谱和相位重建。因而估值问题 可 以 简 化 为 估 计 Ak 。 Ak 的 估 计 式 可 写 成
i=0
K −1
(18)
es = ∑ [s(i )]2 + ∑ [d (i )]2 = S + ed ,其中
i =0 i =0
K −1
K −1
其条件概率分布为:
1 x−S x−S ( 2 ) K / 2−1 exp (− ) x>S K /2 2 2 Γ( K / 2)σ σ 2σ 2 f e (x / S ) = 0 x≤S
上 α 分位点及所需的 EI 来确定判决门限 eT。如要 求 EI=10%时,eT=
乐噪声”也大幅度降低。 图 2 是对信噪比为 5dB 的含噪语音信号进行噪 声滤除的结果。图 2(a)为原始的纯净语音信号, 图 2(b)为含噪语音信号,图 2(c)为用了 MMSE 增强算法的结果。试验对不同信噪比条件下的含噪 语音进行了增强,通过观察语音信号的时域波形, 表明基于 MMSE 的增强算法能够有效的去除背景 噪声的影响,对比传统的 LMS 算法和谱减法, MMSE 能更有效地改善语音质量, 并且随着信噪比 的降低,对噪声的抑制效果也越来越明显。
(a)
(b)
(c) 图2 时域语音波形比较
22
IT Age/Aug. 15, 2004
一种 MMSE 语音增强算法的研究与实现
5 总 结
主要研究了基于短时对数谱的语音增强 (MMSE-LSA)算法, 以及算法中先验信噪比的估计 方法和有声和无声帧的判别方法,试验表明该算法 能够有效地滤除噪声,并且运算量不大,适用范围 广。 参考文献
]
(15)
式中增加了可调参数α 、 β ( 0 ≤ α ≤ 1, β ≥ 1 ) , (13)
求最大似然估计,得到 λ x (k ) 的估值:
1 L−1 2 λ x ( k ) = ∑ R k ( m − l ) − λd ( k ) L l =0

(14)
f d (i) ( x) =
1 x2 exp( − ) 2σ (2 π)1/2 σ
1 Wang D L, Lim J S, The Unimportance of phase in Speech Enhancement. IEEE Transactions on Acoustics,Speech,and Signal Processing, 1982, 30(4): 679-681. 2 Agawal T, Kabal P, Pre-Processing of Noisy Speech for Voice Codes. Proc. IEEE Workshop on Speech Coding (Tsukaba, Japan), 2002, 169-171. 3 Cohen I. Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log- Spectral Amplitude Estimator. IEEE Signal Processing Letters. 113-116. 4 Cohen I, Berdugo B. Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, 2001, 2403-2418. 5 Epram Y, Malah D. Speech Enhancement Using a Minumum 2002, 9(4):
∑n
n =1
1
r
, c = 0.5772156649 0 是欧拉常
λ x ( k ) + λ d (k ) ,有
数。把式(9)逐项地微分有 20 IT Age/Aug. 15, 2004
一种 MMSE 语音增强算法的研究与实现
p[Yk ( m), Yk ( m − 1), L | λ x ( k ), λ d (k ) ] =
∂ 1 ∞ (−v) r 1 M (− µ / 2;1 − v k ) µ =0 = − ∑ ∂µ 2 r =1 r! r µ ∞ (− µ ) r ln Γ (µ / 2 + 1) = −c + ∑ r α r 2 r =2 2 r
这里 α r =
∆ ∞
(8)
L 个 连 续 的 观 测 量 {Yk (m), Yk (m − 1),L , Yk (m − L + 1)} ,其中 Yk ( j ) 代表第 j 帧的第 k 个频率点的带噪频谱观测值,由 于语音是缓变的,上述 L 帧语音的第 k 个频率点的
(7) Γ (⋅) 是伽码函数, M (a; c; x) 为合流超几何函数。
M (a; c; x ) = ∑
r =0 ∆

( a) r x (c ) r r!

r
这里 ( a ) r = 1 ⋅ a ⋅ ( a = 1) L ( a + r − 1) , ( a ) 0 =1 。 式 (7) 中出现的 M (− µ / 2;1;−v k ) 在 | µ |< 2 时逐项 地微分,在 µ = 0 可导出
(16)
在实际使用时,式(14) 的滑动平均用迭代平均来 代替,使用以下的估计式
∧ ∧ γ k (m) = max α γk (m − 1) + (1 −α) γk (m) /β,1 +ε,
一帧不含语音的纯噪音信号,能量可表示为
e d = ∑ [d(i )]2 ,它的概率密度可表示为:
ε≥0 ∧ ξ k (m) = max γ k (m) − 1, ε ,ε ≥ 0
它们的值由经验和主观试听决定。 3.2 语音帧与噪声帧的判别
语音帧与噪声帧判别原理:一般认为噪声为一 零均值高斯过程,其概率密度为:

l =0
L −1
exp[ −
Yk ( m − l )
2
λ x (k ) + λ d ( k ) π[λ x ( k ) + λ d ( k ) ]
Ak = exp{E [ln Ak Yk ]}

设 Z k = ln Ak ,则有
ΦZ
k
Yk
µ (µ) = E{exp(µZ k ) Yk } = E{ Ak | Yk } (1)
得到
E{ln Ak Yk } =
d Φ dµ Z
k
Yk
(µ) µ = 0
(2)
2 短时对数谱的 MMSE 语音增强算法
设 观 察 到 的 一 帧 带 噪 信 号 为
i =0
K −1
1 x x ( 2 ) K / 2−1 exp (− 2 ) x > 0 2 K /2 2σ 2 Γ( K / 2)σ σ f e ( x) = 0 x≤0
d
(17)
对于一帧含噪语音,由于语音信号 s(i)和噪音 d(i)不相关,则它的信号能量为:
S = ∑ [ s(i )]2
p(Yk ak , α k ) =
1 1 2 exp− Yk − a k exp( jα k ) πλ d (k ) λ d (k )
(4)
2 ak ak p(a k , α k ) = exp− πλ d (k ) λ x (k )
(5)

λ d (k ) = E D k
利用式 (1) 计算Φ Z k Yk (µ) ,得到 E ln Ak Yk 。由 于Φ Z k Yk (µ) = E Ak Yk
∞ 2ð
{
}
y (t ) = x (t ) + d (t ),0 ≤ t ≤ T ,其中 x (n) 为纯净语 音信号, d (t ) 为平稳、加性、高斯白噪声。令 Yk = Rk exp[jθ k ], X k = Ak exp[jα k ] , Dk 分 别表示带噪语音 y (t ) 、信号 x (t ) 和噪声 d (t ) 进行
相关文档
最新文档