第12章 语音增强技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蓝色为原始含噪语音 黄色为谱相减处理的结果
二、时域语音增强技术
语音增强中另一常用技术,其特点是对语音的 损伤小。在消噪过程中,一般需要二个以上话筒, 采用自适应滤波算法。故常常将时域语音增强技术 称为自适应语音降噪技术(Adaptive noise canceling ANC)。
主话筒和参考话筒获得的信号是语音和噪声在话 筒处迭加后的混合信号。
对上式两边取数学期望有: E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ] +
E[ S(w) • D*(w) ] + E[ S*(w) • D (w) ] 由于噪声与语音信号不相关,且傅立叶变换不 会改变信号之间的相关性,上式中,最后两项均 为0。则上式简化为: E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ]
2. 谱相减法的数学推导
首先假设语音和噪声信号是线性叠加的,且 噪声是平稳的,噪声与语音信号不相关。
x(n)=s(n)+d(n)
X(ejw)=S(ejw)+D(ejw)
简写为: X(w)=S(w)+D(w)
X(w)• X*(w) =(S(w)+D(w)) • (S(w)+D(w))*
展开得到:
|X(w)|2=|S(w)|2+ |D(w)|2+ S(w) • D*(w) + S*(w) • D (w)
含噪
+
语音
DFT
平方
|X(ejw)|
x(n)=s(n)+d(n)
- 平方
纯噪 DFT
|D'(ejw)|
声
d'(n)
插入 相位
开方 |S'(ejw)|
ejarg(X(jw))
原始语音谱幅度的估值
IDFT
s'(n)
将含噪语音信号和有声/无声判别得 到的纯噪声信号进行DFT变化,从含噪语 音谱幅度的平方中减去纯噪声的谱幅度的 平方,然后开方,得原始语音谱幅度的估 值,再借用含噪语音的相位,进行IDFT 变化,得到增强的语音。
(3)窃听技术中需要语音增强
(4)语音识别技术需要语音增强
在实际生活中,语音信号无时无地不受各种噪声 干扰。人们正常的生活环境就是一个声级为60dB左 右的噪声环境。被强噪声污染的场合,噪声达 120dB以上。
§12.2 噪声度量、特性和评价
一、噪声的分类和度量 二、噪声的特性
一、噪声的分类和度量
x(n)-n’(n)=s(n)+n0(n)-n’(n)=s(n)+e(n)=s’(n)
s’(n)中仍然包含部分噪声(e(n)),要使这部分噪声小, 达到完全消除噪声的目的(e(n)=0),则n’(n) 尽可能 与n0(n)一致。
常常引入s’(n)调节滤波器的参数,形成自适应地 修改滤波器的参数,使e(n)的均方误差最小。
m0 主话筒
+
输出
话
+
音
-
参考话筒 自适应
滤波器
噪 声
m1
原始含 噪语音
基本自适 应抗噪输
出结果
三、时频语音增强技术
为了达到更好的消噪效果,可将自适应消噪 技术和谱相减结合起来。
自
主输入信号
适
参考信号
应
消
噪
谱 相 增强语音 减 消 噪
原始含 噪语音
基本自适 应抗噪输
出结果
自适应 抗噪与谱 相减相结 合后的输
(3)由于该方法存在的前提条件要求噪声平稳, 因此当噪声特性变化时,消噪效果可能会变差, 这时需要重新拾取噪声特性。
(4)由于噪声的随机分布的范围广,因此相减时, 若该帧某频率点上的噪声谱幅度分量大时,就会 有很大一部分残留,在频谱上呈现随机起伏的尖 峰。在听觉上形成有节奏的类似音乐的残留噪声, 又称为背景音乐噪声。背景音乐噪声损伤了语音 的质量,降低了可懂度和清晰度,是该类方法最 大的缺点。
滤波器为FIR滤波器,其直接结构为:
n1(n) z-1
z-1
z-1
h(0) h(1) h(2)
h(N-1) n’(n)
每一时刻刷新滤波器系数h(i) n’(n)= n1(n)h(0)+ n1(n-1)h(1)+ … +
n1(n-N+1)h(N-1) s’(n)=x(n)-n’(n)
如何更新滤波器的系数,采用e(n)的均方误 差最小的准则,形成LMS(Least mean Square)算 法。为了便于讲解,将第n个时刻的所有滤波器系 数h(i),写为hi(n),则有:
噪声度量的另一个参数就是信噪比。
SNR=SNRout/SNRin
二、噪声的特性
从统计特性的角度讲:平稳噪声和非平稳 噪声。白噪声是平稳噪声中的一种,其频谱和 功率谱为常数,其概率密度分布是满足正态分 布。
§12.3 语音增强的原理和方法
一、频域语音增强技术 二、时域语音增强技术 三、时频语音增强技术 四、麦克风阵列语音降噪技术
(2)按性质分为:脉冲噪声(爆炸、撞击和放电) 和连续噪声;周期性周期(如交流电的干扰)和非 周期性噪声;按统计特性分为:平稳噪声(如白噪 声)和非平稳噪声(如色噪声);按噪声和信号相 关的性质分为加性噪声和乘性噪声。
我们研究的噪声是声音的一种,它具有声波的一 切特性,称之为声噪声。
3.噪声的度量
{i=0~N-1} (5)输出s’(n)
n1(n) n1(n-1)
n1(n-N+1)
h0 (n 1) h0 (n)
h1(n 1)
h1 (n)
n1(n)
n1(n 1)
hi (n 1)
0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
0
2000
4000
6000
8000
10000
主输入信号(收音机失谐纯噪声)
12000
0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
0
2000
4000
6000
8000
10000
12000
抗交叉串扰自适应滤波消噪输出结果
利用语音信号的短时平稳性,加之噪声信号的平 稳性。由于傅立叶变换不会改变信号的统计特性,在 一帧中,X(w) 、S(w)和D(w)都是平稳的。因此,在 一帧内可用单个值来代替均值。
|X(w)|2 =|S(w)|2 + |D(w)|2
利用有声/无声判决的纯噪声信号d'(n)与d(n)不 完全一致,因此:
3. 影响自适应消噪效果的因素
(1)参考信号中含有语音成分,则通过滤波后, n’(n)信号中含有有用信号成分,经过相减后,将 主通道信号减去一部分,损伤了有用信息。
主话筒 +
输出
话
+
音
-
参考话筒 自适应
滤波器
噪
声
可以证明,输出信号的信噪比和参考信号的 输入信噪比有如下关系:
PS Pn
=1 出
n’(n)= n1(n)h0(n)+ n1(n-1)h1(n)+ ... + n1(n-i)hi(n)+ ... + n1(n-N+1)hN-1(n)
第n个采样时刻: (1)拾取x(n)和n1(n)信号 (2)n’(n)=n1(n)h0(n)+n1(n-1)h1(n)+
+n1(n-i)hi(n)+ +n1(n-N+1)hN-1(n) (3)s’(n)=x(n)- n’(n) (4)hi(n+1)=hi(n)+2*u*s’(n)*n1(n-i)
1.噪声的定义:噪声是扣除被测信号真实值后的 各种测量值,可能来自外界环境、物理系统、操 作人员等。广义将噪声称为干扰。
2.噪声的分类
按产生原因和按噪声性质分类。
(1)产生原因:产生于物理系统外部,并以 声、光、电、机械等方式作用于物理系统, 称为外部噪声;物理系统内部产生的噪声称 为内部噪声,例如量子噪声等。
地铁
0.63
90
繁华街道
0.063 70
普通谈话
0.02
60
安静房间
0.002 40
耳语
0.00063 30
树叶沙沙声
0.0002 20
农村静夜
0.000063 10
听阈
0.00002 0
声压和声压级表征声音在物理上的强弱,它是 对噪声的客观评价,不能表征人对声音的主观感觉。 响应级和响度是人耳对噪声的主观评价的基本量之 一。响度的单位为宋(Sone)响度级的单位为方 (phon),在数值上等于1kHz纯音的声强级。
第12章 语音增强技术
§12.1 语音增强技术的概念和研究的意义 §12.2 噪声度量、特性和评价 §12.3 语音增强的原理和方法
§12.1 语音增强技术的概念和研究的意义
一、语音增强的定义 二、语音增强研究的意义
Hale Waihona Puke Baidu
一、语音增强的定义
语音增强是指当语音信号被各种各样的噪声干 扰、甚至淹没后,从噪声背景中提取有用的语音 信号,抑制、降低噪声干扰的技术。一句话,从 含噪语音中提取尽可能纯净的原始语音。
一、频域语音增强技术
是语音信号中的一种重要技术,由于其原理简单所 以被广泛使用,如手机中的降噪处理就是采用的此方 法,美国NCT的Clear Speech产品中,就是应用的这 技术。谱相减法是频域语音增强技术的常用方法。
1. 谱相减法的基本原理描述 2. 谱相减法的数学推导 3. 谱相减法的特点
1. 谱相减法(Spectral Subtraction)的基本原理描述
二、语音增强的意义
1. 日常生活中,经常会遇到在噪声干扰下进 行语音通信的问题。例如在汽车、火车上使用 移动电话,旁人的喧闹声,马路旁和市场里的 公用电话等。
2. 军事通信中,指挥员的作战命令和战斗员 的战情汇报都需要用语音来表达,由于战斗环 境中的声环境恶劣,特别是炸弹产生的冲击性 噪声,使有用信号完全淹没在噪声中。
声压、声强和声功率 (1)声压级(SPL):Lp=20lg(P/P0) P0=20uPa (2)声强级: LI=20lg(I/I0) I0=1012W/m2 (3)声功率级: Lw=20lg(W/W0) W0=1012W
噪声源和噪声环境 声压/Pa 声压级/dB
飞机附近
200
140
织布车间
20
100
出结果
0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
0
0 .5
1
1.5
2
2 .5
3
3.5
4
x 10
List Price: $179.95
Our Price: $149.95
Clear Speech Speaker
ClearSpeech Speaker is a digital speaker that removes up to 95% of background noise from the receive side of any two-way radio communication. The most common complaint about mobile communications is background noise. ClearSpeech™-Speaker is a high-tech, low cost solution that enhances the audio quality of car and truck fleet, emergency vehicle, marine,
|S'(w)| 2 =|X(w)|2 -|D'(w)|2
=|S(w)|2 + |D(w)|2 -|D'(w)|2
s'(n) =IDFT[ |S'(w)| ejarg(X(jw)) ]
3. 谱相减法的特点
(1)原理简单,只需要一个话筒,故又称为单话筒语 音降噪。
话
话筒 谱相减法 输出
音
处理
噪 声
(2) 需要无声和有声判决,在信噪比大的情况 下,使用短时平均能量等参数可达到效果。
hi (n)
2us(n)
n1(n i)
hN1(n 1) hN1(n)
n1(n N 1)
n1(n) z-1
z-1
h0(n) h1(n)
h2(n)
z-1 hN-1(n)
s’(n)
+
- n’(n)
+
+
主话筒
+
输出
话
+
音
-
参考话筒 自适应滤波器
噪 声
1. 自适应消噪的基本原理描述
主信号s+n0,为有用信号s(来自信号源)和一 个与它不相关的噪声信号的混合而成。
n1为另外拾取的噪声参考信号,与n0相关。
主输入信号x=s+n0 +
+ -
n’
参考输入n1 自适应 滤波器
输出s’
将参考信号n1通过自适应滤波器后,得到信号 n’(n),此信号与n0(n)基本一致。
PS Pn
参
可见,当参考通道的输入信噪比愈强,噪声抵 消系统输出信噪比愈差,所以,为了获得好的噪声 抵消系统性能,应使参考通道检测的信号尽可能小。
(2)主输入信号和参考输入信号中含有非相关 的噪声成分m0和m1 。自适应滤波只能将两个输入 中的噪声相关部分滤掉,则当信号不相关时,则 无法消除。
x(n)
2. 自适应消噪的实现框图
输入 模拟 放大
抗混叠 两路 滤波 A/D
DSP
一路 输出 D/A
在DSP中实现核心LMS算法,采样率为8kHz,利 用DSP串行口或定时器中断,每隔125us中断一次, 读入两路数据,将参考数据按照先入先出的顺序排 列,进行滤波,用主通道信号减去滤波后的数据, 得到增强后的信号,将此信号输出,修改滤波器权 系数。