6第五章 语音增强技术 语音信号处理 课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
一、频域语音增强技术
是语音信号中的一种重要技术,由于其原理简单所 以被广泛使用,如手机中的降噪处理就是采用的此方 法,美国NCT的Clear Speech产品中,就是应用的这 技术。谱相减法是频域语音增强技术的常用方法。 1. 谱相减法的基本原理描述 2. 谱相减法的数学推导 3. 谱相减法的特点
23
蓝色为原始含噪语音
黄色为谱相减处理的结果
24
二、时域语音增强技术
语音增强中另一常用技术,其特点是对语音的 损伤小。在消噪过程中,一般需要二个以上话筒, 采用自适应滤波算法。故常常将时域语音增强技术 称为自适应语音降噪技术(Adaptive noise cancelling ANC)。
21
(2) 需要无声和有声判决,在信噪比大的情况 下,使用短时平均能量等参数可达到效果。 (3)由于该方法存在的前提条件要求噪声平稳, 因此当噪声特性变化时,消噪效果可能会变差, 这时需要重新拾取噪声特性。
22
(4)由于噪声的随机分布的范围广,因此相减时, 若该帧某频率点上的噪声谱幅度分量大时,就会 有很大一部分残留,在频谱上呈现随机起伏的尖 峰。在听觉上形成有节奏的类似音乐的残留噪声, 又称为背景音乐噪声。背景音乐噪声损伤了语音 的质量,降低了可懂度和清晰度,是该类方法最 大的缺点。
17
2. 谱相减法的数学推导
首先假设语音和噪声信号是线性叠加的,且 噪声是平稳的,噪声与语音信号不相关。
x(n)=s(n)+d(n)
X(ejw)=S(ejw)+D(ejw)
简写为: X(w)=S(w)+D(w)
X(w)• X*(w) =(S(w)+D(w)) • (S(w)+D(w))*
展开得到:
19
利用语音信号的短时平稳性,加之噪声信号的平 稳性。由于傅立叶变换不会改变信号的统计特性,在 一帧中,X(w) 、S(w)和D(w)都是平稳的。因此,在 一帧内可用单个值来代替均值。
|X(w)|2 =|S(w)|2 + |D(w)|2
利用有声/无声判决的纯噪声信号d'(n)与d(n)不 完全一致,因此:
地铁
0.53
90
繁华街道
0.053 70
普通谈话
0.02
50
安静房间
0.002 40
耳语
0.00053 30
树叶沙沙声
0.0002 20
农村静夜
0.000053 10
听阈
0.00002 0
11
声压和声压级表征声音在物理上的强弱,它是 对噪声的客观评价,不能表征人对声音的主观感觉。 响应级和响度是人耳对噪声的主观评价的基本量之 一。响度的单位为宋(Sone)响度级的单位为方 (phon),在数值上等于1kHz纯音的声强级。
第5章 语音增强技术
§5.1 语音增强技术的概念和研究的意义 §5.2 噪声度量、特性和评价 §5.3 语音增强的原理和方法
1
§5.1 语音增强技术的概念和研究的意义
一、语音增强的定义 二、语音增强研究的意义
2
一、语音增强的定义
语音增强是指当语音信号被各种各样的噪声干 扰、甚至淹没后,从噪声背景中提取有用的语音 信号,抑制、降低噪声干扰的技术。一句话,从 含噪语音中提取尽可能纯净的原始语音。
15
1. 谱相减法(Spectral Subtraction)的基本原理描述
含噪
+
语音
DFT |X(ejw)|
x(n)=s(n)+d(n)
平方
-
纯噪
平方
DFT
|D'(ejw)|
声
d'(n)
插入 相位
开方 |S'(ejw)|
ejarg(X(jw))
原始语音谱幅度的估值
IDFT
s'(n)
16
将含噪语音信号和有声/无声判别得 到的纯噪声信号进行DFT变化,从含噪语 音谱幅度的平方中减去纯噪声的谱幅度的 平方,然后开方,得原始语音谱幅度的估 值,再借用含噪语音的相位,进行IDFT 变化,得到增强的语音。
|S'(w)| 2 =|X(w)|2 -|D'(w)|2
Байду номын сангаас
=|S(w)|2 + |D(w)|2 -|D'(w)|2
s'(n) =IDFT[ |S'(w)| ejarg(X(jw)) ]
20
3. 谱相减法的特点
(1)原理简单,只需要一个话筒,故又称为单话筒语 音降噪。
话
话筒 谱相减法 输出
音
处理
噪 声
8
(2)按性质分为:脉冲噪声(爆炸、撞击和放电) 和连续噪声;周期性周期(如交流电的干扰)和非 周期性噪声;按统计特性分为:平稳噪声(如白噪 声)和非平稳噪声(如色噪声);按噪声和信号相 关的性质分为加性噪声和乘性噪声。
我们研究的噪声是声音的一种,它具有声波的一 切特性,称之为声噪声。
9
3.噪声的度量
噪声度量的另一个参数就是信噪比。 SNR=SNRout/SNRin
12
二、噪声的特性
从统计特性的角度讲:平稳噪声和非平稳 噪声。白噪声是平稳噪声中的一种,其频谱和 功率谱为常数,其概率密度分布是满足正态分 布。
13
§5.3 语音增强的原理和方法
一、频域语音增强技术 二、时域语音增强技术 三、时频语音增强技术 四、麦克风阵列语音降噪技术
3
§5.2 噪声度量、特性和评价
一、噪声的分类和度量 二、噪声的特性
6
一、噪声的分类和度量
1.噪声的定义:噪声是扣除被测信号真实值后的 各种测量值,可能来自外界环境、物理系统、操 作人员等。广义将噪声称为干扰。
7
2.噪声的分类
按产生原因和按噪声性质分类。 (1)产生原因:产生于物理系统外部,并以 声、光、电、机械等方式作用于物理系统, 称为外部噪声;物理系统内部产生的噪声称 为内部噪声,例如量子噪声等。
|X(w)|2=|S(w)|2+ |D(w)|2+ S(w) • D*(w) + S*(w) • D (w)
18
对上式两边取数学期望有: E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ] +
E[ S(w) • D*(w) ] + E[ S*(w) • D (w) ] 由于噪声与语音信号不相关,且傅立叶变换不 会改变信号之间的相关性,上式中,最后两项均 为0。则上式简化为: E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ]
声压、声强和声功率 (1)声压级(SPL):Lp=20lg(P/P0) P0=20uPa (2)声强级: LI=20lg(I/I0) I0=105W/m2 (3)声功率级: Lw=20lg(W/W0) W0=105W
10
噪声源和噪声环境 声压/Pa 声压级/dB
飞机附近
200
140
织布车间
20
100
一、频域语音增强技术
是语音信号中的一种重要技术,由于其原理简单所 以被广泛使用,如手机中的降噪处理就是采用的此方 法,美国NCT的Clear Speech产品中,就是应用的这 技术。谱相减法是频域语音增强技术的常用方法。 1. 谱相减法的基本原理描述 2. 谱相减法的数学推导 3. 谱相减法的特点
23
蓝色为原始含噪语音
黄色为谱相减处理的结果
24
二、时域语音增强技术
语音增强中另一常用技术,其特点是对语音的 损伤小。在消噪过程中,一般需要二个以上话筒, 采用自适应滤波算法。故常常将时域语音增强技术 称为自适应语音降噪技术(Adaptive noise cancelling ANC)。
21
(2) 需要无声和有声判决,在信噪比大的情况 下,使用短时平均能量等参数可达到效果。 (3)由于该方法存在的前提条件要求噪声平稳, 因此当噪声特性变化时,消噪效果可能会变差, 这时需要重新拾取噪声特性。
22
(4)由于噪声的随机分布的范围广,因此相减时, 若该帧某频率点上的噪声谱幅度分量大时,就会 有很大一部分残留,在频谱上呈现随机起伏的尖 峰。在听觉上形成有节奏的类似音乐的残留噪声, 又称为背景音乐噪声。背景音乐噪声损伤了语音 的质量,降低了可懂度和清晰度,是该类方法最 大的缺点。
17
2. 谱相减法的数学推导
首先假设语音和噪声信号是线性叠加的,且 噪声是平稳的,噪声与语音信号不相关。
x(n)=s(n)+d(n)
X(ejw)=S(ejw)+D(ejw)
简写为: X(w)=S(w)+D(w)
X(w)• X*(w) =(S(w)+D(w)) • (S(w)+D(w))*
展开得到:
19
利用语音信号的短时平稳性,加之噪声信号的平 稳性。由于傅立叶变换不会改变信号的统计特性,在 一帧中,X(w) 、S(w)和D(w)都是平稳的。因此,在 一帧内可用单个值来代替均值。
|X(w)|2 =|S(w)|2 + |D(w)|2
利用有声/无声判决的纯噪声信号d'(n)与d(n)不 完全一致,因此:
地铁
0.53
90
繁华街道
0.053 70
普通谈话
0.02
50
安静房间
0.002 40
耳语
0.00053 30
树叶沙沙声
0.0002 20
农村静夜
0.000053 10
听阈
0.00002 0
11
声压和声压级表征声音在物理上的强弱,它是 对噪声的客观评价,不能表征人对声音的主观感觉。 响应级和响度是人耳对噪声的主观评价的基本量之 一。响度的单位为宋(Sone)响度级的单位为方 (phon),在数值上等于1kHz纯音的声强级。
第5章 语音增强技术
§5.1 语音增强技术的概念和研究的意义 §5.2 噪声度量、特性和评价 §5.3 语音增强的原理和方法
1
§5.1 语音增强技术的概念和研究的意义
一、语音增强的定义 二、语音增强研究的意义
2
一、语音增强的定义
语音增强是指当语音信号被各种各样的噪声干 扰、甚至淹没后,从噪声背景中提取有用的语音 信号,抑制、降低噪声干扰的技术。一句话,从 含噪语音中提取尽可能纯净的原始语音。
15
1. 谱相减法(Spectral Subtraction)的基本原理描述
含噪
+
语音
DFT |X(ejw)|
x(n)=s(n)+d(n)
平方
-
纯噪
平方
DFT
|D'(ejw)|
声
d'(n)
插入 相位
开方 |S'(ejw)|
ejarg(X(jw))
原始语音谱幅度的估值
IDFT
s'(n)
16
将含噪语音信号和有声/无声判别得 到的纯噪声信号进行DFT变化,从含噪语 音谱幅度的平方中减去纯噪声的谱幅度的 平方,然后开方,得原始语音谱幅度的估 值,再借用含噪语音的相位,进行IDFT 变化,得到增强的语音。
|S'(w)| 2 =|X(w)|2 -|D'(w)|2
Байду номын сангаас
=|S(w)|2 + |D(w)|2 -|D'(w)|2
s'(n) =IDFT[ |S'(w)| ejarg(X(jw)) ]
20
3. 谱相减法的特点
(1)原理简单,只需要一个话筒,故又称为单话筒语 音降噪。
话
话筒 谱相减法 输出
音
处理
噪 声
8
(2)按性质分为:脉冲噪声(爆炸、撞击和放电) 和连续噪声;周期性周期(如交流电的干扰)和非 周期性噪声;按统计特性分为:平稳噪声(如白噪 声)和非平稳噪声(如色噪声);按噪声和信号相 关的性质分为加性噪声和乘性噪声。
我们研究的噪声是声音的一种,它具有声波的一 切特性,称之为声噪声。
9
3.噪声的度量
噪声度量的另一个参数就是信噪比。 SNR=SNRout/SNRin
12
二、噪声的特性
从统计特性的角度讲:平稳噪声和非平稳 噪声。白噪声是平稳噪声中的一种,其频谱和 功率谱为常数,其概率密度分布是满足正态分 布。
13
§5.3 语音增强的原理和方法
一、频域语音增强技术 二、时域语音增强技术 三、时频语音增强技术 四、麦克风阵列语音降噪技术
3
§5.2 噪声度量、特性和评价
一、噪声的分类和度量 二、噪声的特性
6
一、噪声的分类和度量
1.噪声的定义:噪声是扣除被测信号真实值后的 各种测量值,可能来自外界环境、物理系统、操 作人员等。广义将噪声称为干扰。
7
2.噪声的分类
按产生原因和按噪声性质分类。 (1)产生原因:产生于物理系统外部,并以 声、光、电、机械等方式作用于物理系统, 称为外部噪声;物理系统内部产生的噪声称 为内部噪声,例如量子噪声等。
|X(w)|2=|S(w)|2+ |D(w)|2+ S(w) • D*(w) + S*(w) • D (w)
18
对上式两边取数学期望有: E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ] +
E[ S(w) • D*(w) ] + E[ S*(w) • D (w) ] 由于噪声与语音信号不相关,且傅立叶变换不 会改变信号之间的相关性,上式中,最后两项均 为0。则上式简化为: E[ |X(w)|2 ]= E[ |S(w)|2 ] + E[ |D(w)|2 ]
声压、声强和声功率 (1)声压级(SPL):Lp=20lg(P/P0) P0=20uPa (2)声强级: LI=20lg(I/I0) I0=105W/m2 (3)声功率级: Lw=20lg(W/W0) W0=105W
10
噪声源和噪声环境 声压/Pa 声压级/dB
飞机附近
200
140
织布车间
20
100