第9章抗噪声语音处理技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音增强
通过语音增强技术来改善语音质量的过程:
语音增强的主要目的是从带噪的语音信号中
尽可能地恢复出纯净的语音信号
语音增强的主要目的是从带噪的语音信号中
尽可能地恢复出纯净的语音信号。 主要介绍下面两种增强方法: 减谱法 Weiner滤波法
减谱法(SS)语音增强技术
基本原理
减谱法是处理宽带噪声较为传统和有效的方法,其基本思想 是在假定加性噪声与短时平稳的语音信号相互独立的条件下 ,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯 净的语音功率谱。
2 2
由于假定语音信号与加性噪声是相互独立的,因此有:
2
Y ( ) S ( ) N ( ) 因此,如果用Py ()、Ps ()、P 分别表示 y(t )、s(t )、n(t ) n ()
的功率谱,则有:
Py () Ps () Pn ()
而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没 有变化,这样可以通过发声前的所谓的“寂静段”(认为在 这一段里没有语音只有噪声)来估计噪声的功率谱 Pn (),从 而有: P () P () P ()
MAP是模型自适应的方法,
基本思想: 调整模型参数,使得训练环境和实际环境 之间能够最大程度的匹配。它可以很好的利 用模型的先验知识,因此能够解决数据稀少 的问题
9.1概述 9.2语音特性、人耳感知特性及 噪声特性 9.3语音增强技术 9.4特征补偿技术 9.5模型补偿技术
9.2语音特性、人耳感知特性及噪 声特性
语音特性 语音信号是一种非平稳的随机信号
任何语言的语音都有元音和辅音两种音素,根据发 音机理的不同,辅音又可以分为清辅音和浊辅音。 语音信号,作为非平稳、非遍历随机过程的样本函 数,其短时谱的统计特性在语音增强中又着举足轻 重的作用。(据中心极限定理,语音的短时谱的统计特性 服从高斯分布。)
以上推到过程是在短时平稳的前提下进行的,所以语音信号 Pn () 可以由类似于减谱法中讨 必须是加窗后的短时帧信号。 2 Ps ( )( E S ( ) ) 可以用带噪语音功率谱减去噪 论的方法得到; 声功率谱得到。
还有其他的一些Weiner滤波器的形式,如有理分式 结构的Weiner滤波器、隐含Weiner滤波器等等。采 用Weiner滤波器的最大好处是增强后的残留噪声类 似于高斯白噪声,而不是有节奏起伏的音乐噪声。
噪声特性
对噪声进行划分的标准很多各种分类方法分 析角度不同,介绍一下下面两种分类方法:
1).根据噪声统计特性随时间变化的程度可以
将噪声分为平稳噪声,缓变噪声和冲激噪声。
Βιβλιοθήκη Baidu
2)根据噪声对语音频谱的干扰方式可以把噪声主要 分为加性噪声和乘性噪声。
乘性噪声:乘性噪声是指噪声和语音在频谱是相 乘的关系在时域和语音则是卷积的关系。 例 残响及传输网络的电路噪声(非加性噪声往往可 以通过某种变换,如同态滤波,转为加性噪声)
9.1概述 9.2语音特性、人耳感知特性及 噪声特性 9.3语音增强技术 9.4特征补偿技术 9.5模型补偿技术
9.1 概述
语音信号作为信息的最普遍最直接的表达方式,在许多领域 具有广泛的应用前景。现实生活中的语音不可避免的要受到 环境的影响。 噪声分类: 按类别:可分为环境噪声等的加性噪声和残响及电器线路干 扰等的乘法性噪声
人耳感知特性: 对于声波频率高低的感觉与实际频率的高低不呈线 性关系,而近似为对数关系;对频率的分辨能力受 声强的影响;对语音信号的幅度谱较为敏感,对相 位不敏感。
人耳掩蔽效应:产生一个声音由于另外一个声音的 出现而导致该声音能被感知的阀值提高的现象。
语音增强的最终效果度量是人耳的主观感觉,所以在语音 增强中可以利用人耳感知特性来减少运算代价。
等方法。
CDCN(Code-Dependent Cepstral Normalization)
CDCN是早期的特征增强的方法之一,可以
联合补偿加性噪声和信道畸变。 其基本思想是对加性噪声和信道进行估计, 从而使输入帧的声学空间与当前环境的声学 空间达到最好的匹配。
方法假设语音特征分布满足高斯混合 模型(Gaussian Mixture Model,GMM)分 布,其实现过程可以分为以下两步: 1)用EM 算法对式(2.3)中的n 和h 进行估 计,并求出代表式中g(n−x−h)的修正矢量r , 迭代公式如下:
(4)语音干扰:干扰语音信号和待传语音信
号同时在一个信道中传输所造成语音干扰称 为语音干扰。 区别有用语音和干扰语音的基本方法是利 用它们的基音差别。考虑到一般情况下两种 语音的基音不同,也不成整数倍,这样可以 用梳状滤波器提取基音和各次谐波,再恢复 出有用语音信号。
(5)传输噪声:这是传输系统的电路噪声。
与背景噪声不同,它在时间域里是语音和噪 声的卷积。处理这种噪声可以采用同态处理 的方法,把非加性噪声变换为加性噪声来处 理
语音信号和噪声信号的区别
通过语音降噪技术来改善语音质量的过程如
图14-1所示
9.1概述 9.2语音特性、人耳感知特性及 噪声特性 9.3语音增强技术 9.4特征补偿技术 9.5模型补偿技术
本节主要讨论在最小均方准则下用Weiner滤波器实现对语音 信号的估计,即对于带噪语音信号 y(t ) s(t ) n(t ) (其中s(t ) n(t ) 为噪声信号),确定滤波器的冲击响应 h(t ) 为纯净语音信号, ,使得带噪语音信号经过该滤波器的输出s , (t ) 能够满足 2 , , E s (t ) s (t ) 最小(s (t )为滤波器输出)。
y(t ) 为带噪语音 n(t ) 为噪声信号, 如果设 s (t ) 为纯净语音信号, 信号,则有:
y(t ) s(t ) n(t )
用 Y ( )、S ( )、N ( ) 分别表示 y(t )、s(t )、n(t ) 的傅里叶变换 ,可得下式:
Y ( ) S ( ) N ( )
2)第二类方法是寻找稳健的耐噪声的语音特征参数。 如采用 短时修正的相干系数(Short-Time Modified Coherence Coefficient,简称为SMC)作为语音特征参数。
3)第三类方法是基于模型参数适应化的噪声补偿算法,如针 对加法性噪声的HMM合成法,和针对乘法性噪声的 Stochastic Matching法等。通常只考虑到噪声环境是平稳的, 在低信噪比语音以及非平稳噪声环境中的效果并不理想。
9.1概述 9.2语音特性、人耳感知特性及 噪声特性 9.3语音增强技术 9.4特征补偿技术 9.5模型补偿技术
语音增强
特征补偿技术
模型补偿技术
模型补偿技术
与抗噪声语音特征和语音增强技术相比,
模型补偿技术不是通过减小噪声对语音信号或 语音特征的影响来提高识别系统在噪声环境 中的识别率,而是通过修改语音模型的参数 ,使其能更准确地描述噪声环境中语音信号 的统计特性来提高处理系统的性能。
1)基本原理
假定s(t ) 和 n(t )都是短时平稳随机过程,则由Winer-Hopf
积分方程为:
Rsy ( )
h( ) R
xy
( )d
两边取傅里叶变换有:
Psy () H () Pyy ()
从而得到:
H ( )
Pxy ( ) Pyy ( )
CDCN
特征补偿技术
在很多情况下,背景噪声和失真的变化相对于语音 信号的变化来说要缓慢得多,并且语音信号的动态 部分在语音的感知中具有很大作用。 在语音特征的提取过程中,如果去除其慢变部分 ,则既可以去除稳定和变化缓慢的噪声,同时也保 留了语音中对感知重要的动态部分,因此可以提高 识别系统在噪声环境中的识别率。 这种方法在抗噪声语音特征的提取中得到广泛的应 用,通常可以应用在功率谱域、LOG能量谱域、倒 谱域或自相关等域中。
s y n
这样减出来的功率谱可以认为是较为纯净的语音功率谱,然 后,从这个功率谱可以恢复降噪后的语音时域信号。 在具体计算时,为防止出现负功率谱的情况,减谱时当 Py () Pn () 时,令 P () 0 ,即完整的减谱公式如下: s
Py ( ) Pn ( ), Py ( ) Pn ( ) Ps ( ) 0, Py ( ) Pn ( )
按性质:平稳噪声和非平稳噪声
LomBard现象:在噪声环境下,说话者情绪会发生变化,从 而引起声带的变化(对语音处理系统的影响相对较小)
国内外语音信号处理研究成果
目前国内外的研究成果从增强思想上主要分 为以下三类:
1)采用语音增强算法,提高语音识别系统前端预处理的抗噪 声能力,提高输入信号的信噪比。(与后端应用无关)
(2)周期噪声:最常见的有电动机,风扇之类周 期运转的机械所发出的周期噪声,50Hz交流电源哼 哼声也是周期噪声。通常可以采用陷波器方法予以 滤除。
3)宽带噪声:说话时同时伴随着呼吸引起的
噪声,随机噪声源产生的噪声,以及量化噪 声等都可以视为宽带噪声,应用中常近似为 Gauss噪声或白噪声。 其显著特点是噪声频谱遍布于语音信号频谱 之中,导致消除噪声较为困难。 一般需要采取非线性处理方法。
模型补偿技术
优点:由于这种方法充分地考虑了环境噪声
的特性,因此通常能取得很好的效果。
缺点:是补偿后的语音模型只能适应于特定
的工作环境,并且所需计算量一般比较大。
方法:
PMC 模型补偿方法、环境模型自适应方法 和VTS 模型补偿方法等。
PMC是模型分解的方法。
它的基本思想是: 如果干净语音模型为N 状态的HMM,噪 声模型为M 状态的HMM,那么带噪语音模型 可以认为是N×M状态的HMM。它假设干净 语音和噪声都符合混合高斯分布,然后通过 变换组合得到带噪语音的模型分布。
减谱法语音增强技术的基本原理图如图14-10所示。图中处 理频域过程只考虑了功率谱的变换,而最后IFFT变换中需要 借助相位谱来恢复降噪后的语音时域信号。依据人耳对相位 不敏感之一特点,这时可用原带噪语音 y(t )的相位谱来代替 估计之后的语音信号的相位谱来恢复降噪后的语音时域信号 。
利用Weiner滤波法语音增强技术
9.1概述 9.2语音特性、人耳感知特性及 噪声特性 9.3语音增强技术 9.4特征补偿技术 9.5模型补偿技术
特征补偿技术
主要通过信号的统计特性将带噪语音特征参
数中的噪声部分去除,消除噪声影响,得到 干净的语音特征参数以进行语音系统处理。
该方法包括CDCN、SDCN、SPLICE
和VTS
(12 31) (12 32)
再由于:
Psy () Ps ()
并且考虑到由于s(t ) 和 n(t ) 相互独立,所以有:
Pyy () Ps () Pn ()
将式(14-32)和式(14-33)代入式(14-31),则有下式 成立:
Ps ( ) H ( ) Ps ( ) Pn ( )
加性噪声:当噪声对语音的干扰表现为两者信号 在时域进行相加时该噪声被称为加性噪声显然噪声 和语音在频域也为相加关系。 例:冲激噪声、周期噪声、宽带噪声、语音干扰
(1)冲激噪声:例如放电,打火,爆炸都会引起 冲激噪声,它的时域波形是类似于冲激函数的窄脉 冲。 消除冲激噪声影响的方法通常有两种:对带噪语 音信号的幅度求均值,将该均值做为判断阈,凡是 超过该阈值的均判为冲激噪声,在时域中将其滤除; 当冲激脉冲不太密集时,也可以通过某些点内插的 方法避开或者平滑掉冲激点,从而能在重建语音信 号去掉冲激噪声。