智能语音增强技术综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能语音增强技术综述
前言: 语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知
和语音学范畴。再者,噪声的来源众多,因应用场合而异,它们的特性也各不相 同。所以必须针对不同噪声,采用不同的语音增强对策。目前,某些语音增强算 法在实际应用中己经证明是有效的,它们大体上可分为四类:噪声对消法、谐波 增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。 语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。 然而, 由于干扰通常都是随机的, 从带噪语音中提取完全纯净的语音几乎不可能。 在这种情况下, 语音增强的目的主要有两个: 一是改进语音质量, 消除背景噪音, 使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是 一种客观度量。 这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行 语音增强的方法,可以显著地降低背景噪声,改进语音质量,但并不能提高语音 的可懂度,甚至略有下降。 目前常用的语音增强算法分为如下几类:基于谱相减的语音增强算法、基于 小波分析的语音增强算法、 基于卡尔曼滤波的语音增强算法、基于信号子空间的 增强方法、 基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方 法、基于神经网络的语音增强方法。这里只是介绍一下各种语音增强方法流程, 待确定方向之后再深入研究。
w(n) 0.54 0.46 * cos(2n /( N 1)),0 n N 1
(2-5)
语音信号的短时傅立叶变换
语音信号的频域分析在信号处理中占有十分重要的地位,在频域内研究语音信号,可 以使信号某些在时域内无法表现出来的特征变得十分明显,比较常用的是傅立叶变换。 传统傅立叶变换是以应用数学为基础建立起来的一门学科, 它将信号分解为各个不同频 率分量组合, 使信号的时域特征与频域特征联系起来成为信号处理的有利工具。 但傅立叶变 换使用的是一种全局变换, 无法表述信号的局部性质, 而短时傅立叶变换可以弥补这种缺点。 正如前面的分析所述,由于语音信号是短时平稳的,因此,我们可以对语音进行分帧处理, 计算某一帧的傅立叶变换,这样得到的就是短时傅立叶变换,其定义为:
正文:
一、一般语音增强系统介绍
系统基本结构
剩余降噪
带噪语音 LP 分析与 LP 谱相减 LP 极 点 分布 谐振候 选估计
语音重构
卡尔曼 滤波
增强了语音 LP 谱重构
VAD
噪声的 LP 模型
语音特性分析
语音是人们讲话时发声器官发出的一种声波,具有声音的物理特性。因此,有必要了解 语音信号的一些基本特征。 浊音在时域上呈现出明显的周期性; 在频域上有共振峰结构, 而且能量大部分集中在较 低频段内,而清音段没有明显的时域和频域特征,类似于白噪声。
其中, 与 为加重因子,一般取 0.8 ~ 0.95 。
(2-4)
由于语音信号是一种非平稳的时变信号, 其产生过程与发声器官的运动紧密相关。 而发
声器官的状态速度较声音振动的速度缓慢的多, 因此语音信号可以认为是短时平稳的。 研究 发现,在 5~50ms 的范围内,语音频谱特征和一些物理特征参数基本保持不变。因此可以将 平稳过程中的处理方法和理论引入到语音信号的短时处理当中, 将语音信号划分为很多短时 的语音段,每个短时的语音段称为一个分析帧。这样,对每一帧语音信号处理就相当于对特 征固定的持续信号进行处理。 帧既可以是连续的, 也可以采用交叠分帧, 一般帧长取 10~30ms。 取数据时,前一帧和后一帧的交迭部分称为帧移,帧移与帧长之比一般取为 0~1/2。 对取出的语音帧要经过加窗处理,即用一定的窗函数 w(n) 与信号相乘,从而形成加窗 语音。加窗的主要作用在于减少由分帧处理带来的频谱泄露,这是因为,分帧是对语音信号 的突然截断, 相当于语音信号的频谱与矩形窗函数频谱的周期卷积。 由于矩形窗频谱的旁瓣 较高,信号的频谱会产生“拖尾” ,即频谱泄露。为此,可采用汉明窗,因为汉明窗旁瓣最 低,可以有效地克服泄露现象,具有更平滑的低通特性,得到的频谱比较平滑。 汉明(Hamming)窗定义:
式中, N 是信号的长度; 表示卷积。 预处理
由于语音信号的平均功率谱受声门激励和口鼻辐射影响, 高端大约在 800Hz 以上按 6dB/ 倍频跌落,即 6dB/oct(2 倍频)或 20dB/oct(10 倍频),所以在求语音信号频谱时,频率越高 的相应成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重处理。 预加重的目的是提升高频部分,是信号的频谱变得平坦,保持在低频到高频的整个频带中, 能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。 预加重可由提升高频特性的预加重数字滤波器来实现,它一般是一阶数字滤波器:
X n (e j )
m
x(m)w(n m)e

jm
(2-6)
其中 w(n) 为实数窗函数, n 取不同值时,窗 w(n m) 沿时间轴滑动到不同的位置, 取出不同的语音帧进行傅立叶变换。短时傅立叶变换是时间 n 和角频率 的函数,它反映 了语音信号的频谱随时间变化的特性。
二、几种主要语音增强系统的基本原理及实现
语音信号的数字化和预处理 语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D 转换及编码(一 般就是 PCM 码) 。预处理一般包括预加重、加窗和分帧等。
语音信号预滤波、采样、A/D 转换
预滤波的目的有两个:①抑制输入信号各频域分量中频率超出������������ /2的所有分量(������������ 为采 样频率) ,以防止混叠干扰;②抑制 50Hz 的电源工频干扰。这样预滤波器必须是一个带通滤 波器,设其上、下截止频率分别为������������ 和������������ ,则对于绝大多数语音编译码器,������������ = 3400������������, ������������ = 60~100������������,采样频率������������ = 8000������������;而对于语音识别而言,当用于电话用户时,指标 和与语音编译码器相同。 语音信号经过预滤波和采样后, 由 A/D 转换器转换为二进制数字码。 通过以上分析,首先将语音信号������(������)通过一个通带频率为 60~4000Hz 的带通滤波器 ℎ(������),得到 ������ ′ ������ = ������ ������ ∗ ℎ ������ ������ = 1,2, ⋯ ������ (2-1)
H (Z ) 1 Z 1
(2-2)
经过证明得知, 以上滤波器工作原理与以下在时间域运算的公式等价, 故加重方式如下:
s ' (n) s(n) s(n 1)
为了恢复原信号,需要对做过预加重的信号频谱进行去加重处理。 (n) s ' (n) s ' (n 1)
噪声分类及其特性
噪声来源于实际的应用环境,因而噪声特性可以说是千变万化。噪声可以是加性的,也 可以是非加性的。 对于非加性噪声, 有些可以通过变换转变成加性噪声, 例如, 乘性噪声(或 卷积噪声)可以通过同态变换而成为加性噪声。又如,某些与信号相关的量化噪声可以通过 伪随机噪声扰动的方法变换成与信号独立的加性噪声。 加性噪声大体上可分为以下几种: 白 噪声、周期性噪声、脉冲性噪声、宽带噪声等。 周期性噪声的特点是有许多离散的窄谱峰, 它往往来源于发动机等周期性运转的机械设 备。 周期性噪声引起的问题可能最少, 因为可以通过功率谱发现并通过滤波或变换技术将其 去掉。但是,其中交流噪声的抑制很困难,因为其频率成分不是基音(因为它在语音信号有 效频率以下),而是谐波成分(它可能以脉冲形式覆盖整个音频频谱)。 冲击噪声表现为时域波形中突然出现的脉冲, 它通常是放电的结果。 消除这种噪声可以 在时域进行,即根据带噪语音信号幅度的平均值确定阈值。当信号幅度超出这一阈值时,判 别为冲击噪声,在对其进行衰减甚至完全消除。如果干扰脉冲之间不太靠近,还可以根据信 号相邻样本数值简单地通过内插法将其从时间函数中去掉。 宽带噪声通常可以假定为高斯噪声和白噪声,它的来源很多,包括风、呼吸噪声和一般 随机噪声源。量化噪声通常作为白噪声来处理,也可以视为宽带噪声。由于宽带噪声与语音 信号在时域和频域上完全重叠,因而消除它最为困难。对于非平稳的宽带噪声,情况更为复 杂。
语音信号是非平稳、时变的,但又是准平稳、慢变的,因此短时处理技术是合适的。语 音信号的时域特征参数主要有短时能量, 短时过零率和短时能量比等。 时域分析具有特征提 取简单、运算量小、物理意义明确等优点,便于我们直观的认识语音信号。但它的缺点是不 能压缩维数,且不适于表征幅度谱特性。因此频域的特性显得尤为重要。 短时分析应用于频域就是短时傅立叶变换。相应的频谱称为“短时谱” ,即有限长度的 傅立叶变换。 频域参数对于语音识别系统来说更为有效, 这是因为频域特征参数能从不同角 度反映幅度谱的特征,例如,频谱、频谱包络、倒谱系数、共振峰等。
相关文档
最新文档