语音增强技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音是人类交换信息最方便快捷的一种方式,在高度发达的信息社会的今天,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。随着人类步入信息社会的步伐的加快,越来越多的地方需要采用语音信号处理的相关知识,例如数字电话通信、高音质的窄带语音通信系统、语言学习机、声控打字机、自动翻译机、只能机器人、新一代计算机语言智能终端及许多军事上的应用等,都需要用到语音信号处理的相关技术。语音信号处理的目的是要得到某些语音特征参数以便搞笑的传输或存储,或者是通过某种处理运算以达到某种用途的要求。
语音信号是人类传播和感情交流的重要媒介,是听觉器官对声音传媒戒指的机械振动的感知,也是人类最重要、最有效、最常用、最方便的通信方式。但是在通信过程中语音不可避免的受到外界环境和传输媒介引入的噪声,通信设备内部的电噪声乃至其他讲话者的干扰,这些干扰最终都会使得受到的语音信号并非纯净的原始语音信号,而是受到噪声污染的含噪语音信号。由噪声带来的语音质量的下降会使许多语音处理系统性能的急剧恶化。比如,由于语音生成模型是低速率语音编码的基础,当受到噪音干扰时,提取的模型参数将很不准确,重建的御用质量将会急剧恶化。又如,语音识别系统在实验室换将可以取得相当好的效果,然后在噪声环境中使用时系统将会受到严重的影响。在这样的一些情况下,采用语音增强技术进行预处理,会将有效的改善系统的性能。
语音增强的目标:
对收听人而言主要是改善语音质量,提高语音的可懂度,减少疲劳;
对语音处理系统(如声码器、手机等)而言是提高系统的识别率和抗干扰能力。
抗噪声的三大类解决方法:
1.语音增强算法
2.寻找稳健的语言特征作为特征作为特征参数
3.基于模型参数自适应的噪声补偿算法
语音增强的前提:
语音增强与语音信号处理理论有关,并涉及到人的听觉感知和语音学。由于噪声的来源众多,所以要针对不同的噪声作出不同的抗噪技术,因此研究语音增强首先需要对语音特性、人耳感知特性和噪声特性进行了解。
语音特性:
1.短时平稳性。
语音是时变的,非平稳和非遍历的随机过程。语音发声过程是一个时变过程,但是很多因素造成了发声系统的时变性,比如声音面积随着时间和距离的改变而改变,气流速度随着声门处压力的改变而改变等,但是声道形状却具有相对稳定的特性,在一段时间内,通常指10~30ms,人的声带和声道形状是相对稳定的,可认为其特征是不变的,因而语音的短时谱具有相对稳定的特性,在对语音信号进行分析处理时可将语音信号分为若干分帧,每一帧的语音可认为是准稳定的,语音增强则可利用这种短时平稳性。
2.语音信号可以分为清音和浊音
浊音是周期性的,在时域上呈现出明显的周期性,在频域上有共振峰结构,能量大部分集中在较低频段内,是语音中大幅度高能量的部分。
清音是非周期的,它没有明显的时域和频域特征,类似于白噪声,能量较小,在强噪音中容易被掩盖,但在较高信噪比时能提供较多的信息。
3.语音信号可以利用统计分析特征描述
由于语音信号的非平稳非遍历的特性,因此长时间的时域统计对语音增强算法意义不大,语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无限大时才能近似具有高斯分布,而在有限帧长时这种高斯模型只是一种近似的描述,可以作为分析的前提在宽带噪声污染的带噪语音增强中应用。
人耳感知特性
语音感知对语音增强研究有重要的作用,人耳对于语音的感知主要是通过语音信号的频谱分量幅度获取的,而对各分量相位则不敏感,对频率高低的感受近似与该频率的对数值成正比。人耳具有一个掩蔽效应,即一个较弱的声音会由于一个较强声音的出现而被感知阈值所掩蔽。人耳除了可以感受声音的强度、音调、音色和空间方位以外,还可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人体内部语音理解机制所具有的一种感知能力,语音增强的最终效果是人耳的主观感觉,所以在语音增强中可以利用人耳感知特性来减少运算代价。
噪声特性
由于噪声来自实际的生活环境中,所以可以说噪声的特性变化是无穷的。根据与输入语音的关系,噪声可以分为加性噪声和非加性噪声两大类。通常而言,对于某些非加性噪声可以通过一定的变换转换成加性噪声。
而加性噪声又可以被分为周期性噪声、脉冲噪声、宽带噪声、同声道语音干扰、传输噪声等。
1、周期性噪声
主要来源于发动机等周期性运转的机械,电气干扰也能引起周期性噪声。它的特点是频谱上有许多离散的线谱,实际信号受多种因素的影响,线谱分量通常转变为窄带谱结构,而且通常这些窄带谱都是时变的,位置也不固定。必须采用自适应滤波法才能有效的区分这些噪声分量。
2.脉冲噪声
主要来源于爆炸、撞击、放电及突发性干扰等。其特征是时间上的宽度很窄,清除脉冲噪声通常可以在时域内进行,其过程如下:根据带噪语音信号幅度的平均值确定阈值。当信号超出这一阈值时判别为脉冲噪声。然后对信号进行适当的衰减,就可完全消除噪声分量,也就可以使用内插方法将脉冲噪声在时域上进行平滑。
3.宽带噪声
宽带噪声的来源主要有热噪声,气流噪声及各种随机噪声源、量化噪声都可以视为宽带噪声。宽带噪声与语音信号在时域和频域上基本上重叠,只有在无语音期间,噪声分量才单独存在。因此消除这话中噪声比较困难。对于平稳的宽带噪声,通常可以认为白色高斯噪声。
4.同声道语音干扰
干扰语音信号和待传语音信号同时在一个信道中传输造成的语音干扰成为同声道语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳妆滤波器提取基音和歌词谐波,在恢复出有用的语音信号。
5.传输噪声
它是传输系统的电路噪声,与背景噪声不同,他在时域是语音和噪声的卷积。处理这种噪声可以采取同态处理的方法,把加性噪声变换为加性噪声来处理。
语音增强算法
根据不同噪声的特性,语音增强的算法也各有不同。
目前应用的算法大致可以分为四类:参数方法、非参数方法、统计方法和其他方法。
而谱减法属于非参数方法。
非参数方法不需要从带噪信号中估计模型参数,因此这种方法的应用范围较广。但由于没有利用可能的语音统计信息,故结果一般不是最优化的。这类方法包括自适应噪声抵销法、谱减法等。
谱减法
谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。这种方法没有使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱,与含噪语音频谱香煎