谱减法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谱减法实验原理
谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。这种方法没有使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等。用无语音的间隙测量计算得到的噪声频谱的估计值取代有语音的期间噪声的频谱,与含噪声语音频谱相减的估计值。当上述差值得到负的幅度值时,将其置零。由于人耳对语音的感知主要是通过语音信号中各频谱分量幅度获得的,对各分量的相位不敏感。因此,此类语音增强方法将估计的对象放在短时谱幅度上。
谱相减法的优点是:总体上运算量较小,容易实时实现,增强效果也较好,是目前最常用的一种方法。
缺点是:谱相减法利用在无声期间统计得到的噪声方差代替当前帧的噪声频谱时,若该帧某频点上的噪声分量较大,则相减后有较大的噪声残留,频谱上有相应的而随机尖峰出现。增强后的语音会夹杂着有节奏的音乐残留噪声。
增强后的语音中含有明显的“音乐噪声”,这是由频谱相减而产生的一种残留噪声,具有一定的节奏起伏感,故而得名“音乐噪声”。“音乐噪声”产生的原因是因为在谱相减法过程中,是以无声期间统计平均的噪声方差代替当前分析帧的噪声频谱分量。而噪声频谱具有高斯分布,即其幅度随变化范围很宽,因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分保留,在频谱上呈现随机出现的尖峰,在听觉上形成有节奏性起伏的类似音乐的残留噪声。
一、课题提出的背景与研究现状
语音是人类相互间交流时使用最多、最基本的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输介质中引入的噪声、通信设备内部电噪声甚至其他人说话人的干扰等等。这些干扰会使接受端的语音成为受噪声污染的语音,当噪声干扰过于严重时,语音将会完全淹没于噪声之中,使其不能被分辨出来。语音质量的下降会使许多语音处理系统的性能急剧恶化。比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在噪声环境中使用时,系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取得模型参数将很不准确,重建的语音质量急剧恶化。此时采用语音增强技术进行预处理,将有效地改善系统性能。
随着语音技术研究的深入和实际应用的增多,各种语音处理系统都面临着进一步提高性能的问题。语音增强是其中的关键技术之一。从20世纪60年代开始,语音增强的研究就一直没有停止。20世纪70年代由于数字信号处理理论的成熟,语音增强曾经形成里一个研究热潮,取得了一些基础性成果。20世纪80年代以后,VLSL(超大规模集成电路Very Large Scale Integration)技术的发展为语音增强的实时实现提供了可能。目前,处理基于信号处理理论的研究外,针对人的听觉感知系统的生理特性研究、语言学中上下文联想智能的研究等,都在进一步推动着语音增强的研究。
语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪音信号都是随机产生的,完全消噪几乎不可能。因此实际语音增强的目标有:改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦;提高语音可懂度,方便听者理解。到目前为止,还没有哪种语音增强系统可以同时很好地改善语音质量和可懂度这两个指标。衡量语音增强效果分别涉及语音的主观度量两个不同方面,有主观测试和客观测试两种方法可用。主观测试方法包括平均意见得分、判断韵字测试和判断满意度测量等。客观测试方法主要根据增强语音的时域波形和频域语谱,给出客观的数值度量。例如一种常用的方法是采用信噪比来度量,此时信噪比的定义是原始语音信号功率与归一化后的增强语音和原始语音之差的功率比。对于语音识别系统而言,识别率的改善是更为直接的度量指标。
二、语音和噪声的特性
语音增强不仅涉及信号检测、波形估计等传统信号处理理论,而且与语音特性、人耳感知特性密切相关,同时由于实际应用中噪声的来源及种类各不相同,从而造成处理方法的多样性。因此要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。
2.1语音特性
语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内(10~30ms)其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。语音信号分为清音和浊音两大类,两者在语音产生机理上和特征上有明显的差异。比如浊音在时域上有明显的周期性和较强的振幅,其能量大部分集中在低频域内,在频谱上表现出共振峰结构;而清音没有明显的时域和频域特征,波形类似于白噪声并有较弱的振幅。在语音增强中,可以利用浊音的准周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。
2.2耳感知特性
语音增强效果的最终效果度量是人耳的主观感受,所以在语音增强中可以利用人耳感知特性来减少运算代价。目前已有一些有用的结论可应用于语音增强:人耳对语音的感知主要是通过语音信号频谱分量幅度获取的,对各分量相位则不敏感;人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度的对数成正比;人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用,掩蔽的程度是声音强度与频率的二元函数,对频率的临近分量的掩蔽要比频差大的分量有效得多;人耳还可以在两个人以上的讲话环境中分辨出所需要的声音等等。
2.3噪声特性
噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换转变为加性噪声。例如,乘性噪声可以通过同态变换转换为加性噪声。加性噪声通常分为周期性噪声、脉冲噪声、宽带噪声和同声道语音干扰等。周期性噪声主要来源于发动机等周期性运转的机械,电气干扰也会引起周期性噪声。其特点是频谱上有许多离散的、时变的、与语音信号重叠的窄谱峰,必须采用自适应滤波的方法才有可能自动识别和区分噪声分量。脉冲噪声来源于爆炸、撞击、放电及突发性干扰等,其特点是时域波形是类似于冲击函数的窄脉冲,消除这种噪声可以在时域内进行。宽带噪声的来源很多,包括风、呼吸噪声和一般的随机噪声源。