语音增强算法的分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音增强算法的分类
现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。
以上原因使语音增强技术研究呈现百花齐放的局面。
几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了许多有效的方法。
根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强算法。
单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。
这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。
这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。
而多通道的语音系统中语音增强的一种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得到增强的语音。
比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。
另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。
由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。
按照所依据原理的不同,我们可以将语音增强分为以下几类:
(1)参数方法
此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。
这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。
这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。
(2)非参数方法
非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。
但由于没有利用可能的语言统计信息,故结果一般不是最优的。
同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。
由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。
非参数方法主要包括谱减法、自适应滤波法等。
(3)统计方法
统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。
此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。
这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等。
(4)多通道方法
多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。
噪声抵消法、延迟一相加波束形成器(delay-sum beamformer)、
自适应波束形成器(adaptive beam former)、后滤波波束形成器(post-filtering beamformer)、独立分量分析(Independent Component Analysis,ICA)方法都归于这一类。
(5)其它方法
这类方法与前述方法相比,不够成熟,使用没有前述方法广泛,我们可以概括的称之为非主流方法。
这类方法主要有:基于小波(Wavelet)变换、卡亨南一洛维变换(KLT,KarhunenLoeve Transform)、离散余弦变换(DCT,Discrete Cosine Transform)等的语音增强算法。
此类中的上述几种方法不需像前述方法那样去对语音进行建模,也不需要依据各种准则对噪声的参数进行估计。
除此以外,还可以将语音增强算法按时域与频域分为两类:时域方法主要有基于子空间的语音增强算法;频域方法主要有谱减法、基于MMSE的语音增强算法等。
相对而言,时域方法计算量较大而频域方法计算量较小。
本书主要根据语音信号处理方式的不同,将语音信号处理分为时域语音增强算法和变换域语音增强算法。
时域语音增强是指在时间域直接对带噪语音进行处理来恢复纯净语音的方法,不许对信号进行额外变换,多利用语音信号在时域中的短时平稳性、相关性来研究具有针对性的噪声消除技术。
变换域语音增强是指在变换域对语音信号进行分析和处理的方法,其对于带噪语音增强效果优于时域语音增强算法。
首先通过一个适当的变换经语音信号转换到变换域中,针对变换域中的带噪语音分量的特性计算法恢复纯净语音分量,最后再通过相应的反变换来获得纯净语音信号在时域中的估计。
本书将着重介绍在变换域对语音信号的增强,主要包括以下几种语音增强方法:短时谱估计语音增强方法,听觉掩蔽效应增强方法,自适应增强方法,小波变换算法,基于频域盲源分离的语音增强算法。