语音增强的发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音增强的发展
在二十世纪初期和中期语音增强领域的进步主要是在语音可懂度研究的声学领域,而近几十年来主要的进步是来自于数字信号处理和模式识别。六十到七十年代,关于语音可懂度方面的研究逐渐减少并转入沉寂。语音增强研究的另一个源动力信号处理开始显示其力量。这个源头也起源于第二次世界大战,其关键是自动机械的控制理论和电子计算机。维纳提出了平稳条件下的维纳滤波理论,而战后火箭和卫星等空间技术的迅速发展则导致了用状态变量进行递推滤波的卡尔曼滤波理论。但因为语音信号是非平稳的,而且无法用状态方程,当时没有将滤波理论用于语音增强。
七十年代中后期,半导体发展导致了通用电子计算机的进步,数字信号处理技术因此迅速发展起来,这是语音处理真正的转折点。快速傅利叶变换(FFT-Fast Fourier Transform )和线性系统理论的发展提出了语音发声的模型,见图1-3。
图1-3 语音信号的产生模型
其中Av 和Au 分别是浊音和清音的激励幅度,声道模型的传输函数V(z)用全极点模型(AR-Auto Regressive )近似表示为:
∑=--=N k k
k z a z V 111
)(
其中N 是模型阶数,k a 是各阶极点的系数,z 是z 变换域的自变量。此模型可等价为线性预测编码(LPC-Linear Predictive Code)模型,存在由输出信号求解模型系数的快速递推算法。 在上述模型的基础上,借助于计算机的强大计算能力,人们自七十年代末起开始提出基于数字信号处理的语音增强方法。这方面的进展主要反映在每年一届的国际声学、语音学和信号处理会议(ICASSP-International Conference onAcoustic,Speech and Signal Processing)上。
注意到浊音的周期性,人们首先提出用梳状滤波器加强周期性的语音而衰减非周期性的噪音。在自适应噪声抵消的思想指导下发展了自适应滤波的语音增强方案。估计带噪声语音
的AR模型参数,就能够以迭代的方式进行维纳滤波。利用AR模型也能写出带噪语音的状态空间方程,从一组状态方程出发能够进行卡尔曼滤波。如果利用噪音的平均谱估计有语音期间的噪声,则加性的噪音能量可用频谱减法有效地抑制,此方法简单而实用,是非常重要的语音增强算法,并受到了研究者的一贯关注。
上述语音增强算法均是七十年代末八十年代初的研究成果。在八十年代,机器人和模式识别的研究推动了语音识别技术的发展,而在语音识别中使用的概念和方法又被借鉴到语音增强算法中。八十年代末九十年代初,使用统计方法的语音增强方法成为研究的中心。如设计稳定的语音特征参数、加入语音动态参数等增强方法就是直接为语音识别系统服务的。通过建立纯净语音特征矢量空间和带噪语音特征矢量空间的映射关系实现语音增强是一个与以前不同的设想。统计方法中最典型的是隐马尔科夫模型(HMM-Hidden Markov Model)方法,它既是语音识别的主要方法,也可以概率方式将语音增强问题纳入其模型框架。
九十年代至今,语音识别与移动通信技术的飞速发展为语音增强的研究提供了十足的原动力,各种新算法以及原有算法的改进形式相继问世。如基于信号子空间的语音增强算法;利用人工神经网络实现语音增强的方法;基于小波分解的滤波方法;改进的谱减法;听觉屏蔽法以及各种多通道语音增强算法等。此外,随着盲源分离技术的发展,将语音信号和背景噪声作为源信号,通过对信号进行分离来达到语音增强目的的方法也逐渐得到了各国学者的重点关注。