共振峰提取的几种方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
题目:共振峰提取技术的理论研究作业题目与要求:
题目:共振峰提取技术的理论研究
要求:
(1)大量查阅关于共振峰提取技术的资料(通过Internet或图书馆,在Internet上可以通过搜索:formant Estimation等关键字来
查找相关的信息)。
(2)分析总结各种共振峰分析方法及其应用领域;
(3)写一篇关于共振峰提取技术及其应用技术现状的论文。
一、共振峰的概念
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。与基因检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:
(1)虚假峰值。在正常情况下,频谱包络中的极大值完全是又共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加2~3个额外的极点,有时可利用这些极点代表虚假峰值。
(2)共振峰合并。相邻共振峰的频率可能会靠的太近而难以分辨。这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。
(3)高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。
共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含
在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换
相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据
频谱包络线各峰值能量的大小确定出第1~第4共振峰,如图所示。
二、提取共振峰的方法
提取共振峰的几种常用方法包括:
(1)基于线性预测(LPC)的共振峰求取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,例如其频率灵敏度与人耳不相匹配,但对于许多应用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择:一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为求根法;另一种途径是找出由预测器导出的频谱包络中的局部极大值,称为选峰法。
(2)倒谱法。声道响应的倒谱衰减很快,在[-25,25]之外的值相当小,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数谱,对此做进一步处理即可求得所需的各个共振峰。
三、提取共振峰的实现
(1)基于线性预测(LPC)
在语音信号的LPC模型中,语音信号样本s(n)可由如下差分方程表示:
式中,u(n)为激励函数,G是增益,{ak;k =1,2,……P}是LPC系数。相应的数字滤波器传递函数H(z)为
上式还可表示为P个极点的级联形式:
式中,是H(z)在Z平面上第k个极点:若H(z)是稳定的,其
所有极点都在z平面的单位圆内。则第k个共振峰的频率和带宽分别为和,T为语音信号采样周期。语音信号的共振峰能由
数字激光器传递函数H(z)进行估计,最直接的方式是对H(z)进行多
项式求根,由所求的根来判断共振峰或谱形状极点。然而,该方法难
以快速而有效地找到根值。另一有效的获取共振峰的途径是语音信号LPC谱的谱峰检测的方法进行估计共振峰,该方法需要解决共振峰台
并的问题。McCandless试图采用在z平面单位圆内重复计算H(z)的
方式来分离合并的共振峰,另一个有效的方法是采用对数LPC谱的二
阶导数进行估计共振峰,取得较好效果。
(2)倒谱法
语音信号不是加性信号,而是卷积信号。为了能用线性系统对其
进行处理,可以先采用卷积同态系统处理。经过卷积同态系统后输出的伪时序序列称为原序列的“复倒频谱”。它的定义式可以表示为:
(){ln[{()}]}x n IFT FT x n ∧=
倒谱或称“倒频谱”的定义为:
(){ln |[()]|}c n IFT FT x n = 它和复倒谱的主要区别是对序列对数幅度谱的傅立叶逆变换,它是复倒谱中的偶对称分量。它们都将卷积运算,变为伪时域中的加法运算,使得信号可以运用满足叠加性的线性系统进行处理。复倒谱涉及复对数运算,而倒谱只进行实数的对数运算,较复倒谱的运算量大大减少。
如果1()c n 和2()c n 分别是1()x n 和2()x n 的倒谱,x(n)= 1()x n *2()x n ,那么x(n)的倒谱c(n)= 1()c n +2()c n 。
(2)倒谱法
选择最普遍的极零模式来描述声道相应x(n),其z 变换的形式为:
m 111
111)(1)
)(1)i mo k k k pi
po k k k z b z X z d z -==-==--∏∏∏∏k k (1-a (z)=|A|(1-c
经过傅立叶变换,取对数和逆傅立叶变换后可以得到其复倒谱:
1111ln ||(0)()n n pi mi k k k k n n
po mo k k k k A n c a x n n n n
b d n n n ∧==--==⎧⎪ =⎪⎪=- (>0)
⎨⎪⎪- (>0)⎪⎩∑∑∑∑
对于倒谱可以只考虑它的幅度特性,可以看出,它是一个衰减序列,且衰减的速度比1/|n|快。因而它比原信号x(n)更集中于原点附近,或者说它更具有短时性。
四、提取共振峰的实现方法的应用
(1)基于线性预测(LPC )的应用技术现状
肺部气流冲击声带.通过声道的响应,形成语音。不同的声道形状产生不同的声道响应,导致不同的语音。就声道的数学模型,主要有两种观点:
(一)把声道看作由多个不同截面积的声管串联而成,即声管模型;
(二)把声道看作谐振腔,共振峰就是该腔体的谐振频率,即共振峰模型。
因人耳听觉的柯替氏器官就是按频率感受而排列其位置的,因而,实践证明共振峰模型方法是非常有效的。共振峰是描述语音信号特征的重要参数,所以,准确有效的共振峰提取算法对语音信号的分析、台成、编码有重要意义。线性预测编码(LPC)是进行语音信号分