第三章语音信号分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平均幅度差函数法
一般的浊音语音的短时AMDF所呈现的周期谷值特性中,除 起始零点( Fn (1) 0)外,第一周期谷点大多就是全局最低谷 点,以全局最低谷点作为基音周期计算点不会发生检测错 误。但是,对于周期性和平稳性都不太好的浊音语音段, 其基本AMDF常常会出现第一周期谷点并不是全局最低谷点 全局最低谷点出现在其他整数倍点的情况,这种现象在CAMDF、W-AMDF、LV-AMDF、LP-AMDF中依然存在。在这种情 况下,若以全局最低谷点作为基音周期计算点就会产生严 重的检测错误。解决这一问题的方法之一是采用适当的基 音周期计算点的搜索算法。
平均幅度差函数法
其中,W-AMDF定义为:
k 1 1 N Fk () S ( m k 1 )S () m n W n n N k 1 m 1
而LV-AMDF定义为:
1k F () k Smk ( 1 ) Sm () n L V n n k m 1
带通滤波器组法
倒谱法
虽然可以直接对语音信号求离散傅里叶变换(DFT)。然 后用DFT谱来提取信号的共振峰参数,但是,直接DFT的 谱要受基频谐波的影响,最大值只能出现在谐波频率上, 因而共振峰测定误差较大。 为了消除基频谐波的影响,可以采用同态解卷技术,经 过同态滤波后得到平滑的谱,这样简单地检测峰值就可 以直接提取共振峰参数,因而这种方法更为有效和精确。
R n (k )
自相关法
在利用自相关函数估计基音周期时,第一要考虑的是窗的 问题。首先,计算所用的语音帧 S n ( m ) 中应使用矩形窗。其 次,窗长的选择要合适,一般认为窗长至少要大于两个基 音周期。 第二要考虑的问题是与声道特性影响有关。当基音的周期 性和共振峰的周期性混叠在一起时,被检测出来的峰值就 会偏离原来峰值的真实位置。为了克服这个困难,可以从 两条途径来着手解决。第一条是用一个带宽为60 ~ 900Hz带通滤波器对语音信号进行滤波以减少共振峰的影 响。第二条途径是对语音信号进行非线性变换后再求自相 关函数。
自相关法
一种有效的非线性变换是“中心削波”。 语音信号的低幅度部分包含大量的共振峰信息,而高幅度 部分包含大量的基音信息。 计算自相关函数的运算量是很大的,其原因是计算机进行 乘法运算非常费时。为此对中心削波函数进行修正,采用 三电平中心削波的方法。
平均幅度差函数法
语音信号的短时平均幅度差函数(AMDF)
并行处理法
并行处理法基音检测
倒谱法
倒谱法(CEP)是传统的基音周期检测算法之一,它利用语 音信号的倒频谱特征,检测出表征声门激励周期的基音 信息。 正如在3.5节介绍的,语音s(n)是由声门脉冲激励e(n)经 声道响应v(n)滤波而得,即 s(n)=e(n)*v(n) e(n ) 、 v ( n ) ,则有 设三者的倒谱分别为 s ( n ) 、
s(n ) e (n )v (n )
可见,倒谱域中基音信息与声道信息可以认为是相对分离 的。采取简单的倒滤波方法可分离并恢复出e(n)和v(n), 根据激励e(n)及其倒谱的特征可以求出基音周期。
倒谱法
倒谱法基音检测的困难: (1)声道响应的影响。 对于一帧典型的浊音语音的倒谱,其倒谱域中基音信 息与声道信息并不是完全分离的,在周期激励信号能量 较低的情况下,声道响应(特别是其共振峰)对基音倒谱 峰的影响就不可忽略。 (2)噪声干扰。 反映基音信息的倒谱峰,在过渡音和含噪语音中将会 变得不清晰甚至完全消失。
平均幅度差函数法
利用短时平均幅度差函数来估计基音周期,同样要求窗 口取得足够长,同样可以采取LPC逆滤波和中心削波处理 等方法来减少输入语音中声道特性或共振峰的影响,提 高基音周期估计效果。 近年来许多基于AMDF的不同检测算法被提出。如采用信 号经中心削波处理后再计算AMDF函数(C-AMDF)的方法、 采用概率近似错误纠正的方法、对基本AMDF函数进行线 性加权(W-AMDF)的方法、采用变长度AMDF函数(L-AMDF) 的方法、采用原信号经LPC预测分析获得预测残差后再计 算残差信号的AMDF函数(LP-AMDF)的方法等。这些算法使 得检测结果得到一定改进。
Fk ( ) S ( mk ) S ( m ) n n n
m 0 Nk 1
Fn (k )
定义为:
F n ( k ) 也呈现 与短时自相关函数一样,对周期性的浊音语音, 与浊音语音周期相一致的周期特性,不过不同的是 F n ( k ) 在 周期的各个整数倍点上具有谷值特性而不是峰值特性,因 而通过 F n ( k ) 的计算同样可以来确定基音周期。而对于清音 语音信号,F n ( k ) 却没有这种周期特性。利用 F n ( k ) 的这种特 性,可以判定一段语音是浊音还是清音,并估计出浊音语 音的基音周期。
3.9共振峰估计
提取共振峰特性最简便的手段是使用语谱仪。也可采用 数字信号处理的方法: (1)带通滤波器组法 (2)倒谱法 (3)LPC法
带通滤波器组法
这是共振峰提取的最早形式,通过滤波器组的设计可以 使估计的共振峰频率同人耳的灵敏度相匹配,其匹配的 程度比线性预测法要好。 滤波器的中心频率有两种分布方法:一种是等间距地分 布在分析频段上,则所有带通滤波器的带宽可设计成相 同,从而保证了各通道的群延时相同。另一种是非均匀 地分布,例如为了获得类似于人耳的频率分辨特性,在 低频端间距小,高频端间距大,带宽也随之增加,这时 滤波器的阶数必须设计成与带宽成正比,使得它们输出 的群延时相同,不会产生波形失真。
第三章 语音信号分析
3.8基因周期估计 3.9共振峰估计
3.8基因周期估计
基音是指发浊音时声带振动所引起的周期性,而基 因周期是指声带振动频率的倒数。基音周期是语音 信号最重要的参数之一,它描述了语音激励源的一 个重要特征。 因为汉语是一种有调语言,基音的变化模式称为声 调,它携带着非常重要的具有辨意作用的信息,有 区别意义的功能,所以基音的提取和估计对汉语更 是一个十分重要的问题。
倒谱法
对于声道响应的影响,可以通过对输入语音进行LPC分析 获得预测系数 a i ,并由此构成逆滤波器 A ( z )
A(z) 1ai zi
i1 P
再将原始语音通过逆滤波器 A ( z ) 进行逆滤波,则可得到预 (n )G en ( ) 。理论上讲,预测余量信号 ( n ) 测余量信号 ቤተ መጻሕፍቲ ባይዱ( n ) , 中已不包含声道响应信息,但却包含完整的激励信息。 对于噪声干扰,可以通过对原始语音或预测余量信号进 行低通滤波处理来抑制。更为简便的方法是,直接将由 原始信号作FT变换再取对数后得到的频域信号的高频分 量置零。
并行处理法
运用并行处理(PPROC)技术检测基音周期的方法的基本思 想是:对经过预处理的语音信号实施一系列的基音初步检 测,或分别对原始信号和经处理后的信号实施系列检测, 然后根据系列检测的初步结果,综合判定基音周期。 如下图是一个并行处理法的实现框图,它是一种时域方法, 检测器找出语音波形的六个测度,而这六个测度应用于六 个独立的基音检测器。由六个检测器驱动“服从多数”的 逻辑电路而进行最终的基音判决。用到的波形属性是正负 峰值的幅度和位置,后峰至前锋的测度以及峰值至谷值的 测度。
3.8基因周期估计
基音检测算法: 自相关函数(ACF)法、 峰值提取算法(PPA)、 平均幅度差函数(AMDF)法、 并行处理技术、 倒谱法、 SIFT、谱图法、小波法等等。
自相关法
语音信号s(m)经窗长为N的窗口截取为一段加窗语音信号S n ( m ) 后,定义 S n ( m ) 的自相关函数(ACF)R ( k ) (亦即语音信号s(m)的短 时自相关函数)为: N 1k
常采用中值平滑算法和线性平滑算法去除这些野点。
1. 中值平滑算法
中值平滑处理的基本原理是:设x(n)为输入信号,y(n)为 中值滤波器的输出,采用一滑动窗,则n0处的输出值y(n0) 就是将窗的中心移到n0处时窗内输入样点的中值。 中值平滑的“窗口”一般套住3个或5个样值,称为3点或5 点中值平滑。 中值平滑的优点是既可以有效地去除少量的野点,又不会 破坏基音周期轨迹中两个平滑段之间的阶跃性变化。
3. 组合平滑处理
为了改善平滑的效果可以将两个中值平滑串接,图a所示 是将一个5点中值平滑和一个3点中值平滑串接。
另一种方法是将中值平滑和线性平滑组合,如图b所示。
3. 组合平滑处理
为了使平滑的基音轨迹更贴近,还可以采用二次平滑的算 法,全部算法的框图如图c所示。
由于中值平滑和线性平滑都会引入延时,所以在实现上述 方案时应考虑到它的影响。图d是一个采用补偿延时的可 实现二次平滑方案。
小波变换法
在基音检测中应用的小波变换一般采用二进小波变换 (DyWT),图3-27是一帧语音的多级小波分解。
基音检测的后处理
无论采用哪一种基音检测算法都可能产生基音检测错误, 使求得的基音周期轨迹中有一个或几个基音周期估值偏 离了正常轨迹(通常是偏离到正常值的2倍或1/2),如 图3-28所示。并称这种偏离点为基音轨迹的“野点”。
倒谱法
图3-31所示为倒谱法求取语音频谱包络的原理。实验表明, 倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参 数的效果是较好的,但其运算量太大。
LPC法
从线性预测导出的声道滤波器是频谱包络估计器的最新 形式,线性预测提供了一个优良的声道模型(条件是语 音不含噪声)。尽管线性预测法的频率灵敏度和人耳不 相匹配,但它仍是最廉价、最优良的行之有效的方法。 用线性预测对语音信号进行解卷,可以去除激励分量的 影响。此时求出声道响应分量的谱峰,就可以求出共振 峰。这里有两种途径:一是用标准的求取复根的方法计 算全极点模型分母多项式 A ( z ) 的根,称为求根法;一是 用运算量较少的DFT法,求 A ( z ) 的离散频率响应 A ( k ) 的 谷点来得到共振峰的位置。
n
R ( k ) S ( m ) S ( m k ) n n n
m 0
不为零的范围为是k=(-N+1)~(N-1),且为偶函数。由3.3 小节的分析可知,浊音信号的自相关函数在基音周期的整数 倍位置上出现峰值;而清音的自相关函数没有明显的峰值出 现。因此检测是否有峰值就可判断是清音或浊音,检测峰值 的位置就可提取基音周期值。
3.9共振峰估计
声道可以看成是一根具有非均匀截面的声管,在发音时 起共鸣器的作用。当准周期脉冲激励进入声道时会引起 共振特性,产生一组共振频率,称为共振峰频率或简称 共振峰。共振峰参数包括共振峰频率和频带宽度,它是 区别不同韵母的重要参数。共振峰信息包含在语音频谱 包络中,因此共振峰参数提取的关键是估计自然语音频 谱包络,并认为谱包络中的最大值就是共振峰。 共振峰估计难点 (1)虚假峰值 (2)共振峰合并 (3)高音调语音
2. 线性平滑处理
线性平滑是用滑动窗进行线性滤波处理,即:
yn ( ) xn ( m ) (m )
m L L
其中{ω (m),m = -L,-L+1,…,0,1,2,…,L}为 2L+1点平滑窗,满足:
m L
(m ) 1
L
线性平滑在纠正输入信号中不平滑处样点值的同时,也使 附近各样点的值做了修改。
倒谱法
一种改进的倒谱基音检测算法:
简化逆滤波法
简化的逆滤波跟踪(SIFT)算法是相关处理法进行基音提 取的一种现代化的版本。该方法的基本思想是:先对语 音信号进行LPC分析和逆滤波,获得语音信号的预测残差, 然后将残差信号通过自相关滤波器滤波,再作峰值检测, 进而获得基音周期。语音信号通过线性预测逆滤波器后 达到频谱的平坦化,因为逆滤波器是一个使频谱子坦化 的滤波器,所以它提供了一个简化的(亦即廉价的)频 谱平滑器。预测误差是自相关器的输入,通过与门限的 比较可以确定浊音,通过辅助信息可以减少误差。
小波变换法
一个信号的小波变换具有这样的性质:信号小波变换的 极值点对应于信号的锐变点或不连续点。语音的产生过 程实际上是气流通过声门再经声道响应后变成声音。对 于浊音语,它是由气流冲击声门,使声门发生周期性的 开启或闭合,这种周期性的气流经声道响应就形成了浊 音语音。声门的这种开启与闭合,在语音信号中引起一 个锐变。对语音信号作小波变换则其极值点对应于声门 的开启或闭合点,相邻极值点之距离就对应着基音周期。 因而,采用音信号的小波变换可以检测基音周期。