第08章 语音信号特征参数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章语音信号特征参数
8.1 概述
语音信号是十分复杂的非平稳信号,它不仅包含语义信息,还有个人特征信息,对其特征参数的研究是语音识别的基础。换句话说,特征参数应能完全、准确地表达语音信号。那么特征参数也应能完全、准确地表达语音信号所携带的全部信息。实验语音学的研究从语音信号本质上给出的特征参数是科学的、合理的,但是不完全的。在元音的特征研究较深入,对辅音的研究相对较弱,对辅音、元音之间的过渡就更弱,而这一部分恰好是含信息量最大、最难处理的。
本章介绍语音信号的九种特征参数及其提取算法,是从不同的角度对语音信号研究的结果,是可行的、有效的,但不是万能的。值得提请读者注意的是,某些算法对一些应用表现很好,但对另一些应用可能表现不佳。应该说我们对语音信号的本质认识还不够深入,也就是我们对语音信号的发音机理、心理,听觉机理、心理,语义的社会性等方面缺乏深入研究,更谈不上多学科综合研究。尽管如此,现有的这些特征参数在语音识别中起着重要作用。
8.2基音周期Equation Chapter 8 Section 2
基音周期(Pitch)(或基音频率)是指发浊音时声带震动所引起的周期性,基音周期也F的倒数,它不仅是语音信号分析的一个重要参数,也是语音产生的数字是声带振动频率
模型中激励源的一个重要参数,它携带着非常重要的具有辨意信息,因此它的检测和估计是语音处理中一个十分重要的问题[1]。
基音检测的主要困难在于:(1)语音信号变化十分复杂,声门激励波形并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清浊音的过渡帧是很难判断它应属于周期性还是非周期性,从而也就无法估计出基音周期。(2)要从语音信号中去除声道影响,或者直接去除仅和声带振动有关的音源信息并非容易的事,例如声道共振峰有时会严重影响音源的谐波结构。(3)在浊音段很难精确地确定每个基音周期的开始和结束位置,这不仅因为语音信号本身是准周期的(即音调是有变化的),而且因为波形的峰或过零受共振峰结构、噪声等影响。(4)基音周期变化范围较大,从低音男生的70Hz直到女孩的500Hz,也给基音周期检测带来了一定的困难。
基音周期的检测方法大致可分成三类:(1)时域估计法,直接由语音波形来估计基音周期。其中,最著名的有:变形自相关法[2]、并行处理法[3]、平均幅度差法(AMDF)[4]、数据减少法[5]等。(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期。例如:倒谱法(CEP)[6]等。虽然倒谱分析算法比较复杂,但基音周期估计效果较好。(3)混合法,先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF法求得基音周期。例如:简化逆滤波法(SIFT)[7]、逆滤波简化平均幅度差法(IFAMDF)[8]等。本节介绍几种有效且实用的方法。
8.2.1 自相关法及其改进
前面曾经指出过,浊音语音信号的短时自相关函数有很明显的周期性,窗越宽这种周期性越明显,其周期就是基音周期,而清音的短时自相关函数没有这种周期性。因此,计算短时自相关函数是区分清音和浊音并估计出基音周期的一种有效方法。其理论依据是,如果信号是周期的,那么它的自相关函数也是周期的,且周期与信号周期相同。自相关算法把周期点的峰值突现出来,而其它谐波成分较弱,便于周期提取,而且噪声在自相关运算中向零点集中,因此本算法有一定的抗噪性能。
一种最简单的处理方法是先对语音信号进行低通滤波,然后再计算短时自相关函数。依据是,语音信号的基音频率一般都在500Hz 以下,即使女高音升C 调最高也不超过1kHz 。因此,从只保留基音频率的角度出发,用一个带宽为1kHz 的低通滤波器事先对语音信号滤波是有好处的。然后以2kHz 取样频率进行采样。最后以2~20ms 的滞后时间逐帧计算短时自相关函数,每帧长度为10~20ms 。这样便可得到基音频率的轨迹(基音频率是随着时间变化的)。
第二种处理方法是采用中心削波技术。如前所述,在发浊音时,基音周期不仅有时变性,而且复合在复杂信号中,用短时自相关函数将其周期性的峰值突现出来。对于估计基音周期真正有用的只是出现在基音周期处的自相关峰,其余较低的峰都是多余的;有用的自相关峰是由于语音信号中的一些最高峰形成的,这些最高峰是由于准周期激励脉冲产生的;无关的峰是声道对激励脉冲产生的响应。基于这种认识,完全有理由采用中心削波器去掉语音信号中所有低振幅部分而保留高振幅的峰值。另外,当音调周期性和共振峰(声道响应)周期性混在一起时,使检测出来的峰点位置可能是f p N N ±(p N 是基音周期,f N 是第一共振峰的周期)。但为了避免这种情况,有必要对语音信号作预处理,以去掉声道响应的影响,“中心削波”是有效的方法之一。
语音时域处理的三电平中心削波法是一个十分巧妙的算法,在此介绍其原理,不仅在于它简化了特定目标的自相关函数的计算,更重要的是它的思路发展对研究人员有借鉴意义。 中心削波语音信号实质上是对语音信号作非线性处理:
[])()(n x C n y = (8.2.1) 处理[]C ⋅如图8.2.1所示,中心削波过程如图8.2.2所示。
图8.2.1 中心削波函数 图8.2.2 中心削波工作过程
由图8.2.2所示的中心削波后的波形,作自相关运算,只有剩余的峰值部分参与运算,其它都是零,为了保证表征音调周期的峰值不被削掉,电平L C 的选择是很重要的。在语音信号持续时间内,语音信号的电平变化是很大的,显然固定的电平是不适宜的。有效的办法是找到语音帧的前三分之一和最后三分之一内的最大幅度,选取削波电平在这二值中较小的幅值,然后取其60%到80%即可,常定为68%。
用自相关函数提取音调周期,关心的是时间,也就是自相关函数峰值出现的位置,而峰值本身的大小无关紧要。如果将削波后的波形无论大小,都定义为±1,被削去的部分都定义为零,那么+1,-1,0这三个电平做起自相关运算来可简捷快速。削波函数如图8.2.3所示,三电平削波过程如图8.2.4所示。
三电平中心削波后,自相关函数计算非常简单。如果以)(n y 表示三电平中心削波后的输出,那么自相关函数为:
∑--=+++=
k
N m n k m n y m n y k R 10)()()( (8.2.2)
其中乘积)()(k m n y m n y +++有三种不同的值: