基于倒谱法和LPC法的共振峰估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于倒谱法和LPC法的共振峰估计
摘要: 共振峰是表征语音信号特征的两个基本语音参数之一。本文研究了语音信号分析技术中用LPC基本原理、倒谱方法实现共振峰的提取。通过MA TLAB软件实现对同一语音信号的共振峰分析,
【关键词】共振峰、LPC、倒谱、MATLAB
Abstract
Formant of the speech is one of basic parameters of the voice. The paper presents the LPC and cestrum methods of voice formant analysis. The speech toolbox in MATLAB is used to smiling the procession of voice signal. Through the Linear Prediction analysis of any speech signal, formants and the prediction coefficient、the response of frequency domain and pole-zero plot are achieved. then the results of LPC are used to the speech syntheses, realizing the emersion of the relevant speech
. Key words: Formant、LPC、Cepstrum、MA TLAB
(一)引言
人们讲话时发出的声音叫语音,它是一种声音,具有称为声学特征的物理特性。然而它又是一种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。因此,语音(Speech)是声音(Acoustic)和语言(Language)的组合体。
语音是人类相互之间进行交流时最常用、最方便、最有效和最重要的信息载体,语音信号是人们构成思想疏通和感情交流的最主要的途径。在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义[9]。语音线性预测的基本思想是:主要信号的取样值,可以用它过去的若干个取样值的加权和(线性组合)来表示:加权系数的确定原则是使预测误差的均方值最小(遵循最小均方准则)。预测误差的定义为真实取样值与预测值之差。
语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。而且,语音合成的音质好坏,语音识别率的高低,也都取决于语音信号分析的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位。
(二)共振峰的概念及其基本原理
(1)共振峰的概念
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛的应用于语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中最大值就是共振峰。
共振峰参数包括共振峰频率,频带宽度和幅值,共振峰信息包含在频率包络之中,并认为谱包络中最大值就是共振峰,利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第一到第四共振峰。
(2)提取共振峰的方法
1 基于线性预测(LPC)的共振峰提取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,如其频谱林灵敏度于人耳不想匹配。但对于许多应用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择:一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为求根法;另一种途径是找出由预测其导出的频谱包络中的局部极大值,称为选峰法。
2 倒谱法。声道响应的倒谱衰减很快,在[-25 25] 之外的值非常少,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数谱,对此做进一步的处理即可求得所需的各个共振峰
(三)提取共振峰的实现
(1)基于线性预测(LPC)
在语音信号的LPC模型中,语音信号LPC的程序[y,fs,nbits]=Wavread('E:\sunwei\sq.wav'); x=y(25000:26023);
N=1024;
w=hamming(N);
z=x.*w';
[a g]=LPC(z,32);
z1=fft(a);
plot(z1);
LPC法估计的共振峰1
(2)基于倒谱法
[y,fs,nbits]=Wavread('E:\sunwei\sq.wav');
x=y(25000:26023);
N=1024;
w=hamming(N);
z=x.*w';
z1=fft(z);
z2=log(abs(z1));
z3=ifft(z2);
N1=32;
w1=hanning(N1);
z4=z3.*w1';
z5=fft(z4);
plot(z5);
倒谱法估计的共振峰2
(四)提取共振峰的实现方法的应用
共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接来源。改变共振峰可以产生出所有的原音和某些辅音,在共振峰中也包含辅音的重要信息。人在语音感知中也利用了共振峰信息,所以共振峰已经广泛的应用于语音识别的主要特征和语音编码传输的基本信息。通过对多个说话人与文本无关的发音材料进行统计分析,比较了LPC倒谱的不同分量对说话人特征区分所作的贡献,研究了LPC倒谱所体现的说话人共性及个性特征。,从不同角度探讨了LPC倒谱参数的说话人统计特征,并考查了它在正交变换、最大可分变换下的变化及以不同距离作为测量手段所产生的不同效果。这些工作是对LPC倒谱参数用