语音信号处理_线性预测分析

合集下载

第三章语音信号的数字分析

第三章语音信号的数字分析

Pe
(e)
=
1 ∆
, − ∆ ≤ e(n) ≤ ∆
2
2
0 , 其它
在上述假设的统计模型下,量化噪声的均值和方差分别为:
∫ me
=
∆ 2
e( 1
)de
=
0
−∆2 ∆
∫ σ
2 e
=
∆ 2
−∆2
e2
(1 ∆
)de
=
∆2 12
信噪比:
∑∑ SNR
=
σ x2 σ e2
=
E[x 2 (n)] E[e 2 (n)]
(输入间距) (输出间距)
∆:量化阶距(间距)
例:3bit 均匀量化器
xˆ (输出)
7∆/2
011
5∆/2
010
3∆/2
001
∆/2 000
-4∆ -3∆ -2∆ -∆
∆ 2∆ 3∆ 4∆
100 101 110 111
-∆/2 -3∆/ 2 -5∆/ 2 -7∆/ 2
x (输入)
峰— 峰值范围 (a) “上升中点”型量化器
-120 0
(b)
0.1
0.2
0.3
0.4
0.5
归一化频率
图. 矩形窗(a)和哈明窗(b)的幅频特性
•哈明窗的带宽大约是同样宽度矩形窗带宽的两倍, •哈明窗通带外的衰减也比矩形窗大一倍多 •这两种窗的衰减基本上与窗的持续时间无关 •矩形窗的谱平滑较好,但波形细节丢失,而哈明窗则反之
2、窗口的长度
•无论窗口形状如何,窗口长度N将起决定性的作用
时域波形展开:
语音信号具有很强的“ 时变特性”,在有些段 落中它具有很强的周期 性,有些段落中又具有 噪声特性,而且周期性 语音和噪声语音的特征 也在不断变化之中,只 有在较短的时间间隔( 20~200ms)语音信号 的特征才基本保持不变

语音信号处理-语音信号的线性分析

语音信号处理-语音信号的线性分析

2015.10.141.介绍语音是人类相互交流和通信最方便快捷的手段。

如何高效地实现语音传输、存储或通过语音实现人机交互,是语音信号处理领域中的重要研究课题。

语音信号处理涉及数字信号处理、语言学、语音学、生理学、心理学、计算机科学以及模式识别、人工智能等诸多学科领域,是目前信息科学技术学科中发展最为迅速的一个领域。

在语音处理技术中,线性预测是第一个真正得到实际应用的技术,可以用于估计基本的语音参数,如基因周期、共振峰频率、频谱特征及声道面积函数等。

线性预测的基本原理是把待分析的信号用一个模型表示出来,信号是这个模型的输出,构成这个模型的参数是这个信号的重要特征,称为线性预测系数。

一个语音取样的现在值可以用若干个语音取样的过去值的加权线性组合来逼近。

加权系数称为预测系数。

如果利用过去p个样点值来进行预测,称为p 阶线性预测。

线性预测编码就是利用过去的样值对新鲜值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围小于原始语音信号的动态范围,对误差信号进行量化编码,可大大减少量化所需的比特数,使编码速率降低。

通常情况下,随着线性预测阶数p的增大,预测误差也将会越来越小,但是p也不是一直增加的,随着线性预测阶数p的增大,信号中的可预测部分也将越来越少,预测误差的变化趋于平稳,误差减小不再明显。

此时,伴随着预测阶数p的增大,整个系统的计算量将会越来越大。

为此,对于不同的信号,我们需要确定一个最优的预测阶数p,进而进行预测分析。

在对原始语音信号进行处理之前我们要对信号进行预处理,语音信号的预处理也叫作前端处理,是指在特征提取之前,先对原始语音进行处理,使处理后的信号更能满足实际的需要,对提高处理精确度有重要的意义。

一般预处理的步骤包括采样、预加重、加窗分帧和去噪等,本文采取分帧去除直流分量后再剔除噪声帧来进行预处理,本文求阈值的方法就是求出语音信号中的高斯白噪声,然后设置阈值,将没帧信号和阈值进行比较,如果比阈值小的就是噪声帧,直接去除。

语音信号处理(电气与电子工程学院)

语音信号处理(电气与电子工程学院)

四、实验条件
计算机、高分辨麦克、matlab 及相关软件。 五、实验步骤
可以使用已有工作空间文件也可以自己录制一段语音(录制方法见附加内容)
1、听一下 we_be10k(可用 sound) 2、使用函数 specgram_ex3p19.显示语谱图和语音波形。对比调用参数窗长 20ms (200 点)、帧间隔 1ms(10 点)和参数窗长 5ms(50 点)、帧间隔 1ms(10 点); 再对比窗长>20ms 或小于 5ms,以及帧间隔>1ms 时的语谱图说明宽带语谱图、窄 带语谱图与时频分辨率的关系及如何得到时频折中。
1-3
在自相关法中
1-1,1-3 变为
P
∑αk rn [i − k ] = rn [i − 0],i = 1, 2,3,...p
k =1
1-4
P
En = Rn [0] − ∑αk Rn [k ]
k =1
1-5
由 1-4 可列出方程组 1-6
⎛ ⎜ ⎜
Rn Rn
[0] [1]
Rn [1] Rn [0]
图2
图3
7
采用 MATLAB 中的录音函数 wavrecord()进行语音信号的录制。同样,选 择三种频率不同的采样率对同一语音信号进行采样,试听回放效果,进行比较。
二、实验涉及的 MATLAB 子函数 Wavrecord 功能:录制语音 调用格式: filename=wavrecord(N, fs, ‘dtype’);录制一段 N/fs 秒长度的语音信号,采样率为 fs Hz,缺省值为 11025Hz,dtype 是录制声音的数据类型。具体可通过 help wavrecord 命令查阅。 y=wavrecord(N, fs, ch);与上面语句不同的是最后一个参数,ch 是指录音的声 道,ch 为 1 是单声道,ch 为 2 是双声道。 Wavread 功能:把数据文件的声音数据赋给变量 x。 【x,fs,bits】=wavread(’filename’);把数据文件的声音数据赋给变量 x,同 时把 x 的采样频率 fs 和数据的位数 bits 放进 MATLAB 的工作空间。 Sound 功能:将变量 x 的数据转换成 MATLAB 的数据文件保存。 调用格式: Sound(x,fs,bits); Save 功能:将变量 x 的数据转换成 MATLAB 的数据文件保存。 调用格式: Save‘filename’x;将数据转换成文件名与‘filename’相同,扩展名为.mat 的数据并保存,以便用 MATLAB 的各种工具进行处理。

4第三章 语音信号分析---频域、倒谱、线性预测 语音信号处理 课件

4第三章  语音信号分析---频域、倒谱、线性预测 语音信号处理 课件

D*1[ ] :
X
(e
jw
)
exp[Xˆ
(e
jw
)]
逆特征系统
x(n) IDTFT[ X (e jw )]
33
☆复倒谱的离散傅立叶变换定义
xˆ(n) IDFT [ln DFT (x(n))] IDFT [ Xˆ (k)]
N 1
X (k) DFT(x(n)) x(n)WNnk n0
x(n)
fˆl fˆk fˆl1
如果采样频率为8kHz,在0.1~4kHz范围内需要 安排16个临界带。将每个临界带内中的|Xn(k)|2取 和即可得到相应的临界带特征矢量。记为: G=[g1,g2,….gL]。
18/160
第1临界带
第2临界带
fˆ1 118 .6Hz fˆ2 188 .7Hz
fˆ3 297.2Hz
越逼X n近(e j于w)

但窗长X (Ne j太w) 大,窗选信号不满足语音的短时平稳
特性,
不能正X n确(e反jw映) 短时语音的频谱了。
为此,必须要合理选择窗长N。
4
3.短时功率谱和短时谱的关系
Sn (e
jw )
X n (e
jw )
X
* n
(e
jw )
|
X n (e
jw )
|2
4.短时功率谱和短时自相关函数的关系
D*1[D*[x(n)]] x(n)
(1)Z[x(n)] X (z), (2) ln X (z), (3)Z 1[ln X (z)] (4)Z{Z 1[ln X (z)]} ln X (z), (5) exp{ln X (z)} X (z) (6)Z 1[ X (z)] x(n)

第2章语音信号的线性预测分析

第2章语音信号的线性预测分析

残差信号
s } n }
图2 - 1线性预测合成滤波器
、 ( : ) 一 卜 1 a , z -
( 2 . 1 )
第z 章 语音信号的线性预测分析
第2 章 语音信号的线性预测分析
和波形内插编码器一样,大多数低速率的语音编码算法都基于线性预测分 析。语音信号模型是一个线性合成模型,语音信号的每个取样值能够用过去若 千个取样值的线性组合 ( 预测值) 来逼近。
本章主 要介绍了 线性预测分 析( L P A -L i n e a r P r e d i c t i v e A n a l y s i s ) 滤波器,因为 用来合成 语音, 通常被称为 线性预测 合
成 滤 波 器 , 其 系 数 扣 I L 1 , 2 , , 即 为 L P 系 数 . 如 果 阶 数 P 足 够 大 , 线 性 预 测 合 成
l J

‘ 乃
L P 系数的求解方法及其线谱频率参数表示,最后讨论了带宽扩展的概念。
线性预测分析的基本原理
语音信号的产生过程可以 看成是声门 激励信号激励声道模型的过程, 该过程
在线性预测分析中可以 等效为线性预测残差信号激励时变线性滤波器的过程,
如图2 - 1 所示,

语音信号线性预测分析

语音信号线性预测分析

《视频语音处理技术》语音信号线性预测分析学院名称:计算机与信息工程学院专业名称:计算机科学与技术年级班级:姓名:学号:计算机与信息技术学院综合性、设计性实验报告一、实验目的:综合采用各种线性预测分析的方法,能够达到预测更为准确。

要求掌握各种下列语音信号线性预测分析技术,提高学生数字语音信号处理的能力。

利用MATLAB 编程环境和强大的处理功能,实现语音信号线性预测。

主要训练如下的项目从而获得线性预测的综合能力:1、LPC 方程的自相关解法。

2、LPC 参数到LSP 参数的转换。

3、LSP 参数到LPC 参数的转换。

4、LPC 参数到ISP 参数的转换。

二、实验仪器或设备:w indowsXP 下的Matlab 编程环境 三、总体设计(设计原理、设计方案及流程等)线性预测编码原理:利用过去的样值对新样值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态范围,对误差信号进行量化编码,可大大减少量化所需的比特数,使编码速率降低。

1.LPC 方程的自相关解法利用对称托普利兹(Toeplitz)矩阵的性质,自相关法求解可用Levinson-Durbin (莱文逊-杜宾)递推算法求解。

该方法是目前广泛采用的一种方法。

利用Levinson-Durbin 算法递推时,从最低阶预测器开始,由低阶到高阶进行逐阶递推计算。

自相关法递推过程如下:pi E j i r ai r k i i j i ji ≤≤⎥⎦⎤⎢⎣⎡-=-∑= 1 )(-)( )1(1-11)-(,()() 0 0r E =)1(2)1(--=i i i E k E联立左面5式可对i=1、2…、p 进行递推求解,其最终解为 对于p 阶预测器,在上述求解预测器系数的过程中,阶数低于p 的各阶预测器系数也同时得到。

2、LPC 参数到LSP 参数的转换。

将P(z)和Q(z)中与LSP 系数无关的两个实根取得到如下两个新的多项式从LPC 系数到LSP 系数的转换过程,其实就是求解使以上两式等于零时的 的值。

语音信号线性预测分析仿真课程设计报告书

语音信号线性预测分析仿真课程设计报告书

专业课设2013年1月语音信号线性预测分析仿真院(系、部): 信 息 工 程 学 院 姓 名: 熊 洁班 级: 通 092 学 号: 090935 指导教师签名: 王 嵩摘要作为最有效的语音分析技术之一,线性预测是一种基于全极点模型假定和均方预测误差最小准则下的波形逼近技术,通过对音频信号的时域和频域分析对声道参数进行估值,以少量低信息率的时变参数精确地描述语音波形与其频谱的性质,能够在尽量保持原音质的基础上合成出高质量的语音。

本文重点研究了线性预测(LPC)的原理、Levinson-Durbin算法,基于MATLAB进行语音线性预测仿真,并对参数的选取做了比较分析。

关键词语音信号 LPC Levinson-Durbin算法MATLAB仿真AbstractAs one of the most effective speech analysis technique, linear prediction is a kind of based on the pole model assumption and minimum mean square error criterion of wave approximation technique, based on the audio signal of time domain and frequency domain analysis of track parameters valuations, with a few low information rate of time-varying parameters accurately describe the nature of the speech waveform and spectrum, to be able to try to keep the original sound quality on the basis of the synthesis of high quality speech.This paper mainly studies the linear prediction (LPC), Levinson - from the principle of the algorithm, based on MATLAB speech linear prediction simulation, and the selection of parameters to do a comparative analysis.Keywords voice signal LPC Levinson - Durbin algorithmMATLAB simulation目录第1章绪论11.1 语音信号LPC分析技术的基本概念1第2章线性预测编码的基本原理22.1 语音信号的产生22.2线性预测的概念与原理22.2.1线性预测分析的概念22.2.2LPC和语音信号模型的关系42.3解线性预测参数方程组的算法52.3.1Levinson-Durbin自相关解法52.3.2利用格型法求解线性预测系数6第3章simulink仿真的分析合成系统10 3.1仿真容103.2仿真系统模型103.3 仿真工作过程113.3.1语音信号采样113.3.2预加重113.3.3叠接窗分析133.3.4汉明窗143.3.5自相关算法143.3.6数字滤波器163.4仿真结果分析18参考文献18第1章绪论1.1 语音信号LPC分析技术的基本概念语音是人们交流思想和进行社会活动的最基本手段, 我们要对语音信号进行测定并将其转变为另一种形式, 以提高我们的通信能力。

语音信号处理__第三章_语音信号线性预测分析

语音信号处理__第三章_语音信号线性预测分析
P ( z ) ai z i
i 1
• 预测误差为: p (n) s (n) ai s (n i ) Ge(n)
i 1
• 线性预测分析要解决的问题是:给定语音序列(显然,鉴于
语音信号的时变特性,LPC分析必须按帧进行),使预测误 差在某个准则下最小,求预测系数的最佳估值ai,这个准则 通常采用最小均方误差准则。
H ( z) G 1 bl z l 1 ai z i
i 1 l 1 p q
预测增益
• 根据H(z)的形式不同,有3种不同的信号模型: • 1)如上式, H(z)同时含有零点和极点,称为自回归-滑动平均 模型,是一种一般的模型。 • 2)当上式中的分子多项式为常数,即bl=0,H(z)为全极点模
线性预测分析就是为线性系统H(z)建立一个模型,并按照某种 准则,利用已知的s(n)进行模型参数估计。估计出来的参数即可 确定H(z),然后根据模型 S z E z V z 则可得到E(z)。这样, 我们就完全确定了语音的激励模型和声道模型。
模型的系统函数H(z)可以写成有理分式的形式:
i 1
• 即语音样点间有相关性,可以用过去的样点值预测未来样点 值。对于浊音,激励e(n)是以基音周期重复的单位冲激,对 于清音,e(n)是稳衡白噪声。
• 在模型参数估计程中,把如下系统称为线性预测器:
ˆ s (n) ai s (n i )
i 1 p
• 式中ai称为线性预测系数。从而,p阶线性预测器的系统函 数具有如下形式: p
• 再考虑公式(3-77)和(3-78) ,可得
n 0, 0 i n 0, i
i 1 p
• 可见,最小预测误差由一个固定分量和一个依赖于预测器

语音信号处理-第04章 语音信号线性预测(LPC)分析方法

语音信号处理-第04章 语音信号线性预测(LPC)分析方法
∑ En (min) = φn (0,0) − akφn (k,0) k =1
定义相关矩阵
∑ φn (i, k ) = sn (m − i)sn (m − k ) m
对于平稳时间序列ai不随时间变化。
§4.3.1正则方程的自相关法
设:Sn(m)在 0≤m≤N−1 外取零值,信号范围为[0,N-1], 则线性预测的残差能量为
语音信号处理
Speech Signal Processing
长春工业大学图像工程研究所 史东承教授
dcshi@ 2010.8
• 从变换域考虑,同样根据V(Z) 和S(Z)可确 定E(Z)。
• 当 gQ ≠ 0 和 aP ≠ 0 时称为ARMA(Q,P)自回 归滑动模型。
∑ ∑ ∑ 2
=
e
n
⎡⎣s(n) − s(n)⎤⎦2 =
n
( ) ⎡
⎢s ⎣
n

p i=1
ai
z−i
⎤2 ⎥ ⎦
∑ ∑ ∑ ∑∑ ∑ =
⎧ ⎨

n
s2
(
n)⎫⎬


p
2
k =1
ak
⎧ ⎨ ⎩
n
s(n− k)s(n)⎫⎬+ p
⎭ n=1
l

i=1
ak
ai
⎨ ⎩
n
s(n−k) s(n−i)⎫⎬

σ ∑s ∑ ∑ 所以
v (n) = ∑ gisw (n − i) i=0
此时:
∑∑ ∑ ( ) ( ) <
F(Z),G(Z)
>=
M i=0
M j=0
f
⎧N +M −1

语音编码的基本方法

语音编码的基本方法

语音编码的基本方法语音编码是将语音信号转换为数字信号的过程,以便能够利用数字信号处理技术进行存储、传输、分析和合成。

语音编码的目标是尽可能减小存储和传输所需的比特率,同时尽量保持原始语音信号的质量。

下面将介绍语音编码的基本方法。

1.线性预测编码(LPC)线性预测编码(Linear Predictive Coding,LPC)是一种基于声道模型的语音编码方法。

该方法假设语音信号可以由线性滤波器和一个激励源合成。

LPC编码先通过线性预测分析,估计出语音信号的线性滤波器参数,然后将这些参数进行编码传输。

2.矢量量化矢量量化是一种有损数据压缩技术,也是常用的语音编码方法。

它将一组相关的样本(向量)映射到一组有限的离散码字中。

在语音编码中,矢量量化可以应用于线性预测编码的残差信号,以及其他一些语音特征参数的编码。

3.短时傅里叶变换编码(STFT)短时傅里叶变换编码(Short-Time Fourier Transform,STFT)是一种频域分析方法,常用于语音信号的编码。

STFT将语音信号分段进行傅里叶变换,将时域信号转换为频域信号,然后对频域信号进行编码传输。

4.频率对齐线性预测编码(FSLP)频率对齐线性预测编码(Frequency-Selective Linear Prediction,FSLP)是一种新型的语音编码方法。

它通过对语音信号进行预处理,将频率对齐后的语音信号分帧,然后利用线性预测分析得到每一帧的滤波器系数,并对这些系数进行编码传输。

5.自适应编码自适应编码是一种根据传输条件自动调整编码参数的方法。

最常见的自适应编码方法是可変速率编码(Variable Bit Rate,VBR)和可变码率编码(Adaptive Bit Rate,ABR)。

这些编码方法根据语音信号的特性和传输条件,动态调整编码参数,以尽可能减小比特率,并保持较高的语音质量。

除了上述几种基本方法,还有很多其他的语音编码技术,如无失真编码、人工神经网络编码等。

语言学中的语音信号分析

语言学中的语音信号分析

语言学中的语音信号分析语音信号是人类信息传递中最重要的方式之一。

语音信号分析是语音学研究的重要基础,也是许多领域如语音识别、语音合成、说话人识别等研究的关键环节。

本文将详细介绍语音信号分析的概念、步骤、方法和应用,以及目前存在的问题和未来的发展方向。

一、语音信号分析的概念和步骤语音信号分析是指将语音信号转变为可被计算机处理和识别的形式。

其步骤一般包括分帧、加窗、时域特征提取、频域特征提取等。

下面将逐一介绍。

1.分帧语音信号是一系列时域波形,随着时间的推移,其幅度和频率也在不断变化。

为了方便后续计算处理,需要将长时域的语音信号分割成短时域的小段,每一段称为一帧。

帧的长度一般在20~40ms之间,相邻帧之间一般有20~50%的重叠。

2.加窗由于分帧后的语音信号段末端的数值不完整,会造成分析和处理的困难。

为了消除边界效应,在每一帧的两端加上窗函数。

窗函数的目的是将信号逐渐减小到零,避免过度的数据扰动,同时使得相邻帧之间的信号光滑连续,减小处理误差。

3.时域特征提取时域特征是指每一帧中的语音信号的幅度、能量、过零率、基音周期等,一般通过数字信号处理方法计算得到。

这些特征可以反映语音信号的时域变化情况,如音高、音强、音长等。

4.频域特征提取语音信号在频域上的特征也非常重要。

FFT算法可以将时域信号转换为频域信号,得到语音信号的频谱。

从频谱中可以提取出如功率谱密度、倒谱系数、线性预测系数等频域特征。

这些特征可以反映语音信号的谐波结构和共振峰分布。

二、语音信号分析的方法语音信号分析方法有很多种,下面介绍几种常用的方法。

1.基音周期提取法人类的语音信号中存在基频,也就是说,语音信号中存在固定的波形重复出现。

基音周期提取法就是通过求取信号的基频周期,来确定声音的音高。

基音周期提取法的难点在于基波周期受到噪声和非周期性成分的影响,误差很大。

2.线性预测法线性预测法是通过分析语音信号在经过声道传输后,所产生的声音变化,来判断不同声音的特征。

《语音信号处理》课程笔记

《语音信号处理》课程笔记

《语音信号处理》课程笔记第一章语音信号处理的基础知识1.1 语音信号处理的发展历程语音信号处理的研究起始于20世纪50年代,最初的研究主要集中在语音合成和语音识别上。

在早期,由于计算机技术和数字信号处理技术的限制,语音信号处理的研究进展缓慢。

随着技术的不断发展,尤其是快速傅里叶变换(FFT)的出现,使得语音信号的频域分析成为可能,从而推动了语音信号处理的发展。

到了20世纪80年代,随着全球通信技术的发展,语音信号处理在语音编码和传输等领域也得到了广泛应用。

近年来,随着人工智能技术的快速发展,语音信号处理在语音识别、语音合成、语音增强等领域取得了显著的成果。

1.2 语音信号处理的总体结构语音信号处理的总体结构可以分为以下几个部分:(1)语音信号的采集和预处理:包括语音信号的采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

(2)特征参数提取:从预处理后的语音信号中提取出能够反映语音特性的参数,如基频、共振峰、倒谱等。

(3)模型训练和识别:利用提取出的特征参数,通过机器学习算法训练出相应的模型,并进行语音识别、说话人识别等任务。

(4)后处理:对识别结果进行进一步的处理,如语法分析、语义理解等,以提高识别的准确性。

1.3 语音的发声机理和听觉机理语音的发声机理主要包括声带的振动、声道的共鸣和辐射等过程。

声带振动产生的声波通过声道时,会受到声道形状的影响,从而产生不同的音调和音质。

听觉机理是指人类听觉系统对声波的感知和处理过程,包括外耳、中耳、内耳和听觉中枢等部分。

1.4 语音的感知和信号模型语音的感知是指人类听觉系统对语音信号的识别和理解过程。

语音信号模型是用来描述语音信号特点和变化规律的数学模型,包括时域模型、频域模型和倒谱模型等。

这些模型为语音信号处理提供了理论基础和工具。

第二章语音信号的时域分析和短时傅里叶分析2.1 语音信号的预处理语音信号的预处理主要包括采样、量化、预加重等操作,目的是提高语音信号的质量,便于后续处理。

第5章 语音信号线性预测分析

第5章 语音信号线性预测分析

q
H z
Sz U z
G(1 bl z l)
l 1
p
1 ai z i
i 1
(5.17)
三种信号模型: (1)自回归滑动平均模型(ARMA模型) (2)自回归信号模型(AR模型) (3)滑动平均模型(MA模型)
13
5.1 LPC的基本原理
“十二五”普通高等教育本科国家级规划教材
5.1.2 语音信号模型和LPC之间的关系
AR模型为语音信号处理的常用模型。此时H(z)写为
H
z
Sz U z
1
G
p
ai
z
i
i 1
(5.18)
当p足够大时,上式几乎可以模拟所有语音信号声道系统。
简化模型的优点:可以用线性预测分析法对增益G和滤波器 系数进行直接而高效的计算。
14
5.1 LPC的基本原理
“十二五”普通高等教育本科国家级规划教材
e(n)表示式:
p
e n s(n) sˆ n s(n) ai s n i
(5.3)
i1
6
5.1 LPC的基本原理
“十二五”普通高等教育本科国家级规划教材
5.1.1 LPC的实现方法
预测误差e(n)是信号s(n)通过LPC误差滤波器A(z)的输出:
p
Az 1 ai z i
(5.4)
i 1
第5章 语音信号线性预测分析
“十二五”普通高等教育本科国家级规划教材
第5章 语音信号线性预测分析
1
第5章 语音信号线性预测分析
“十二五”普通高等教育本科国家级规划教材
5.1 LPC的基本原理
本章目录 结构
5.2 线性预测分析的解法 5.3 线谱对LSP分析

语音信号处理3

语音信号处理3
1将信号进行傅里叶变换得到其频谱2将实际频率尺度转换为mel频率尺度3在mel频率轴上配置三角形滤波器组4根据语音信号的幅度谱求每个三角形滤波器的输出5对三角窗滤波器组的输出求取对数可以得到近似于同态变换的结果6进行傅里叶逆变换即可得到mfcc离散余弦变换5336语音信号的线性预测分析线性预测分析的基本思想
20
短时能量、短时平均幅度和 短时过零率都是随机参数, 对不同性质的语音具有不同 的概律分布。 S — 无声 U — 清音 V — 浊音
21
3.3.3 短时相关分析
相关分析是一种常用的时域波形分析方法,并有自相关 和互相关之分。 ∞ 对确定性信号 Rn ( k ) = ∑ x ( m) x ( m + k )
3
3.2 语音信号的数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码);
语音信号 带通滤 波器 自动增益控 制(AGC) 存入计算机 模/数转换 (A/D) 脉冲编码 调 制 ( PCM )
预处理一般包括预加重、加窗和分帧等。
3.2.1
9
3.2.2
语音信号的预处理
分帧是用可移动的有限长度窗口进行加权的方法来实现 的,即用一定的窗函数ω(n)来乘s(n),从而形成加窗 语音信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗 等,它们的表达式如下(其中N为帧长): 1)矩形窗: ⎧1, 0 ≤ n ≤ ( N −1) ω(n) = ⎨ n = else ⎩0, 2)汉明(Hamming)窗:
14
3.3 语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域 参数。语音信号本身就是时域信号,因而时域分析是 最早使用,也是应用最广泛的一种分析方法,这种方 法直接利用语音信号的时域波形。 时域分析通常用于最基本的参数分析及应用,如语音 的分割、预处理、大分类等。 特点:①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④可使用示波器等通用设备,使用较为简单等。

语音信号处理实验报告

语音信号处理实验报告

语音信号处理实验报告 The Standardization Office was revised on the afternoon of December 13, 2020语音信号处理实验报告——语音信号分析实验一.实验目的及原理语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理,并且语音合成的音质好坏和语音识别率的高低,都取决于对语音信号分析的准确性和精确性。

贯穿语音分析全过程的是“短时分析技术”。

因为从整体来看,语音信号的特性及表征其本质特征的参数均是随时间变化的,所以它是一个非平稳态过程,但是在一个短时间范围内(一般认为在10~30ms的时间内),其特性基本保持不变,即相对稳定,可将其看做一个准稳态过程,即语音信号具有短时平稳性。

所以要将语音信号分帧来分析其特征参数,帧长一般取为10ms~30ms。

二.实验过程男声及女声(蓝色为时域信号,红色为每一帧的能量,绿色为每一帧的过零率)某一帧的自相关函数3.频域分析①一帧信号的倒谱分析和FFT及LPC分析②男声和女声的倒谱分析对应的倒谱系数:,,……对应的LPC预测系数:1,,,,,……原语音波形一帧语音波形一帧语音的倒谱③浊音和清音的倒谱分析④浊音和清音的FFT分析和LPC分析(红色为FFT图像,绿色为LPC图像)三.实验结果分析1.时域分析实验中采用的是汉明窗,窗的长度对能否由短时能量反应语音信号的变化起着决定性影响。

这里窗长合适,En能够反应语音信号幅度变化。

同时,从图像可以看出,En可以作为区分浊音和清音的特征参数。

短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数。

从图中可以看出,短时能量和过零率可以近似为互补的情况,短时能量大的地方过零率小,短时能量小的地方过零率较大。

从浊音和清音的时域分析可以看出,清音过零率高,浊音过零率低。

从男声女声的时域信号对比图中可以看出,女音信号在高频率分布得更多,女声信号在高频段的能量分布更多,并且女声有较高的过零率,这是因为语音信号中的高频段有较高的过零率。

线性预测编码

线性预测编码

l 0
l 0
p
根据自相关函数的定义可得: min apl R(k l), l0
k 0, ap0 1
YuleWal ker 方程:
p
l0
a
pl
R(k

l)



min , 0,
k 0 k 1,2,, p
p 1个线性方程构成的方程组,包含p 1个未知数( min和apl,l 1,2,, p),
j
1,2,...,i
1
• (5)使得i=i+1,若i>p,算法 结束退出,否则返回第四步。
6.2.2自协方差法
• 对于语音信号不进行加窗,对均方值的求解区间进行限定, 即为自协方差法。假定求和区间为[0,N-1],则
N 1
En e2 (n)
• 同样可以得到:
n0
p
aˆi(k,i) (k,0)

e(n)
2E[e(n) ] 0,
a pk
a pk
根据预测误差e(n)的定义可得:
k 1,2,, p
e(n) x(n k),
a pk 可得:
k 1,2,, p
E[e(n)x(n k)] 0, k 1,2,, p
称为正交方程,它表明,预测误差与信号的过去p个取样值是正交的。
N 1 p
(k, i) xw (n k )xw (n i) n0
令m n k,则n i m k i
N 1|k i|
(k, i)
xw (m)xw (m k i)
m0
xw(n)的自相关函数为: R(k)

xw (m)xw (m k)

语音信号处理考试题(综合)

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题一、填空题:(共7小题,每空2分,共20分) A卷1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。

2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。

3、语音编码按传统的分类方法可以分为、和混合编码。

4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。

5、汉语音节一般由声母、韵母和三部分组成。

6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。

7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。

二、判断题:(共3小题,每小题2分,共6分)1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。

()2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。

()3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。

()三、单项选择题:(共3小题,每小题3分,共9分)1、下列不属于衡量语音编码性能的主要指标是()。

(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。

(A)词语(B)句子(C)音节(D)因素四、简答题:(共2小题,每小题12分,共24分)1、画出矢量量化器的基本结构,并说明其各部分的作用。

2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。

五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分)1、线性预测分析的基本思想是什么?2、隐马尔可夫模型的特点是什么?3、矢量量化器的所谓最佳码本设计是指什么?4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。

第四讲 LPC分析

第四讲 LPC分析


i 1
i
当前样本的预测误差e(n)为: (n) x(n) e(n) x(n) x
a x( nБайду номын сангаас i )
i 1 i
p
LPC求解
对一帧样本:
为了在最小均方误差意义上计算一组最佳预测系数,定义 短时预测均方误差为: 2 p
2 En e (n) [ x(n) x(n)] [ x(n) ai x(n i)] 2 n n n i 1
(k , i )
N 1i nk
x
w
(n k ) xw (n i)
k 1, 2, , p,i 0,1, 2, , p k 1, 2, , p,i 0,1, 2, , p
或者为:
( k , i )
N 1( k i )

n 0
xw (n) xw (n k i)
线性预测分析的基本思想
1.一个语音的抽样能够用过去若 x(n) a ix(n 1) 干个语音抽样的线性组合来逼近 i 1 2.这个线性预测的抽样和实际语 e( n ) x ( n ) x ( n ) 音抽样之间存在着误差 3.通过实现预测采样在最小均方 2 2 E ( n ) [ x ( n ) x ( n )] e 误差意义上逼近实际采样,可以 n n 求取一组唯一的预测系数。 预测系数:线性组合中所用的加权系数,ai
i 1 p

1 Az
LPC阶数确定
预测误差与阶数的关系 选择12阶对绝大多数语 音信号的声道模型可以取 得足够的近似逼近 一般取8~12阶 阶数过高的副作用 加大计算量
增加一些不必要的细节 清音与浊音的逼近效果 不同:清音明显高
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

音语音信号处理第九讲:语音信号的线性预测分析应冬文中国科学院声学研究所提纲☐简介(为何建模)⏹Linear Prediction Coefficient 缩写为LPC☐原理(如何建模)⏹信号模型⏹LPC误差滤波⏹LPC语音建模☐在语音上的应用(具体于语音, 如何建模)☐经典解法(求解模型参数)☐频域特性(物理意义)建音域段语音信号采样点(LPC建模的动机:语音时域波形的相关性 一段语音信号采样点x t 样点,构造散点图(x t , x t+p )语音信号波形采样值存在强烈的相关性线性预测理论的发展史☐N.Wiener C.E.Shannon Gunnar Fant1919-2009器官发音的机理官音中☐语音是由声道中的激励信号产生,它受声道、鼻腔和咽喉的形状而形成的共振峰调节。

☐三种激励信号⏹声带周期性开合而产生的声门波,声门波的开合周期决定了语音信号的基音频率。

⏹肺部收缩而产生的空气流。

肺部收缩而产生的空气流⏹上述二者的组合。

声道鼻腔和咽喉中的声☐声道、鼻腔和咽喉中的声波共振由共振峰描述。

音成语音生成过程激励源滤波器卷积语音声波基本用途与思想基想☐LPC基本思想:⏹利用信号间相关性,用过去值预测现在或未来的值,即用过去若干个取样值的线性组合逼近一个取样值。

⏹在某种测度准则下,通过使实际的取样值与预测值之间的差别达最小,确定唯一的一组预测系数。

☐语音领域的用途⏹参数估计:基音周期、共振峰频率、谱特征、声道截面积函数等⏹特点:LPC能精确估计语音参数,用少量参数有效表示语音,计算LPC参数较简单。

⏹语音编码、语音增强、语音合成、声源定位、解混响、语音识音别等。

☐本次课的内容⏹如何建模、求解模型参数、模型的物理意义。

如何建模求解模型参数模型的物理意义☐简介(Linear Prediction Coefficient LPC)提纲(Linear Prediction Coefficient, LPC)☐原理(如何建模)⏹信号模型⏹LPC 误差滤波⏹LPC 语音建模☐在音(何建模)在语音上的应用(如何建模)☐经典解法(求解模型参数)☐频域特性(物理意义)☐简介(Linear Prediction Coefficient LPC)提纲(Linear Prediction Coefficient, LPC)☐原理(如何建模)⏹信号模型⏹LPC 误差滤波⏹LPC 语音建模☐在音(何建模)在语音上的应用(如何建模)☐经典解法(求解模型参数)☐频域特性(物理意义)信号模型(1)☐☐信号模型(2)☐☐三种信号模型(按滤波器的有理分式)信号模型(3)种信号模型(按滤波器的有理分式)⏹ARMA 模型:传递函数含有极点和零点(零极点模型)(自回归−滑动平均模型)过程序列ARMA 模型产生的序列称为ARMA 过程序列。

⏹AR 模型:传递函数的分子多项式为常数(全极点模型)。

(自回归模型)输出只取决于过去的信号值。

AR 模型产生的序列称为AR 过程序列。

⏹MA 模型:传递函数的分母多项式为常数(全零点模型)(滑动平均模型)输出只由模型的输入来决定。

MA 模型产生的序列称为MA 过程序列。

☐ARMA 模型是AR 模型和MA 模型的混合结构。

信号模型(4)☐LPC ☐LPC ☐求解☐推导正交方程的另一种形式☐☐最佳预测时,误差的最小方均值,即正向预测误差功率2min 1[()][()(()())][()()][()()]pp i i pi E E e n E e n x n a x n i E e n x n a E e n x n i ===--=--∑因1i =∑[()()]0;1,2,,p E e n x n j j p -==⎧⎪⎨=-- 即1[()()][()()][()()]pp i i E E e n x n E x n x n a E x n i x n ===--∑(00)(0p -1()()()i i e n x n a x n i =⎪⎩∑☐上式成立条件,最佳预测系数时。

☐合并标准方程式和上式,最后得到:1(0,0)(0,)p i i E c a c i ==∑解出1;0(,0)(,)0;1,2,,p p i i E j c j a c j i j p==⎧-=⎨=⎩∑ ——称为标准方程。

可解出p +1个未知数a 1,a 2,…,a p ,E p 。

正向预测误差功率☐结论☐☐(Linear Prediction Coefficient LPC)提纲简介(Linear Prediction Coefficient, LPC)☐原理⏹信号模型⏹LPC 误差滤波⏹LPC 语音建模☐在音的在语音上的应用☐经典解法☐频域特性语音信号的☐☐音求解滤波器参数和增益常数的过程称为语音信号的LPC 分析☐语音信号的LPC分析。

⏹基本问题是从语音信号序列确定一组LPC 系数。

⏹预测系数的估计须在一短段(帧)语音信号的范围内进行。

☐激励源问题用模型合成语音时产生的序列与和被分析序列⏹清音:用模型合成语音时,产生的序列与和被分析序列有相同的谱包络特性⏹)的谱是一组幅度相同的浊音:激励源u (n )的谱是组幅度相同的谐波线谱,与模型化中的信号源假设有所不同。

⏹但激励源u (n ) 的大部分时间的值非常小(零值),由于均方预测误差最小准则使预测误差e (n )逼近于u (n ),与u (n )能量很小这一事实并不矛盾。

因此,为简便起见,认为模型适于清音、浊音。

语音信号的LPC分析音☐使用全极点模型进行语音信号LPC分析的主要缺点:⏹理论上,语音是极零点模型(特别是清音和鼻音),应用模型;应该用ARMA⏹模型中,对于浊音时,激励源不满足白噪声的假设条件。

☐全极点模型求解方便,在相当广泛的条件适于工程,在数字语音信号处理的众多领域得到了非常成功的应用。

☐(Linear Prediction Coefficient LPC)提纲简介(Linear Prediction Coefficient, LPC)☐原理⏹信号模型⏹LPC 误差滤波⏹LPC 语音建模☐在音的在语音上的应用☐经典解法☐频域特性☐LPC LPC 分析的解法求信号模型参数可以通过C 完成⏹LPC 系数以及预测误差功率可从下式标准方程解出:j =⎧⏹1;(,0)(,)0;1,2,,pp i i E c j a c j i j p=-=⎨=⎩∑ 解线性方程组的方法有多种⏹以系数矩阵的特殊性质可简化解法标准方程=--☐的系数矩阵中,的值取决于求数学期望的方法。

⏹c j,i 的定义不同,导致不同的LPC 解法。

(,)[()()]c j i E x n i x n j (j,)的定不同,导不同的解☐经典解法:自相关法、协方差法。

自自相关法☐☐利用Toeplitz Yule–Walker Levinson–杜宾法快速求解对称p 矩阵,方程可用Durbin (杜宾法)递推算法高效地求解。

⏹算法的计算复杂度为O (p 2)(一般解法复杂度为O (p 3))Y l W lk 为☐设已知p -1阶Yule–Walker 方程的解为:1,11,21,11[1,,,,],Tp p p p p a a a E -------- 则有:11,11(0)(1)(2)(1)(1)(0)(1)(2)0p p r r r r p E a r r r r p ---⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥--⎢⎥⎢⎥⎢⎥1,211(2)(1)(0)(3)0p a r r r r p -⎢⎥-⎢⎥⎢⎥=-⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥----☐由方程的系数矩阵的对称特点知,将p 阶和p -1 阶两方程中1,(1)(2)(3)(0)0p p a r p r p r p r --⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦后面两个列矢量倒置,再代入到原方程中,等式保持不变。

杜宾法快速求解(2)杜宾法☐Levinson–Durbin的递推公式r ⎡11,1121(0)(1)(2)(1)(1)(0)(1)(2)0p p r r r p E a r r r r p ---⎡⎤⎤⎡⎤⎢⎥⎢⎥⎢⎥--⎢⎥⎢⎥⎢⎥-- 1,211(2)(1)(0)(3)01)(2)(3)(0)0p a r r r r p a r r p r r -⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥----1,()))()p p p p --⎣⎦⎣⎦⎣⎦11110(0)(1)(2)()111r r r r p a a r r r r ⎡⎤⎡⎡⎤⎢⎥⎢⎥--- 10p p E k q -⎧⎫-⎤⎡⎤⎪⎪⎢⎥⎢⎥1,1,11,21,2()(0)()()(2)(1)(0)(2)p p p p p p p p a a r r r r p k ------⎢⎥⎢⎥⎢⎥--⎢⎥--⎢⎥⎢⎥⎢⎥⎢⎥0⎪⎪⎢⎥⎢⎥⎪⎪⎢⎥⎢⎥⎪⎪=⎢⎥⎢⎥⎨⎬⎢⎥⎢⎥⎪⎪ 1,11,1(1)(2)(3)(1)()(1)(2)(0)01p p p a a r p r p r p r r p r p r p r ---⎢⎥⎢⎥-----⎢⎥⎢⎥--⎢⎥⎣⎦⎣⎦ 10p p q k E -⎢⎥⎢⎥⎪⎪⎢⎥⎢⎥⎪⎪-⎢⎥⎢⎥⎪⎪⎣⎦⎣⎦⎩⎭杜宾法((1)结论从式☐(Linear Prediction Coefficient LPC)提纲简介(Linear Prediction Coefficient, LPC)☐原理⏹信号模型⏹LPC 误差滤波⏹LPC 语音建模☐在音的在语音上的应用☐经典解法☐频域特性最小预测误差的频域解释最小预测误差的频域解释因最小预测误差的频域解释定义:预测误差信号LPC ☐LPC ☐逼近语音信号谱即:型谱则以任意小的误差逼近语音信号谱,即:22j j lim (e)(e)p H X ωω→∞=☐p →∞,表明成立式:22j j (e )(e )H X ωω=812☐因相位的因素,但不一定成立式j j (e (e H X ≠ωω131620()()信号功率谱元音☐在信号谱的谷底处,LPC谱和信号谱匹配较差;☐浊音语音谱,在谐波成分处匹配效果要远比谐波之间好得多。

的准则原因:源于方均误差最小的准则,谱值大时误差要小。

LPC谱与实际谱的比较参☐p 从、、LPC谱参数选择阶数p 的选择:谱估计精度计算量存储量综合考虑,与LPC 求解方法无关。

一般原则:先保证足够的极点模拟声道响应的谐振结构。

通常,每kHz 两个极点(或共轭极点)表征声道响应,需3~4个极点逼近可能的零点、声门激励和辐射效应。

10 kHz 取样时,要求12~24阶数。

若谱估计关注声道谐振特性,取p =12~14N ☐帧长N 的选择N 小,则求解LPC 参数的计算量小一般,帧长N 取2~3个基音周期才是合理的☐语音信号谱的高频分量小,常采用预加重提高之。

相关文档
最新文档