声信号处理简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

线性预测实际上是用一个全极点的自回归模型(简称AR模型)来描述声道 系统函数,即用现在的输入和过去p个输出的加权值来估计当前的信号
x n ai x n i Gu n
i 1
p
式中,u(n)为激励信号,当发浊音时,声带一开一合产生周期性震动, 此时的声源激励u(n)为单位脉冲信号,这种声带振动的频率称为基音 频率(Pitch),对应的周期称为基音周期。当发清音时,激励u(n) 为白噪声,不具有周期性。浊音包含大量的能量,所有韵母都是浊音, 大部分声母(m, n, l 除外)都是清音。
03
梅尔频率倒谱系数MFCC 感知线性预测PLP
基本流程
预加重 预加重处理其实是将语音信号通过 一个高通滤波器 . . .
H ( z) 1 z 1
式中,μ 的取值介于0.9~1.0之间,通常 取0.97. 分帧 通常情况下,一帧的长度N取为 256或512,时间长度控制在 20~30ms 左右。同时为了减小相邻帧之间的突变, 一般保留50%的overlap. 加窗
平均幅度差法提取基音周期
与自相关函数一样,平均幅度差函数也呈现与浊音语音周期相一致的周期特性。不过,与自相关函数表现在周期处 出现峰值不一样,平均幅度差函数在周期处具有谷值。
倒谱法法提取基音周期
语音信号产生的原理是声门脉冲激励u(n)经 过声道冲击响应v(n)后得到的,在信号处理上表 现为两者的卷积
G 1 ai z i
i 1 p

G A z
预测误差
预测误差ε (n)为:
线性预测系数
p
ˆ n s n ai s n i n s n s
i 1
可以通过在某个准则下 (一般为LMS 准则)使预 测误差 ε(n) 达到最小值的 方法来确定唯一的一组线 性预测系数ai (i=1,2,…,p)
Mel f 1125 log10 1 f 700
计算每个滤波器组输出的对数能量
2 N 1 S m 10log10 X k H m k k 0
经离散余弦变换(DCT)得到梅尔频率倒 谱系数(MFCC)
C n S m cos n m 0.5 M
提取出反应信号特征的关键特征参数,以降低维度数并便于 后续处理。针对不同的应用场景,感兴趣的信号特征不同。
声信号处理中常用的特征参数
时域特征
短时能量(STE) 短时过零率(ZCR)
频域特征
频谱(幅度谱、对数谱、相 位谱、功率谱) 倒谱 Cepstrum
常用特征
声道特征
基音频率(基音周期)Pitch 共振峰频率 Formant 线性预测系数 LPC 线性预测倒谱系数 LPCC
3000
3500
4000
0
500
1000
1500
2000 频 率 /Hz
2500
3000
3500
4000
0
0
500
1000
1500
2000 频 率 /Hz
2500
3000
3500
4000
对数谱 6 5 4 0.07 3 0.06 0.1 0.09 0.08
倒谱
倒谱和复倒谱 Cepstrum
对幅度谱或功率谱取对数,再做反傅里叶 变换即得到倒谱,若是直接对原信号作傅 里叶变换的结果(包含实部和虚部)取对 数并做傅里叶反变换得到的是复倒谱。
logX
2 1 0
幅度
0 500 1000 1500 2000 频 率 /Hz 2500 3000 3500 4000
0.05 0.04 0.03 0.02
-1 -2
0.01 0
0
0.005
0.01
0.015
0.02 0.025 倒 频 率 /s
0.03
0.035
0.04
0 max -3dB
0.707max
各种谱之间的关系
幅度谱 400 350 300 250 0 0.02 300 相位谱 0.035 功率谱
200
0.03
100
0.025
幅值
相位
200 150 100 50 0
-100
功率
0.015 -200 0.01 -300 0.005 -400
0
500
1000
1500
2000 频 率 /Hz
2500
声信号处理简介
Signal Process Brief Introduction
CONTENTS
01
基音周期
02
线性预测
03
梅尔频谱
04
语音增强
声信号处理的目的
VAD检测
归一化
预加重
分帧/加窗
提取特征
ASR
……
语种特征
方言特征
说话风格
话者情绪
特征提取好坏是决定后端语音识别(ASR)准确率的关键 为什么要提取特征?
VAD检测
但是如果信号的信噪比不够高,静音帧的过零率也会有较高的值,此时只需对原始信号进行限幅滤波,再计算短时 能量和过零率即可。
8 6 4 2 0 -2 -4 -6 -8 -10
y
-T
T
-8
-6
-4
-2
0 x
2
4
6
8
10
VAD检测
但是如果信号的信噪比不够高,静音帧的过零率也会有较高的值,此时只需对原始信号进行限幅滤波,再计算短时 能量和过零率即可。
X z GU z
1 1 ai z i
i 1 p
而由倒谱的定义得
ˆ n z n log H z h
i 1

两边同时对 z-1 求偏导数,再令 z 的各次 幂对应的系数相等即可得到线性预测倒 谱系数LPCC
用上述公式计算的复倒谱实际上是在频域尺度上进行的倒谱系数,称为LPC倒谱 系数(LPCC)。根据人耳的听觉特性,可以把上述倒谱系数进一步按符合人的 听觉特性的梅儿尺度进行非线性变换,从而求得LPC梅儿倒谱系数(LPCMCC)
Mel-frequency
2500
滤波器起点与中心点重合。有的时候会对三角滤
2000
1500
1000
ຫໍສະໝຸດ Baidu500
0
0
1000
2000
3000 4000 5000 Frequency/Hz
6000
7000
8000
感知线性预测 (Preceptual Linear Predictive)
感知线性预测是一种基于听觉模型的特征参数。该特征参数是全极点模型预测多项式的一组系数,等效于一种LPC特征。它们的不同 之处在于PLP技术将人耳听觉实验获得的一些结论,通过近似计算的方法进行了工程化处理,应用到频谱分析中,将输入的语音信号经听 觉模型处理后所得到的信号代替传统的LPC分析所用的时域信号。该技术因为考虑了人耳的听觉特性,因此有利于抗噪语音特征提取。
人耳听觉特性
感知线性预测 PLP 梅尔频率倒谱系数 MFCC fbank
VAD检测
短时能量(Short Time Energy)和过零率(Zero Cross Ratio)常用来做VAD(Voice Activity Detection) 检测。相对于静音帧,语音帧有更高的短时能量和过零率。
在倒频域中,声门脉冲激励的倒谱和声道响应的倒谱是相对分离的,说明包含基 音信息的声脉冲倒谱可与包含声道特征的声道响应倒谱分离,因此从倒频域中分 离出各自的倒谱成分并恢复对应的信号分量,用于求解基音周期和共振峰。
ˆ n ˆ n u ˆ n x
线性预测系数 Linear Prediction Coefficients
Mel频域描述了人耳对频率的非线性特性,从 频率到Mel频域的转换可以近似表示为
Mel f 2595 ln 1 f 700
2 n W n 0.54 0.46cos N 1
将每一帧乘以汉明窗,其中 n=0,1,…,N-1. 傅里叶变换(FFT) 对每一帧信号做快速傅里叶变换, 得到功率谱. 三角带通滤波器组 将能量谱通过一组 Mel 尺度的三角滤波 器组,三角滤波器的频率响应定义为: . . .
m0
M 1
计算一阶差分和二阶差分
预加重的作用
预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,
也是为了消除在发声过程中声带和嘴唇的效应,补偿语音信号受到发声系统所抑制的高频部分,以此来突出高频的共振峰。
加窗的作用
在声信号处理中一般添加的窗函 数种类有:矩形窗、三角窗、汉 明窗、汉宁窗、布莱克曼窗和凯 瑟窗,用的最多的是汉明窗。
线性预测法提取基音周期
在线性预测中,线性预测的误差即为声门脉 冲激励,
p
x n ai x n i Gu n
i 1
因此将语音信号通过线性预测系数得到的滤波器
即可得到声门脉冲激励信号,进而提取基音周期。
共振峰的提取
实际上,除了声带以外,声道也包含了大量的个人特 征。由于声道截面积的不均匀分布,声波在传递到截面突 变的地方就会产生特定的共振频率,在频谱上表现为共振 峰,通常用F1, F2, F3来描述前面3个共振峰。目前提取 共振峰的方法主要有: 倒谱法 声道的特征信息包含在声道冲击响应中,而声道冲击 响应主要集中在中高频,因此用预加重对语音信号进行高
通滤波,可减少声门脉冲激励信号对共振峰提取的影响。
LPC求根法 在线性预测分析中,我们可以得到声道冲击响应的系 统函数为
H z
G 1 ai z i
i 1 p
共振峰对应的频率其实是该传递函数对应的极点,因此我
们只需要求出多项式的根对应的频率即可。
02
线性预测系数LPC 线性预测倒谱系数LPCC
线性预测系数LPC的求解方法目前主要有
自相关法 莱文逊-杜宾(Levinson-Durbin)递推算法
协方差法 格型法 使用最广泛的仍然是自相关法
线性预测倒谱系数 Linear Prediction Cepstrul Coefficients
根据定义,声道系统的传递函数为
H z
音时,声带并不产生振动,此时生源激励可以看做是白噪声。韵母都为浊音,大多数声母(m,n,l 除外)都为清音。
基音周期是语音信号最重要的特征之一,它描述了语音激励源的一个重要特征。 根据提取的作用域不同,目前主要有以下方法: 时域:自相关法,平均幅度差法等 频域:倒谱法,线性预测倒谱法等 时频域:小波变换法等
由于实际处理的信号是有限长的,信号的 截断会导致频谱泄露的现象,在频域上表 现为频谱包含过多其他频率成分,加窗处 理可以有效的减少频谱泄露的现象。
Frequency to mel-frequency curve 3000
梅尔滤波器组是一组三角形滤波器组,相邻三角 波器的幅值进行归一化处理,使每一个三角形的 面积都等于1
ˆ n ai x n i 为线性预测器,由x(n)过去的p个值来预测或估 x
i 1
p
计当前值,式中,ai是线性预测系数(Linear Prediction Coefficient) 实际上,语音信号x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得
x n u n n
x n u n n
在倒频域,声门脉冲激励信号和声道冲击响应是
相互分离的
ˆ n ˆ n u ˆ n x
而基音频率一般在60~500Hz之间,集中在低频, 声道冲击响应分布在中高频,因此可以在倒谱上 提取低频信号还原声门脉冲激励,从而提取基音 周期
0
f1
f0
f2
f1
f0
f2
X Re al X *2 / N
Y 10log10 P
01
基音周期(Pitch)、共振 峰(F1,F2,F3)提取
基音周期
人在发声时,根据声带是否振动可分为清音和浊音。当发浊音时,来自肺部的气流冲击声门,造成声门的一张一合, 形成一系列准周期气流脉冲,经过声道的谐振及唇齿的辐射最终形成语音信号,因此浊音呈现一定的准周期。而当发清
自相关法提取基音周期
当一个信号是周期的T的信号时,它的自相关系数也是一个周期信号,且周期同样保持为T。自相关法提取基音周期 正是利用该原理。基音检测的难点主要在于第一共振峰的2~8次谐波分量往往比基波分量还强,这就容易造成误判,在 实际中中表现为提取的基音频率是准确值的2倍,3倍或者为1/2,这些偏离正常轨迹的跳变点我们称为“野点”,以此 在做完基音周期提取后往往需要用中值滤波去除这些“野点”
线性预测分析的基本原理
基本思想
线性预测分析的基本思 想是:用过去 p 个样点 值来预测现在或未来的 样点值
系统函数H(z)
LPC信号模型将辐射、声 道以及声门激励的的全部 谱效应可以简化为一个数 字滤波器
ˆ n ai s n i s
i 1
p
线性预测
H z
S z E z
相关文档
最新文档