梅尔频率倒谱系数
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
c(n)
M m1
S
(m)
cos
n(m M
0.5)
(n
0,1,
2,L
p)
当n=0时,c(0)为第0阶MFCC,反应频谱能量
求MFCC LPC转换法
参数转换公式
c0 ln 2
cm
am
m1 k 1
k m
ck amk ,
1 m p
m1 k
cm k 1 m ck amk ,
m p
Generally, a cepstral representation with Q>p coefficients is used, where Q=(3/2)p
滤波器
Hm (k ),1 m M
M为滤波器的个数。每个滤波器具有三角滤波特性,其中心频 率为f(m), 每个带通滤波器的传递函数为:
0
k f (m 1)
f (m) f (m 1)
Hm (k)
f (m 1) k
f (m 1) f (m)
0
(k f (m 1)) ( f (m 1) k f (m))
同态信号处理的基本原理
由于x^(n)为加性信号,所以第二个子系统可对其进行需要 的线性处理得到y^(n)。
第三个子系统是逆特征系统D*-1[ ],它对y^(n)= y1^(n)+y2^(n)进行逆变换,使其恢复为卷积性信号,即进 行了如下处理:
{
(1)Z[ yˆ(n)] Yˆ(z) Yˆ1(z) Yˆ2 (z) (2) exp Yˆ(z) Y (z) Y1(z) Y2 (z)
人的听觉对频率是有选择性的
✓虽然语音信号的大部分功率包含在低频分量中,但是它们对清晰度 的贡献并不大 ✓人耳听到声音的高低与声音频率不成线性关系,而是与该声音频 率的对数近似成线性正比关系
人的听觉对信号的幅度是有选择性的.语音信号的大部分 信息都保留在其低幅值的部分,高幅值的部分作用不大
人耳的听觉特性之二
即对于信号x(n)=xl(n)*x2(n)进行了如下运算处理:
(1)Z[x(n)] X (z) X1(z) X 2 (z)
{ (2) ln X (z) ln X1(z) ln X 2 (z) Xˆ1(z) Xˆ 2 (z) Xˆ (z) (3)Z 1[ Xˆ (z)] Z 1[ Xˆ1(z) Xˆ 2 (z)] xˆ1(n) xˆ2 (n) xˆ(n)
N 1
X (k) x(n)e j2nk / N (0 n, k N 1) n0
在实际应用中,常常通过FFT(蝶形算法)进行时域到频域 的变换
求MFCC Mel滤波
将上述线性频谱利用前面提到的Mel滤波器组进行Mel滤波
H1(k) H2(k) H3(k) H4(k) H5(k)
H6 (k )
同态变换(同态滤波) :实现将卷积关系和乘积关系变换为求和关 系的分离处理,将非线性信号处理变为线性信号处理的过程。
对卷积信号 x(n) x1(n) x2 (n)作如下变换:
(1)Z[x(n)] X (z) X1(z) X2(z) (2)ln X (z) ln X1(z) ln X2(z) Xˆ1(z) Xˆ 2(z) Xˆ (z)
• 梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC) 考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知 的Mel非线性频谱中,然后转换到倒谱上。
• MFCC参数具有良好的识别性能和抗噪能力。
MFCC 的定义
log S e j cme jm
人类并不能有效地分辨所有的频率分量。只有当两个频率分量
相差一定带宽时,人类才能将其区分,否则人就会把两个音调 听成一个,这称为屏蔽效应,这个带宽被称为临界带宽(Critical Bandwidth) ,其计算公式如下:
BWc 25 75[11.4( fc /1000)2 ]0.69
其中fc为中心频率
倒谱对应的量纲是“Quefrency”,它也是一个新造的英文 词,是由“Frequency”转变而来的,因此也称为“倒频”, 它的量纲是时间。c(n)实际上就是我们要求取的语音信号倒 谱特征。
人的听觉感知过程
声音在听觉器官 中的传递过程:
{耳廓
外耳: 外耳道 鼓膜
中耳: 听小骨 内耳: 耳蜗
1.人的听觉特性之一
y of the low-order cepstral coefficients to overall spectral slope
The sensitivity of the high-order cepstral coefficients to noise (and other forms of noiselike variability).
(3) y(n) Z 1[Y1(z) Y2 (z)] y1(n) * y2 (n)
从而得到卷积性的恢复信号。
复倒谱和倒谱
虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也 均是时域序列,但它们所处的离散时域显然不同于 x(n)和y(n)所处的离散时域,所以我们把它称之为 “复倒频谱域”。
当中心频率在1000Hz以下时,临界带宽基本恒定,约为100Hz。 当中心频率超过1000Hz时,随中心频率的增长,临界带宽呈指 数增长。
人耳的听觉特性之三
基于以上两点考虑,我们构造 (1)Mel频率尺度;——人耳感知的对数关系 (2)Mel滤波器组,——屏蔽效应 来模仿人耳的感知特性。 这组滤波器需要满足: (1)中心频率在Mel频率域内呈线性分布; (2)每一个滤波器的带宽在其临界带宽之内。
梅尔频率
• 线性频率与Mel频率间的转换公式如下:
B( f ) 2595log10(1 f / 700)
• 在Mel频域内,人对音调的感知度为线性关系。 • 举例来说,如果两段语音的Mel频率相差两倍,则人耳听
起来两者的音调也相差两倍。
梅尔频率
线性频率与Mel频率间的对应关系如图:
梅尔滤波器组
m
2
lim lim S()
1 X (e j ) 2
1
N 1
x(n)e jn
N N
N N
n0)
MFCC的应用
使用的最广泛的特征之一 考虑了人耳的听觉生理特征 在语音识别中,相比于LPC系数、PARCOR系数,
MFCC有更强的鲁棒性和可靠性
MFCC的计算方法
FFT LPC变换法
求MFCC流程
则取其对数得: Xˆ (e j ) ln X (e j ) j arg[X (e j )]
即复数的对数仍是复数。如果,我们只考虑X^(ejω)的实部, 令: c(n) F 1[ln X (e j ) ]
显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。c(n)称为 “倒频谱”或简称为“倒谱”,有时也称“对数倒频谱”。
D*[
{]=
F (xn ) X (e j ) Xˆ (e j ) ln[ X (e j )]
xˆ(n) F 1[ Xˆ (e j )]
{ D*-1[ ]=
Yˆ(e j ) F[ yˆ(n)] Y (e j ) exp[Yˆ(e j )] y(n) F 1[Y (e j )]
设:
X (e j ) X (e j ) e j arg[X (e j )]
取对数
(3)Z 1[Xˆ (z)] Z 1[Xˆ1(z) Xˆ 2(z)] xˆ1(n) xˆ2(n) xˆ(n)
求MFCC 取对数
取对数:对三角窗滤波器组的输出求取对数,可以得到近 似于同态变换的结果。
倒谱(cepstrum):一种信号的傅里叶变换经对数运算后再进 行傅里叶反变换得到的谱。
输入语音
预加重、分帧和加窗
FFT (Fast Fourier transform) √
取绝对值或平方值
Mel滤波
√
取对数
√
输出特征向量
DCT (Discrete cosine transform) √
动态特征(Delta MFCC)
√
求MFCC--FFT
原始语音信号经过预加重、分帧和加窗处理后,需要将时 域信号变换到频域。 常用的变换方法为 “傅立叶变换(DFT)”或者其快速算法“快 速傅里叶变换(FFT)”
c(l) h(l 1) o(l 1)
相邻三角形滤波
l-1
l
l+1
器之间的关系
c(l-1)
c(l)
c(l+1)
f
o(l+1)
h(l-1)
h(l)
o(l+1)
梅尔滤波器组的中心频率
中心频率f(m)可以用下面的方法定义:
f
(m)
N Fs
B1
B(
fl
)
m
B(
fh ) B( M 1
fl
)
其中 fl 、fh 为滤波器的频率应用范围的最低频率和最高频率,
x^(n)是x(n)的“复倒频谱”,简称为“复倒谱”, 有时也称作对数复倒谱。其英文原文为“Complex Cepstrum”,Cepstrum是一个新造的英文词, 它是由Spectrum这个词的前四个字母倒置而构成 的。
同样,序列y^(n)也是y(n)的复倒谱。
复倒谱和倒谱
在绝大多数数字信号处理中,X(z),X^(z),Y(z),Y^(z)的 收敛域均包含单位圆,因而D*[ ]与D*-1[ ]系统有如下形式:
……
…… Mel滤波器组
f (0) f (1) f (2) f (3)
f (4)
f (5)
f (6)
则有线性频谱到对数频谱的中传递函数为:
N
S(m) | X (k) |2 Hm (k) k 1
(1 m M )
求MFCC 取对数
语音信号x(n)可视为声门激励信息u(n)及声道脉冲响应h(n)的卷积: x(n)=u(n)*h(n)。某些信道(录音设备)也可视为与语音信号作 卷积运算。有必要将语音信号的声门激励信息、声道响应信息、 信道信息由卷积关系变为线性关系,从而利用其它方法提取出 基音周期、声道特性和信道特性。
倒谱的计算过程:
时域信号
信号频谱
对数谱
DFT
ln|·|
x(n) x1(n) x2 (n)
倒谱 逆DFT
c(n) xˆ1(n) xˆ2 (n)
求MFCC
DCT (Discrete cosine transform)
由于各个滤波器组输出的幅度或能量之间具有很强的相关性, 因此有必要去除各维信号之间的相关性,并将信号映射到低 维空间。(如HMM中,假设各维特征独立,以使用对角协 方差矩阵,从而减小计算量) 在MFCC中,对滤波器组的输出使用了离散余弦变换(DCT) 来去除相关性并获得倒谱系数c(n):
N为DFT(或FFT)窗宽,Fs为采样频率,而 B1 为B的逆函数:
B1(b) 700(eb/ 2595 1)
当m值小时,相邻f(m)之间的间隔也小,随着m的增加 , f(m)的间 隔逐渐变大,这些中心频率在线性频域是非线性划分的,但是 转换到Mel频谱域则是均匀划分的。
梅尔滤波器组的传递函数
Mel频率滤波器组即为在语音的频谱范围内设置的若干个带通
( f (m) k f (m 1)) (k f (m 1))
梅尔频率倒谱系数
• 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号 的灵敏度是不同的。在语音特征的提取上,人类听觉系统做得 非常好,它不仅能提取出语义信息, 而且能提取出说话人的个 人特征,这些都是现有的语音识别系统所望尘莫及的。如果在 语音识别系统中能模拟人类听觉感知处理特点, 就有可能提 高语音的识别率。
梅尔频率倒谱系数
主要内容
倒谱 人的听觉感知过程及听觉特性 梅尔频率及梅尔滤波器组 梅尔频率倒谱系数
求解方法
基于MATLAB的MFCC
倒谱---同态信号处理
同态信号处理:将非线性问题转化为线性问题的处理方法。 同态系统可分解为三个子系统
倒谱---同态信号处理
同态信号处理:将非线性问题转化为线性问题的处理方法。 同态系统可分解为三个子系统 第一个子系统D*[ ]完成将卷积性信号转化为加性信号的运算,
类似于临界频带的划分,Mel滤波器组将语音频率划分成 一系列三角形的滤波器序列,即Mel滤波器组。 如下图所示:
线性频率
ml
ml
Mel滤波器组
ml Mel频率
梅尔滤波器组
• 在Mel频率轴上配置L个三角形滤波器, L的值由信号的截止频率 决定.
• 每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配 • o(l),c(l)和h(l)分别是第l个三角形滤波器的下限,中心和上限频率 • 相邻三角形之间的下限,中心和上限频率的关系: