MFCC
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
梅尔频率倒谱系数
• 人的听觉系统是一个特殊的非线性系统,它响应不同频率信号 的灵敏度是不同的。在语音特征的提取上,人类听觉系统做得 非常好,它不仅能提取出语义信息, 而且能提取出说话人的个 人特征,这些都是现有的语音识别系统所望尘莫及的。如果在 语音识别系统中能模拟人类听觉感知处理特点, 就有可能提 高语音的识别率。 • 梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC) 考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知 的Mel非线性频谱中,然后转换到倒谱上。 • MFCC参数具有良好的识别性能和抗噪能力。
在语音识别中,相比于LPC系数、PARCOR系数,
MFCC有更强的鲁棒性和可靠性
MFCC的计算方法
FFT LPC变换法
求MFCC流程
预加重、分帧和加窗 输入语音
FFT (Fast Fourier transform)
取绝对值或平方值 Mel滤波 取对数 DCT (Discrete cosine transform)
同态信号处理的基本原理
由于x^(n)为加性信号,所以第二个子系统可对其进行需要 的线性处理得到y^(n)。 第三个子系统是逆特征系统D*-1[ ],它对y^(n)= y1^(n)+y2^(n)进行逆变换,使其恢复为卷积性信号,即进行 了如下处理:
{
ˆ ( z) Y ˆ ( z) Y ˆ ( z) ˆ (n)] Y (1)Z[ y 1 2 ˆ ( z) Y ( z) Y ( z) Y ( z) (2) expY
(1) Z [ x(n)] X ( z ) X 1 ( z ) X 2 ( z)
x1 (n) x2 (n)作如下变换:
取对数
ˆ ( z) X ˆ ( z) X ˆ ( z) (2)ln X ( z ) ln X 1 ( z ) ln X 2 ( z ) X 1 2 ˆ ( z )] Z 1[ X ˆ ( z) X ˆ ( z )] x ˆ1 (n) x ˆ2 ( n ) x ˆ ( n) (3) Z 1[ X 1 2
√
√
√ √
√
输出特征向量
动态特征(Delta MFCC)
求MFCC--FFT
原始语音信号经过预加重、分帧和加窗处理后,需要将时 域信号变换到频域。 常用的变换方法为 “傅立叶变换(DFT)”或者其快速算法“快 速傅里叶变换(FFT)”
X (k ) x(n)e j 2 nk / N (0 n, k N 1)
n 0
N 1
在实际应用中,常常通过FFT(蝶形算法)进行时域到频域 的变换
求MFCC Mel滤波
将上述线性频谱利用前面提到的Mel滤波器组进行Mel滤波
H1 (k ) H2 (k ) H3 (k )
H 4 (k ) H 5 (k ) H 6 (k )
„„
„„
Mel滤波器组
f (0) f (1) f (2)
其中 f l 、fh 为滤波器的频率应用范围的最低频率和最高频率, Fs 为采样频率,而 B 1 为B的逆函数: N为DFT(或FFT)窗宽,
B1 (b) 700(eb / 2595 1)
当m值小时,相邻f(m)之间的间隔也小,随着m的增加 , f(m)的间 隔逐渐变大,这些中心频率在线性频域是非线性划分的,但是 转换到Mel频谱域则是均匀划分的。
梅尔频率倒谱系数
语音团队
2011.4.1 2013.3.29
主要内容
倒谱 人的听觉感知过程及听觉特性 梅尔频率及梅尔滤波器组 梅尔频率倒谱系数
求解方法
基于MATLAB的MFCC
倒谱---同态信号处理
同态信号处理:将非线性问题转化为线性问题的处理方法。 同态系统可分解为三个子系统
源自文库
人的听觉感知过程
声音在听觉器官 中的传递过程: 耳廓 外耳: 外耳道 鼓膜 中耳: 听小骨 内耳: 耳蜗
{
1.人的听觉特性之一
人的听觉对频率是有选择性的
虽然语音信号的大部分功率包含在低频分量中,但是它们对清晰度 的贡献并不大 人耳听到声音的高低与声音频率不成线性关系,而是与该声音频 率的对数近似成线性正比关系
倒谱---同态信号处理
同态信号处理:将非线性问题转化为线性问题的处理方法。 同态系统可分解为三个子系统 第一个子系统D*[ ]完成将卷积性信号转化为加性信号的运 算,即对于信号x(n)=xl(n)*x2(n)进行了如下运算处理:
{
(1)Z[ x(n)] X ( z) X1 ( z ) X 2 ( z)
梅尔频率
线性频率与Mel频率间的对应关系如图:
梅尔滤波器组
类似于临界频带的划分,Mel 滤波器组将语音频率划分成 一系列三角形的滤波器序列,即Mel滤波器组。 如下图所示: 线性频率
ml
ml
Mel滤波器组
ml
Mel频率
梅尔滤波器组
• 在Mel频率轴上配置L个三角形滤波器, L的值由信号的截止频率 决定. • 每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配 • o(l),c(l)和h(l)分别是第l个三角形滤波器的下限,中心和上限频率 • 相邻三角形之间的下限,中心和上限频率的关系: c(l ) h(l 1) o(l 1)
复倒谱和倒谱
在绝大多数数字信号处理中,X(z),X^(z),Y(z),Y^(z)的 收敛域均包含单位圆,因而D*[ ]与D*-1[ ]系统有如下形 式: F ( xn ) X (e j ) ˆ (e j ) ln[X (e j )] X D* [ ]= ˆ (e j )] ˆ(n) F 1[ X x
求MFCC 取对数
取对数:对三角窗滤波器组的输出求取对数,可以得到近 似于同态变换的结果。 倒谱(cepstrum):一种信号的傅里叶变换经对数运算后再进 行傅里叶反变换得到的谱。 倒谱的计算过程: 时域信号 信号频谱 对数谱 倒谱
DFT
ln|·|
逆DFT
x(n) x1 (n) x2 (n)
ˆ ( z) X ˆ ( z) X ˆ ( z) (2) ln X ( z) ln X1 ( z) ln X 2 ( z) X 1 2
ˆ ( z)] Z 1[ X ˆ ( z) X ˆ ( z)] x ˆ1 (n) x ˆ2 (n) x ˆ(n) (3)Z 1[ X 1 2
ˆ1 (n) x ˆ2 (n) c(n) x
求MFCC DCT (Discrete cosine transform)
由于各个滤波器组输出的幅度或能量之间具有很强的相关性, 因此有必要去除各维信号之间的相关性,并将信号映射到低 维空间。(如HMM中,假设各维特征独立,以使用对角协 方差矩阵,从而减小计算量) 在MFCC中,对滤波器组的输出使用了离散余弦变换(DCT) 来去除相关性并获得倒谱系数c(n):
1 2
(3) y(n) Z 1[Y1 ( z) Y2 ( z)] y1 (n) * y2 (n)
从而得到卷积性的恢复信号。
复倒谱和倒谱
虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也 均是时域序列,但它们所处的离散时域显然不同于 x(n)和y(n)所处的离散时域,所以我们把它称之为 “复倒频谱域”。 x^(n)是x(n)的“复倒频谱”,简称为“复倒谱”, 有时也称作对数复倒谱。其英文原文为“Complex Cepstrum”,Cepstrum是一个新造的英文词,它是 由Spectrum这个词的前四个字母倒置而构成的。 同样,序列y^(n)也是y(n)的复倒谱。
人的听觉对信号的幅度是有选择性的.语音信号的大部分 信息都保留在其低幅值的部分,高幅值的部分作用不大
人耳的听觉特性之二
人类并不能有效地分辨所有的频率分量。只有当两个频率分量 相差一定带宽时,人类才能将其区分,否则人就会把两个音调 听成一个,这称为屏蔽效应,这个带宽被称为临界带宽(Critical Bandwidth) ,其计算公式如下:
梅尔滤波器组的传递函数
Mel频率滤波器组即为在语音的频谱范围内设置的若干个带通 滤波器
H m (k ),1 m M
M为滤波器的个数。每个滤波器具有三角滤波特性,其中心频 率为f(m), 每个带通滤波器的传递函数为:
0 k f (m 1) f (m) f (m 1) H m (k ) f (m 1) k f ( m 1) f ( m) 0 ( k f ( m 1)) ( f (m 1) k f (m)) ( f (m) k f (m 1)) ( k f ( m 1))
l-1
c(l-1) o(l+1)
l
c (l ) h(l-1)
l+1
c(l+1) h(l)
相邻三角形滤波 器之间的关系
f
o(l+1)
梅尔滤波器组的中心频率
中心频率f(m)可以用下面的方法定义:
N B( f h ) B( f l ) f (m) B 1 B( fl ) m F M 1 s
D*-1[
]=
{ {
ˆ (e j ) F[ y ˆ (n)] Y ˆ (e j )] Y (e j ) exp[ Y
y(n) F 1[Y (e j )]
设:
X (e ) X (e ) e
j
j
j arg[ X ( e j )]
则取其对数得: ˆ (e j ) ln X (e j ) j arg[ X (e j )] X 即复数的对数仍是复数。如果,我们只考虑X^(ejω)的实部, 令: c(n) F 1[ln X (e j ) ] 显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。c(n)称为 “倒频谱”或简称为“倒谱”,有时也称“对数倒频谱”。 倒谱对应的量纲是“Quefrency”,它也是一个新造的英文 词,是由“Frequency”转变而来的,因此也称为“倒频”, 它的量纲是时间。c(n)实际上就是我们要求取的语音信号倒 谱特征。
f (3)
f (4)
f (5)
f (6)
则有线性频谱到对数频谱的中传递函数为:
S (m) | X (k ) |2 H m (k )
k 1 N
(1 m M )
求MFCC 取对数
语音信号x(n)可视为声门激励信息u(n)及声道脉冲响应h(n)的卷积: x(n)=u(n)*h(n)。某些信道(录音设备)也可视为与语音信号作 卷积运算。有必要将语音信号的声门激励信息、声道响应信息、 信道信息由卷积关系变为线性关系,从而利用其它方法提取出 基音周期、声道特性和信道特性。 同态变换(同态滤波) :实现将卷积关系和乘积关系变换为求和关 系的分离处理,将非线性信号处理变为线性信号处理的过程。 对卷积信号 x(n)
来模仿人耳的感知特性。
这组滤波器需要满足: (1)中心频率在Mel频率域内呈线性分布; (2)每一个滤波器的带宽在其临界带宽之内。
梅尔频率
• 线性频率与Mel频率间的转换公式如下:
B( f ) 2595log (1 f / 700)
10
• 在Mel频域内,人对音调的感知度为线性关系。
• 举例来说,如果两段语音的Mel频率相差两倍,则人耳听 起来两者的音调也相差两倍。
MFCC 的定义
log S e
c
j m
m
e
jm
S ( ) lim
N
1 1 j 2 X (e ) lim N N N
n 0)
jn x ( n ) e
N 1
2
MFCC的应用
使用的最广泛的特征之一 考虑了人耳的听觉生理特征
BWc 25 75[1 1.4( fc /1000)2 ]0.69 其中fc为中心频率
当中心频率在1000Hz以下时,临界带宽基本恒定,约为100Hz。 当中心频率超过1000Hz时,随中心频率的增长,临界带宽呈指 数增长。
人耳的听觉特性之三
基于以上两点考虑,我们构造 (1)Mel频率尺度;——人耳感知的对数关系 (2)Mel滤波器组,——屏蔽效应