梅尔频率倒谱系数(mfcc)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
梅尔频率倒谱系数(mfcc)
梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。
它衍生自音讯片段的倒频谱(cepstrum)。
倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。
这样的非线性表示,可以在多个领域中使声音信号有更好的表示。
例如在音讯压缩中。
梅尔频率倒谱系数(MFCC)广泛被应用于语音识别的功能。
他们由Davis和Mermelstein在1980年代提出,并在其后持续是最先进的技术之一。
在MFCC之前,线性预测系数(LPCS)和线性预测倒谱系数(LPCCs)是自动语音识别的的主流方法。
MFCC通常有以下之过程:
将一段语音信号分解为多个讯框。
将语音信号预强化,通过一个高通滤波器。
进行傅立叶变换,将信号变换至频域。
将每个讯框获得的频谱通过梅尔滤波器(三角重叠窗口),得到梅尔刻度。
在每个梅尔刻度上提取对数能量。
对上面获得的结果进行离散傅里叶反变换,变换到倒频谱域。
MFCC就是这个倒频谱图的幅度(amplitudes)。
一般使用12个系数,与讯框能量叠加得13维的系数。