声音识别基础知识.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
声音识别基础知识
2015级电子与通信工程 董雪
声音识别原理
训练 参考模式库 语音输入 预处理与 数字化 特征提取 结果 模式匹配
后处理
识别
声音识别的过程
• 声音的预处理:振幅归一化、预加重、样本分割、 加窗 • 特征提取:特征参数可以是能量、基音频率、共 振峰值等,较常见的是线性预测倒谱系数LPCC、 Mel倒谱系数MFCC。二者均为将声音信号变换到 倒谱域上。
• • • • 声音预处理 取帧长,每帧作FFT变换。 用Mel带通滤波器进行滤波,得到一组系数。 将每个滤波器的输出取对数,得到相应频带的 对数功率谱 • 利用反离散余弦变换得到MFCC • 矢量量化 • 特征匹配
基于MFCC和GMM的方法
• 声音预处理 • 取帧长,每帧作FFT变换 • 把上述功率谱映射到梅尔频标,再用M个梅尔带通 滤波器滤波 • 将每个滤波器的输出取对数,得到相应频带的对数 功率谱 • 利用离散余弦变换得到谱的幅值,即MFCCs • 建立混合高斯模型GMM • 期望最大化 • 声音识别
矢量量化
• 失真度必须具有如下特点: • (1)在主观评价上具有意义,即小的失真对应好 的主观质量评价。 • (2)数学上易于处理,能导致实际的系统设计。 • (3)可计算并保证平均失真 D=E[d(X, Q(X))]存在。 • (4)采用的失真测度应使系统容易用硬件实现。
基于Mel和矢量量化的方法
矢量量化
• 基本原理:先把信号序列的每K个连续样点分成 一组,形成N维欧式空间中的一个矢量,然后对 此矢量进行量化。矢量量化就是把一个K维模拟 矢量X映射为另一个k维量化矢量,其数学表达式 为:Y=Q(X)。 • 矢量量化系统通常可以分解为两个映射的乘积: Q=ab。a是编码器,将输入矢量X映射为信道符 号集 I N中的一个元 i j ;b是译码器,它是将信道符 号集 i j映射为码书中的一个码字Yi。
• 此外,还有: • 基于MFCC和PNN的声音识别 • 基于SBC和HMM的声音识别
谢谢!
加窗处理
• 预加重处理后,进行加窗分帧处理。 • 原理:由于发声器官的惯性运动,可以认为在一 小段时间内(一般为10~30ms)语音信号近似不 变,即语音信号具有平稳性。这样,可以把语音 信号分为一些短段(分析帧)。语音信号的分帧 是采用可移动的有限长度窗口进行加权的方法实 现。一般每秒33~100帧。
加窗处理
虽采用连续分段,但一般采用交叠分段 的方法使帧与帧之间平滑过渡,保持连 续性。前帧与后帧的交叠部分称为帧移 ,帧移与帧长的比值一般取0~1/2。 • 常用窗: 1,0 n N 1 ( n ) 一种是矩形窗: 0, others

另一种是汉明窗:

0.54 0.46cos[2 n /( N 1)],0 n N 0, others
矢量量化
• 失真测度:要对落在二维空间的模拟矢量X=(a1, a2)进行量化,要先选择一个合适 的失真测度,而后利用最小失真原则,分别计算 用量化矢量Yi替代X所带来的失真。 其中最小失真值所对应的那个量化矢量Yi中某一 个就是模拟矢量X的重构矢量。通常把所有N个量 化矢量构成的集合称之为码书或码本。码书中的 矢量称之为码字或码矢。
幅值归一化
• 幅值归一化就是把每一个采样值除以本段信号的 幅值。即:
X (i ) x(i ) / max x(i)
0 i n 1
~
x(i) 是原始信号, X (i ) 是归一化后的信号,n • 其中, 是信号长度。
~
预加重处理
• 目的:对高频部分进行加重,增加语音的高频分 辨率。 1 H z 1 z • 实现方式:一般通过传递函数 的一阶FIR高通数字滤波器来实 为预加重系 现预加重,其中, 数,其值介于0.9到1.0之间。
矢量量化
• 常用的失真测度有如下几种: • (1)平方失真测度: • (2)绝对误差失真测度:
k i 1
d ( X , Y ) (wenku.baidu.comX i Yi )
2
d ( X , Y ) | X i Yi |
• (3)加权平方失真测度: d ( X , Y ) ( X Y )T W ( X Y ) 其中,W为正定加权矩阵,T为矩 阵转置符号。
相关文档
最新文档