语音识别算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
j=i+r
F Ck=(ilk, jk)
C1=(1, 1)
t1 t2 t3
j=i-r
ti
T
tI i
动态时间规正法(DTW)的具体解法
(1)约束条件
(ik-1, jk) ck=(ilk, jk)
F ={c1,c2,…,cK} ck=(ik,jk) (2)D(F)式中分母部独立处理 D(F)= ∑{d(ck)wk}
Zn sgn[x[m] sgn[x(m 1)] w(n m) m
其中,sgn[]为符号函数,
sgn x(n)
1, x( n)0 1, x ( n) 0
短时能量和过零率的应用:
• 区分清音段和浊音段的特征参数
• 在信噪比较高的情况下,可用作区分有声和无声 的依据
• 作为辅助的参数用于语音识别中
语音识别算法研究
主要内容
• Part 1 语音识别系统简介 • Part 2 语音信号的预处理和端点检测 • Part 3 特征参数的提取与仿真 • Part 4 模式匹配法与仿真
Part 1 语音识别系统简介
• 1.1 语音识别系统的分类 按发音方式: 孤立词语音识别系统,连接词语音识别系统、
制信号各频率中超过fs/2的所有分量;抑制50hz 交流电源干扰。
• 2.1.2 语音信号的预加重
对于语音信号的频谱,通常是频率越高幅
值越小,在语音信号的频率增加两倍时,其功率 谱的幅度下降6dB。因此必须对高频进行加重处 理,一般是将语音信号通过一个一阶高通滤波器 1-az-1,即为预加重滤波器。其目的是滤除低频 干扰,特别是50Hz到60Hz的工频干扰,将对语
N
D mind (T (in ), R((in ))) (in ) in 1
D就是处于最优时间规整情况下两矢量的距离。 由于DTW不断地计算两矢量的距离以寻找最优的 匹配路径,所以得到的是两矢量匹配时累积距离 最小所对应的规整函数,这就保证了它们之间存 在的最大声学相似性。
动态时间规正法(DTW)的原理
音识别更为有用的高频部分进行频谱提升。
• 2.1.3 加窗
语音信号是一种典型的非平稳信号 ,但研 究发现,语音信号在短时间内频谱特性保持平稳, 即具有短时平稳特性 。
为了保持语音信号的短时平稳性,利用窗函 数来减少由截断处理导致的Gibbs效应。用的最多 的三种为矩形窗、汉明窗(Hamming)和汉宁窗 (Hanning)。其窗函数如下,式中的N为窗长,一
LPCC(线性预测倒谱系数)是LPC在倒谱域中的表示。 该特征是基于语音信号为自回归信号的假设,利用线性预 测分析获得倒谱系数。LPCC的优点是计算量小,易于实 现,对元音有较好的描述能力,缺点是对辅音描述能力较 差。
Lpc线性预测仿真
• LPC模型是基于发音模型建立的,LPCC系 数也是一种基于合成的系数,这种参数没 有充分利用人耳的听觉特性。实际上,人 的听觉系统是一个特殊的非线性系统,它 响应不同频率信号的灵敏度是不同的,基 本上是一个对数的关系。
F 2 19 1 20 7 23 5 26 E 1 17 5 22 1 16 6 22
R D 4 16 7 18 2 15 4 19
C 5 12 2 11 4 15 3 16 B 3 7 4 9 8 17 2 13 A 2 4 1 5 5 10 1 11
12 3 4
T
(1)时间伸缩函数 F
j
F ={c1,c2,…,cK}
ck=(ik,jk)
rJ
(2)F 的累加距离 D(F)
rj
D(F)= ∑{d(ck)wk}
R
k
∑wk
k
r2
d(ck)=d(ik,jk)
r1
(3)最佳匹配失真测度D(T,R)
D(T,R)=min{D(F)} F
时间伸缩函数
匹配窗 CK=(I, J)
k
∑(I+J)
k
(3)DTW算法(部分优化法)
g(ck)=g(ik,jk)=g(i,j)=
D(T,R)= g(I, J)/(I+J)
(ilk, jk-1)
r4 r3 rFra Baidu bibliotek r1
t1 t2 t3 t4 t5
{g(i-1, j)+ d(i, j)
min g(i-1, j-1)+2d(i, j)
g(i, j -1)+ d(i, j)
• 取对数:计算Pm的自然对数,得到Lm,m=0,1,……M1;
• 离散余弦变换:对Lm计算其离散余弦变换,得到D m, m=0,1,……M-1,舍去代表直流成份的D0,取D1, D2,……,Dk作为MFCC参数。
Part4 模式匹配法与仿真
• DTW(Dynamic Time Warping,动态时间规整) 语音识别中较为经典的一种算法。 它寻找一个规整函数,将测试矢量的时间轴i 非线性地映射到参考模板的时间轴j上,并使该函 数满足:
2.2.1 短时能量
对第n帧语音信号的短时能量En的定义为:
n
En [x(m)w(n m)]2
[x(m)w(n m)]2
m
mn N 1
X(n)为原样本序列在窗函数所切
取出的第n段短时语音,N为帧长。
• 2.2.2 短时平均过零率
短时过零表示一帧语音信号波形穿过横轴(零 电平)的次数。对于连续语音信号,过零意味着时域 波形通过时间轴;而对于离散信号,如果相邻的取 样值的改变符号则称为过零。过零率就是样本改变 符号次数,定义语音信号的短时过零率Zn为:
般等于帧长。
• 矩形窗
窗函数的种类
• 汉明窗(Hamming)
语音信号预处理的仿真
加窗处理(汉明窗)
• 2.2 端点检测
语音端点检测是指用计算机数字处理技术从包 含语音的一段信号中找出字、词的起始点及结束 点,从而只存储和处理有效语音信号。
进行端点检测的基本参数主要有短时能量、幅 度、过零率和相关函数等。端点检测最常见的方 法是短时能量短时过零率双门限端点检测。
端点检测仿真
2.3 复倒谱和倒谱
复倒谱是x(n)的Z变换取对数后的逆Z变换,其 表达式如下:
^
x Z 1[ln Z[x(n)]]
倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z 变换,即
c(n) z1[ln | X (z) |]
浊音信号的倒谱中存在着峰值,它的出现位置 等于该语音段的基音周期,而清音的倒谱中则不 存在峰值。利用这个特点我们可以进行清浊音的 判断,并且可以估计浊音的基音周期。
动态时间规正法(DTW)的计算实例
•DTW算法(部分优化法) g(ck)=g(ik,jk)=g(i,j)=
D(T,R)= g(I, J)/(I+J)
{g(i-1, j)+ d(i, j)
min g(i-1, j-1)+2d(i, j)
g(i, j -1)+ d(i, j)
(ik-1, jk) ck=(ilk, jk) (ilk, jk-1)
Part 3 特征参数的提取与仿真
• 基本的特征参数主要有:能量、幅度、过零 率、频谱、倒谱和功率谱等。
• 常用的常用的语音识别参数有线性预测参 数(LPC),线性预测倒谱参数(LPCC)和Mel 尺度倒谱参数(MFCC)等。
3.1 LPC(线性预测系数)
模拟人发音器官的声管模型,是一种基于语音合成的 参数模型。在语音识别系统中很少直接使用LPC系统,而 是由LPC系数推出的另一种参数LPCC。
• 3.2 MFCC系数
MFCC系数即Mel尺度倒谱系数(Mel-scaled Cepstrum Coefficients) ,是一种能够比较充分利 用人耳的特殊感知特性的系数。
MFCC系数和线性频率的转换关系是:
f mel
2595log10
(1
f) 700
MFCC系数也是按帧计算的 ,流程如下:
语音
信号
预处理
FFT
| |2
Mel滤波器组
Log
MFCC
DCT
系数
• 预处理:确定每一帧语音采样序列的长度(如N=256), 并对每帧序列s(n)进行预加重、分帧和加窗处理;
• 计算离散功率谱:对预处理的每帧进行离散FFT变换得 到其频谱,再取模的平方作为离散功率谱S(n);
• 将功率谱通过滤波器组:计算S(n)通过M个Hm(n)后所 得的功率值,即计算S(n)和Hm(n)在各离散频率点上的 乘积之和,得到M个参数Pm,m=0,1,……M-1;
连续语音识别系统 按应用对象: 特定人和非特定人识别系统 按识别词汇量: 小词汇量、中等词汇量和大词汇量识别系统。
• 1.2 语音识别系统的原理框图
Part 2 语音信号预处理和端点检测
• 2.1 预处理
2.1.1 信号的采样 语音识别时常用的采样频率为8KHZ,10KHZ,
16KHZ 。 语音信号在采样之前要进行预滤波的目的:抑