特定人孤立词语音识别系统的仿真与分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

西安工程科技学院学报

Jo urnal of Xi ’an University of Engineering Science and Technology

 第21卷第3期(总85期)2007年6月Vol.21,No.3(Sum No.85) 文章编号:16712850X (2007)0320371203

收稿日期:2006212212

通讯作者:党幼云(19622),女,陕西省澄城县人,西安工程大学教授.E 2mail :xk 2dyy @

特定人孤立词语音识别系统的仿真与分析

马 莉,党幼云

(西安工程大学电子信息学院,陕西西安710048)

摘要:在MA TL AB 环境下利用语音工具箱Voice Box ,设计并实现了基于D TW 算法的特定人

的孤立词语音识别系统.论述了高效D TW 算法的基本原理及系统的实现过程.仿真结果表明,该系统对特定人的孤立词取得了良好的识别率.关键词:语音识别;MCC ;动态时间规整;MA TLAB 中图分类号:TN 912.34 文献标识码:A

0 引 言

语音识别是近年来十分活跃的一个研究领域.在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制.而在手持式PDA 、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[1].

在特定人孤立词语音识别中,最为简单有效的方法是采用D TW (Dynamic Time Warping ,动态时间规整)算法,该算法基于动态规划(DP )的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[2].商业软件MA TL AB 以其强大的功能,已经成为工科研究人员的基本研究工具.信号处理更是MA TL AB 的强项,它自带的信号处理工具箱能有效缩短系统软件的开发周期.

本文借助MA TL AB 环境下的语音工具箱Voice Box ,基于D TW 算法的基本原理,实现了特定人孤立词语音识别系统,验证了该算法的有效性,同时该仿真为实际应用系统的硬件实现提供了一定的参考价值.

1特定人孤立词语音识别系统分析

一个完整特定人孤立词语音识别系统通常包括语音的输入,语音信号的预处理,特征提取,训练与识别等几个环节,基本构成如图1所示

.

图1 孤立词语音识别系统框图

语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程.模式匹配中需要用到的参考模板通过模板训练获得.在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库.在识别阶段,语音信号经过相

同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别

结果.同时,还可以在一些先验知识的帮助下,提高识别的准确率.

2 语音识别算法———高效的D TW 算法

动态时间规整(Dynamic Time Warping ,D TW )是把时间规整和距离测度计算结合起来的一种非线性规整技术,解决了测试模板与参考模板语音时间长度不等的问题

.

图2 匹配路径约束示意图

通常,规整函数被限制在一个平行四边形的网格内,如图2所示.它的一条边斜率为2,另一条边斜率为1/2.规整函数的起点是(1,1),终点为(N ,M ).D TW 算法的目的是在此平行四边形内由起点到终点寻找一个规整函数,使其具有最小的代价函数,保证了测试模板与参考模板之间具有最大的声学相似特性[3].

由于在模板匹配过程中限定了弯折的斜率,因此平行四边形之外的格点对应的帧匹配距离是不需要计算的.另外,因为每一列各格点上的匹配计算只用到了前一列的3个网格,所以没有必要保存所有的帧匹配距离矩阵和累积距离矩阵.充分利用这两个特点可以减少计算量和存储空间的需求,形成一种高效的D TW 算法,如图2所示.图2中,把实际的动态弯折分为三段,(1,x a ),(x a +1,x b ),

(x b +1,N ),其中:

x a =(2M -N )/3,x b =2(2N -M )/3

.

(1)

x a 和x b 都取最相近的整数,由此可得出对M 和N 长度的限制条件:

2M -N ≥3,2N -M ≥2.

(2)

当不满足以上条件时,认为两者差别太大,则无法进行动态弯折匹配.在x 轴上的每一帧不再需要与

y 轴上的每一帧进行比较,而只是与y 轴上[y min ,y max ]间的帧进行比较,y min 和y max 的计算公式为

y min =

x/2,0≤x ≤x b ,

2x +(M -2N ),x b

(3)y max =

2x ,0≤x ≤x a ,

x/2+(M -N/2),x a

(4)如果出现x a >x b 的情况,则弯折匹配的三段为(1,x b ),(x b +1,x a ),(x a +1,N ).

对于x 轴上每前进一帧,虽然所要比较的y 轴上的帧数不同,但弯折特性是一样的,累积距离的更新都是用下式实现的:

D (x ,y )=d (x ,y )+min [D (x -1,y ),D (x -1,y -1),D (x -1,y -2)]

(5)3 Matlab 仿真实验

3.1 语音信号预处理

语音信号的预处理包括预滤波、采样和量化、加窗、预加重、端点检测等过程[4].

所选用的实验语音数据,是在实验室条件下利用PC 机录制.采用8000k Hz 采样频率、8bit 量化、单声道的PCM 录音格式.由于语音信号在帧长为10ms ~30ms 之内是相对平稳的,同时为了便于计算FF T ,本系统选取帧长N 为256个语音点,帧移M 为128点.

汉明窗与矩形窗和汉宁窗相比具有最低旁瓣,可以有效地克服泄漏现象,具有更平滑的低通特性,故本文采用汉名窗对语音信号进行分帧处理,如(6)式.

ω(n )=0.54-0.46co s (2πn/(N -1)),0≤n ≤N -1.

(6)预加重用具有6dB/倍频程的提升高频特性的一阶数字滤波器实现:

H (z )=1-0.9375×z -1

.

(7)

273 西安工程科技学院学报 第21卷

相关文档
最新文档