语音识别流程分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别流程分析
摘要:语言识别是将人类自然语言的声音信号,通过计算机自动转换为与之相对应的文字符号的一门新兴技术,属于模式识别的一个分支。语音识别的结果可以通过屏幕显示出文字符号,也可以存储在文本文件中。语音识别技术能够把语音信息直接转换成文字信息,对于中文信息处理来说,无疑是一个最理想、最自然的汉字输入方式。本文首先分析了语音识别的原理,在此基础上进行语音识别的流程分析,主要内容有:提取语音、端点检测、特征值提取、训练数据、语音识别。选用HMM隐马尔科夫模型,基于VC2005编译环境下的的多线程编程,实现算法的并行运算,提升了语音识别的效率。实验结果表明:所设计的程序满足语音识别系统的基本要求。
关键词:语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程
前言
语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话
音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
语音识别技术,也被称为自动语音Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列[1]。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
一、语音识别的原理
语音识别的基本原理是一个模式匹配的过程:先建立一个标准的模式存放在计算机中,然后把输入的语言信息进行分析处理,采集相关的信息建立目标语音模式,再将目标语音模式与机内标准模式相匹配,找到最近的模式最为识别结果输出。语音识别本质上是一种模式
识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果[2]。
使用C语言编程,实现基于马尔科夫模型的数据特征提取,在此基础上编程实现特定语音实例的语音识别;将语音识别功能编写成可供其他模块调用的函数,为进一步实现语音识别系统提供基础;并且从中培养、提高查阅文献和综合运用知识的编程开发能力。图1是基于模式匹配原理的自动语音识别系统原理框图。
图1 语音识别系统原理框图
(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。
(2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。
(3)训练阶段:用户输入若干次训练语音,经过预处理和特征提
取后得到特征矢量参数,建立或修改训练语音的参考模式库。
(4)识别阶段:将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识(如构词规则,语法规则等)得出最终的识别结果。
二、语音识别的流程
(一)样本语音采集
在室内录制标准汉语数字0-9的wav语音做样本语音,录音软件采用MS Visual C++WavRecorder,采样率16KHz,采样位16位,语音数据以wav文件格式存储,其音频格式为Windows PCM。(二)语音信号预处理
1、语音信号数字化
通过采样及量化提取语音信号的数据。其中,数据提取部分,掌握语音文件的存储形式极为重要,有效地提取并清楚各部分数据的含义,对分析数据起到帮助作用,为下一步工作做了良好的起步。2、预加重处理
提升高频部分,使信号频谱变得平坦,以便于进行声道参数分析或频谱分析。预加重语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频)。求语音信号频谱时,频率越高,相应的成分越小。为此,要在预处理中进行预加重处理(Pre—emphasis)。预加重的目的是使信号的频谱变得平坦,保持从低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一
般是采用一阶的数字滤波器[3]µ:H(Z)=1-µ-1z ,µ值接近于1,或者采用公式y(n)=x(n)-αx(n-1),其中,x(n)为原始信号序列;y(n)为预加重后序列;α为预加重系数。
3、端点检测及分帧加窗
断点检测主要为实现对数据中有效部分的提取。阈值采用0.3(最大值-最小值),语音信号是一种典型的非平稳信号,处理中一般使用窗函数截取其中一段来进行分析,截取出来的那部分信号被认为是短时平稳的。加窗处理的另一个作用就是消除由无限序列截断导致的Gibbs 效应。常见的窗函数有:
①矩形窗(RectangularWindow)
{1(0
1)0(0)n N ω≤≤-其他
②汉明窗(Hamming Window)
2
0.540.46cos()(01)10(n)n n N N πω-≤≤--⎧⎨⎩其他
③哈宁窗(Hann Window)
2
0.50.5cos()(01)10(n)n n N N πω-≤≤--⎧⎨⎩其他
汉明窗和哈宁窗都属于广义升余弦函数,通过分析他们的频率响应幅度特征,可以发现,矩形窗的谱平滑性能好,但是旁瓣太高,容易造成频谱泄露,损失高频成分;哈宁窗衰减太快,低通特性不平滑;而汉明窗由于其平滑的低通特性和最低的旁瓣高度而得到广泛的应用[4]。