语音识别方法及发展趋势分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别改进方法及难点分析
——《模式识别》结课小论文
学院:化工与环境学院
学号:2120151177
姓名:杜妮
摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。
关键字:模式识别声音识别方法应用
随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。
语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。
一、语音识别的改进方法
(一)特征提取模块改进
特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是
目前阶段语音识别研究的重点和难点【1】。由于考虑到人耳的听觉特性,Mel 倒谱系数或感知线性预测系数【2】已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。
语音识别技术中最流行的特征参数时基于声道模型和听觉机理的LPCC(LinearPredictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstralcocficients)参数,而MFCC在低频段具有较高的谱分辨率,对噪声的鲁棒性优于LPCC,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是LPCC还是MFCC参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。
对语音识别实际应用过程中的噪声问题,付丽辉给出了一种新的抗噪声的特征提取算法,即先利用小波变换将语音信号进行小波子带分解,再根据人耳的听觉掩蔽效应,由谱压缩的技术,将小波变换后的子带语音信号进行压缩,从而提取其对应的语音特征。通过MATLAB软件建立实验平台,仿真实验结果表明该语音特征可以在噪声环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点【3】。
为克服FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,黄丽霞等人采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进行前端处理。在仔细研究FIR滤波器参数确定方法的基础上,详细介绍了La-guerre滤波器原理及参数计算方法,并给出了计算结果。孤立词、非特定人语音识别实验结果表明,使用Laguerre滤波器不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降【4】。
陈斌等人提出了一种基于最小分类错误(Minimum classification error,MCE)准则的线性判别分析方法(Linear discriminant analysis,LDA),并将其应用到连续语音识别中的特征变换。该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵。利用判别分析变换矩阵对相邻帧梅尔滤波器组
输出拼接的超矢量变换降维,得到时频特征。实验结果表明,与传统的MFCC 特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1。41%,相比于HLDA(Heteroscedastic LDA)和近似成对经验正确率准则(Approximate pairwise empirical accuracy criterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%【5】。
(二)声学模型训练改善
声学模型是语音识别系统的底层模型,是语音识别系统中最为关键的一部分。其目标就是提供一种有效的方法,计算语音的特征矢量序列和每一个发音模板之间的距离。
传统的声学建模方式大都基于隐马尔科夫框架,采用混合高斯模型(Guassian mixture model,GMM)来描述语音声学特征的概率分布。
针对传统的“隐马尔科夫模型-高斯混合模型”声学模型,目前常用的解决
方案有: 结构化协方差矩阵/精度矩阵建模方法【6】,即假设不同协方差矩阵或其
精度矩阵由若干个低秩(通常是秩为1 的) 基矩阵的线性叠加得到,各高斯混元
通过某种方式共享一组相同的基矩阵;本征三音子(Eigentriphone) 建模方法【7】,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到更为精确的参数估计;子空间高斯混合模型(Subspace Gaussian mixture model,SGMM)【8】,将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混合模型相比,SGMM 声学模型大大压缩了模型尺寸,并且可以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识别【9】。
张文林等人提出从语音信号声学特征空间的非线性流形结构特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型。将特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型。将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型。最终每个状态由一个服从稀疏约束的权重矢量和若干个