改进的小波变换HMM语音识别算法
一种改进型HMM说话人识别算法
一种改进型HMM说话人识别算法陶洁;张会林【摘要】针对Baum—Welch算法依赖于初始值的选取而容易陷入局部最优解的问题,基于全局优化的思想,提出了一种改进的HMM语音识别算法。
该算法将遗传算法应用到HMM模型训练中,得到了全局最优解。
实验结果表明,所提出的算法使用有效,识别率显著提高。
%In order to avoid Baum-Welch algorithm falling into local optimum, an improved algorithm based on global optimization about training HMM-genetic ~lgorithms is proposed. Experimental result shows that the improved algorithm is practical and effective, the recognition rate is improved significantly.【期刊名称】《微型机与应用》【年(卷),期】2012(031)021【总页数】3页(P31-32,35)【关键词】遗传算法;HMM模型;语音识别【作者】陶洁;张会林【作者单位】上海理工大学光电信息与计算机工程学院,上海200090;上海理工大学光电信息与计算机工程学院,上海200090【正文语种】中文【中图分类】TP391.4近年来,随着语音识别技术的不断发展,语音识别系统的性能不断提高,隐马尔可夫模型方法是当中的一个主要识别方法。
语音识别系统的识别率十分依赖于模型的训练,而经典的训练算法(Baum-Welch算法)有一个致命的弱点,即最终所得的解十分依赖于初始值的选取,所以总是局部最优解,影响了整个系统的识别率。
本文将遗传算法植入HMM模型参数的优化当中,使得整个语音识别系统的识别效果大大改善。
1 遗传算法遗传算法将自然界的生物进化原理引入待优化参数形成的编码串联群体中,按所选择的适应度函数通过遗传中的复制、交叉及变异对个体进行筛选,使得适应度高的个体被保留下来,组成新的群体。
隐马尔可夫模型算法及其在语音识别中的应用
隐马尔可夫模型算法及其在语音识别中的应用隐马尔可夫模型(Hidden Markov Model,HMM)算法是一种经典的统计模型,常被用于对序列数据的建模与分析。
目前,在语音识别、生物信息学、自然语言处理等领域中,HMM算法已经得到广泛的应用。
本文将阐述HMM算法的基本原理及其在语音识别中的应用。
一、HMM算法的基本原理1.概率有限状态自动机HMM算法是一种概率有限状态自动机(Probabilistic Finite State Automata,PFSA)。
PFSA是一种用于描述随机序列的有限状态自动机,在描述序列数据的时候可以考虑序列的概率分布。
PFSA主要包括以下几个部分:(1)一个有限状态的集合S={s_1,s_2,…,s_N},其中s_i表示第i个状态。
(2)一个有限的输出字母表A={a_1,a_2,…,a_K},其中a_i表示第i个输出字母。
(3)一个大小为N×N的转移概率矩阵Ψ={ψ_ij},其中ψ_ij表示在状态s_i的前提下,转移到状态s_j的概率。
(4)一个大小为N×K的输出概率矩阵Φ={φ_ik},其中φ_ik 表示在状态s_i的前提下,输出字母a_k的概率。
2. 隐藏状态在HMM中,序列的具体生成过程是由一个隐藏状态序列和一个观测序列组成的。
隐藏状态是指对于每个观测值而言,在每个时刻都存在一个对应的隐藏状态,但这个隐藏状态对于观测者来说是不可见的。
这就是所谓的“隐藏”状态。
隐藏状态和观测序列中的每个观测值都有一定的概率联系。
3. HMM模型在HMM模型中,隐藏状态和可观察到的输出状态是联合的,且它们都服从马尔可夫过程。
根据不同的模型,HMM模型可以划分为左-右模型、符合模型、环模型等。
其中最常见的是左-右模型。
在这种模型中,隐藏状态之间存在着马尔可夫链的转移。
在任何隐藏状态上,当前状态接下来可以转移到最多两个状态:向右移动一格或不变。
4. HMM的三个问题在HMM模型中,有三个基本问题:概率计算问题、状态路径问题和参数训练问题。
语音识别技术中的语音识别算法研究与改进
语音识别技术中的语音识别算法研究与改进概述:语音识别技术是人工智能领域的重要应用之一,它能够将人的语音输入转换为可理解和处理的文本数据。
语音识别算法是语音识别技术的核心,其性能优劣直接影响着语音识别系统的准确性和稳定性。
本文将对语音识别技术中的语音识别算法进行研究与改进,探讨其现有技术和未来发展方向。
一、传统语音识别算法研究与改进1. 隐马尔可夫模型(HMM)算法隐马尔可夫模型是目前应用最广泛的语音识别算法之一。
它通过建立声学模型和语言模型,并利用Viterbi算法进行解码,实现从连续的语音信号到离散的字词的转换。
然而,HMM算法在对长短时语音变化的处理上存在一些困难,对于发音变化较大的词汇识别效果较差。
因此,有必要对HMM算法进行改进,提高其对于语音变化的适应能力。
2. 高斯混合模型(GMM)算法高斯混合模型是语音识别中常用的声学模型之一。
它利用一系列高斯分布来建模来自不同发音单元的声学特征。
然而,GMM算法对于语音信号中的非线性关系建模能力较弱,导致在复杂语音环境下的识别准确率较低。
因此,在GMM算法的基础上,可以引入更强大的模型,如深度神经网络(DNN),以提高算法的准确率和鲁棒性。
3. 声学特征提取算法声学特征提取是语音识别中的关键步骤,直接影响着语音识别系统的性能。
传统的声学特征提取算法主要采用梅尔倒谱系数(MFCC)和线性预测编码(LPC)等方法。
然而,这些方法对于噪声和干扰的鲁棒性较差。
为此,可以利用对抗生成网络(GAN)等方法进行声学特征增强,提高语音信号的质量和鲁棒性。
二、基于深度学习的语音识别算法研究与改进随着深度学习在各个领域的成功应用,深度学习算法也得到了广泛关注和应用。
在语音识别领域,深度学习算法在一定程度上取代了传统的语音识别算法,并取得了显著的效果提升。
然而,深度学习算法仍然存在一些问题,需要进一步研究和改进。
1. 循环神经网络(RNN)算法循环神经网络是一种能够处理序列数据的神经网络结构,它已被成功应用于语音识别任务中。
基于小波分析和HMM的语音识别模型建立与仿真
1 基 于 小 波分 析 和 HMM 的语 音 识 别 模 型 的建 立
a d Snmlt n o p e h № ∞ n i ai fS e c o
D o e sd n W a ee ay i n n M d lBa e o v ltAn lss a d HM M
ZHANG i W ANG —h n ZHANG a L, Fu z o g, To
lc ,' main o a ee rn f r ,te p p r p e e t a h b d s e c e o n t n mo e .I h rc s d n i i g t e o a i o t W v ltta s m l dr o f o h a e r s ns y r p e h rc g i o d 1 n t e p o e s o ie t y n h i i f f v ie sg a ,c n i ei g n n tt n r y o h n t i n ,p r l li e t c t n meh d r s d t b an c a sf d i fr — oc in l o sd rn o s i a i p o e c s a ao t f i gl a al d ni a o t o s a e u e o o ti ls i e n oma e i f i i
(col f lc cl ni e n dA tm t n Hea o t h i U i ri , i zo 4 0 , h a Sho o Eet a E g er ga uo a o , nnP le nc n esy J ou 0 3 C i ) r n i n i i yc v t a 5 4 n A s atA py gdn mct esq ec o en blyo d e ro oe ( bt c :p li ya i i eunem dl gait f dnMakvm l HMM)a det c n oeeet e e r n m i i h i d n x at gm r ci l t ri f vyh
一种基于HMM算法改进的语音识别系统
一种基于HMM 算法改进的语音识别系统随着科技的不断发展,人们对更快、更准、更智能化的语音识别系统越来越期待。
语音识别系统是一种将人类的语音转换成文字的方式,被广泛的应用于语音助手、汽车导航、智能家居等许多领域。
在实际的应用中,语音识别系统往往会受到许多干扰和噪音的影响,影响系统的准确率和可用性。
为了提高语音识别系统的稳定性和精准度,本文提出了一种基于HMM 算法改进的语音识别系统。
一、HMM 算法的基本原理和应用1、HMM 模型概述隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,主要用于对观察序列进行建模,它是一种基于时间序列的模型,利用一些可见的、已经观测到的状态推断出一些不可见的、隐藏的状态。
由于HMM 模型在许多领域都有着广泛的应用,如语音识别、自然语言处理、图像识别等,因此,本文主要针对HMM 模型在语音识别中的应用进行研究和改进。
2、HMM 模型的应用在语音识别中,人们常常使用HMM 模型来进行声学特征的处理,将采集到的语音信号经过分割、预处理、特征提取等步骤后,再利用HMM 模型进行声学模型训练,将语音信号与语音模型相匹配,从而得到语音识别结果。
二、HMM 算法改进对于HMM 算法的改进,本文主要从两个方面进行优化:一是改进初始概率的计算方法,二是改进HMM 模型的训练策略。
1、改进初始概率的计算方法HMM 模型的初始概率是指第一个状态的概率,其中第一个状态可能是任何一个状态。
由于HMM 模型是一个概率模型,因此初始概率的正确性与准确性至关重要。
传统的初始概率计算方法通常根据统计数据和预测比例来进行计算。
然而,在传统的初始概率计算方法中,往往会存在误差和偏差,因此我们需要采用一种更为准确的计算方法。
为了改进初始概率的计算方法,我们可以利用前向算法和后向算法进行计算,即将观察到的语音信号进行分割和分析,从而得出每个观察值在每个时间点上的概率分布。
然后再将概率分布加权求和得到初始概率。
语音识别算法及其实现
语音识别算法及其实现
一、概述
语音识别(speech recognition)是一种将语音信号转化为机器可以
理解的文字或符号的技术。
它通常被用来构建智能语音系统,使用户可以
通过语音与计算机进行交互。
在过去的数十年里,语音识别技术取得了巨
大的进步,开发出了更加准确、实用的算法。
目前,语音识别已经广泛应用于智能家居、安全监控、智能驾驶和智
能安防等多个领域。
本文将介绍语音识别算法、实现及其发展趋势。
二、语音识别算法
1.短时傅里叶变换
2.语音模板匹配
语音模板匹配(voice template matching)是一种语音识别技术,
可以根据已有的语音模板识别输入的语音。
它将语音信息转化为特定的特
征值,然后用这些特征值与模板中的特征值进行比较,从而进行识别。
3.基于HMM的语音识别
基于HMM(hidden Markov model)的语音识别是一种先进的语音识
别技术,利用HMM模型对语音信号进行建模,从而将语音信号转换为文本。
它是一种基于概率模型的语音识别算法,能够更好地处理语音的变化及其
复杂性。
一种改进的DNN-HMM的语音识别方法
摘要 针对深度神经网络与隐马尔可夫模型 (DNN-HMM) 结合的声学模型在语音识别过程中建模能力有
限等问题,提出了一种改进的 DNN-HMM 模型语音识别算法。首先根据深度置信网络 (DBN) 结合深度玻
尔兹曼机 (DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数 (MFCC) 和对数域的 Mel 滤波
372
2019 年 5 月
rate by 0.48% and 0.82% respectively, and an appropriate increase in the filter bank group can reduce the error rate. In brief, the sentence error rate and the word error rate are reduced to 21.06% and 3.12% respectively. Key words Speech recognition, Deep neural network, Acoustic model, Acoustic feature
0.48% 和 0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到
21.06% 和 3.12% 的好成绩。
关键词 语音识别,深度神经网络,声学模型,声学特征
语音识别常用算法
语音识别常用算法
语音识别是将口语信号转化为文字的过程。
它广泛应用于人机交互、智能家居、智能客服等领域。
语音识别的核心是算法,下面介绍几种常用的语音识别算法。
1、基于隐马尔可夫模型(HMM)的语音识别算法
HMM是一种统计模型,它可以用来描述一个序列的生成过程。
在语音识别中,HMM被用来描述语音信号的产生过程。
它通过对输入信号的分析,推断出最有可能的词语序列。
2、基于高斯混合模型(GMM)的语音识别算法
GMM是一种用于建模概率密度函数的方法。
在语音识别中,GMM 被用来建模每个单词的声学特征。
通过计算输入信号与每个单词的GMM之间的相似度,识别出最有可能的词语。
3、基于神经网络的语音识别算法
神经网络是一种类似于人脑的计算模型。
在语音识别中,神经网络被用来建模输入信号和语音识别结果之间的映射关系。
通过训练神经网络,提高语音识别的准确性。
4、基于深度学习的语音识别算法
深度学习是一种对神经网络的扩展,它可以自动地学习特征,并且不需要人为设置特征提取算法。
在语音识别中,深度学习被用来提取输入信号的特征,并且建立输入信号和语音识别结果之间的映射关系。
以上是几种常用的语音识别算法,每一种算法都有其优缺点。
在
实际应用中,需要根据具体需求和数据情况选择合适的算法。
基于HMM与遗传神经网络的改进语音识别系统
基于HMM与遗传神经网络的改进语音识别系统吴延占【摘要】为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.【期刊名称】《计算机系统应用》【年(卷),期】2016(025)001【总页数】5页(P204-208)【关键词】隐马尔可夫模型;神经网络;语音识别;遗传算法【作者】吴延占【作者单位】西安工程大学电子信息学院,西安710048【正文语种】中文随着语音识别技术的发展,人们对语音识别的技术要求越来越高,隐形马可夫模型(HiddenMarkov Model,简称HMM),在语音识别中已经广泛得到应用.但是,其自适应能力差,抗噪性也不是十分理想,仅靠单一的HMM进行语音识别存在诸多困难[1,2].而现在广泛应用的人工神经网络(ArtificalNeuralNet-work,简称ANN)[3,4],在自适应、抗噪性方面具有良好的特性,克服了HMM中存在的不足.反向传播神经网络(BP)虽然已经是神经网络中前向神经网络的核心部分,并且得到了广泛的应用[5].然而,BP神经网络也存在诸多缺点,比如学习收敛速度太慢,使其只能解决小规模的问题,也不能保证收敛到全局最小点,使得训练结果达不到全局最优性.遗传算法优化后的反向传播神经网络(GA-BP)[6-9]的混合模型语音识别方法,有效地保证训练结果的全局最优性,在语音识别的速度方面也有大幅度的提高,但在噪声环境下,遗传算法优化后的反响传播神经网络噪声鲁棒性并不是十分理想,因此也对语音识别系统的性能带来了影响[10].本文运用小波神经网络结构简单、收敛速度快的优点,对MFCC系数进行训练,从而得到新的MFCC系数,再进行特征提取后作为遗传算法优化后的输入.然后利用优化后的遗传神经网络获得语音的分类识别信息进行语音识别.实验结果表明,基于HMM与遗传神经网络改进的语音识别系统进一步提高了语音识别系统的自适应性和噪声鲁棒性.隐马尔可夫模型是一种利用相关参数来表示,并用于描述随机过程中统计特性的概率模型[11].它的本质是一种基于统计分布一致性的聚类分析,每个隐含的状态就是一个聚类,对HMM进行训练的过程就是寻找每个聚类之间的相关联的过程.它由两部分组成:一个是隐含的马尔可夫链,即为隐含层;另一个是实际的观测量,即为观测层.HMM基于参数统计理论,利用概率密度函数计算出语音参数对模型的输出概率,找到最佳状态序列以后,用最大后验概率为准则进行识别.语音参数和隐马尔可夫模型关系如下图图1所示.对于整个HMM模型,利用来描述,其中:π表示初始状态概率密度,其中A表示状态转移矩阵, 其中①B表示观测层的概率分布矩阵,,其中是在时间t的观测符号.②S表示隐含状态,为HMM的状态集,N表示隐含状态数,模型在时刻t的状态用qt表示其中T表示观测序列的长度.如下图图2是HMM语音识别系统框图,此算法框图模型是基于先训练后识别的基本模式进行的.BP神经网络是人工神经网络中应用最为广泛的算法,但在广泛运用的同时,也逐渐出现一些不足之处,比如收敛速度慢、不能保证收敛到全局最小点等等.另外,网络结构,初始连接权值与阈值的选取对网络训练带来的影响也非常大,但是又无法准确获得.针对这些特点可以采用遗传算法对神经网络进行优化.2.1 传统遗传算法传统遗传算法实现步骤如下:1)随机产生一定数量的初始个体,这些随机产生的初始个体总体数目组成一个种群.2)用评价函数来评价每个个体的优劣,每个个体的适应程度(称为适应度)作为遗传操作的依据.3)从现有的种群中选取一定的个体作为新一代的个体,个体适应程度越高,被选择的机会越大.4)对于新生成的种群进行交叉、交异操作.2.2 用遗传算法优化神经网络权值的学习过程遗传算法(Genetic Algorithm,GA)是模拟著名天文学家达尔文的遗传选择和生物进化的计算模型,具有很强的宏观搜索能力和良好的全局优化性能[12,13].因此采取遗传算法与BP神经网路相结合,训练时先用遗传算法对神经网络的权值进行寻找,将搜索范围缩小后,再利用BP网络来进行精确求解,可以达到全局寻找和快速高效的目的,并且避免局部最小问题.遗传算法优化神经网络权值的学习过程,我们以3 层BP神经网络为例,实现步骤如下:1)初始化种群p.2)计算每一个个体的评价函数,并将其排序,可以按照下式概率值选择网络个体:式中,fi为个体i的适配值,可以用误差平方和E来衡量,其计算公式分别为:式中 i表示个体数,表示输出层节点数,k表示学习样本数,yo表示实际网络输出,d表示期望输出.3)以交叉概率Pc对个体Gi和Gi+1交叉操作,产生新个体,没有交叉操作的个体直接进行复制.4)利用变异概率Pm变化产生Gj的新个体5)把4)得到新个体插入到种群P里面,并通过计算得到新个体的评价函数.6)判断算法是否结束.若符合性能指标aε,则循环结束,否则转入3)进入下一轮运算. 算法结束后,由群体中最优个体解码即可得到优化后的网络连接权值系数.算法结束后,由群体中最优个体解码即可得到优化后的网络连接权值系数.现有的语音识别系统只能处理平稳信号,而人说话的语言频率不一样使得语音信号是一个准稳态信号,这时就要把语音划分成若干帧以达到信号稳定的要求.但这存在的不足之处就是并没有考虑到语音信号的动态特性,根据神经网络在非线性映射方面有比较好的效果,同时神经网络也具有小波多分辨分析的性能,从而可以从样本中提取出来新的特征信息.本文采用基于HMM与遗传神经网络改进的语音识别系统,对输入语音信号进行预处理后,利用小波神经网络训练MFCC系数,然后根据HMM参数库进行Viterbi译码,归一化处理以后作为优化后遗传神经网络的输入,即将HMM中全部状态累计概率作为优化后的遗传神经网络特征输入,再根据神经网络的非线性映射能力对语音信号识别出所需要的结果.改进后的语音识别系统流程图如图3所示.基于HMM与遗传神经网络改进的语音识别系统算法实现:1)预处理.包括预加重、分帧(把语音信号处理成可看作稳态的信号)、加窗函数,预加重的滤波器设为:2)小波神经网络训练MFCC系数.MFCC和线性频率的对应关系如下式中,Fmel是以美尔为单位的感知频率;f是以Hz为单位的实际频率.利用MFCC比较符合人耳听觉特性的基础,用小波神经网络对MFCC进行训练,从而获得新的MFCC系数作为特征提取的输入.3)快速傅里叶变换与谱线能量的计算.对每个滤波器取对数以后得到MFCC频率系数作为小波神经网络的输入,再通过小波神经网络的训练得到新的MFCC系数.最后进行特征参数提取.4)利用训练好的HMM参数库作为Viterbi译码的输入,利用Viterbi算法得到相应语音信号的Viterbi评分,在进行归一化处理.5)由(4)得到的Viterbi评分,利用优化后的遗传神经网络对其进行非线性,获得分类的识别结果,即通过上述识别过程共同识别作用,最终得到语音识别结果.实验语音文件从十个人中采集,一个文件有中文数字1-9组成.每个人录了四次,其中三个用于培训和一个用于测试.记录格式的采样频率8 kHz,单通道16位采样点,采取的帧长为256点.记录后,点检测去除无声段,其次是预加重.然后,语音段划分为20个帧,从每一帧中提取的特征参数.一个帧有10个特征.因此,每一个数字都会有 200特点.实验训练集采取100个不同人员的净语音样本;在不同的信噪比下取50个不同人员的语音信息;在不同的环境下,采用的语音数据的信噪比分别为40、35、30、25、20、15、5和0dB.实验时,为了验证改进的语音识别系统的有效性,在Matlab7.0上分别对HMM,HMM与优化后的遗传神经网络和本文改进后的混合语音识别模型算法做对比.实验分为两次实验过程,第一次在加性高斯噪声下;第二次在学校餐厅学生就餐时人声为噪声背景.实验分别得出语音在加性高斯噪声下识别率如表1和图4;在学校餐厅时实验结果如表2和图5所示.由表1和表2中的实验数据可以看出,改进以后的混合算法相比单一的HMM和优化的遗传神经网络相比具有更好的识别效果,尤其对那些容易混淆的词语识别率也有所提高.对于识别系统的信噪鲁棒性方面也有了明显的改变,提高了语音识别系统的自适应能力.神经网络的收敛速度是衡量语音识别的一个重要标准,因此遗传神经优化算法与BP算法收敛速度作了如图6、图7的比较,实验结果表明,优化算法收敛速度得到明显改善.本文提出了基于隐马尔可夫HMM与遗传算法的神经网络改进的语音识别系统,在隐马尔可夫模型与遗传网络算法优化的基础上,引入小波神经网络训练MFCC系数,充分利用了隐马尔可夫模型强大的时间建模能力与遗传算法优化后的收敛速度快、分类识别能力强的优点.小波神经网络训练出的MFCC新系数应用到优化后的神经网络具有更高的识别率,提高了识别系统的自适应能力.1 吕军,曹效英,徐宝国.基于语音识别的汉语发音自动评分系统的设计与实现.计算机工程与设计,2007,28(5):1232-1235.2 郭超,张雪英,刘晓峰.支持向量机在低信噪比语音识别中的应用.计算机工程与应用,2013,49(5):213-215.3 Seman N,Bakar Z A,Bakar NA.The optimization of Artificial Neural Networks connection weights using genetic algorithms for isolated spoken Malay parliamentary speeches.2010 International Conference on Computer and Information Application(ICCIA).IEEE.2010.162-166.4 Lan ML,Pan ST,Lai ing genetic algorithm to improve the performance of speech recognition based on artificial neural network.First International Conference on Innovative Computing,Information and Control(ICICIC’06).IEEE.2006,2.527-530.5 王晓东,薛宏智,马盈仓.基于自适应遗传算法的神经网络字符识别.西安工程大学学报,2008,22(2):210-213.6 钟林,刘润生.新神经网络结构及其在数码语音识别中的应用.清华大学学报(自然科学版),2000,40(3):104-108.7 包亚萍,郑骏,武晓光.基于HMM和遗传神经网络的语音识别系统.计算机工程与科学,2011,33(4):139-144.8 冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究.计算机工程与设计,2010,(24):5324-5327.9 肖勇,覃爱娜.改进的HMM和小波神经网络的抗噪语音识别.计算机工程与应用,2010,(22):162-164.10 Pan ST,Wu CH,Lai CC.The application of improved genetic algorithm on the training of neural network for speech recognition.Second International Conference on Innovative Computing,Information andControl(ICICIC’07).IEEE,2007.168-168.11 Aggarwal RK,Dave M.Application of genetically optimized neural networks for Hindi speech recognition system.2011 World Congress on Information and Communication Technologies(WICT).IEEE.2011.512-517.12 An M,Yu Z,Guo J,et al.The teaching experiment of speech recognition based on HMM.The 26th Chinese Control and Decision Conference(2014 CCDC).IEEE.2014.2416-2420.13 Silva WLS,de Oliveira Serra GL.A novel intelligent system for speech recognition.International Joint Conference on NeuralNetworks(IJCNN).IEEE.2014.3599-3604.。
语音识别 HMM 训练改进算法比较
语音识别 HMM 训练改进算法比较
徐礼逵;李林
【期刊名称】《计算机光盘软件与应用》
【年(卷),期】2012(000)023
【摘要】模型训练是 HMM 应用于语音识别时重要的一环,本文首先简要介绍了HMM 及其三大基本问题,针对Baum-Welch 算法收敛速度慢和易陷于局部最优解的缺陷,归纳总结了基于分段 K 均值算法、基于遗传算法、基于随机松弛算法的三大改进算法,通过实验验证了改进算法可以提高语音识别效果。
【总页数】3页(P30-32)
【作者】徐礼逵;李林
【作者单位】中国农业大学信息与电气工程学院,北京 100083;中国农业大学信息与电气工程学院,北京 100083
【正文语种】中文
【中图分类】TN912.34
【相关文献】
1.多权值神经元网络仿生模式识别方法在低训练样本数量非特定人语音识别中与HMM及DTW的比较研究 [J], 覃鸿;王守觉
2.人工蜂群算法改进DHMM的语音识别方法 [J], 宁爱平;张雪英
3.用遗传算法改进HMM的语音识别算法 [J], 王一平;赵哲峰
4.用遗传算法改进HMM的语音识别算法 [J], 王一平;赵哲峰
5.HMM语音识别模型与一种修正训练算法 [J], 关存太;陈永彬
因版权原因,仅展示原文概要,查看原文内容请购买。
隐马尔可夫模型(hmm)参数迭代与语音识别
隐马尔可夫模型(HMM)是一种统计模型,常用于语音识别、自然语言处理等领域。
它主要用来描述隐藏的马尔可夫链,即一种具有未知状态的马尔可夫链。
在语音识别中,HMM被广泛应用于对语音信号进行建模和识别。
下面我将从HMM的基本概念、参数迭代和语音识别应用等方面展开阐述。
1. HMM的基本概念在隐马尔可夫模型中,有三种基本要素:状态、观测值和状态转移概率及观测概率。
状态表示未知的系统状态,它是隐藏的,无法直接观测到。
观测值则是我们可以观测到的数据,比如语音信号中的频谱特征等。
状态转移概率描述了在不同状态之间转移的概率,而观测概率则表示在每个状态下观测到不同观测值的概率分布。
2. HMM参数迭代HMM的参数包括初始状态概率、状态转移概率和观测概率。
在实际应用中,这些参数通常是未知的,需要通过观测数据进行估计。
参数迭代是指通过一定的算法不断更新参数的过程,以使模型更好地拟合观测数据。
常见的参数迭代算法包括Baum-Welch算法和Viterbi算法。
其中,Baum-Welch算法通过最大化似然函数来估计模型的参数,Viterbi算法则用于解码和预测。
3. HMM在语音识别中的应用在语音识别中,HMM被广泛用于建模和识别语音信号。
语音信号被转换成一系列的特征向量,比如MFCC(Mel-Frequency Cepstral Coefficients)特征。
这些特征向量被用来训练HMM模型,学习模型的参数。
在识别阶段,通过Viterbi算法对输入语音进行解码,得到最可能的文本输出。
4. 个人观点和理解从个人角度看,HMM作为一种强大的统计模型,在语音识别领域有着重要的应用。
通过不断迭代参数,HMM能够更好地建模语音信号,提高语音识别的准确性和鲁棒性。
然而,HMM也面临着状态空间爆炸、参数收敛速度慢等问题,需要结合其他模型和算法进行改进和优化。
总结回顾通过本文对隐马尔可夫模型(HMM)的介绍,我们从基本概念、参数迭代和语音识别应用等方面对HMM有了更深入的了解。
hmm三个基本问题及相应算法
HMM三个基本问题及相应算法
HMM的三个基本问题
隐马尔科夫模型(Hidden Markov Model,简称HMM)是用于处理序列数据的统计模型,广泛应用于语音识别、自然语言处理、生物特征识别等领域。
HMM的三个基本问题是:
1. 概率计算问题:给定HMM模型和观测序列,如何计算在某个状态或状态转移下的概率?
2. 最优状态序列问题:给定HMM模型和观测序列,如何找到最优的状态序列,即最大概率的状态序列?
3. 参数学习问题:给定一组观测数据,如何估计HMM模型的参数,即状态转移概率、发射概率等?
相应算法
针对HMM的三个基本问题,有以下相应的算法:
1. 前向-后向算法:用于解决概率计算问题,可以计算在某个状态或状态转移下的概率。
算法基于动态规划的思想,通过递推计算前
向概率和后向概率,进而得到状态转移概率和发射概率的计算公式。
2. Viterbi算法:用于解决最优状态序列问题,可以找到最优的状态序列。
算法基于动态规划的思想,通过递推计算每个时刻的最优状态,并在每个时刻更新最优路径,最终得到最优状态序列。
Viterbi算法的时间复杂度为O(n*k^2),其中n为观测序列的长度,k为状态数。
以上是HMM三个基本问题及相应算法的简要介绍。
在实际应用中,需要根据具体问题选择合适的算法,并结合数据特点进行模型参数的学习和调整。
HMM及其算法介绍
HMM及其算法介绍隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,用于描述具有潜在不可见状态的动态系统。
HMM主要用于序列数据的建模与分析,特别适用于语音识别、自然语言处理、语言模型、机器翻译等领域。
HMM是一种二层结构的概率图模型,包括状态序列和观测序列。
其中,状态序列代表系统内部的状态变化,而观测序列是根据系统状态产生的可见数据。
HMM的基本假设是系统状态满足马尔可夫性质,即当前状态只依赖于前一个状态。
HMM模型的核心是三个问题:评估问题、解码问题和学习问题。
评估问题是给定一个观测序列和模型参数,计算该观测序列出现的概率。
该问题可以使用前向算法和后向算法来解决。
前向算法从初始状态开始,计算每个时刻观测序列的概率;后向算法从最后一个状态开始,计算每个时刻观测序列的概率。
最后,两个算法的结果相乘得到观测序列的概率。
解码问题是给定一个观测序列和模型参数,找到最有可能的状态序列。
常用的解码算法有维特比算法和后向算法。
维特比算法通过动态规划的方式,计算每个时刻的最大概率状态,并在整个过程中维护一个路径矩阵,得到最有可能的状态序列。
学习问题是给定观测序列,估计模型参数。
通常使用的方法是极大似然估计,通过最大化观测序列的似然函数来估计模型参数。
Baum-Welch算法是HMM中常用的学习算法,它利用了前向算法和后向算法的结果,通过迭代优化模型参数,直到收敛。
HMM模型的应用之一是语音识别。
在语音识别中,观测序列是听到的声音,而状态序列代表对应的语音单元(如音素、词语)。
通过训练HMM模型,可以将声音与语音单元映射起来,从而实现语音的识别。
另一个常见的应用是自然语言处理中的词性标注。
词性标注是给每个词语标注上对应的词性,如名词、动词、形容词等。
通过训练HMM模型,可以将词语作为观测序列,词性作为状态序列,从而实现词性标注的任务。
总结来说,HMM是一种用于序列数据建模的统计模型,具有评估问题、解码问题和学习问题等核心问题。
小波MFCC和HMM在低空声目标识别中的应用
21年 1 01 2月
信 息 与 电 子 工 程
I ORM AT ON AND E ECT NF I L RONI NGI CE NEERI NG
VO . NO. 1 9. 6 De ., 01 c 2 1
文 章 编 号 : 17 -822 1)60 4 —5 6 2 2 9 (0 0 — 7 4 0 1
a o si a g tr c g ii n c u tc t r e e o n to
Z HAN Yu j n YANG J —o g S —e ,GAO Yo g G — , u u ln , UN Dafi n
( olg f lcrnc n nomainEn iern , Sc u nUnv ri , C e g uSc u n6 0 6 C l eo e t isa dIfr to gn eig ih a iest e E o y h n d ih a 1 0 5,Chn ) ia
a tt d c usi a g t liu e a o tc t r e .Ex e i e t t cu ly g t e e e io tra o si ina n o - ei o t r p rm n s wih a t a l a h r d h lc p e c u tc sg la d n n h lc p e a o si ina r e f r d n e trr c g iin ef c s o t i e Th a i iy a d f a i iiyo h c u tc sg la e p ro me ,a d b te e o n to fe ti b a n d. e v ld t n e sb lt ft e
Ab tat src :Al o g r dt n lMe rq e c e srm C ef in( C )c n smuae h ma t u h T a i o a lF e u n y C p tu o f ce t h i i MF C a i lt u n
一种基于HMM算法改进的语音识别系统
一种基于HMM算法改进的语音识别系统
黄清;方木云
【期刊名称】《重庆工商大学学报:自然科学版》
【年(卷),期】2022(39)5
【摘要】针对传统的HMM模型中状态持续时间不长的不足,且在计算量大的情况下,语音识别精度不高,训练时间长,训练误差较高,提出了一种基于语音状态持续时间长的HMM模型。
首先,令状态转移矩阵的对角线元素全为0,去掉自转移弧,再增添以参数化的函数描述持续时间的高斯分布,再通过帧与帧相互之间的关联程度,将每帧都计算进去;其次,通过重估公式反复计算每条弧被指定的转变概率和可见符号序列输出最原始的数值概率,直至收敛,停止运算。
最后,在HMM模型改进前后实验中得到更小的训练误差,下降速度更快,计算量较之前减少多,更容易达到收敛,其概率输出与它前面一个概率输出的差值与该概率输出值的比值大于HMM模型设定的初始值。
与传统HMM模型实验比较,基于持续时间状态的HMM模型可以在一定程度上降低训练次数和训练时间,提高识别语音的精确度,基本完成了语音识别系统的功能。
【总页数】6页(P56-61)
【作者】黄清;方木云
【作者单位】安徽工业大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP183
【相关文献】
1.一种基于HMM/ANN的混合语音识别系统的设计
2.基于HMM算法的语音识别系统设计及其混合编程实现
3.基于HMM与遗传神经网络的改进语音识别系统
4.基于DTW和HMM算法的语音识别系统对比研究
5.一种改进的基于小波去噪HMM非特定人语音识别算法
因版权原因,仅展示原文概要,查看原文内容请购买。
小波变换在语音信号处理中的实际应用案例
小波变换在语音信号处理中的实际应用案例引言语音信号处理是一门重要的研究领域,涉及到语音识别、语音合成、语音增强等多个方面。
小波变换作为一种有效的信号分析工具,在语音信号处理中得到了广泛应用。
本文将介绍小波变换在语音信号处理中的实际应用案例,并探讨其在这些应用中的优势和局限性。
一、语音信号的小波分析语音信号是一种复杂的时变信号,具有多个频率成分和时域特性。
传统的傅里叶变换在分析语音信号时存在困难,因为它无法很好地处理非平稳信号。
小波变换通过将信号分解为不同尺度和频率的小波基函数,能够更好地描述信号的时频特性。
在语音信号处理中,小波变换常用于语音分析和特征提取。
通过对语音信号进行小波分解,可以得到不同尺度和频率的小波系数,从而揭示信号的时频特征。
这些小波系数可以用于语音识别、语音合成等应用中。
二、语音识别中的小波变换语音识别是一种将语音信号转换为文本的技术。
小波变换在语音识别中有着广泛的应用。
以基于隐马尔可夫模型(HMM)的连续语音识别为例,小波变换可以用于特征提取。
传统的语音识别系统中,常用的特征是梅尔频率倒谱系数(MFCC)。
然而,MFCC对于非平稳信号的处理效果有限。
小波变换可以提供更好的时频局部化特性,从而改善语音识别的性能。
通过对语音信号进行小波分解,可以得到不同尺度的小波系数,这些系数可以用于构建更具判别性的特征向量,从而提高语音识别的准确率。
三、语音合成中的小波变换语音合成是一种将文本转换为语音信号的技术。
小波变换在语音合成中也有着重要的应用。
以基于隐马尔可夫模型的拼接语音合成为例,小波变换可以用于合成参数的重建。
在传统的语音合成系统中,常用的参数是线性预测编码(LPC)系数。
然而,LPC系数无法很好地描述信号的时频特性。
小波变换可以提供更好的时频局部化特性,从而改善语音合成的质量。
通过对LPC系数进行小波逆变换,可以重建出更加自然流畅的语音信号。
四、小波变换的优势和局限性小波变换在语音信号处理中具有一定的优势,主要体现在以下几个方面:1. 时频局部化特性:小波变换能够提供更好的时频局部化特性,可以更准确地描述信号的时频特征。
HMM语音识别模型与一种修正训练算法
HMM语音识别模型与一种修正训练算法
HMM语音识别模型与一种修正训练算法
关存太;陈永彬
【期刊名称】《东南大学学报:自然科学版》
【年(卷),期】1994(024)001
【摘要】本文在统一的框架下描述了隐马尔柯夫模型(HMM)用于语音识别时的各种形式,包括离散HMM、连续混合密度HMM、半连续HMM和最大分量连续HMM等,指出各种模型均是统一形式下的导出形式。
文中就离散HMM、连续混合密度HMM和最大分量连续HMM在非特定人全音节汉语语音识别中的应用,从识别率和复杂度两方面进行了性能比较。
为提高最大分量连续HMM的识别性能;提出了一种修正的训练算法。
【总页数】8页(17-24)
【关键词】算法;隐马氏模型;元音识别
【作者】关存太;陈永彬
【作者单位】不详;不详
【正文语种】英文
【中图分类】TN912.34
【相关文献】
1.一种改进的基于小波去噪HMM非特定人语音识别算法 [J], 李锦; 何培宇
2.从线性预测HMM到一种新的语音识别的混合模型[J], 欧智坚; 王作英
3.语音识别HMM中引入帧间相关信息的一种参数化模型[J], 杨浩荣; 王作英; 陆大(纟金)
4.基于改进的HMM/ANN混合模型语音识别模型算法研究[C], 息晓静; 林坤。
小波变换在语音识别中的应用
小波变换在语音识别中的应用语音识别技术已经成为现代科技领域中的一个重要研究方向。
随着人工智能的发展和深度学习算法的应用,语音识别的准确率得到了极大的提升。
而在语音信号的处理过程中,小波变换作为一种重要的数学工具,也发挥着重要的作用。
本文将探讨小波变换在语音识别中的应用,并分析其优势和局限性。
一、小波变换的基本原理小波变换是一种时频分析方法,它将信号分解成不同频率的成分,并能够提供信号在时间和频率上的局部信息。
与傅里叶变换相比,小波变换能够更好地捕捉信号的瞬时特征,对于非平稳信号的分析更加有效。
小波变换的基本原理是通过将信号与一组小波基函数进行内积运算,得到信号在不同频率和时间上的分解系数。
这些分解系数可以用来描述信号在不同尺度上的能量分布,从而实现对信号的时频分析。
二、1. 特征提取语音信号是一种典型的非平稳信号,传统的傅里叶变换无法很好地描述其时频特性。
而小波变换通过提供信号在不同尺度上的能量分布信息,能够更准确地描述语音信号的时频特征。
在语音识别中,特征提取是一个重要的步骤。
传统的特征提取方法如MFCC (Mel频率倒谱系数)在一定程度上能够提取语音信号的频谱特征,但对于瞬时特征的提取效果较差。
而小波变换通过提供信号在不同时间尺度上的能量分布,能够更好地捕捉语音信号的瞬时特征,从而提高语音识别的准确率。
2. 噪声抑制语音信号在传输过程中往往会受到各种噪声的干扰,这对语音识别的准确性造成了较大的影响。
传统的噪声抑制方法如滤波器等在一定程度上能够减少噪声的干扰,但对于噪声和语音信号的时频特性的差异较大的情况下效果较差。
而小波变换能够提供信号在不同尺度上的能量分布信息,从而能够更好地区分语音信号和噪声信号。
通过对小波变换系数的阈值处理,可以实现对噪声的抑制,提高语音识别的准确率。
三、小波变换在语音识别中的局限性尽管小波变换在语音识别中具有重要的应用价值,但也存在一些局限性。
首先,小波变换的计算复杂度较高,需要消耗较多的计算资源。
改进的小波变换HMM语音识别算法
改进的小波变换HMM语音识别算法洪淑月;施晓钟;徐皓【摘要】Recognition rate of speech recognition systems relied heavily on technology-based Hidden Markov Models-HMM model training. However the classic Baum-Welch training algorithm had a fatal flaw, namely, final solution obtained depended on the selection of the initial value, which was often only locally optimized solution. It would affect the recognition rate of the final system. To increase the recognition rate of traditional speech recognition system, it was presented an improved algorithm based on wavelet transform and HMM model. Firstly, noise in the original signal was reduced by wavelet transform, then an improved HMM model trained by speech samples and used to recognize speech. Experimental results showed that the improved algorithm, which was implemented by genetic algorithm, was practical, effective and system recognition rate was increased significantly.%语音识别系统的识别率十分依赖基于Hidden Markov Models (HMM)模型的训练技术.然而,经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,只得局部最优解,这就影响了系统的最终识别率.针对传统语音识别系统识别率较低的现状,提出了一种改进的小波变换HMM语音识别算法.该算法首先通过小波变换对原始语音信号进行了降噪处理,然后使用语音样本对利用遗传算法改进后的HMM模型进行训练,并用于语音识别.实验结果表明:所提出的算法实用有效,识别率显著提高.【期刊名称】《浙江师范大学学报(自然科学版)》【年(卷),期】2011(034)004【总页数】6页(P398-403)【关键词】小波变换;降噪;HMM模型;语音识别【作者】洪淑月;施晓钟;徐皓【作者单位】浙江师范大学数理与信息工程学院,浙江金华321004;浙江师范大学行知学院,浙江金华321004;浙江师范大学数理与信息工程学院,浙江金华321004【正文语种】中文【中图分类】TP3910 引言语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连[1].随着人们对语音识别认识的深入,人们对语音识别也提出了越来越高的要求.小波分析作为一种强有力的信号分析工具,近年来被广泛地应用于图像处理和语音处理中,它是时间和频率的局部变换,能有效地从信号中提取信息.通过小波变换,在信号的高频域部分,可以取得较好的时间分辨率;在信号的低频域部分,可以取得较好的频率分辨率,这种特性使得小波特别适合于语音信号处理[2].隐马尔可夫模型(Hidden Markov Models:HMM),作为语音信号的一种统计模型,目前正在语音处理各个领域中获得广泛的应用[3-4].语音识别系统的识别率十分依赖基于HMM模型的训练技术,然而经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,故只得局部最优解,影响了系统的最终识别率,尤其高噪声环境下语音识别进展困难,必须寻找新的信号分析处理方法[5-6].本文改进思路,将进化算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型,使得整个语音识别系统的识别率大大提升.1 小波去噪的原理在实际运用中,去除语音信号中的背景噪声显得尤为重要.小波变换是时间和频率的局域变换,能够有效地从信号中提取信息.它不但可以检测到低信噪比信号中的边缘信号,而且可以滤去噪声从而恢复原信号.小波变换的语音降噪原理如下,令观察信号为式(1)中:有用信号噪声序列.假零均值且服从高斯分布的随机序列,即服从布.对式(1)两端作小波变换,有再令零均值、独立同分布的平稳随机信号,记u=[u(0)u(1)…u(N-1)]T,则有式(3)中表求均值运算;Q是u的协方差矩阵.令W是小波变换矩阵,对于正交小波变换,它变换,即由式(2)有令P是U的协方差矩阵,由于,因此,W是正交阵,且Q=σ2uI,所以P=σ2uI.因此,可得到一个重要的结论:平稳白噪声的正交小波变换仍然是平稳的白噪声[7].由该结论可知,对于如同式(1)的加噪声模型,经正交小波变换后,最大程度地去除了s(n)的相关性,其能量将集中在少数小波系数上.小波变换具有一种“集中”的能力,能使信号和噪声在不同尺度上所表现出的特征不同,对于信号函数,随着尺度的增大,小波变换系数也增大;对于噪声,其小波变换系数随着尺度的增大而减小.选择一个合适的阈值对小波系数进行阈值处理,就可以达到滤除噪声而保留有用信号的目的.2 HMM的改进2.1HMM 模型HMM模型作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应用.语音识别系统的原理图1所示[8].HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中).人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变序列.可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模征参量.HMM模型通常表示成2.2HMM的3个基本问题图1 HMM语音识别系统这3个问题目前都已解决,通常情形下评估问题使用“前向-后向”算法解决,解码问题使用Viterbi算法解决,训练问题使用Baum-Welch算法解决[9].2.3 利用遗传算法改进HMM语音识别系统的识别率十分依赖基于HMM模型的训练技术,经典的训练算法(Baum-Welch算法)有一个致命的缺陷,即所得最终解依赖于初始值的选取,故往往只得局部最优解,影响了系统的最终识别率.改进思路是将遗传算法寻找最优B初值与Baum-Welch算法相结合来训练HMM模型,使得整个语音识别系统的识别率大大提升.进化Baum-Welch算法的设计如下:1)编码方案.在HMM模,参数分为A,B两部分.对于无跳跃从左向右模型,A 中有且仅有9个非零值.由于因此,A中只需5个参数形成染色体的一部分,即所以在遗传操作后还需对B部分作归一化操作.2)适应函数.遗传算法中,适应函数作为区分个体优劣的标准,需保证优秀个体的适应度比差的个体的适应度高.这里个体的适应度用各个训练样本的对数似然概率表示,即式(3)中:O(k)表示用于训练模型的第k个观测序列;P(O(k)|λ)由Viterbi算法求出.3)选择策略.文中采用了基于排名的非线性选择.在每一代中,将群体成员按适应值从高到低依次排列,按照排名分配选择概率,适应值高的个体选择概率也就相应地高.4)遗传算子和控制参数.遗传算子包含杂交算子和变异算子,它直接影响到算法的最终解.杂交算子相当于一个局部搜索操作,它产生父代附近的2个子代,而变异算子则使得个体能够跳出当前的局部搜索区域,两者的结合正好体现了进化算法的精髓所在.实验中采用了3个单点杂交,一点对应一个状态.在个体中A部分随机取一点,将2个父体该点的对应值互换;再对每一状态在B的两部分中个体随机选取一个点,将2个父体该点后的分量进行互换,这样就完成了杂交的操作.变异算子采用均匀性变异.实验中种群大小取40,杂交概率取0.7,变异概率取0.001.5)终止策略.常用的终止准则是预先设置最大进化的代数或预先设置一个适应值改善的门限值.对于前一种准则,在进化代数到达预置值时进化终止.后一种情况下,在适应值改善低于该门限值时进化停止.本系统取最大进化代数为100.3 改进型系统设计基于小波变换和改进型HMM的系统设计模型如图2所示.改进后的系统在预处理之后加入小波变换,可以对瞬间突变的语音信号进行检测与分析,有效降低原始语音信号中的噪声.小波降噪后进行端点检测,之后对语音信号进行特征参数提取MFCC,然后进行矢量量化和编码,再将编码得到的码本使用改进后的算法训练HMM,最后得到输出结果.图2 改进型系统设计框图4 实验结果分析实验基于HMM对人体语音识别系统进行.训练数据取自10人,在不同SNR(高斯白噪声)下,词汇量分别为10,20,30,40,50个,共600个实验样本,其中300个样本用于训练,另外300个用于检测实验结果.时间长度为5~10 s,采样频率为8 kHz,A/D转换精度为16 bit,并采用单声道语音进行识别测试.实验结果如表1所示.表1 4种系统的识别率比较images/BZ_130_242_405_2100_535.png系统Ⅰ 47.8 83.4 85.0 86.7 87.7 89.2系统Ⅱ 53.0 84.5 86.9 87.2 87.6 89.3系统Ⅲ 50.3 87.5 87.4 88.1 88.0 90.2系统Ⅳ 58.5 88.7 89.6 89.6 89.9 90.1 10系统Ⅰ 30.2 75.6 82.1 84.7 84.6 85.1系统Ⅱ 42.5 79.8 84.3 84.8 84.7 85.2系统Ⅲ 39.3 77.2 84.9 85.9 86.0 86.3系统Ⅳ 48.6 83.1 86.1 86.2 86.2 86.3 20系统Ⅰ 28.4 74.7 82.0 83.7 84.0 85.0系统Ⅱ 40.0 77.9 83.8 84.0 83.9 85.0系统Ⅲ 35.7 77.1 84.1 84.9 85.0 86.5系统Ⅳ46.5 82.0 85.0 85.9 86.0 86.2 30系统Ⅰ 25.4 75.0 83.3 82.1 82.5 83.0系统Ⅱ 31.7 78.5 83.4 82.3 82.4 82.7系统Ⅲ 33.3 77.3 82.3 83.1 82.9 83.1系统Ⅳ 45.2 80.4 84.0 84.5 84.4 84.0 40系统Ⅰ 23.2 72.0 79.1 80.4 80.1 81.5系统Ⅱ 30.7 76.6 83.1 80.6 80.7 81.7系统Ⅲ 29.9 76.0 82.6 81.8 83.2 82.1系统Ⅳ 44.1 80.7 83.7 84.0 83.9 84.1 50表1中,系统Ⅰ为基于HMM的语音识别系统;系统Ⅱ为基于小波变换和HMM的语音识别系统;系统Ⅲ为基于改进HMM的语音识别系统;系统Ⅳ为基于小波变换和改进HMM的语音识别系统.因此,可得到以下一些结论:1)在高噪声环境下,小波降噪对语音系统识别率可提升5% ~7%.随着语音质量(信噪比)的提高,小波降噪对识别率的改善越来越小,当信噪比大于35 dB时,小波降噪系统识别率的改善并不明显.图3是利用表1中的实验数据(词汇量为20)制成的小波降噪的识别率比较图.图3 小波变换对系统影响比较图4 系统受词汇量影响比较2)基于遗传算法的改进HMM模型对系统语音识别率有较大改善,平均提高了4个百分点,且由图4可以看出改进后的系统识别率受词汇量大小影响不大.3)改进后的语音识别系统,即系统Ⅳ在实验中表现最优,各种环境下其识别率都是最高的,基本达到了理论预期结果.5 结语提出一种语音识别系统的改进方法,通过小波变换和遗传算法对传统语音识别方法作了一定改进.改进后的语音识别算法性能提升明显,尤其是在恶劣噪声环境下,该算法基本达到了设计目的和现实要求.所提出的方法综合性能优于单独应用HMM模型和小波变换与HMM模型结合的语音识别方法.参考文献:[1]刘么和.语音识别与控制应用技术[M].北京:科学出版社,2008:1-35.[2]Zhou Dexiang,Wang Xianrong.The improvement of HMM algorithm using wavelet dek-noising in speech recognition[C]//2010 3rd International Conference on Advanced Computer Theory and Engineering(Ⅳ),Chengdu:Int Assoc Comput Sci Inf Technol,2010:4438-4441 .[3]García-Moral A I,Solera-Ureña R,Peláez-Moreno C.Data balancing for efficient training of hybrid ANN/HMM automatic speech recognition system[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19:468-481.[4]Terashima R,Yoshimura T,Wakita T.Prediction method of speech recognition performance based on HMM-based speech synthesis technique[J].IEEJ Transactions on Electronics,Information and Systems,2010,130:557-564.[5]Borgstrom B J,Alwan A.HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition[J].IEEE Transactions on Audio:Speech and Language Processing,2010,18:1612-1623.[6]Hahm S J,Ohkawa Y I.Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model[J].IEICE Transactions on Information and Systems,2010,93(9):2407-2416.[7]胡广书.现代信号处理教程[M].北京:清华大学出版社,2004:397-398.[8]Rabiner L R,Juang B H.Fundamentals of Speech Recognition [M].New Jersey:Prentice-Hall,1999:321-370.[9]吴朝晖,杨莹春著.说话人识别模型与方法[M].北京:清华大学出版社,2009:21-76.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S e c e o n t n ag rt m a e n wa ee p e h r c g ii l o i o h b s d o v lt t a so m n mp o e r n f r a d i r v d HM M
第3 4卷第 4期 21 0 1年 1 月 1
浙江师范大学学报 ( 自然科学版 )
Jun l f hj n om l nvrt( a.Si) o ra o e agN r a U i sy N t c Z i ei .
Vo .3 I 4.No .4 NO .2 l V 01
Mo es HMM d lt ii g d l— mo e r n n .Ho e e h l si a m— e c r i i g ag r h h d a f tlf w,n mey, a w v rt e ca s B u W l h tan n l o t m a aa l c i a a l i ls l t b an d d p n e n t es lc i f h t l le, ih wa f n o l al o t e O f a ou in o t ie e e d d o h e e t n o e i i a au whc so e ny l c l pi z d S — n o o t n i v t o y mi l t n I wo l f c h e o n t n r t f te f a y t m. o i c e s h e o n t n r t ft dt n l u i 。 t u d a f tt e r c g i o a e o h i ls s o e i n e T n r a e t e r c g i o ae o r i o a i a i s e c e o n t n s se , t a r s ne n i r v d ag rt m a e n w v l t r n fr a d HMM d p e h r c g i o y tm i w sp e e td a i mp o e l o h b s d o a e e a s m n i t o mo — e . F rt ,n ie i h r i a in lwa e u e y w v lt t n fr ,t e n i r v d HMM d l 1 i l s y o s n t e o gn l s a s r d c d b a ee r so i g a m h n a mp o e mo e
文章编 号:0 15 5 (0 1 0 -3 80 10 - 1 2 1 )40 9 -6 0
改 进 的小 波 变换 H MM 语 音识 别算 法
洪淑 月 施 晓钟 2 徐 , ,
3 10 ) 2 0 4
皓
(。 1浙江师范大学 数理与信息工程 学院, 浙江 金 华 10 ;. 204 2 浙江师范大学 行知学院, 浙江 金华
摘
要 : 音识别 系统 的识别率十分依 赖基于 Hd e ro o e ( 语 idnMakvM dl HMM)模 型 的训 练技术. s 然而 , 经典 的
训练算法 ( am Wec Bu — l h算法 ) 有一个致命 的缺陷 , 即所得 最终解依 赖于初始值 的选 取 , 只得 局部最优解 , 就 这 影响 了系统 的最终识别率. 针对传统语音识别 系统识 别率 较低 的现状 , 出了一种改进 的小波变换 H 提 MM语 音识别算法 . 算法 首先通过小波 变换对原始语音信号进 行了降噪 处理 , 该 然后 使用语音样 本对利用遗传算 法 改进后 的 H MM模型进行训练 , 并用 于语音识别. 实验结果表明 : 所提 出的算法实用有效 , 识别率显著提高 . 关键 词 : 小波变换 ; 降噪 ; MM模型 ; H 语音识别
HONG h y e S u u , S a z n , XU o HIXio ho g Ha ’ ( ol eo te ai , hs s n non inE gnei Z ea gNom l nv syl ih aZ ea g 2 0 4 hn ; .X n h o— C lg Mahm ts P yi dl r ̄t nier g, h in r a iri Jn u h in 3 10 。C ia 2 igZ i l e f c ca f o n j U e t j C
l e Z ea gN ra nvrt,J haZ eag 3 10 C ia e , hf n om lU i sy i u hj n 20 4, hn ) g i ei n i
Ab ta t sr c :Re o nt n rt fs e c e o i o y tmsrl d h a i n tc n lg -a e d e r o c g i o aeo p e h rc g t n sse ei evl o e h oo yb sd Hid n Mak v i n i e y
tan d b p e h smpe n s dt e o nz p e h rie ys e c a lsa d u e orc g i se c .E p r na eut h w dta h mp o e lo e x e me tlrsl so e h t e i rv dag — i s t rtm ,w ihwa mpe ne yg n t loi m ,w sp a t a,efcie a d sse rc g io ae w s i h hc si lme td b e ei ag r h c t a r ci l f t n ytm e o nt n r t a c e v i