语音识别文献综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


p(O | ) p(O,s | ) p(s | ) p(O | s, )
S S
四、声学建模
根据一阶马尔科夫假设
p(s | ) p(s1 | ) p(st | st 1 , ) s1as1s 2 asT 1sT
t 2 T
根据输出无关假设
语音识别文献综述

专业:通信工程 学生:顾文武 学号:S151000805
LOGO
目录
研究背景与意义 语音识别技术 语音建模单元 声学模型 语言模型
结语与致谢
一、研究背景及意义
研究背景 语言是人类相互交流最常用、最有效、最重要和最方便的通信 形式。随着计算机的快速发展,人们生活的方方面面都离不开计 算机,那么让计算机理解语言显得十分重要,语音识别技术也将 是实现社会生活信息化和智能化进程中不可或缺的一环[1]。 近期,通过采用深度神经网络技术,微软大大提升了语音识别 的准确率,错误率降低至18.5%。但是它还是一个科研项目,实 验条件十分理想。
二、语音识别技术
语音识别就是让机器能够理解人类语言,使它们能更好地对人的意 图做出正确反应。 语音识别系统是一种模式识别系统,是建立在一定的硬件平台和操 作系统之上的一套应用软件。
语音识别的建模大致分为2个步骤:训练阶段得到相应“模板”, 识别阶段利用搜索算法的到最优解。
二、语音识别技术(是什么?)
四、声学建模
常用的声学建模方法包含以下三种:(这个地方也应该有 文献引用吧!某某人提出什么方法啥的,常用的方法的话 就把最初那个人提出来就好了,不过,也可以不用酱紫)
① 基于模式匹配的动态时间规整法(DTW)---它基于动态
规划的思想,解决孤立词语音识别中的语音信号特征参数 序列比较时长度不一的模板匹配问题。
三、语音建模单元
语音识别中建模单元的选取需要考虑一致性、共享性和可 训练性[3] 。
语音识别根据任务的不同,可以将音素、音节或者词作为 基本的建模单元。在LVCSR的研究中,通常使用比较细致的 音素作为建模单元。其次,常用上下文相关的音素建模方法( 例如常用的三元音素建模)来对语音中的协同发音现象进行建 模。
W * arg max P(W | X)
W
ຫໍສະໝຸດ Baidu
arg max
W
P(X | W) P(W) arg max P(X | W) P(W) P(X) W
其中,X用表示语音信号,W表示文字序 列。前一部分代表语言模型,表示一个文字 序列本身的概率,也就是这一串词或字本身 有多“像一句话”; 后一部分代表声学模型,表示给定文字 后翻译成这种语音信号的概率,即这句话有 多大的可能发成这串音。
四、声学建模
3.HMM建模的3个基本问题---评估问题,解码问题和训练问题 a、HMM数学表示 O 表示观测序列, 代表HMM K HMM数学表示 (O, , ,A,B) , 个有限状态, 代表初始时刻HMM处于K个状态的分布概率,A代 表状态转移矩阵,B代表不同状态下的输出概率分布函数。 b、评估问题 在观测向量O和HMM模型 之间存在着隐藏的状态序列,任何一 个可能的状态序列都能以一定概率产生观测向量O。所以对于 p(O | ) ,需要首先计算出HMM模型 按照特定的状态序列S进行 跳转时产生O的概率,再将所有可能存在的状态序列对应的概率进行 累加,即
参考文献
[1] 刘潇. 语音识别系统关键技术研究[D].哈尔滨工程大学,2006. [2] 周盼. 基于深层神经网络的语音识别声学建模研究[D].中国科学技术大学,2014. [3] Lee K F, Hon H W. Speaker-independent phone recognition using hidden Markov models[J]. Acoustics, Speech and Signal Processing, IEEE Transactions on, 1989, 37(11): 1641-1648. [4] Vintsjuk T K. Recognition of words of oral speech by dynamic programming[J]. Kiberneti a, 1968, 81(8). [5] Rabiner L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257-286. [6] Viterbi A.J. Error bounds for convolutional codes and an asymptotieally optirnum decoding algorithm, IEEE Trans on IT,13(2),1967. [7] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains[J]. Speech and audio processing, ieee transactions on, 1994, 2(2): 291-298. [8] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. Signal Processing Magazine, IEEE, 2012, 29(6): 82-97. [9] Bahl L R, Jelinek F, Mercer R L. A maximum likelihood approach to continuous speech recognition[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1983 (2): 179-190. [10] Bellegarda J R. Statistical language model adaptation: review and perspectives[J]. Speech communication, 2004, 42(1): 93-108.
一、研究背景及意义
研究意义 如今语音识别技术虽然有了显著提高,但是仍存在诸多问 题有待解决[2],如: 1)语音信号会受到上下文的影响而发生变化; 2)发音人以及口音的的不同会导致语音特征在参数空间分 布的不同; 3)同一发音人心理和生理变化带来的语音变化; 4)不同的发音方式和习惯引起的省略、连读等多变的语音 现象; 5)环境和信道等因素造成的语音信号失真问题。
四、声学建模
同时选择不同的生成概率密度,离散分布或者连续分布,都可以 使用HMM进行建模。据输出概率的不同,HMM可以分为 DHMM(离散HMM)、CHMM(连续HMM)和SCHMM。 各类方法的评价: DHMM需要对观测值进行矢量量化(VQ), VQ会带来一定的 误差,而且VQ码本的生成与HMM的训练是分离的,因而 DHMM的精度不高。 CHMM采用连续概率密度函数来描述观测矢量,从而提高了模 型的精度,但是计算量极大。 于是Huang等人提出了性能介于CHMM和DHMM之间的 SCHMM,使各方面得到平衡。
② 隐马尔可夫模型法(HMM)---是在马尔可夫链的基础上
发展起来的,它是一种基于参数模型的统计识别方法。 ③ 基于人工神经网络识别法(ANN)---以数学模型模拟神 经元活动,将人工神经网络中大量神经元并行分布运算的 原理、高效的学习算法以及对人的认知系统的模仿能力充 分运用到语音识别领域。
四、声学建模
五、语言模型
由于声学信号的动态时变、瞬时和随机性, 单靠声学模式 的匹配与判断不可能完成语音的无误的识别和理解。 语言模型分为2大类:基于统计的语言模型,基于知识的语 言模型。 其中基于统计的语言模型处主流地位。 思想:它通过对大量实际语料的统计来获得词与词之间的 连接信息,从而评价一个词串是否为语言中合理的语句。 用例:N—Gram统计模型是最初引入而且应用最广泛的 一种语言模型,该模型,最初由Jelinek等人提出[9],取得了 一定的效果。
动态时间规整DTW [4] (这里是文献引用,吗?标错了吧 )(dynamic time warping)
思想:由于语音信号是一种具有相当大随机性的信号, 因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭 曲或弯折,以使其特征与模板特征对正。 特点:用时间规整手段对正是一种非常有力的措施,对提高系 统的识别精度非常有效。
四、声学建模
c.解码问题 解码问题是在给定HMM模型 和观测序列O以后,需要搜索 出 中生成O的最可能的状态序列。
S * arg max p(O,s | )
S
常见的viterbi解码算法[6](收索算法),先定义了时刻t位 于状态i的最优序列概率Vt(i),即:
t t 1 Vt (i) p(o1 ,s1 ,st i | )
五、语言模型
但是,统计语言模型也有它的不足,就是无法刻画词间长 距离的约束关系。
为了突破统计语言模型的限制,将自然语言结构信息(语法 信息、语义结构信息融入到语言模型中,对语言模型进行改 进,提出了基于语言模型的自适应研究[ 10] 。 思想:语言模型的自适应通常结合背景文字语料库预测, 是语音同一时期或同一领域的文字语料训练出较鲁棒的自适应 语言模型。
四、声学建模
递归计算
四、声学建模
d.训练阶段 语音识别中HMM模型参数值的估计目前依然没有一个可靠 的闭式解,通常采用的是迭代训练的方法,每次都在旧的 HMM基础之上,利用最大似然准则[7]对参数进行优化。 经典算法——期望最大化算法、前后向算法 各自特点: EM算法能够有效地处理HMM中由于状态序列的隐藏造成 的不完全数据情况下的HMM参数更新问题。 BW算法可以非常高效的从训练数据中积累统计量,作为 HMM参数更新时所需要的必要信息。
四、声学建模
基于人工神经网络识别法 进入21世纪第二个十年,伴随着近几年机器学习领域深度学 习(deep learning, DL)理论的兴起,自动特征学习技术的 成功,深度神经网络(deep neural network ,DNN)成功 应用于语音识别[8]。 同时,神经网络还可以与HMM综合应用于声学建模。 思想:由神经网络完成静态的模式划分问题,用HMM完成 时间对准问题,使神经网络更容易地应用于连续语音识别系统。 优势:这种方法克服了ANN 在描述语音信号时间动态特性方 面的缺点,进一步提高了语音识别的鲁棒性和准确率。
四、声学建模
隐马尔可夫模型法[5](HMM) 1. HMM思想是:HMM模仿人的言语过程,可视作一个双重随 机过程。一个是用具有有限状态数的马尔可夫链来模拟语音信号 统计特性变化的隐含的随机过程;另一个是与马尔可夫链的每一 个状态相关联的观测序列的随机过程。 2. HMM 2个重要假设 一阶马尔可夫假设:HMM当前时刻t所处状态st 只和前一时 刻的状态st-1 有关,与此前或者未来的其他时刻的状态都无关; 输出无关假设:当前时刻的输出值仅受当前状态的概率密度支 配,与历史上已经产生的其他输出值和状态无关。
全文总结
首先,感谢老师和师兄们在各个方面的指导。
其次,由于自己时间,能力有限,本报告中如有错误和不 足,欢迎同学,师兄以及老师指出。 本报告主要梳理了语言识别在建模方面,特别是基于HMM 在声学建模方面的一些研究成果,因为大部分优秀文献都是英 文,所以读起来比较吃力,但是收获还是有的,特别是训练自 己快速学习陌生领域的能力有较大提高。
p(O | s, ) bs1 (o1 )bs 2 (o 2 ) b sT (oT )
t 1 T
最终化简为
p(O | ) s1bs1 (o1 )as1s 2bs 2 (o2 )asT 1sT bsT (oT )
s
物理意义:首先,HMM由初始状态以 的概率跳转到状态S1 , 并随之以输出概率 产生观测向量O1,依次下去,一直到达T时 刻。
相关文档
最新文档