语音识别文献素材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、声学建模
3.HMM建模的3个基本问题---评估问题,解码问题和训练问题 a、HMM数学表示 O 表示观测序列, 代表HMM K HMM数学表示 (O, , ,A,B) , 个有限状态, 代表初始时刻HMM处于K个状态的分布概率,A代 表状态转移矩阵,B代表不同状态下的输出概率分布函数。 b、评估问题 在观测向量O和HMM模型 之间存在着隐藏的状态序列,任何一 个可能的状态序列都能以一定概率产生观测向量O。所以对于 p(O | ) ,需要首先计算出HMM模型 按照特定的状态序列S进行 跳转时产生O的概率,再将所有可能存在的状态序列对应的概率进行 累加,即
动态时间规整DTW [4] (这里是文献引用,吗?标错了吧 )(dynamic time warping)
思想:由于语音信号是一种具有相当大随机性的信号, 因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭 曲或弯折,以使其特征与模板特征对正。 特点:用时间规整手段对正是一种非常有力的措施,对提高系 统的识别精度非常有效。
二、语音识别技术
语音识别就是让机器能够理解人类语言,使它们能更好地对人的意 图做出正确反应。 语音识别系统是一种模式识别系统,是建立在一定的硬件平台和操 作系统之上的一套应用软件。
语音识别的建模大致分为2个步骤:训练阶段得到相应“模板”, 识别阶段利用搜索算法的到最优解。
二、语音识别技术(是什么?)
三、语音建模单元
语音识别中建模单元的选取需要考虑一致性、共享性和可 训练性[3] 。
语音识别根据任务的不同,可以将音素、音节或者词作为 基本的建模单元。在LVCSR的研究中,通常使用比较细致的 音素作为建模单元。其次,常用上下文相关的音素建模方法( 例如常用的三元音素建模)来对语音中的协同发音现象进行建 模。
W * arg max P(W | X)
W
arg max
W
P(X | W) P(W) arg max P(X | W) P(W) P(X) W
其中,X用表示语音信号,W表示文字序 列。前一部分代表语言模型,表示一个文字 序列本身的概率,也就是这一串词或字本身 有多“像一句话”; 后一部分代表声学模型,表示给定文字 后翻译成这种语音信号的概率,即这句话有 多大的可能发成这串音。
ຫໍສະໝຸດ Baidu
四、声学建模
c.解码问题 解码问题是在给定HMM模型 和观测序列O以后,需要搜索 出 中生成O的最可能的状态序列。
S * arg max p(O,s | )
S
常见的viterbi解码算法[6](收索算法),先定义了时刻t位 于状态i的最优序列概率Vt(i),即:
t t 1 Vt (i) p(o1 ,s1 ,st i | )
语音识别文献综述
专业:通信工程 学生:顾文武 学号:S151000805
LOGO
目录
研究背景与意义 语音识别技术 语音建模单元 声学模型 语言模型
结语与致谢
一、研究背景及意义
研究背景 语言是人类相互交流最常用、最有效、最重要和最方便的通信 形式。随着计算机的快速发展,人们生活的方方面面都离不开计 算机,那么让计算机理解语言显得十分重要,语音识别技术也将 是实现社会生活信息化和智能化进程中不可或缺的一环[1]。 近期,通过采用深度神经网络技术,微软大大提升了语音识别 的准确率,错误率降低至18.5%。但是它还是一个科研项目,实 验条件十分理想。
② 隐马尔可夫模型法(HMM)---是在马尔可夫链的基础上
发展起来的,它是一种基于参数模型的统计识别方法。 ③ 基于人工神经网络识别法(ANN)---以数学模型模拟神 经元活动,将人工神经网络中大量神经元并行分布运算的 原理、高效的学习算法以及对人的认知系统的模仿能力充 分运用到语音识别领域。
四、声学建模
p(O | ) p(O,s | ) p(s | ) p(O | s, )
S S
四、声学建模
根据一阶马尔科夫假设
p(s | ) p(s1 | ) p(st | st 1 , ) s1as1s 2 asT 1sT
t 2 T
根据输出无关假设
p(O | s, ) bs1 (o1 )bs 2 (o 2 ) b sT (oT )
t 1 T
最终化简为
p(O | ) s1bs1 (o1 )as1s 2bs 2 (o2 )asT 1sT bsT (oT )
s
物理意义:首先,HMM由初始状态以 的概率跳转到状态S1 , 并随之以输出概率 产生观测向量O1,依次下去,一直到达T时 刻。
一、研究背景及意义
研究意义 如今语音识别技术虽然有了显著提高,但是仍存在诸多问 题有待解决[2],如: 1)语音信号会受到上下文的影响而发生变化; 2)发音人以及口音的的不同会导致语音特征在参数空间分 布的不同; 3)同一发音人心理和生理变化带来的语音变化; 4)不同的发音方式和习惯引起的省略、连读等多变的语音 现象; 5)环境和信道等因素造成的语音信号失真问题。
四、声学建模
隐马尔可夫模型法[5](HMM) 1. HMM思想是:HMM模仿人的言语过程,可视作一个双重随 机过程。一个是用具有有限状态数的马尔可夫链来模拟语音信号 统计特性变化的隐含的随机过程;另一个是与马尔可夫链的每一 个状态相关联的观测序列的随机过程。 2. HMM 2个重要假设 一阶马尔可夫假设:HMM当前时刻t所处状态st 只和前一时 刻的状态st-1 有关,与此前或者未来的其他时刻的状态都无关; 输出无关假设:当前时刻的输出值仅受当前状态的概率密度支 配,与历史上已经产生的其他输出值和状态无关。
四、声学建模
常用的声学建模方法包含以下三种:(这个地方也应该有 文献引用吧!某某人提出什么方法啥的,常用的方法的话 就把最初那个人提出来就好了,不过,也可以不用酱紫)
① 基于模式匹配的动态时间规整法(DTW)---它基于动态
规划的思想,解决孤立词语音识别中的语音信号特征参数 序列比较时长度不一的模板匹配问题。