基于HMM的连续语音识别

合集下载

百度百科—语音识别

百度百科—语音识别

语音识别与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

任务分类和应用根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。

其中,孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。

显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。

另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。

不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。

语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

语音识别方法语音识别方法主要是模式匹配法。

在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用

隐马尔可夫模型在语音识别中的应用一、引言隐马尔可夫模型(Hidden Markov Model,HMM)是一种基于概率统计的模型,由于其灵活性、通用性和有效性,使其成为自然语言处理、语音识别等领域中重要的工具之一。

语音识别是指通过计算机对语音信号进行处理和分析,从而转换成文本的过程。

本文将探讨隐马尔可夫模型在语音识别中的应用,以及其在该领域中的局限性和发展方向。

二、隐马尔可夫模型的原理隐马尔可夫模型是一种马尔可夫过程,其特点是其状态不是直接观察到的,而是通过观察到的输出来间接推断。

其由状态转移概率矩阵A、观测概率矩阵B和初始状态概率向量π三部分组成。

1.状态转移概率矩阵A状态转移概率矩阵A表示从一个状态转移到另一个状态的概率。

设隐马尔可夫模型中有N个状态,状态集合为{S1,S2,...,SN},则状态转移概率矩阵A为:A=[aij]N×N其中,aij表示从Si转移到Sj的概率。

2.观测概率矩阵B观测概率矩阵B表示在某个状态下产生某个观测值的概率。

设观测值的集合为{O1,O2,...,OM},则观测概率矩阵B为:B=[bj(k)]N×M其中,bj(k)表示在状态Sj下,观察到Ok的概率。

3.初始状态概率向量π初始状态概率向量π表示模型从某个状态开始的概率分布。

设初始状态的集合为{S1,S2,...,SN},则π为:π=[π1,π2,...,πN]其中,πi表示从状态Si开始的初始概率。

三、隐马尔可夫模型在语音识别中的应用在语音识别中,隐马尔可夫模型被广泛应用,其主要应用场景包括:1.语音信号的建模在语音识别中,将语音信号建模为声学特征流是一个核心问题。

而声学特征流是通过将语音信号划分为小时间窗进行采样获得的。

在隐马尔可夫模型中,状态对应着声学特征流的各个时间窗,而观测值则对应着该时间窗的声学特征。

因此,通过隐马尔可夫模型对声学特征流进行建模,可以从语音信号中提取出关键的声学特征,并进行语音识别。

HTK2

HTK2

识别结果评估: N −D−S ×100% Correct= N
Accuracy = N −D−S−I × 100 % N
应用HTK建立连续语音识别的实例
数据准备 创建模型及学习
单音素模型 三音素模型 状态捆绑 增加高斯混合模型的个数
识别及评估
数据准备
训练及待识别语音文件(.wav) 训练语音包含的所有词(wlist) 训练语音的词级标注文件(.lab 或 word.mlf) wlist中词的发音词典dict(见附)
可根据实际问题需要适当增加高斯模型个数
识别及评估
识别HVite
HVite -H hmm15/macros -H hmm15/hmmdefs -S test.scp -l ’*’ -i recout.mlf -w wdnet -p 0.0 -s 5.0 dict tiedlist 词级、音素级、三音素级识别结果
应用HTK建立连续语音识别系统
------------王风娜
基本内容
知识回顾
HTK工具包 基于HMM的连续语音识别
应用HTK建立连续语音识别系统实例
知识回顾
HTK工具包
数据准备工具
HDMan、HCopy、HLEd、HSGen、HBuild、HLStats 、HParse
模型训练及优化工具
HERest、HInit、HRest、HHEd、HCompV
识别工具
HVite
性能评估工具
HResults、HRec
基于HMM的连续语音识别系统
HMM
三个基本问题:推理、学习、识别
模型初始状态 转移矩阵
ห้องสมุดไป่ตู้
λ ={π, A, B}
状态产生观测向 量的概率分布

语音识别技术

语音识别技术

基于DTW的语音识别
• DTW算法通过局部优化的方法实现加权距离和最小,即
D ( i , j ) = m in
C

N
n=1
d x , y Wn i n j n ( ) ( )
(
)
∑W
n =1
N
n
Wn 为加权函数,需考虑两个因素: ⑴ 根据第n对匹配点前一步局部路径的走向来选取; ⑵ 考虑语音各部分给予不同权值,以加强某些区别特征。
• 对于孤立词(或命令)识别,DTW算法与HMM算法在相同的 环境下,识别效果相差不大。 • 优点: -可靠性强 -复杂度低 • 关于DTW理论已作介绍
基于matlab的DTW识别算 法实现
• 实验模板:”a,b,c,d,e,你好“的wav文件(8k采样, 单声道,精度8位) • DTW算法采用两步约束:
・ 说话人识别常用参数分类:
(1) 线性预测参数及其判生参数 (2) 语音频谱直接导出的参数 (3) 混合参数 (4) 其他鲁棒性参数
说话人识别与语种辨识
・ 模式匹配的方法: (1) 概率统计方法; (2) 动态时间规整方法(DTW) (3) 矢量量化方法(VQ) (4) 隐马尔可夫模型方法(HMM) (5) 人工神经网络方法(ANN)
语音识别的概述
语音识别系统的分类
分类依据 语音的发音 方式 孤立词语音 识别系 统 连接字语音 识别系 统 非特定人语 音识别系 统 说话人 词汇量的大 小 小词汇量 (10-100) 识别的方法 动态时间规 整(DTW) 矢量量化 (VQ) 隐马尔可夫 模型 (HMM ) 隐马尔可夫 模型 (HMM)、 人工神经 网络 (ANN) 应用场合
y y
yk =
Y = y1 , y2 ,L , yTy , k = 1, 2,L , Ty

隐马尔可夫模型算法及其在语音识别中的应用

隐马尔可夫模型算法及其在语音识别中的应用

隐马尔可夫模型算法及其在语音识别中的应用隐马尔可夫模型(Hidden Markov Model,HMM)算法是一种经典的统计模型,常被用于对序列数据的建模与分析。

目前,在语音识别、生物信息学、自然语言处理等领域中,HMM算法已经得到广泛的应用。

本文将阐述HMM算法的基本原理及其在语音识别中的应用。

一、HMM算法的基本原理1.概率有限状态自动机HMM算法是一种概率有限状态自动机(Probabilistic Finite State Automata,PFSA)。

PFSA是一种用于描述随机序列的有限状态自动机,在描述序列数据的时候可以考虑序列的概率分布。

PFSA主要包括以下几个部分:(1)一个有限状态的集合S={s_1,s_2,…,s_N},其中s_i表示第i个状态。

(2)一个有限的输出字母表A={a_1,a_2,…,a_K},其中a_i表示第i个输出字母。

(3)一个大小为N×N的转移概率矩阵Ψ={ψ_ij},其中ψ_ij表示在状态s_i的前提下,转移到状态s_j的概率。

(4)一个大小为N×K的输出概率矩阵Φ={φ_ik},其中φ_ik 表示在状态s_i的前提下,输出字母a_k的概率。

2. 隐藏状态在HMM中,序列的具体生成过程是由一个隐藏状态序列和一个观测序列组成的。

隐藏状态是指对于每个观测值而言,在每个时刻都存在一个对应的隐藏状态,但这个隐藏状态对于观测者来说是不可见的。

这就是所谓的“隐藏”状态。

隐藏状态和观测序列中的每个观测值都有一定的概率联系。

3. HMM模型在HMM模型中,隐藏状态和可观察到的输出状态是联合的,且它们都服从马尔可夫过程。

根据不同的模型,HMM模型可以划分为左-右模型、符合模型、环模型等。

其中最常见的是左-右模型。

在这种模型中,隐藏状态之间存在着马尔可夫链的转移。

在任何隐藏状态上,当前状态接下来可以转移到最多两个状态:向右移动一格或不变。

4. HMM的三个问题在HMM模型中,有三个基本问题:概率计算问题、状态路径问题和参数训练问题。

基于短时平均幅度和HMM的语音识别系统研究

基于短时平均幅度和HMM的语音识别系统研究

5人 ×1 0次 的语 音 数 据 进 行 隐 马 尔 可 夫 模 型 训
识别 ( 指 纹识 别 、 手纹 识别 及 眼纹 识别 等 ) 和声 纹 识别 ( 特 殊 口令及 语 音识 别 等 ) , 这两 大 类 方 法各
自存 在 相应 的优 、 缺点 , 其 中声 音识 别最 大 的问
根 据声 音信 号 自身 的非 平 稳 特 征 , 预 处 理 过
程 中采用 加窗 函数 及 短 时平 均 幅 度 的方 法 , 实 现
发音样本 体 系, 提 出 了使 用音 频 波段 检 测 的 思路 。基 于 短 时 平 均 幅 度优 化 获得 音 频 信 号 , 进 而用 隐马尔
可 夫模 型进 行 识 别 , 设 计 了语 音 识 别 系 统 。 实验 结 果表 明 : 每人采集 1 O组 样 本 训 练 , 针 对 五 人 的 不 同样
题 在 于识别 分辨 率不 够高 , 存在 安全 隐患 , 怎 样提
高识 别 分 辨 率 成 为 制 约 这 种 方 法 应 用 的核 心 内 容。
笔 者通 过一 些 基 础 实 验研 究 , 确定 不 同 人 发
零率 3种 预处 理 方 法 , 发 现 短 时平 均 能 量 方法 因对 电平 值过 于 敏 感 而 不够 稳 定 , 短 时平 均过 零
率不 能够 有效 表 征 信 号 特征 , 因 而选 用 短 时平 均
幅度 的预处 理方 式 , 进 行 有 效 的特 征 提 取 和 有效
对齐。
声 的音 频 区别 , 研究语 音 的基本 特 征 , 并 针对 语 音 考 勤这 一 具 体 对 象 , 设 计 基 于 短 时 平 均 幅 度 和 HMM 的语 音识 别 系统 的总体 方案 , 最终 实 现通 过 音 频方 法 对 不 同人 单 个 词 “ 到” 发 声 的判 别 。系 统 研究 过程 中 , 通 过 从 硬 件 到 软件 的研 究 思 路 进 行 逐 步测试 与 改进 , 最终 确定 先用 检测 方案 , 并 达 到有 效 区分 的 目标 。首 先 , 通 过不 同传 感 器 的测

语音识别算法及其在嵌入式系统中的应用

语音识别算法及其在嵌入式系统中的应用

电子技术与软件工程Electronic Technology & Software Engineering电子技术Electronic Technology语音识别算法及其在嵌入式系统中的应用李青云(晋中信息学院信息工程学院山西省晋中市030800 )摘要:本文简单概述了语音识别算法,对不同的嵌入式语音识别系统进行了比较和分析,最后详细介绍了嵌入式语音识别系统的 构建。

关键词:语音识别;识别算法;嵌入式系统;算法运用近年以来,国内的社会经济实现了快速的发展和推进,其重要 表现之一就是计算机技术的飞速发展,目前计算机己经成为了现代 社会大众日常工作和生活中必不可少的一部分,然而人机交互水平 与计算机技术发展水平不相符合,影响了现代社会大众对于计算机 系统的应用。

在这种情况下,就需要实现高水平的语音识别算法在 嵌入式系统中的应用,使得计嵌入式系统的语音识别性能得到提升,这样才能实现复杂的语音识别,嵌入式系统也才能实现智能化发展。

而且语音识别算法及其在嵌入式系统中的应用也更加符合现代社会 大众的使用习惯和切实需求,因此语音识别算法的运用是具有充分 的可行性和必要性的,对于各个社会领域的发展也是极为重要的。

1语音识别算法在社会大众的显示工作和生活当中,语音识别系统应用范围比 较广,并且这种交互方式是人类自身最自然的一种交互方式,使用 起来符合人类自身的习惯,同时嵌入式设备自身的小型化对于语音 识别算法的应用也大有裨益。

目前所应用的嵌入式设备通常情况下 是针对特定的应用进行设计的,只需要对几十个词的语音命令进行 识别,属于小型的语音识别系统,一旦遇到大词汇量和连续的语音 识别,其应用的局限性就会变得尤其明显,难以满足当代社会大众 对于嵌入式设备的要求和需求。

而在实际的语音识别算法及其在嵌 入式系统中的应用过程中,还具有很多其他的因素需要进行综合性 的考量,这样才能达到理想的语音识别效果,并且可以在显示社会 发展过程中进行对应的应用其中成本因素就是需要考量的因素之一,因为未来的语言识别系统的应用将是十分广泛的,其成本投 入过大的情况下,不能形成良好的性价比。

基于HMM的连续小词量语音识别系统的研究

基于HMM的连续小词量语音识别系统的研究

基于HMM的连续小词量语音识别系统的研究高建【摘要】The research based on the principle of speech recognition and chips of UDA1314TS DPS and ARM S3C2410,the acoustic models of HMM and Viterbi algorithm model was used for training model and recognition, and a speech recogni tion system of continuous and small vocabulary was designed. Examples show that the speech recognition system has a good practical and transplantation. The laboratory and outside recognition rate reach as high as 95. 6% and 92. 3%.%为了提高语音识别效率及对环境的依赖性,文章对语音识别算法部分和硬件部分做了分析与改进,采用ARMS3C2410微处理器作为主控制模块,采用UDA1314TS音频处理芯片作为语音识别模块,利用HMM声学模型及Viterbi算法进行模式训练和识别,设计了一种连续的、小词量的语音识别系统.实验证明,该语音识别系统具有较高的识别率和一定程度的鲁棒性,实验室识别率和室外识别率分别达到95.6%,92.3%.【期刊名称】《现代电子技术》【年(卷),期】2011(034)011【总页数】3页(P205-207)【关键词】语音识别;嵌入式系统;Hidden Markov Models;ARM;Viterbi算法【作者】高建【作者单位】辽宁大学计算中心,辽宁沈阳110036【正文语种】中文【中图分类】TN912-340 引言嵌入式语音识别系统是应用各种先进的微处理器在板级或是芯片级用软件或硬件实现的语音识别。

基于HMM和神经网络语音识别

基于HMM和神经网络语音识别

基于HMM和神经网络的语音识别摘要:随着计算机技术的不断发展和信息技术的不断进步,各类智能机器也逐步进入到人们的生活中。

语音识别是一种前景广阔、社会效益广泛、经济效益明显的技术,在快速发展的同时也不可避免地产生了一些问题。

本文主要针对基于hmm和神经网络的语音识别系统进行了细致的分析,期待能对我国语音识别系统的研究和实践提供有效的借鉴和参考。

关键词:语音识别;神经网络;隐马尔可夫中图分类号:tn912.34 文献标识码:a 文章编号:1007-9599 (2012) 24-0110-02语音识别简单来说,就是让机器听懂人类语言表达的意思。

在人工智能的研究领域里,语音识别技术更是人机实现对话的的有效媒介。

现今的语音识别技术主在语音拨号、语音控制及语音导航等方面有着普遍的应用。

1 基于hmm的语音识别研究1.1 隐马尔可夫模型定义hmm就是hidden markov model,即隐马尔可夫模型。

hmm是统计分析模型的中的一马尔可夫链的一种,隐马尔可夫模型和传统的马尔可夫模型相比,最明显的不同是无法直接观察到它的状态。

随着计算机技术的时步,现今的隐马尔可夫模型的应用除了语音识别研究领域外,在机器翻译、生物学及基因组学等相关领域也均有应用。

1.2 基于隐马尔可夫模型的语音识别在开展基于hmm的语音识别系统研究之前,要先解决hmm模型的两个基本问题。

(1)隐马尔可夫模型型的两个基本问题在 hmm 模型解决实际遇到的应用问题中,其中模型识别、状态转移有模型训练等两个基本问题一定要先行解决:第一,模型识别问题。

观察序列和模型属于已知,应该怎样计算由这个模型产生这个观察序列的概率?这个问题的根本就是必须选取合适的方法从多个模型中挑出和观察序列最为匹配的模型,针对该问题,可有用“前向”算法解决。

第二,状态转移问题观察序列和模型属于已知,怎样选出一个符合要求的状态序列,使之地产生,即选取合适的方法选出最佳的状态序列?这个问题的根本就是估计出模型出现观察序列时最可能的路径。

HMM在基于参数语音合成系统中应用

HMM在基于参数语音合成系统中应用

HMM在基于参数的语音合成系统中的应用摘要语音合成是人机交互的关键技术之一。

随着电子计算机的迅猛发展,语音合成技术由早期的基于拼接调整合成,逐渐发展为目前基于参数的语音合成技术。

本文主要是对隐马尔可夫模型(HMM)在基于参数的语音合成系统中的应用方面进行了研究和探索。

本文的主要研究工作如下:首先,基于对现有语音自动切分技术框架的分析,提出了不定长单元模型,改善切分的精度。

目前,基于拼接的语音合成系统需要首先对语料库进行语音自动切分,基于隐马尔可夫模型的语音自动切分方法普遍采用的声学模型是三音子模型。

本文针对一些语音单元间的协同发音现象和音变现象对切分精度造成的不利影响,提出了基于不定长单元模型的语音自动切分方法。

具体定义了不定长语音单元,讨论了不定长单元的选取,并对建立相应的模型,在模型的训练方面也给出了解决的方案。

实验结果,长单元的边界切分精度比三音子模型有了很大的提高,精度从原先的79.55%提高到了89.13%,同时总体切分精度也有了一定的提高。

结果表明, 不定长单元模型对于语音自动切分,特别是对三音子模型表现较差的长单元边界上,能达到比三音子模型更好的效果本文首先介绍基于HMM的自动切分的基本流程,并通过分析由于不同音子间的紧密结合而产生的音变现象,提出一种基于不定长单元模型并给出其训练算法。

基于HMM的自动切分技术的分析和改进工作,为后面基于HMM的可训练语音合成的深入研究奠定一定的基础。

其次,基于现有的模型训练和参数生成技术,对基于参数的语音合成的技术框架中的一些关键技术进行分析,并根据需要构建了中文的基于参数的语音合成系统。

本文建立了一整套的基于参数的语音合成系统,包括模型的训练流程和相应的语音合成模块。

它可以根据原始的语音数据进行训练,并自动生成一个的合成系统。

同时,本文在此框架基础上进行了中文基于参数的语音合成系统的训练和构建,对基于参数的语音合成技术进行效果验证。

此外,本文根据基于最小化生成误差的训练准则,对模型进行了改进,在新的准则下优化合成语音的音质。

毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计

毕业设计(论文)-利用HMM技术实现基于文本相关的语音识别设计

内蒙古科技大学本科生毕业设计说明书(毕业论文)题目:利用HMM技术实现基于文本相关的语音识别学生姓名:学号:专业:电子信息工程班级:信息2003-4班指导教师:摘要语音识别作为一个交叉学科,具有深远的研究价值。

语音识别和语音合成技术已经成为现代技术发展的一个标志,也是现代计算机技术研究和发展的一个重要领域。

虽然语音识别技术已经取得了一些成就,也有部分产品面世,但是,大多数语音识别系统仍局限于实验室,远没有达到实用化要求。

制约实用化的根本原因可以归为两类,识别精度和系统复杂度。

HMM是一种用参数表示的用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的,所以它是基于参数模型的统计识别方法。

它是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集,每个函数都与链中一个状态相关联。

“隐”的过程通过显示过程所产生的观察符号序列来表示,这就是隐马尔可夫模型。

本文主要介绍了语音识别的预处理,隐马尔可夫模型(Hidden Markov Models,HMM)和语音识别的基础理论和发展方向。

对数字0~9的识别进行了详细的Matlab 语言实现。

关键词:HMM;文本相关;语音识别AbstractAs an interdisciplinary field, speech recognition is theoretically very valued .Speech recognition has become one of the important research fields and a mark of the development of science. Although speech technology has got some achievements, most speech recognition systems are still limited in lab and would have problems if migrated from lab which are much far from practicality. The ultimate reasons for restricting practicality can be classified to two kinds, one is precision for recognition and the other is complexity of the system.HMM is one kind expresses with the parameter uses in the description stochastic process statistical property probabilistic model, it is may the husband chain evolve by Mar, therefore it based on parameter model statistics recognition method. It is a dual stochastic process – has the certain condition number to hide type Markov to be possible the husband chain and the demonstration stochastic function collection, each function all a condition is connected with the chain in. Hidden Markov process the observation mark sequence which produces through the demonstration process to indicate that, this is hides type Markov to be possible the husband model.This article mainly introduced the speech recognition pretreatment, hides Mar to be possible the husband model (Hidden Markov Models, HMM) and the speech recognition basic theory and the development direction. Has carried on the detailed Matlab language realization to the number 0~9 recognitions.Key word: HMM; Text Correlation; Speech recognition目录摘要 (I)ABSTRACT ........................................................................................................................ I I 第一章绪论.. (1)1.1 背景、目的和意义 (1)1.2 发展历史和国内外现状 (1)1.3 语音识别系统概述 (3)1.3.1语音识别系统构成 (3)1.3.2语音识别的分类 (4)1.3.3 识别方法介绍 (5)第二章语音信号的预处理及特征提取 (8)2.1 语音信号的产生模型 (9)2.2 语音信号的数字化和预处理 (9)2.2.1 语音采样 (10)2.2.2 预加重 (10)2.2.3 语音信号分帧加窗 (11)2.3 端点检测 (13)2.3.1 短时能量 (13)2.3.2 短时平均过零率 (14)2.3.3 端点检测——“双门限”算法 (15)2.4 语音信号特征参数的提取 (16)2.4.1线性预测倒谱系数LPCC (16)2.4.2 Mel倒谱系数MFCC (17)2.4.3 LPCC系数和MFCC系数的比较 (18)第三章隐马尔可夫模型(HMM) (20)3.1 隐马尔可夫模型 (20)3.1.1 隐马尔可夫(HMM)基本思想 (20)3.1.2 语音识别中的HMM (24)3.1.3 隐马尔可夫的三个基本问题[10] (24)3.1.4 HMM的基本算法 (25)3.2 HMM模型的一些问题 (28)3.2.1 HMM溢出问题的解决方法 (28)3.2.2 参数的初始化问题 (29)3.2.3提高HMM描述语音动态特性的能力 (31)3.2.4直接利用状态持续时间分布概率的HMM系统 (31)第四章基于文本相关的语音识别 (33)4.1 引言 (33)4.2 HMM模型的语音实现方案 (33)4.2.1初始模型参数设定 (34)4.2.2 HMM模型状态分布B的估计 (34)4.2.3 多样本训练 (35)4.2.4 识别过程 (36)4.3 仿真过程及系统评估 (37)4.3.1 语音数据的采集及数据库的建立 (37)4.3.2 仿真实验——HMM用于语音识别 (38)4.3.3 Matlab编程实现 (40)4.4系统仿真中的若干问题 (43)总结展望 (44)参考文献 (45)附录 (46)致谢 (54)第一章绪论1.1 背景、目的和意义让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。

HMM的非特定人关键词提取语音识别系统

HMM的非特定人关键词提取语音识别系统

3 = > ? & 4 56 < ) * % ’ +
3 E F G ? & 4 56 D ) * % { +
) 4 +6 u n ) 4 & 5 + & z 9 9
5 6*
| r ) } +6 5
~
~
9 6* G % < % s 6! 9 }
u
z ) 5 + uz ) 5 + & 9 9
9 6*
) * % " +
型 也 越 来 越 复 杂 ,这 类 系 统 尽 管 能 够 在 较 大 词 汇 量 上 达 到 较 好 的 关 键 词 提 取 性 能 #但 是 系 统 复 杂 度 大 #不适于嵌入式应用 ,为了能够在低成本嵌入式平台上实现关键 词提 取语 音识别 系统 #本文提 出一 个基于离散 !""$ 整词模型的关键词提取系统 #并以该系统的前向 +后向搜索识别算法为基 @ !"") 础提出一种基于关键词假设二次识别的置信度策略 #用于关键词提取后的说话验证过程 ,
收稿日期 *1 & & 1 6 % 1 6 & ( , 作者简介 *汪 鹏$ % 0 5 4 8) #男 #硕士研究生 #从事关键词语音识别的研究 , 基金项目 *国家自然科学基金 $ 批准号 *4 & 1 5 1 & % 4 ) ,
{ " +
吉 林 大 学 学 报 ) 理 学 版+
% " * 0@ F
基于离散 !"" 的非特定人关键词 提取语音识别系统
汪 鹏 #刘 加 #刘润生

基于反馈调节改进HMM的语音识别技术

基于反馈调节改进HMM的语音识别技术
头 融人 到 四通 八 达 的 互 联 网 中 。 在 美 国 市 场 , 以
术是 信 息 高 速 公 路 、 媒 体 技 术 、 公 自动 化 、 多 办 现 代 通 讯 及 智 能 系 统 等信 息 领 域 运 用 的核 心 技 术 之


广 泛 运 用 于工 业 、 事 、 军 电话 系统 等 领域 , 有 具
型 原 理 , 到 这 种 模 型 的 内在 缺 陷 , 出一 种 反馈 找 提
服 务领 域 , 立大 规 模 的语 音 门户 网站 。 建 语 音 识 别 技 术 可应 用 于 电 信 行 业 、 融 行 业 、 金
互 联 网行 业 、 力行 业 以及 航 空 行 业 等 , 过 使 用 电 通 语 音 应 用 技 术 可 为 企 业 带来 更 好 的服 务 和 更 多 的

要 :本 系 统 基 于 反 馈 调 节 HM M 改 进 模 型 方 法 , 据 HMM 数 学 模 型 原 理 , 到 这 种 模 型 的 内 在 缺 陷 , 依 找 提
出 一 种 反 馈 学 习 的 修 正 原 理 , 过 实 验 找 出最 优 数 据 , 确 反 映 汉 语 语 音 的数 学 模 型 , 大 提 高 语 音 识 别 率 通 正 大
新 , 涉 及 到 交 叉 学 科 , 此 , 真 正 实 现 人 与 计 又 因 要 算 机 的 自然 交 流 , 仅 需 要 基 础 理 论 及 算 法模 型 , 不 而 且 更 需 要 大 量 的 实 际 工 作 积 累 。本 系统 基 于反 馈 调 节 HM M 改 进 模 型 方 法 , 据 HMM 数 学 模 依
1 语 音 识 别
音 。 别 ( tmi S e c c g io ) , r / I n 、 Auo c p e h Reo nt n 技 i

语音识别常用算法

语音识别常用算法

语音识别常用算法
语音识别是将口语信号转化为文字的过程。

它广泛应用于人机交互、智能家居、智能客服等领域。

语音识别的核心是算法,下面介绍几种常用的语音识别算法。

1、基于隐马尔可夫模型(HMM)的语音识别算法
HMM是一种统计模型,它可以用来描述一个序列的生成过程。

在语音识别中,HMM被用来描述语音信号的产生过程。

它通过对输入信号的分析,推断出最有可能的词语序列。

2、基于高斯混合模型(GMM)的语音识别算法
GMM是一种用于建模概率密度函数的方法。

在语音识别中,GMM 被用来建模每个单词的声学特征。

通过计算输入信号与每个单词的GMM之间的相似度,识别出最有可能的词语。

3、基于神经网络的语音识别算法
神经网络是一种类似于人脑的计算模型。

在语音识别中,神经网络被用来建模输入信号和语音识别结果之间的映射关系。

通过训练神经网络,提高语音识别的准确性。

4、基于深度学习的语音识别算法
深度学习是一种对神经网络的扩展,它可以自动地学习特征,并且不需要人为设置特征提取算法。

在语音识别中,深度学习被用来提取输入信号的特征,并且建立输入信号和语音识别结果之间的映射关系。

以上是几种常用的语音识别算法,每一种算法都有其优缺点。


实际应用中,需要根据具体需求和数据情况选择合适的算法。

基于HMM的连续语音中的关键词检测

基于HMM的连续语音中的关键词检测
Ke r s s otn ;h d e ma k V mo e ;g r a e y wo d :p ti g i d n r O d l a b g mo e ;s l l atc d l y l e l tie b a
引 言 语音是否为关键词作出评价 , 然后通过关键 词 4结论 关 键 词 检 测 ( ew r p tn ,K ) 的确认过程对输入语音中可能是关键词 的语音 K y od S ot g ws i 本 文针对 自然连续 语音提 出 了一种 基于 MM的关键词检测方 法 ,在训练 过程中对常 是近几年来颇受重视 的语音识别的一个研究领 段进行确认 ,输出最终的检测结果 。整个检测 H 域。在查询和控制等人机对话系统 中,并不需 过 程 如 图 1所 示 。 用的非 关键 词语音 建立 了基 于音节 格 HMM, 要正确无误 的将 自然语 音逐次 逐句 的识别 出 垃圾 模 型的 建立 是构 造 系统 的第 一 步 , 在确认 阶段通 过计算 置信度 得分 进行发 音确 来,而 只需检测出其 中的关键性词汇即可 [ h i 。 在 近 几 年 来 , 应 用 隐 马 尔 可 夫 模 型 ( id n Makv Mo e , Hd e r o dlHMM)针对 自然人 的 s 无 限制连续语音进行关键词检测已经取 得了一 定 的进展日 o le 等人 I 描述 了基 于连续 。R h ck i 3 1 概率密度 H M的关键词检测系统 ,使用 的垃 M 圾模型是用关键词模型 的一部分或关键词状 态 的加权分布来建立 的。J . a n GC o e . H t 和 .hl t P o l 研究 了一种新 的基于奖惩函数 的关键词检测算 法 ,这种方法与 以往不同的是采用循环音素为 图 1 关 键 词 检 测 结 构框 图 非关键词语音建立了一系列的垃圾模型 ,然后 建 立垃圾模型 的出发点是尽可能地用 数量较 少 表 1不同数量垃圾模型 系统的检测结果 使用不同的奖惩 函数来有效的识别关键词 。 1 本文根据 关键词检 测系统 应用领 域的不 的模型来刻 画汉语语 音。汉语 由 2 个声母 和 8个韵母 组成约 4 0个左右 的音节 ,而针 对 0 同提出了一种新 的关键词检测方法 ,首先为每 3 检 测 率 误 警 率 个关 键词建立模型 , 非关键词语音建立基 于 关键词检测系统所应用领域的不同 ,在说话 者 对 音节格 的垃圾模型 ,而垃圾模型数量的减少势 的 自然输入 语音 中所 常见 的非关键 词 是有 限 必增加误警率 ,为了降低误警率 ,在关键词检 的,也是可 以预测的 ,所以可以对这些常见 的 出后 ,利用置信度对关键词进行确认 。实验结 词表外词建立相应的垃圾模 型。把常见 的非关 果显示 ,关键词的检测率 和误警率能够满足系 键 词按照其 相应 的汉语 音节 首字母 的顺 序排 列 ,并通过训练分别对其建模 , 形成一个音节 统 的实 用 性 。 格。 认。从 实验结果来看这种方法对于不同数量 的 1隐马尔可夫模 型 3实验结果及分 析 垃圾模 型在保证较低误警率的同时,达到 了较 隐 马尔 可夫模 型是 一种 双 重 随机过 程 , 31 . 实验平 台 高的检测率 。但是本文只考虑了垃圾模型 的数 它以一 种隐藏的有限状态 的随机过程为基 础 , 本文所 采用 的语音数 据库是 针对说话 人 量对 系统检测率的影响 ,而垃圾模 型的结构对 在经过另 一随机过 程后 ,可 以产生一 连 串的 该数据库是专 门录制 系统 的影响还有待于进一步的探讨 和研究 。 “ 观测值” 。假设 有一个 由隐马尔可夫模 型描述 的自然连续语音采集 的 , 的包括 4 个 不同地名 的数据 库 ,数据 库 由男 0 参 考文 献 的语音产生系统 ,那么它在每一时刻的输出是 5人提供 ,年龄分 布在 2 0到 3 6之间 。前 [】 纪 庆 , 磊 , 铁 然 . 音 信 号 处 理 [ ]北 1韩 张 郑 语 M. 个特征矢量 ,称为观测矢量 ,而且系统在每 女 4 0个不 同的地 名 ,来 训 练 3 京: 5 清华大学出版社 ,0 2 20. 时刻 只能处 于有限状态集 中的某 一个状态 。 3 5个 人分别 说 4 M O 2B ul d H. hoe B,“ pi i eon— a D min 它在t 时刻 的输 出 ( 一个 特征矢量)的概率 分 个关键 词 的 H M模 型 ,后 1 个人 针对 每个 [] or r ,'or . O t z g rcgi i n nd e e to p r r nc i w r s o t g ’ f i 布由t 时刻状态决定 。设在 t 时刻 ,它处于状 关键词录制一句包含关键词 的句子作为测试数 to a r j c in e o ma e n o d p t n 12 H 6 y tms” C S P Vo . , P 3 3 3 6 1 9 态 q 则输 出 O的概率 为 P (, 。系统在 t 据 。数 据库录制 的是 1 0 5 Z采样率 ,1 位 s se , I A— S , 11P . 7 — 7 , 9 4. oq l) + 『] ol e JR sl W. i H.“ ot uu 3R hi k . se c , ,s G h , C ni o s n 1时处于什 么状态 只与 t 时刻所处 状态 有关 , 量化和单声道 的语音信号 。 Hi d n r k v Mo ei g f r s e k r i d p n d e Ma o d ln o p a e n e e — 32 试 结 果 .测 与观测矢量及 t 面系统所处状态无关 ,并 且 前 e twod p ti , n rcItCofAc u t , n e 以数据库 中后 l 个人录制 的数据 作为测 d n r s ot g” i P o .n. n. o sis O 在 已知 t 时刻状 态的情况下 ,tl时刻处 于状 + 试数据 ,针对垃圾模型的数量分别 为 2 5和 4 S e c , n S g a r c s i g P . 2 — 3 , 9 9 2 p e h a d in l P o e s n , P 6 7 6 0 1 9 . 态q 的概率为 a 因而 ,系统的状态序列 所 []e ae 4B nyd Y,Fh , tn .., “ e or D. o J Ha P A nw 构成一 个一 阶马尔 可夫链 。 由于输 出的只是 时计算 检测率 和误 警率 ,检测 结果 如表 l k y r s o tn a p o c b s d o r wa d e wo d p ti g p r a h a e n e r 其 B , O 。 系统 处 于什 么状 态并 不知 道 ,是 隐藏 示 , 中 G 代表垃圾模型。 ,而 u c i , e e t I tr a in l y o i m o o ’ n 由实验结 果可见 ,从绝 对的检 出率高 低 f n t n ’ S v n h n e n to a S mp su 的,所以这种模 型被称为隐马尔可夫模 型。 出发 ,G =5 于 G =2 B2优 B 4 ,而 在误警 率方 面 Sg lPrc sig a d pit nVo.,P4 5 ina o e sn n Ap l i , 11P .0 — co 2关键词检测 0j l 0 3 采用 H

基于隐马尔可夫模型HMM的语音识别系统原理

基于隐马尔可夫模型HMM的语音识别系统原理
当修 正
毫 不犹 豫 地 说 , 音 识 别 会 让计 算 机变 得 “ 解 人 意 ” 许 语 善 , 多 事 情 将 不 再 是 “ 牛 弹琴 ” 最 终 用 户 的 口述 会 取 代 鼠 对 , 语 音 识别 系统 基 本 原 理 结 构如 图 1所 示 。语 音 识 别 标 , 盘 这 些 传统 输 入 设 备 , 需 要 用户 的 嘴和 麦 克 风 就 原理有三点 :①对语音信号中的语 言信息编码是按 照幅 键 只 能 实现 对 计 算 机 的绝 对 控 制 。
4 语音 识 别系 统 基本 原 理框 图及 原 理
度谱 的时间变化来进行 ; 由于语音是可 以阅读的 , ② 也就
1 隐马 尔 可 夫模 型 HMM 的 引入
现 在假 定 HMM是 一 个 输 出符 号 序 列 的统 计 模 型 , 具 有 N个 状 态 s ,2 n 1s …s ,在 一个 周 期 内从 一 个 状 态 转 到
多方 面 都 有 着 广 泛 的应 用 。
关键词: 隐马 尔 可夫 模 型 ; 号分 析 处 理 ; 音 识 别 信 语 中图 分 类号 : N 1 . T 9 23 4 文献标识码 : A 文 章编 号 : 0 6 8 3 2 1 ) 2 0 8 — 1 1 0 — 9 7(0 1 0 — 0 9 0
2 语 人说 话 的 内容 和意 思 转 换 为 计 算 机 可 读 的输 人 ,例 如 按 键 、二 进 制 编 码 或 者 字 符序 列 等 。 说话 人 的识 别 不 同 , 者 主要 是 识 别 和 确 认 发 出语 与 后 音 的人 而 非其 中所 包 含 的 内容 。语 音 识 别 的 目的就 是 让 机 器 听 懂人 类 口述 的语 言 , 括 了两 方 面 的含 义 : 包 第一 是 逐 字 逐 句 听懂 而 不 是 转 化 成 书 面 的语 言 文 字 ;第 二是 对

HMM基本原理及在语音识别中的应用

HMM基本原理及在语音识别中的应用

14
数字语音处理及MATLAB仿真 张雪英编著
根据语音产生的模型, 语音信号S(z)是一个 根据语音产生的模型 , 语音信号 是一个 线性非移变因果稳定系统V(z)受到信号 受到信号E(z)激励产 线性非移变因果稳定系统 受到信号 激励产 生的输出。 在时域中, 语音信号s(n)是该系统的 生的输出 。 在时域中 , 语音信号 是该系统的 单位取样响应v(n)和激励信号 和激励信号e(n)的卷积。语音产 的卷积。 单位取样响应 和激励信号 的卷积 生的声道模型是一个可用下式阐述的全极点模型: 生的声道模型是一个可用下式阐述的全极点模型 :
2
数字语音处理及MATLAB仿真 张雪英编著
语音识别系统分为两个方向: 语音识别系统分为两个方向 : 一是根据对说 话人的依赖程度可以分为特定人和非特定人语音 识别系统; 二是根据词汇量大小, 识别系统 ; 二是根据词汇量大小 , 可以分为小词 汇量、 中等词汇量、 大词汇量, 汇量 、 中等词汇量 、 大词汇量 , 以及无限词汇量 语音识别系统。 语音识别系统。 不同的语音识别系统, 不同的语音识别系统 , 尽管设计和实现的细 节不同, 但所采用的基本技术是相似的。 节不同 , 但所采用的基本技术是相似的 。 一个典 型的语音识别系统如下页图所示。 型的语音识别系统如下页图所示 。 主要包括预处 特征提取和训练识别网络。 理、特征提取和训练识别网络。
1.抗混叠滤波与预加重 .
语音信号的频谱分量主要集中在300~3400Hz ~ 语音信号的频谱分量主要集中在 范围内。 范围内 。 因此需用一个防混叠的带通滤波器将此 范围内的语音信号的频谱分量取出, 范围内的语音信号的频谱分量取出 , 然后对语音 信号进行采样,得到离散的时域语音信号。 信号进行采样,得到离散的时域语音信号。

HMM

HMM

基于HMM模型的语音识别基本思路简介1 引言语音识别技术是2000~2010 年间信息技术领域十大重要的科技发展技术之一。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别ASR ( AutomaticSpeech Recognition) 系统的实用化研究是近十年语音识别研究的一个主要方向。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。

目前主流的语音识别技术是基于统计模式识别的基本理论。

一个完整的语音识别系统可大致分为3 部分:(1) 语音特征提取其目的是从语音波形中提取随时间变化的语音特征序列。

(2) 声学模型与模式匹配(识别算法)声学模型通常将获取的语音特征通过学习算法产生。

在识别时将输入的语音特征与声学模型(模式) 进行匹配与比较,得到最佳的识别结果。

(3) 语言模型与语言处理语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。

对小词表语音识别系统, 往往不需要语言处理部分。

2 语音识别系统比较以下就目前基于整词模型的语音识别的主要技术做一比较。

(1) 基于DTW(Dynamic Time Warping) 和模拟匹配技术的语音识别系统。

目前,许多移动电话可以提供简单的语音识别功能,甚至使用DTW和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。

由于DTW 模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。

为减少运算量大多数使用的特征是L PCC(Linear Predictive Cepst rumCo2efficient) 运算。

DTW 和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

还望老师同学指正 Thanks!
3.2.7、识别网络
从根节点开始,与每个可能作为句子开始的词节点相连,每个词又 和它可能的相连,以此类推,构建好初始网络如下所示:
初始词网络
分解成三音素的网络
树结构的网络
识别网络中的词串假设 One two four
句子对应的 音素级脚本
特征向量 文件O
w ah1 n t uw1 f ao1 r
1.2.1、数据准备工具
HDMan:利用各种数据源生成发音词典 HCopy:数据文件格式转换 HLEd:编辑标注文件 Hbuild:转换各种不同格式的代表语言模型的文件并输出标HTK 网格格式 HSGen:根据以标准HTK网格格式定义的词,网络自动随机产生 一组句子 HSLab:对语音标注文件进行标注的编辑器
1)、训练
2)、识别
3.2、连续语音识别
3.2.1、面临问题 连续语音句子中每个单词发音没有明显的界限, 分割困难; 协同发音影响; 语音信号随着说话人的语速差异及性别、生理因 素、心理条件、社会因素等等产生很大变化; 语言歧义性和语言结构的随意性。
3.2.2、模型结构
单个HMM模型
q1 o1
q2 o2
通过递归计算前向后向概率得到
2)、学习—如何根据观察序列不断修正模型参数使 得 max{ P (O | λ )} 。
利用经典Baum-Welch算法,即EM算法
3)、 识别---已知观察序列O和模型,如何确定一个合理的状态 序列,使之能最佳地产生O。 Viterbi算法
3、基于HMM的语音识别
3.1孤立词识别
w* = argmax p(w | O) = argmax
w w
p(w) p(O | w) p(O)
式中 w = w 1 , w 2 ,....ቤተ መጻሕፍቲ ባይዱw s 是任意长度的任意词串序列。
p (w)
由统计语言模型提供; 由各单词和相关的三音素的声学模型决定。
p(O| w)
3.2.6、N-gram 语言模型
N:原始脚本文件中词的个数 D:识别结果对应于参考句子脚本中删除的词的个数 S:识别结果对应于参考句子脚本中替换的词的个数 I:识别结果对应于参考句子脚本中插入的词的个数
5、结束语
HMM在语音处理中已得到了广泛应用,它 的双重随机特性,可以很好地描述语音信号的短 时平稳特性和总体非平稳特性,但由于它自身模 型结构的限制,对语音的某些特性仍不能很好地 进行描述,但仍可以作为我们学习新模型的一个 基础。
调入句子的脚本文件 建立 复合 HMM ( λ1,..., λQ ) 利用前向后向算法 计算前项变量和后向 变量值
参数重估
Y
还有训练句子么?
N
参数达到 收敛的结果了么?
N
Y 训 练 好 的 HMM模 型 库
3.2.5、嵌入式识别
识别任务就是在观测向量 O 下,最可能的词串序列 w ,使得p ( w | O ) 最大的词串序列。根据Bayes准则,有
假设 w 是长度为S 的词串序列w = w 1 , w 2 ,.... w s,其发 生 概率 p (w) 可近似假设为
pN{w} = Π p{wi | wi−1, wi−2 ,...,wi−N+1}
i=1
s
此式叫做N-元语言模型,可以通过统计训练数据库的文本得 到。当N很大时,考虑起来比较复杂,所以通常使用二元文法(BiGram)。
计 算 在 复 合 HMM 下 的 概 率 p(O | w)
声学模型 HMMλ1,...,λQ) ( 语言模型
p(w)* p(O| w)
p(w| O)
嵌入式识别流程图
4、利用HTK构建连续语音识别系统
1)、数据准备
对于训练语音库及其词一级标注抄本,准备工作有: a.利用音素发音词典,把词级抄本转换成音素级抄本; b.对语音信号进行特征提取,HTK可以提取的特征有: MFCC、PLP、LPC等;
1.2.3、识别工具
HVite:基于Viterbi算法的词识别器
1.2.4、性能评估工具
HResults:HTK模型性能分析工具 HRec:评估结果输出
2、HMM简述
2.1HMM定义
模型初始状态 转移矩阵
λ ={π, A, B}
状态产生观测向 量的概率分布
2.2、HMM三个基本问题
生此观察序列的概率 P(O| λ) 。 1)、推理---已知观察序列O和模型 λ ,如何计算由此模型产
q3 o3
q4 o4
q5 o5
复合HMM模型
3.2.3 、建模单元
1)、音素:英语中常用的有45个,如ao、b、t、sil等。 2)、三音素:即考虑到当前音素的左半和右半连接音素。 例如:Beat it 音素级抄本为: sil b iy t ih t sil 三音素级抄本为: sil sil-b+iy b-iy+t iy-t+ih t-ih+t ih-t+sil sil 词间三音素、词内三音素
2)、HMM训练
HTK提供一种逐步细化的建模过程,先建立单音素的 HMM,再考虑因素上下文,扩展到三音素HMM,最后进行状 态捆绑,并逐步增加高斯混合概率密度函数的个数,直至模型 复杂度达到一定程度,或系统性能达到一定指标。
3)、结果测试
HTK利用构建的识别网络,可以把语音识别为带有起始和持续 时间的单词序列,并可以利用HTK对齐工具,把结果翻译成相应的音 素序列,语言模型在词层和音素层都应用了双元文法,并在搜索过程
基于HMM的连续语音识别
----------王风娜
HTK工具包 HMM简述 基于HMM的连续语音识别 利用HTK构建连续语音识别系统
1、HTK 工具包
1.1、工具包框架
1.2、工具分类
HTK工具包是由若干带有特定执行功能的程序组 成。按照工具所完成功能的性质,可以将整个工具包分成 四个部分: 数据准备工具 模型训练和优化工具 识别工具 性能评估工具
1.2.2、模型训练和优化工具
HCompV:统计训练数据中的全局均值和方差 HERest:利用Baum-Welch算法对HMM模型进行嵌入式训练 HINit:HMM模型初始化 HRest:利用Baum-Welch算法对HMM模型进行一次训练 HHEd:直接对HMM进行各种编辑和优化操作.例如改变模型类型,上 下文相关建模,构造决策树,增加高司混合数等.
中应用了一些裁减策略(动态规划)。
4)、结果分析
对于识别结果,HTK应用动态规划的方法,将其与参考序列进 行最优对齐,计算它们之间的替代、删除、插入误差。
评测标准
1)、词正确识别率
Correct = N − D − S × 100 % N
2)、识别精度
Accuracy = N −D−S−I × 100 % N
4)、计算复合HMM的前向-后向概率。 5)、用前向-后向概率来计算每帧语音 的状态占有概率及其累计和。 6)、重复过程2直至训练结束。 训练流程如右图所示: 在训练过程中采用逐步细化的建模过 成,先建立单音素的HMM,然后考虑音 素上下文,扩展到三音素HMM,最后进 行状态捆绑,还可逐步增加混合高斯变 量数目,最终得到鲁棒性较高的连续语 音识别HMM
3)、三音素捆绑
状态捆绑示意图
状态捆绑决策树
3.2.4、嵌入式训练
要求:收集训练语音时,必须有训练语句的抄本。 算法流程: 1)、对所有音素或三音素的HMM进行初始化。 2)、输入新的训练语句。 3)、通过连接训练句子抄本中各符号所对应的HMM,构建 一个符合HMM,如下图所示:
初始化模型参数
相关文档
最新文档