HMM语音识别例子

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别by HMM

09009226

邓齐林

•语音识别技术,也被称为自动语音识别(A utomatic S peech R ecognition ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,如字符序列。

•语音识别技术主要包括

特征提取技术

模型训练技术

模式匹配技术

•最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰(在声音的频谱中能量相对集中的一些区域)

•到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别系统中,成功开发了第一个计算机语音识别系统。

语音识别技术

•转变:进入80年代以后,研究的重点逐渐

转向大词汇量、非特定人的连续语音识

别,研究思路由传统的技术思路开始转向

基于统计模型(HMM)的技术思路

•突破:隐马尔科夫模型HMM(Hidden Markov Model)的应用

•卡内基梅隆大学的李开复最终实现了第一

个基于隐马尔科夫模型的大词汇量语音识

别系统Sphinx。

语音识别系统•特征提取/前端处理

提取语音信号的相关特征•声学模型

对应于语音到音节概率的计算•语言模型

对应于音节到单词概率的计算

。。。判决规

则估值计算

/VITERBI 解码计算

VQ矢量量

化码本训练

HMM(3)HMM(2)HMM(1)

识别结果Quantization 将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化

预处理

•预滤波

语音信号的频谱分量

采样和量化

•预加重

语音衰减(6dB/oct)

信号提升/加重

•端点检测

短时平均能量

短时平均过零率离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率

声学特征

•帧:由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也就是要进行短时分析,这一小段被认为是平稳的分析区间称为帧

•帧与帧之间的偏移距离通常取帧长的1/2或1/3

例如:语音信号可以按256 个采样点为帧长进行分帧, 帧移采用128 个采样点. 这样设置参数后把系统移植到DSP 平台可以利用DFT等算法.

特征提取

•选取的合适的特征参数

声学特征的提取与选择

考虑特征参数的计算量

•进行适当的数据压缩

矢量量化技术

节省存储容量和识别运算量

•对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息)。

特征提取•时域特征和/或频域特征

•时域特征:

1共振峰

2短时平均能量

3短时平均过零率

频域特征

•线性预测系数(LPC)

•LPC倒谱系数(LPCC)

•梅尔频率倒谱系数(MFCC)

•此外还有基于听觉模型的特征参数提取:感知线性预测(PLP)

声学模型

•马尔可夫模型:离散时域的有限状态自动机•隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输出值,而不能观测到状态转移序列。

•对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。

•HMM的两个假设

内部状态的转移只与前一个状态有关

输出值只与当前状态有关

HMM 算法•估值算法

HMM向前算法

HMM向后算法

•解码算法

Viterbi算法

对数Viterbi算法

•训练算法

向前向后算法

Baum‐Welch算法

•声学模型是识别系统的底层模型

•目标:提供一种有效的方法, 计算语音的特征矢量序列

•指标

训练数据量

语音识别率

灵活性

基本概念

•音素:最小的语音单位

•音标:记录英语音素的符号

•音节:最自然的语音单位

•汉语中一个汉字就是一个音节,每个音节由声母、韵母和声调三个部分组成

•英语中一个元音音素可构成一个音节,一个元音音素和一个或几个辅音音素结合也可以构成一个音节。

模型识别单元/模型基元

•词发音模型

•音节模型

•半音节模型

•音素模型

•小的识别单元的优点:

计算量

存储量

训练数据量

•带来的问题:

对应语音段的定位和分割困难

更加复杂的识别模型规则

•通常大的识别单元易于包括协同发音在模型中, 这有利于提高系统的识别率但要求的训练数据相对增加

模型结构选取

•语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音节就是一个三至五个状态的HMM

•一个词就是构成词的多个音节的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。

模型结构选取

模型只有惟一的一个初始状态和一个终止状态,并且这个过程只要进入一个新的状态就不能返回到以前的状态,这种模型很适合于其性质随着时间变化的语音信号。

由左至右的HMM,初始状态是1,终止状态是5

相关文档
最新文档