HMM语音识别例子
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别by HMM
09009226
邓齐林
•语音识别技术,也被称为自动语音识别(A utomatic S peech R ecognition ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,如字符序列。
•语音识别技术主要包括
特征提取技术
模型训练技术
模式匹配技术
•最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰(在声音的频谱中能量相对集中的一些区域)
•到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别系统中,成功开发了第一个计算机语音识别系统。
语音识别技术
•转变:进入80年代以后,研究的重点逐渐
转向大词汇量、非特定人的连续语音识
别,研究思路由传统的技术思路开始转向
基于统计模型(HMM)的技术思路
•突破:隐马尔科夫模型HMM(Hidden Markov Model)的应用
•卡内基梅隆大学的李开复最终实现了第一
个基于隐马尔科夫模型的大词汇量语音识
别系统Sphinx。
语音识别系统•特征提取/前端处理
提取语音信号的相关特征•声学模型
对应于语音到音节概率的计算•语言模型
对应于音节到单词概率的计算
。。。判决规
则估值计算
/VITERBI 解码计算
VQ矢量量
化码本训练
HMM(3)HMM(2)HMM(1)
识别结果Quantization 将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化
预处理
•预滤波
语音信号的频谱分量
采样和量化
•预加重
语音衰减(6dB/oct)
信号提升/加重
•端点检测
短时平均能量
短时平均过零率离散信号的相邻两个取样值具有不同的符号时,便出现过零现象,单位时间内过零的次数叫做过零率
声学特征
•帧:由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也就是要进行短时分析,这一小段被认为是平稳的分析区间称为帧
•帧与帧之间的偏移距离通常取帧长的1/2或1/3
例如:语音信号可以按256 个采样点为帧长进行分帧, 帧移采用128 个采样点. 这样设置参数后把系统移植到DSP 平台可以利用DFT等算法.
特征提取
•选取的合适的特征参数
声学特征的提取与选择
考虑特征参数的计算量
•进行适当的数据压缩
矢量量化技术
节省存储容量和识别运算量
•对于非特定人语音识别系统来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别系统来讲,则应该增加说话人的个人信息)。
特征提取•时域特征和/或频域特征
•时域特征:
1共振峰
2短时平均能量
3短时平均过零率
频域特征
•线性预测系数(LPC)
•LPC倒谱系数(LPCC)
•梅尔频率倒谱系数(MFCC)
•此外还有基于听觉模型的特征参数提取:感知线性预测(PLP)
声学模型
•马尔可夫模型:离散时域的有限状态自动机•隐马尔可夫模型HMM:则是指马尔可夫模型的内部状态外界不可见,当从一个状态转移到另一个状态时,外界只能观察到各个时刻的输出值,而不能观测到状态转移序列。
•对语音识别系统而言,输出值通常就是从各个帧提取计算而得的声学特征。
•HMM的两个假设
内部状态的转移只与前一个状态有关
输出值只与当前状态有关
HMM 算法•估值算法
HMM向前算法
HMM向后算法
•解码算法
Viterbi算法
对数Viterbi算法
•训练算法
向前向后算法
Baum‐Welch算法
•声学模型是识别系统的底层模型
•目标:提供一种有效的方法, 计算语音的特征矢量序列
•指标
训练数据量
语音识别率
灵活性
基本概念
•音素:最小的语音单位
•音标:记录英语音素的符号
•音节:最自然的语音单位
•汉语中一个汉字就是一个音节,每个音节由声母、韵母和声调三个部分组成
•英语中一个元音音素可构成一个音节,一个元音音素和一个或几个辅音音素结合也可以构成一个音节。
模型识别单元/模型基元
•词发音模型
•音节模型
•半音节模型
•音素模型
•小的识别单元的优点:
计算量
存储量
训练数据量
•带来的问题:
对应语音段的定位和分割困难
更加复杂的识别模型规则
•通常大的识别单元易于包括协同发音在模型中, 这有利于提高系统的识别率但要求的训练数据相对增加
模型结构选取
•语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音节就是一个三至五个状态的HMM
•一个词就是构成词的多个音节的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。
模型结构选取
模型只有惟一的一个初始状态和一个终止状态,并且这个过程只要进入一个新的状态就不能返回到以前的状态,这种模型很适合于其性质随着时间变化的语音信号。
由左至右的HMM,初始状态是1,终止状态是5