基于HMM算法的语音识别的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(4)语音端点检测
语音端点检测就是从包含语音的一段信号中找出语音的起点 及终点,从而只存储和处理有效语音信号。它是语音处理技 术中的一个重要方面,其目标是要在一段输入信号中将语音 信号同其它信号(如背景噪声)分离开来。端点检测采用传统 的检测方法即将语音信号的短时能量与过零率相结合去判断 起点与结束点。
4、语音识别算法HMM模块
语音系统模块分析
1、预处理模块 (1)语音信号采样
要了分析说话人的语音,就要将话筒中传来的语音信号转换 成计算机所能处理的数字信号。利用采样定律,对语音信号 进行采样。实验表明语音清晰度和可懂度有明显影响的成分 最高频率约为5.7KHz。因此语音识别时常用的采样频率为 10KHz或16KHz。
音识别方面有利于减小因说话人不同的差异可能带来的影响。不足
之处是MFCC方法中多次用到FFT(快速傅氏算法),故算法的复
杂程度远大于LPCC方法。
3、训练模块
鲁棒性训练方法:
将每一个词重复说多遍,直到得到一个一致性较好的特征矢 量序列。最终得到的模板是在一致性较好的特征矢量序列。
经典的Baum-Welch算法中,参数重估公式是在假设只有一 个观察序列的条件下推导出来的。而在实际应用中,都是大 量观察序列参与训练的,也就是对每个HMM模型,都会收集 大量的语音数据,分别计算各自的MFCC参数序列,再用来 对该HMM的参数进行重估。例如,对数字“0”建立HMM模型, 就要找很多人,录制多个“0”的wav文件,进行端点检测后, 计算出MFCC参数序列,也就是所谓的观察序列,就可以对 模型的参数进行训练了。
毕业论文答辩
题目:基于HMM算法的语音识别的研究
Fra Baidu bibliotek
一、结构框架
1、研究背景 2、语音系统分类和构成 3、语音识别详细模块介绍 4、仿真与分析 5、总结与收获
课题研究的背景和意义
语音识别是近年来十分活跃的一个研究领域。在手 持式设备、智能家电、工业现场控制等应用场合,语音 识别技术有着广阔的发展前景。尤其是在包括PDA、手 机等掌上型嵌入式系统中,键盘的存在已经大大妨碍了 系统的小型化,而语音识别技术就是一种极富潜力和最 为理想的选择,具有高技术含量和广阔的市场价值。
仅考虑对于专人的语音进行识别,与说话的语种没有关系;
(2)非特定人语音识别系统:
识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识 别的语言取决于采用的训练语音库;
(3)多人的识别系统:
通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常可以识别 三到五个人的语音。
在语音识别系统中,很少直接使用LPC系数,而是由LPC 系数推导出另一种参数:线性预测倒谱系数(LPCC)。倒 谱实际上是一种同态信号处理方法,标准的倒谱系数计算 流程需要进行FFT变换,对数操作和相位校正等步骤,运 算比较复杂。。
(3)MFCC系数
MFCC参数是目前大多数语音识别系统中广泛使用的特征参数,
(2)预加重
它的目的在于消除低频干扰尤其是50Hz的工作频率干扰,将 对语音识别更为有用的高频部分的频谱进行提升。使信号的 频谱变的平坦,保持在低频到高频的整个频带中,能用同样 的信噪比求频谱, 以便于频谱分析。
(3)语音分帧
语音信号常常可假定为短时平稳的,即在10-20ms这样的时 间段内,其频谱特性和某些物理特征参量可近似地看作是不 变的。这种处理的基本方法是将语音信号分隔为一些短段即 分帧再加以处理。一般采用交叠分段的方法,即帧与帧之间 有交叠,交叠的目的是使帧与帧之间平滑过渡,保持其连续 性。语音信号处理的帧长一般取20ms。、
目前主流的语音识别技术是基于统计模式识别的基 本理论,国外的语音识别研究工作主要集中在非特定人、 大字表、连续语音识别系统上,国内的研究大国集中于 连续语音识别、语音新特征研究、动态时间弯折(DTW) 算法 、隐马尔可夫模型HMM及神经网络等识别技术的 研究。
2、语音系统分类和构成
1. 从说话者与识别系统的相关性分: (1)特定人语音识别系统:
它是基于人耳的听觉特性。人耳对声音音调的感受与其频率并不成
线性关系。而Mel倒谱尺寸,则更符合人耳的听觉特性。 Mel频率
尺度,它的值大体上对应于实际频率的对数分布关系。MFCC与基
于线性预测的LPCC相比,其突出优点是不依赖全极点语音产生模
型的假定,因而在噪声环境下表现出更强的鲁棒性,在非特定人语
2、特征参数提取模块
(1)线性预测系数(LPC)
LPC是语音分析的重要手段,它能很好地进行谱估计,即 可作为语音特征的参数。因此仅用12个LPC系数就能很好 地表示复杂语音信号的特征,这就大大降低了信号的冗余 度并有效地减少了计算量和存储量,使之成为语音识别和 语音压缩的基础。
(2)线性预测倒谱系数(LPCC)
2. 从说话的方式分:
(1)孤立词语音识别系统:
输入系统要求输入每个词后要停顿;
(2)连接词语音识别系统:
输入系统要求对每个词都清楚发音,开始出现连音现象;
(3)连续语音识别系统:
连续语音输入自然流利的语音,会出现大量的连音和变音。
典型系统结构图
语音系统结构图
系统主要模块
语音系统主要包含以下四个模块: (1)预处理 预处理部分包括语音信号的采样、预加重、语音分帧以及端点检测等,
预处理最重要的步骤是端点检测。 (2)特征提取 特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语
音信号特征的参数,如平均能量、过零数、倒谱、线性预测系数等,以 便训练和识别。参数的选择直接关系着语音识别系统识别率的高低。 (3)训练 训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它 由这个词重复发音多遍,再经特征提取和某种训练中得到。 (4)模式匹配 模式匹配部分是整个系统的核心,也就是按照某种算法求取待测语音 特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就 是识别结果。
语音端点检测就是从包含语音的一段信号中找出语音的起点 及终点,从而只存储和处理有效语音信号。它是语音处理技 术中的一个重要方面,其目标是要在一段输入信号中将语音 信号同其它信号(如背景噪声)分离开来。端点检测采用传统 的检测方法即将语音信号的短时能量与过零率相结合去判断 起点与结束点。
4、语音识别算法HMM模块
语音系统模块分析
1、预处理模块 (1)语音信号采样
要了分析说话人的语音,就要将话筒中传来的语音信号转换 成计算机所能处理的数字信号。利用采样定律,对语音信号 进行采样。实验表明语音清晰度和可懂度有明显影响的成分 最高频率约为5.7KHz。因此语音识别时常用的采样频率为 10KHz或16KHz。
音识别方面有利于减小因说话人不同的差异可能带来的影响。不足
之处是MFCC方法中多次用到FFT(快速傅氏算法),故算法的复
杂程度远大于LPCC方法。
3、训练模块
鲁棒性训练方法:
将每一个词重复说多遍,直到得到一个一致性较好的特征矢 量序列。最终得到的模板是在一致性较好的特征矢量序列。
经典的Baum-Welch算法中,参数重估公式是在假设只有一 个观察序列的条件下推导出来的。而在实际应用中,都是大 量观察序列参与训练的,也就是对每个HMM模型,都会收集 大量的语音数据,分别计算各自的MFCC参数序列,再用来 对该HMM的参数进行重估。例如,对数字“0”建立HMM模型, 就要找很多人,录制多个“0”的wav文件,进行端点检测后, 计算出MFCC参数序列,也就是所谓的观察序列,就可以对 模型的参数进行训练了。
毕业论文答辩
题目:基于HMM算法的语音识别的研究
Fra Baidu bibliotek
一、结构框架
1、研究背景 2、语音系统分类和构成 3、语音识别详细模块介绍 4、仿真与分析 5、总结与收获
课题研究的背景和意义
语音识别是近年来十分活跃的一个研究领域。在手 持式设备、智能家电、工业现场控制等应用场合,语音 识别技术有着广阔的发展前景。尤其是在包括PDA、手 机等掌上型嵌入式系统中,键盘的存在已经大大妨碍了 系统的小型化,而语音识别技术就是一种极富潜力和最 为理想的选择,具有高技术含量和广阔的市场价值。
仅考虑对于专人的语音进行识别,与说话的语种没有关系;
(2)非特定人语音识别系统:
识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识 别的语言取决于采用的训练语音库;
(3)多人的识别系统:
通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常可以识别 三到五个人的语音。
在语音识别系统中,很少直接使用LPC系数,而是由LPC 系数推导出另一种参数:线性预测倒谱系数(LPCC)。倒 谱实际上是一种同态信号处理方法,标准的倒谱系数计算 流程需要进行FFT变换,对数操作和相位校正等步骤,运 算比较复杂。。
(3)MFCC系数
MFCC参数是目前大多数语音识别系统中广泛使用的特征参数,
(2)预加重
它的目的在于消除低频干扰尤其是50Hz的工作频率干扰,将 对语音识别更为有用的高频部分的频谱进行提升。使信号的 频谱变的平坦,保持在低频到高频的整个频带中,能用同样 的信噪比求频谱, 以便于频谱分析。
(3)语音分帧
语音信号常常可假定为短时平稳的,即在10-20ms这样的时 间段内,其频谱特性和某些物理特征参量可近似地看作是不 变的。这种处理的基本方法是将语音信号分隔为一些短段即 分帧再加以处理。一般采用交叠分段的方法,即帧与帧之间 有交叠,交叠的目的是使帧与帧之间平滑过渡,保持其连续 性。语音信号处理的帧长一般取20ms。、
目前主流的语音识别技术是基于统计模式识别的基 本理论,国外的语音识别研究工作主要集中在非特定人、 大字表、连续语音识别系统上,国内的研究大国集中于 连续语音识别、语音新特征研究、动态时间弯折(DTW) 算法 、隐马尔可夫模型HMM及神经网络等识别技术的 研究。
2、语音系统分类和构成
1. 从说话者与识别系统的相关性分: (1)特定人语音识别系统:
它是基于人耳的听觉特性。人耳对声音音调的感受与其频率并不成
线性关系。而Mel倒谱尺寸,则更符合人耳的听觉特性。 Mel频率
尺度,它的值大体上对应于实际频率的对数分布关系。MFCC与基
于线性预测的LPCC相比,其突出优点是不依赖全极点语音产生模
型的假定,因而在噪声环境下表现出更强的鲁棒性,在非特定人语
2、特征参数提取模块
(1)线性预测系数(LPC)
LPC是语音分析的重要手段,它能很好地进行谱估计,即 可作为语音特征的参数。因此仅用12个LPC系数就能很好 地表示复杂语音信号的特征,这就大大降低了信号的冗余 度并有效地减少了计算量和存储量,使之成为语音识别和 语音压缩的基础。
(2)线性预测倒谱系数(LPCC)
2. 从说话的方式分:
(1)孤立词语音识别系统:
输入系统要求输入每个词后要停顿;
(2)连接词语音识别系统:
输入系统要求对每个词都清楚发音,开始出现连音现象;
(3)连续语音识别系统:
连续语音输入自然流利的语音,会出现大量的连音和变音。
典型系统结构图
语音系统结构图
系统主要模块
语音系统主要包含以下四个模块: (1)预处理 预处理部分包括语音信号的采样、预加重、语音分帧以及端点检测等,
预处理最重要的步骤是端点检测。 (2)特征提取 特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语
音信号特征的参数,如平均能量、过零数、倒谱、线性预测系数等,以 便训练和识别。参数的选择直接关系着语音识别系统识别率的高低。 (3)训练 训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它 由这个词重复发音多遍,再经特征提取和某种训练中得到。 (4)模式匹配 模式匹配部分是整个系统的核心,也就是按照某种算法求取待测语音 特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就 是识别结果。