语音识别基础讲义00
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别基础讲义
吴亚栋
上海交通大学计算机科学与工程系
2000年1月
目录
第一章绪论 (1)
1.1语音识别的重要性 (1)
1.1.1语音信息处理与语音识别
1.1.2语音识别的重要性
1.2语音识别的定义、原理和分类 (2)
1.2.1语音识别的定义
1.2.2语音识别的基本原理
1.2.3语音识别的分类
1.3本课程的内容与要求 (4)
1.4语音识别的历史回顾 (4)
1.4.1 国外语音识别的历史
1.4.2我国语音识别的历史
第二章语音的特征 (7)
2.1发音的生理机构与过程 (7)
2.1.1发音的生理机构
2.1.2语音的产生过程
2.1.3语音分类
2.2语音的基本特性 (8)
2.2.1语音的物理属性
2.2.2汉语语音基础及其特性
2.2.3语音的波形特征
2.2.4语音的频谱特性
2.2.5语音的音律特性
第三章用于语音识别的信号处理及分析方法 (13)
3.1短时分析与窗函数 (13)
3.1.1语音信号的数字化
3.1.2短时分析概要
3.1.3几种典型的窗函数
3.2时域分析 (14)
3.2.1短时平均能量、幅度及过零数
3.2.2短时自相关函数与平均幅度差函数
3.2.3中值滤波
3.3频域分析 (16)
3.3.1傅里叶分析概要
3.3.2短时离散傅里叶变换(DFT: Discrete Fourier Transform)
3.3.3DFT与快速傅里叶变换(FFT: Fast Fourier Transform )
3.3.4振幅谱和功率谱
3.4倒谱域分析 (17)
3.4.1倒谱的概念
3.4.2倒谱的分析流程
3.4.3倒谱系数的求法
3.4.4倒谱分析在语音识别中的用途
3.5线性预测分析 (19)
3.5.1线性预测分析的概念
3.5.2线性预测系数的求法
3.5.3线性预测分析在语音识别中的用途
3.6矢量量化法(VQ: Vector Quantization) (21)
3.6.1矢量量化的原理
3.6.2码本设计---LBG算法(2分割法)概要
3.6.3矢量量化在语音识别中的用途
第四章基于模式匹配方式的语音识别技术 (24)
4.1语音的端点检测 (24)
4.1.1语音端点检测的难点
4.1.2采用能量及过零数参数的检测法
4.2失真测度 (25)
4.2.1距离测度与失真测度
4.2.2几种典型的失真测度
4.3动态时间规正法(DTW: Dynamic Time Warping) (26)
4.3.1语音模式匹配的问题点
4.3.2DTW的原理
4.3.3DTW的具体解法
4.4基于DTW技术的语音识别方案 (29)
第五章基于统计模型(HMM)方式的语音识别技术 (30)
5.1基于统计模型框架的识别法 (30)
5.1.1预备知识
5.1.2基于统计模型框架的识别法
5.2隐马尔柯夫模型(HMM)的概念 (31)
5.2.1马尔柯夫过程
5.2.2隐马尔柯夫模型的概念
5.2.3HMM的要素及其模型描述
5.2.4基于HMM的观察符号序列的生成方式
5.3HMM的三个基本问题及其解法 (33)
5.3.1HMM的三个基本问题
5.3.2模型评估问题的解法
5.3.3最佳路径问题的解法
5.3.4模型训练问题的解法
5.4基于HMM的孤立字(词)语音识别方案 (37)
第六章孤立字(词)语音识别系统 (39)
6.1语音输入装置的实用化条件 (39)
6.2系统构成及其主要技术项目 (39)
6.2.1系统构成
6.2.2主要技术项目
6.3几种典型的识别方式 (40)
6.3.1基于DTW技术的多重样板识别方式
6.3.2基于语音特征轨迹的时间规正技术的识别方式
6.3.3基于VQ-HMM技术的识别方式
6.4系统实例介绍 (41)
第七章连续语音识别系统 (43)
7.1连续语音识别问题的难点 (43)
7.2连续单词语音识别的几种典型算法 (43)
7.2.1两极DP法(two-level dynamic programming)
7.2.2分层构造法(level building)
7.2.3一次通过法(one pass)
7.3语音听写系统 (50)
第八章语音识别的应用及展望 (51)
8.1语音识别应用大分类 (51)
8.2语音识别展望 (52)
硬腭软腭上腭喉斗食道
鼻腔鼻孔嘴唇舌牙齿口腔声带声道气管肺
(声门)(斜线部分)
硬腭软腭上腭喉斗食道
鼻腔鼻孔嘴唇舌牙齿口腔声带声道气管肺
(声门)(斜线部分)
基于LPC的频普包络
基于LPC对数倒频谱的频谱包络
短时频谱
基于FFT对数倒频谱的频谱包络
基于LPC的频普包络
基于LPC对数倒频谱的频谱包络
短时频谱
基于FFT对数倒频谱的频谱包络
频率[kHz]
对数振幅[dB] 时间(10ms/格) 频率(kHz) 时间(5ms/格) 时间(5ms/格)。