实用语音识别基础第二讲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别技术
预处理
中国科学院声学研究所
Institute of Acoustics, CAS
2017《语音识别技术》教学进度表
课程类别:专业普及课
首席教授:颜永红主讲教师:张鹏远日期周次主要讲授内容授课人备注
2017-09-122语音识别技术概述颜永红2017-09-193语音识别预处理张鹏远2017-09-264语音特征提取徐及2017-10-035国庆假期无2017-10-106语言模型葛凤培2017-10-177声学模型第一讲张鹏远2017-10-248声学模型第二讲张鹏远2017-10-319自适应技术葛凤培2017-11-0710解码器
黎塔2017-11-1411深度神经网络在语音识别中的应用
徐及2017-11-2112关键词检索张鹏远2017-11-2813语音识别的应用
张鹏远2017-12-0514答疑张鹏远2017-12-12
15
考试
张鹏远
中国科学院声学研究所
Institute of Acoustics, CAS
参考书
•王炳锡等著,实用语音识别基础,国防工业出版社,2005年1月出版
•俞栋,邓力著,解析深度学习:语音识别实践,电子工业出版社,2016年7月出版•韩纪庆等编著,语音信号处理,清华大学出版社,2013年4月出版
中国科学院声学研究所
Institute of Acoustics, CAS
上课形式
•讲课+作业讨论
中国科学院声学研究所
Institute of Acoustics, CAS
提纲
☐语音端点检测
☐短时能量☐短时平均过零率
☐语音识别基础
☐汉语语音基本特性☐识别基元的选取
中国科学院声学研究所
Institute of Acoustics, CAS
现有语音识别系统框架
6
(()|())(())
arg max (()|())arg max
(())i i i i i
P O u w u P w u F P w u O u P O u λλ=
=前端处理解码器声学模型语言模型
识别
结果
用户语音
特征矢量:
识别过程是基于声学模型、发音词典、语言模型找到一个使后验概率最大化的词串作为识别结果
1,2(){,}
T O u O O O = 预加重加窗函数
FFT Mel滤波器DCT求倒谱语音信号
MFCC特征参数
发音词典
中国:
zh ong1 g guo2人民:r en2 m in2
建模单元的选择概率模型的选择
模型的训练方法
搜索空间的构建快速算法的研究
中国科学院声学研究所
Institute of Acoustics, CAS
音频信号的采集与存储
声音的起源物体振动引起(如人类发声器官)声音的传播
在介质中(如空气)以声波形式传播
声音的采集空气中传播的声波
通常用麦克风进行采集
模拟信号
音频信号的存储
数字信号
采样、量化
可闻声20-20kHz 高于或低于这一频段称为超声或次声
可以理解为一种传感器将空气的机械振动转化为电信号
采样率:每秒采样次数(8k/16k)
量化级:采样点所用二进制位数(16bit)
中国科学院声学研究所
Institute of Acoustics, CAS
语音信号生成的数学模型
音频信号包括音乐、噪声等多种情况,我们重点关注其中的语音信号(通常为300Hz-3400Hz)
激励模型
声道模型
辐射模型
物理原型
声带振动产生激励信号主要参量
基频(影响声调)
分析方法基频提取物理原型
咽鼻口等形成谐振腔主要参量
频谱包络,共振峰(影响音素种类)分析方法频谱分析
物理原型
声波在空气中传播主要参量
能量衰减曲线
处理对策预加重
中国科学院声学研究所
Institute of Acoustics, CAS ⏹红色曲线为频谱包络,其中的局部极大点称为共振峰,为浊音
特有,能够反映声道物理特性
⏹人类语音的前三至四个共振峰有较好的区分性,也是频谱分析
过程中的重点关注对象
中国科学院声学研究所
Institute of Acoustics, CAS
音素160ms
音节330ms
可以看出,语音信号在较短时间内呈现相对平稳的特点
短时平稳性假设是语音信号可以进行短时分析的理论基础
红色高亮部分为共振峰
语谱图是语音信号分析的重要手段之一,能够直观反映时频关系
中国科学院声学研究所
Institute of Acoustics, CAS
概念:语音端点检测(Voice Activity Detection,VAD)就是从连续的语音流中检测出有效的语音段。它包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。作用:
(1)从连续的语音流中分离出有效语音,可以降低存储或传输的数据;(2)端点检测可以简化人机交互,比如在录音的场景中,语音后端点检测可以省略结束录音的操作。
(3)可以用于去掉多余的非有声信号,提高系统处理语音的速度,同时减少因非有声信号进入后端分析系统而产生的干扰。
语音端点检测