实用语音识别基础第二讲

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语音识别技术

预处理

中国科学院声学研究所

Institute of Acoustics, CAS

2017《语音识别技术》教学进度表

课程类别：专业普及课

首席教授：颜永红主讲教师：张鹏远日期周次主要讲授内容授课人备注

2017-09-122语音识别技术概述颜永红2017-09-193语音识别预处理张鹏远2017-09-264语音特征提取徐及2017-10-035国庆假期无2017-10-106语言模型葛凤培2017-10-177声学模型第一讲张鹏远2017-10-248声学模型第二讲张鹏远2017-10-319自适应技术葛凤培2017-11-0710解码器

黎塔2017-11-1411深度神经网络在语音识别中的应用

徐及2017-11-2112关键词检索张鹏远2017-11-2813语音识别的应用

张鹏远2017-12-0514答疑张鹏远2017-12-12

考试

张鹏远

中国科学院声学研究所

Institute of Acoustics, CAS

参考书

•王炳锡等著，实用语音识别基础，国防工业出版社，2005年1月出版

•俞栋，邓力著，解析深度学习：语音识别实践，电子工业出版社，2016年7月出版•韩纪庆等编著，语音信号处理，清华大学出版社，2013年4月出版

中国科学院声学研究所

Institute of Acoustics, CAS

上课形式

•讲课+作业讨论

中国科学院声学研究所

Institute of Acoustics, CAS

提纲

☐语音端点检测

☐短时能量☐短时平均过零率

☐语音识别基础

☐汉语语音基本特性☐识别基元的选取

中国科学院声学研究所

Institute of Acoustics, CAS

现有语音识别系统框架

(()|())(())

arg max (()|())arg max

(())i i i i i

P O u w u P w u F P w u O u P O u λλ=

=前端处理解码器声学模型语言模型

识别

结果

用户语音

特征矢量：

识别过程是基于声学模型、发音词典、语言模型找到一个使后验概率最大化的词串作为识别结果

1,2(){,}

T O u O O O = 预加重加窗函数

FFT Mel滤波器DCT求倒谱语音信号

MFCC特征参数

发音词典

中国：

zh ong1 g guo2人民：r en2 m in2

建模单元的选择概率模型的选择

模型的训练方法

搜索空间的构建快速算法的研究

中国科学院声学研究所

Institute of Acoustics, CAS

音频信号的采集与存储

声音的起源物体振动引起（如人类发声器官）声音的传播

在介质中（如空气）以声波形式传播

声音的采集空气中传播的声波

通常用麦克风进行采集

模拟信号

音频信号的存储

数字信号

采样、量化

可闻声20-20kHz 高于或低于这一频段称为超声或次声

可以理解为一种传感器将空气的机械振动转化为电信号

采样率：每秒采样次数（8k/16k）

量化级：采样点所用二进制位数（16bit）

中国科学院声学研究所

Institute of Acoustics, CAS

语音信号生成的数学模型

音频信号包括音乐、噪声等多种情况，我们重点关注其中的语音信号（通常为300Hz-3400Hz）

激励模型

声道模型

辐射模型

物理原型

声带振动产生激励信号主要参量

基频（影响声调）

分析方法基频提取物理原型

咽鼻口等形成谐振腔主要参量

频谱包络，共振峰（影响音素种类）分析方法频谱分析

物理原型

声波在空气中传播主要参量

能量衰减曲线

处理对策预加重

中国科学院声学研究所

Institute of Acoustics, CAS ⏹红色曲线为频谱包络，其中的局部极大点称为共振峰，为浊音

特有，能够反映声道物理特性

⏹人类语音的前三至四个共振峰有较好的区分性，也是频谱分析

过程中的重点关注对象

中国科学院声学研究所

Institute of Acoustics, CAS

音素160ms

音节330ms

可以看出，语音信号在较短时间内呈现相对平稳的特点

短时平稳性假设是语音信号可以进行短时分析的理论基础

红色高亮部分为共振峰

语谱图是语音信号分析的重要手段之一，能够直观反映时频关系

中国科学院声学研究所

Institute of Acoustics, CAS

概念：语音端点检测（Voice Activity Detection,VAD）就是从连续的语音流中检测出有效的语音段。它包括两个方面，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。作用：

（1）从连续的语音流中分离出有效语音，可以降低存储或传输的数据；（2）端点检测可以简化人机交互，比如在录音的场景中，语音后端点检测可以省略结束录音的操作。

（3）可以用于去掉多余的非有声信号，提高系统处理语音的速度，同时减少因非有声信号进入后端分析系统而产生的干扰。

语音端点检测