实用语音识别基础第二讲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别技术

预处理

中国科学院声学研究所

Institute of Acoustics, CAS

2017《语音识别技术》教学进度表

课程类别:专业普及课

首席教授:颜永红主讲教师:张鹏远日期周次主要讲授内容授课人备注

2017-09-122语音识别技术概述颜永红2017-09-193语音识别预处理张鹏远2017-09-264语音特征提取徐及2017-10-035国庆假期无2017-10-106语言模型葛凤培2017-10-177声学模型第一讲张鹏远2017-10-248声学模型第二讲张鹏远2017-10-319自适应技术葛凤培2017-11-0710解码器

黎塔2017-11-1411深度神经网络在语音识别中的应用

徐及2017-11-2112关键词检索张鹏远2017-11-2813语音识别的应用

张鹏远2017-12-0514答疑张鹏远2017-12-12

15

考试

张鹏远

中国科学院声学研究所

Institute of Acoustics, CAS

参考书

•王炳锡等著,实用语音识别基础,国防工业出版社,2005年1月出版

•俞栋,邓力著,解析深度学习:语音识别实践,电子工业出版社,2016年7月出版•韩纪庆等编著,语音信号处理,清华大学出版社,2013年4月出版

中国科学院声学研究所

Institute of Acoustics, CAS

上课形式

•讲课+作业讨论

中国科学院声学研究所

Institute of Acoustics, CAS

提纲

☐语音端点检测

☐短时能量☐短时平均过零率

☐语音识别基础

☐汉语语音基本特性☐识别基元的选取

中国科学院声学研究所

Institute of Acoustics, CAS

现有语音识别系统框架

6

(()|())(())

arg max (()|())arg max

(())i i i i i

P O u w u P w u F P w u O u P O u λλ=

=前端处理解码器声学模型语言模型

识别

结果

用户语音

特征矢量:

识别过程是基于声学模型、发音词典、语言模型找到一个使后验概率最大化的词串作为识别结果

1,2(){,}

T O u O O O = 预加重加窗函数

FFT Mel滤波器DCT求倒谱语音信号

MFCC特征参数

发音词典

中国:

zh ong1 g guo2人民:r en2 m in2

建模单元的选择概率模型的选择

模型的训练方法

搜索空间的构建快速算法的研究

中国科学院声学研究所

Institute of Acoustics, CAS

音频信号的采集与存储

声音的起源物体振动引起(如人类发声器官)声音的传播

在介质中(如空气)以声波形式传播

声音的采集空气中传播的声波

通常用麦克风进行采集

模拟信号

音频信号的存储

数字信号

采样、量化

可闻声20-20kHz 高于或低于这一频段称为超声或次声

可以理解为一种传感器将空气的机械振动转化为电信号

采样率:每秒采样次数(8k/16k)

量化级:采样点所用二进制位数(16bit)

中国科学院声学研究所

Institute of Acoustics, CAS

语音信号生成的数学模型

音频信号包括音乐、噪声等多种情况,我们重点关注其中的语音信号(通常为300Hz-3400Hz)

激励模型

声道模型

辐射模型

物理原型

声带振动产生激励信号主要参量

基频(影响声调)

分析方法基频提取物理原型

咽鼻口等形成谐振腔主要参量

频谱包络,共振峰(影响音素种类)分析方法频谱分析

物理原型

声波在空气中传播主要参量

能量衰减曲线

处理对策预加重

中国科学院声学研究所

Institute of Acoustics, CAS ⏹红色曲线为频谱包络,其中的局部极大点称为共振峰,为浊音

特有,能够反映声道物理特性

⏹人类语音的前三至四个共振峰有较好的区分性,也是频谱分析

过程中的重点关注对象

中国科学院声学研究所

Institute of Acoustics, CAS

音素160ms

音节330ms

可以看出,语音信号在较短时间内呈现相对平稳的特点

短时平稳性假设是语音信号可以进行短时分析的理论基础

红色高亮部分为共振峰

语谱图是语音信号分析的重要手段之一,能够直观反映时频关系

中国科学院声学研究所

Institute of Acoustics, CAS

概念:语音端点检测(Voice Activity Detection,VAD)就是从连续的语音流中检测出有效的语音段。它包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。作用:

(1)从连续的语音流中分离出有效语音,可以降低存储或传输的数据;(2)端点检测可以简化人机交互,比如在录音的场景中,语音后端点检测可以省略结束录音的操作。

(3)可以用于去掉多余的非有声信号,提高系统处理语音的速度,同时减少因非有声信号进入后端分析系统而产生的干扰。

语音端点检测

相关文档
最新文档