语音处理与语音识别简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的噪声,通常表示为量化后的音
频信号噪声比,简称信噪比。每 增加 1 位量化精度,信噪比即提 高 6db。例如在高保真音响系统 中,要求信噪比大于 90db ,则 量化精度必须在 16 位以上。
12
● 声道
声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回
放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或
从下个地址开始到文件尾的总字节数
WAV文件标志(WAVE) 波形格式标志(fmt ),最后一位空格。 过滤字节(一般为00000010H) 格式种类(值为1时,表示数据为线性PCM 编码) 通道数,单声道为1,双声道为2 采样频率 波形数据传输速率(每秒平均字节数) DATA数据块长度,字节。 PCM位宽 数据标志符(data)
26
前端处理
› 消除个体的影响 声道长度归一(VTN:Vocal Tract Length Normalization) › 端点检测 短时能量 高阶谱算法 子带能量 › 语音增强(去噪) 维纳滤波
11/14/2017
27
FFT
频谱
美标度三角滤波器组 39维声学特征向量 Log DCT 倒谱均值减
对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一 条曲线,我们将该曲线称为能量包络(Energy Envelop)曲线。
22
●
MFCC
MFCC全称为美尔频标倒谱系统(Mel-Frequency Cepstral Coefficients),是语音处理中常用的特征。 MFCC正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对 其频域进行Mel尺度变换,以更符合人类的听觉特征。
Spotting)
根据针对的发音人分类
› 特定人语音识别(SD:Speaker Dependent) › 非特定人语音识别(SI:Speaker Independent)
11/14/2017
25
声学模型
语言模型
语音
前端处理
特征提取
第一遍 识别
自适应
第 n遍 识别
识别结果
识别结果
系统框架
11/14/2017
15
16
● Windows PCM WAV文件头格式 偏移地址 00H~03H
大小 字节 4 4
4 4 4 2 2 4 4 2 2 4
数据块 类型 4字符 长整数
4字符 4字符 整数 整数 整数 长整数 长整数 整数 整数 4字符
内容 资源交换文件标志(RIFF)
04H~07H
08H~0BH 0CH~0FH 10H~13H 14H~15H 16H~17H 18H~1BH 1CH~1FH 20H~21H 22H~23H 24H~27H
8
● 采样
采样定理
奈奎斯特 ( Nyqust ) 采样定理:只要采样频率大于或者等于信号中所包 含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个 点,则理论上就可以完全恢复原来的信号。
采样方法
设连续信号 x(t) 的频谱为 x(f),以采样间隔 T 采样得到离散信号 x(nT) 语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围 如果满足:当 | f | ≥ fc ( fc 是信号高端截止频率 ) 时,有 内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样 T ≤ 1/(2fc) 或 fc ≤ 1/(2T) 前,用一个锐截止模拟低通滤波器对音频信号进行滤波。 则可由 x(nT) 完全确定 x(t)。 当 fN = 1/(2T) 时,称 fN 为奈奎斯特频率
一只扬声器,所以重放出来的声 音是一个点声源。
地判断出录音中不同音源的准确
位置。
13
14
数字音频文件格式
● 波形音频文件(WAV)
WAV为微软公司(Microsoft)开发的一种声音文件格式 非压缩,直接存储(采样、量化、PCM编码后的)原始数据; 如 果采样率高,其音质极佳; 数据量大,与采样频率、量化位数、声道数成正比。
11/14/2017
29
语言模型
› 已知发音串写出词串 › P(S|LP)P(P|L)P(L|W)P(W|A)P(A) › 其中,W是字串,A是读音串,L是词串,P是词性
串,S是词义串
主流方法
› 三元语法:n-gram
11/14/2017
Βιβλιοθήκη Baidu
30
搜索(解码)
› 识别的主要过程 › 通过搜索找到某一概率(P(W))最大化的字串W
11/14/2017
28
声学模型
› 确定发音串 › P(O|A)
主流方法
› CHMM › HMM的单元:三音子(Tri-Phone)
注:Phone(Phoneme):音子,b, t, a Syllable:音节, ba, ti, tao Bi-Phone:二音子, b-a-t-a, b-a-t-a Tri-Phone:三音子 w-o-sh-i-sh-u-i, w-o-sh-i-sh-u-i
回放时相应的扬声器数量。
单声道( mono ):只有一个声
道。普通的单声道录放系统使用 一只话筒录音,信号录在一条轨
立体声( stereo ):有两个声道。 在录制声音时,在不同的位置用
两只话筒进行录音,而在重放时
则使用两路独立的放大器和两个 扬声器,从而使听者可以较准确
迹上,放音时使用一路放大器和
10ms 10ms
21
●
短时能量
短时能量(STE:Short Time Energy)是一帧的总能量
STE log(
w0
0
F (w) dw)
2
STE d
i 1
n
2 i
STE | di |
i 1
n
短时能量说明了音频信号的强度,可用于静音的检测。
例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值 低于一个事先设定的阈值,则可判定该短时帧为静音。
28H~2BH
4
长整型
DATA总数据长度字节
17
● Windows PCM WAV文件头格式
18
主要内容 •数字音频基础知识
•音频处理基础知识
•语音识别技术简介
19
●
音频特征提取
在音频信息处理领域,特征提取是一个非常重要的问题。 特征提取的任务:
从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,
求使得后验概率最大的参数 θ=max θP(θ|x)
11/14/2017
32
声学模型
› 调整HMM参数 › 带噪声训练 › 方言库训练
语言模型
› 计算N-gram概率
› 数据稀疏问题
11/14/2017
33
谢谢!
34
语音处理与语音识别简介
2014年9月
1
主要内容 •数字音频基础知识 •音频处理基础知识 •语音识别技术简介
2
主要内容
•数字音频基础知识
•音频处理基础知识 •语音识别技术简介
3
● 声音概念
● 是指自然声 ● 是机械振动在弹性介质中传播的机械波
● 是随时间连续变化的物理量
● 声音特性
● 振幅 — 波的高低幅度,表示声音的强弱
9
● 量化
量化概念
通过采样得到的表示声音强弱的函数 x(nT) 是连续的,为把 x(nT) 存入计 算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合 x(nT)
量化原理
先将整个幅度划分成为有限个小幅度 (量化阶距) 的集合,把落入某个阶距 内的样值归为一类,并赋予相同的量 化值。如果量化值是均匀分布的,称 为均匀量化。设 为量化阶距,量化 器最大范围是 Xmax,则: = 2Xmax/2B
11
● 编码
衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声
码流速率指的是音频信号编
量化噪声是由量化失真引起
码后每秒钟产生的数据流量,以
kbit/s 为单位表示,也可以表示 为 kbps 。例如对普通模拟话音 用 8kHz 的频率采样并以 8 位量 化和编码,所形成的音频数字信 号的码率便是 64kbps。
● 周期 — 两个相邻波之间的时间长度 ● 频率 — 每秒钟波振动的次数,单位是 Hz
4
● 声音的三要素
代表声音的高低,与频率有关;使
● 音调 —— (高低)
用音频处理软件对声音的频率进行
调整时,其音调也会随之发生变化
声音的强度 (响度或音量),与声波振幅成
● 音强 —— (强弱)
正比;唱盘、CD 盘等声音载体中的音强
不变,通过播放设备的音量控制可改变聆 听时强度;音频处理软件可提高声源音强 声音的特色,主要影响因素是复音;复
● 音色 —— (特质)
音指具有不同频率和不同振幅的混合声 音,其中最低频率是 “基音”,是声音的
基调,其他频率的声音为 “谐音 (泛音)”
5
● 声音的频率范围
6
数字音频
声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连
7
● 采样
采样概念
声波是连续信号, 或称连续时间函数 x(t)。 用计算机处理这些信号时应先 离散化,即按一定的时间间隔 (T) 取值,得到 x(nT) ( n为整数 ),T 称采样 周期,1/T 称采样频率 ( 每秒钟采样次数 ),x(nT) 称采样值 ( 或离散信号 )
采样过程
按固定间隔 采样声音波形 采样声音波 形之后的结果
10
量化电压幅 值之后的结果
● 编码
编码概念
音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对
其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程 PCM 编码 一种最方便简单的编码方法是脉冲编
码调制,常称为 PCM ( Pulse Code Modulation) 编码。是一种未经压缩 的数字音频信号,常作为一种参考信 号,以便其他编码方法与之比较,或 者在此基础上作进一步压缩编码处理
又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原 始信号的信息冗余。
20
●
分帧
时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有 相对的稳定性。 因此在对其进行分析时,可以假定语音信号在一个时间帧(frame) 内是平稳的。通常一帧在10~30ms之间,视实际情况而定,而且分帧可连续, 也可采用交叠分段的方法。 25ms 25ms
续变化的物理量表示,称之为模拟音频。
在计算机内部,所有的信息均以数字表示,代表声音信号的物理量 也用一系列数字表示,称之为数字音频。 模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时 间上不具备连续性,因此只能是断续的。
当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音
波形上取一个电压幅度值,称之为采样。 采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电 压幅值用有限个数字表示,称之为量化。
主流方法
› Viterbi搜索:HMM内部
› 词网格搜索:HMM之间
11/14/2017
31
说话人自适应
› 根据新的语音重新调整模型参数 › 特定人和非特定人之间的一种折衷
主流方法
› MLLR(最大似然线性回归)
对模型参数寻找一个最优线性变换 y = Ax + b
› MAP(最大后验概率)
23
主要内容 •数字音频基础知识 •音频处理基础知识
•语音识别技术简介
24
根据处理的语音数据和识别结果分类
› 连续语音识别(Continuous Speech Recognition) › 孤立词识别(Isolate Word Recognition) › 关键词检测(Key Word Recognition,Key Word