语音处理技术简介

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

音视频技术研究小组
基于倒谱域的语音信号分析
x(n)
X
A
DFT
B
Log| |
C
IDFT
D
时间窗图：计算倒谱的原理性框图
A：短时信号；
C：对数频谱；
B：短时频谱；
D：倒谱系数；
主要优点：近似地分离并能提取出频谱包络信息和绅微结构信息音视频技术研究小组
常用的语音参量-线性预测系数(LPC)
图：浊音信号产生的原理框图
语音识别的方法

基于模板的匹配方法
DTW（Dynamic Time Warping,动态时间规整）

基于统计模型的方法
HMM（Hidden Markov Models,隐马尔可夫模型）
音视频技术研究小组
语音识别的方法-DTW
测试语音序列
j
j
j-J=(i-I)/2 3 j=2i
2 1 2 3 j-J= 2(i-I) j=i/2
语音处理技术简介
音视频技术研究小组
目录
一二
语音的基础知识语音信号的常用分析方法
三
语音识别技术介绍
音视频技术研究小组
声音的频率范围

人的听觉器官能感知的声音频率范围约为20Hz～20kHz(Audio)
人发音器官发声频率约是80～3400Hz，但人说话的信号频率约为300～
3000Hz，即语音(speech)信号
音视频技术研究小组
发声的基本原理
人类的发声器官由三部分组成：
1. 肺（动力） 2. 声带（发音体） 3.口腔、鼻腔、咽腔（共鸣腔）
语音是说话人通过发音器官的协同动作而发出的负载信息的声音
音视频技术研究小组
声音的属性

音高：跟声带振动的频率有关
与声带的长短、厚薄、松紧有关

音强：声音的强弱，它取决于发音体振动幅度的大小
音视频技术研究小组
语音处理技术的应用-语音识别
8
音视频技术研究小组
语音处理技术的应用-语音合成
虚拟主持人：
比尔-邓
言东方
安娜诺娃
音视频技术研究小组
目录
一二三
语音的基础知识语音信号的常用分析方法语音识别技术介绍
音视频技术研究小组
语音信号的短时平稳性
语音信号的短时平稳性
语音信号的短时分析
SUM
SUM
SUM
音视频技术研究小组
目录
一二三
语音的基础知识语音信号的常用分析方法语音识别技术介绍
音视频技术研究小组
语音识别的原理
欧氏距离失真测度 ·
· 似然比测度
语音信号输入
预处理 · 预加重器 · 端点检测 · 噪声滤波器
语音特征提取
测度计算
判决
结果
训练
语音库
专家知识库
· 构词规则 · 同音字判决 · 语法语义 · 背景知识
同发音时呼出气流量的大小和说话人用力的大小有关

音质又叫音色，是一个声音能区别于其他声音的本质特点
发音体、发音方法、共鸣器形状

音长指声音的长短，它取决于发音体振动持续的时间
音视频技术研究小组
语音的处理技术
语音编码波形编码、参数编码语音增强滤波、消波和抵消技术/基音差异语音识别语音识别、说话人识别、语种识别语音合成单词\音节\音素
短时信号的切取
帧移帧长
－分帧
－帧长(10~30ms) －帧移(半个帧长)
音视频技术研究小组
基于时域的语音信号分析
时长（音长）、过零率（频率）、能量（振幅）
主要优点：直观、简单应用领域：清浊音的区分、语音起止点的判断、浊音基音频率估计等。音视频技术研究小组
基于DFT的语音信号分析
子带能量分布、短时振幅谱
=P(w(1))P(w(2)|w(1))……P(w(Q)|w(1),w(2),…w(Q-1)) 音视频技术研究小组
性能指标
误识率
错误识别的个数占总个数的比例。 (词错误率/句子错误率)
音视频技术研究小组
音视频技术研究小组
利用全极点模型对声道滤波器进行建模，以模型参数作为语音的特征，相关的参数是LPC。
V ( z)
A 1 k 1 ak z k
p
音视频技术研究小组
常用的语音参量-美尔频率倒谱系数(MFCC)
Fmel 3322.23lg(1 0.001) f Hz
根据人耳的听觉临界带构造滤波器组
语音识别的方法-HMM
语音库
特征提取 l1 l2 ln
Baum-Welch 重估计
收敛?
No
Yes
结束
HMM
图：HMM的训练过程
音视频技术研究小组
语音识别的方法-HMM
l1
HMM 1 P(X|l1) Recognized word ?
Speech
特征提取
似然度计算 . . . lV
HMM V
选取最大值
l
似然度计算
P(X|lV)
图：HMM的识别过程
音视频技术研究小组
语音识别的方法-HMM
设：(1)待识语音的特征模式：T =t1,t2,…, tI
(2)词汇表中第ｎ个单词：W(n), 1≤n≤N
(3)当T 被观察到后，与T 对应的发声内容是单词 W(n)的概率： P( W(n)|T ) 目标：k = argmax{ P( W(n)|T ) } W=w(1),w(2),…,w(Q)的概率表示为： P(W)=P(w(1),w(2),…,w(Q))
音视频技术研究小组
语音识别的方法-DTW

基于欧式距离度量两个语音参数间的距离
d [T (i), R( w(i))] d [(ci , c j )] ci (k ) c j (k )
k 1
p
2

序列中所有参数距离的累加和为两者间的最终距离
D min d [T (ቤተ መጻሕፍቲ ባይዱ ), R ( w(i ))]
时间规整函数:j=w(i)
i i
模板语音序列
设 T={a1 , a2 , …… , ai , …… , aI} i=1～I R={b1 , b2 , …… , bj , …… , bJ} j=1～J I≠J
时间规整要解决的问题是使元素a和元素b之间匹配，使每对匹配
样本之间的差别最小，达到总的欧氏距离最小。
图：语音识别的基本原理图
音视频技术研究小组
语音识别的分类

固定音频检索
识别对象是固定的语音内容

孤立词识别
识别对象是简单的几个字、词

连续语音识别-LVCSR (Large Vocabulary Continuous Speech Recognition)
非特定人、连续语音、大词汇量
音视频技术研究小组
频率/Hz
图：MFCC的波器组
音视频技术研究小组
常用的语音参量-美尔频率倒谱系数(MFCC)
的 m[0] 位置 m[1] 和密发切声相时关共 m[ L 1] 振峰
MFCC
语音信号的时域波形 DFT
x[n] n 0,1,..., N 1
范语围音幅度谱内信的号 X [k ] 能在 k 0,1, ..., N 1 量各分个布频图：MFCC提取流程带

频率小于20Hz 一般称为次声波（subsonic) 高于20kHz的信号称为超声波 (ultrasonic)
音视频技术研究小组
音频信号的分类
Voice Speech 语音 Audio音频 Sound 非语音浊音 Unvoice 清音
Music 乐音
Noise 杂音
语音是人类通信最直接、最自然的方式。语音信号不仅仅是声音的载体，同时还携带了情感和意向（:-)__微笑 :- (__苦笑 :-H__冷笑 :-0__狞笑）
w(i ) i 1
I
DTW算法简洁，运算量小，适合固定音频检索和小型的孤立词的识别。
音视频技术研究小组
语音识别的方法-HMM
P(A1)
A1
A2
P(A2/A1)
句子字音子特征矢量
BEGIN
音子a sa1 sa2
音子b sa3 sa4 sa5
图：基于HMM实现语音识别的架构
音视频技术研究小组