语音处理技术简介

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

音视频技术研究小组
基于倒谱域的语音信号分析
x(n)
X
A
DFT
B
Log| |
C
IDFT
D
时间窗 图:计算倒谱的原理性框图
A:短时信号;
C:对数频谱;
B:短时频谱;
D:倒谱系数;
主要优点:近似地分离并能提取出频谱包络信息和绅微结构信息 音视频技术研究小组
常用的语音参量-线性预测系数(LPC)
图:浊音信号产生的原理框图
语音识别的方法

基于模板的匹配方法
DTW(Dynamic Time Warping,动态时间规整)

基于统计模型的方法
HMM(Hidden Markov Models,隐马尔可夫模型)
音视频技术研究小组
语音识别的方法-DTW
测 试 语 音 序 列
j
j
j-J=(i-I)/2 3 j=2i
2 1 2 3 j-J= 2(i-I) j=i/2
语音处理技术简介
音视频技术研究小组
目录
一 二
语音的基础知识 语音信号的常用分析方法

语音识别技术介绍
音视频技术研究小组
声音的频率范围

人的听觉器官能感知的声音频率范围约为20Hz~20kHz(Audio)
人发音器官发声频率约是80~3400Hz,但人说话的信号频率约为300~
3000Hz,即语音(speech)信号
音视频技术研究小组
发声的基本原理
人类的发声器官由三部分组成:
1. 肺(动力) 2. 声带(发音体) 3.口腔、鼻腔、咽腔(共鸣腔)
语音是说话人通过发音器官的协同动作而发出的负载信息的声音
音视频技术研究小组
声音的属性

音高:跟声带振动的频率有关
与声带的长短、厚薄、松紧有关

音强:声音的强弱,它取决于发音体振动幅度的大小
音视频技术研究小组
语音处理技术的应用-语音识别
8
音视频技术研究小组
语音处理技术的应用-语音合成
虚拟主持人:
比尔-邓
言东方
安娜诺娃
音视频技术研究小组
目录
一 二 三
语音的基础知识 语音信号的常用分析方法 语音识别技术介绍
音视频技术研究小组
语音信号的短时平稳性
语音信号的短时平稳性
语音信号的短时分析
SUM
SUM
SUM
音视频技术研究小组
目录
一 二 三
语音的基础知识 语音信号的常用分析方法 语音识别技术介绍
音视频技术研究小组
语音识别的原理
欧氏距离 失真测度 ·
· 似然比测度
语音 信号 输入
预处理 · 预加重器 · 端点检测 · 噪声滤波器
语音特 征提取
测度计算
判决
结果
训练
语音库
专家知识库
· 构词规则 · 同音字判决 · 语法语义 · 背景知识
同发音时呼出气流量的大小和说话人用力的大小有关

音质又叫音色,是一个声音能区别于其他声音的本质特点
发音体、发音方法、共鸣器形状

音长指声音的长短,它取决于发音体振动持续的时间
音视频技术研究小组
语音的处理技术
语音编码 波形编码、参数编码 语音增强 滤波、消波和抵消技术/基音差异 语音识别 语音识别、说话人识别、语种识别 语音合成 单词\音节\音素
短时信号的切取
帧移 帧长
-分帧
-帧长(10~30ms) -帧移(半个帧长)
音视频技术研究小组
基于时域的语音信号分析
时长(音长)、过零率(频率) 、能量(振幅)
主要优点:直观、简单 应用领域:清浊音的区分、语音起止点的判断、浊音 基音频率估计等。 音视频技术研究小组
基于DFT的语音信号分析
子带能量分布、短时振幅谱
=P(w(1))P(w(2)|w(1))……P(w(Q)|w(1),w(2),…w(Q-1)) 音视频技术研究小组
性能指标
误识率
错误识别的个数占总个数的比例。 (词错误率/句子错误率)
音视频技术研究小组
音视频技术研究小组
利用全极点模型对声道滤波器进行建模,以模型参数 作为语音的特征,相关的参数是LPC。
V ( z)
A 1 k 1 ak z k
p
音视频技术研究小组
常用的语音参量-美尔频率倒谱系数(MFCC)
Fmel 3322.23lg(1 0.001) f Hz
根据人耳的听觉 临界带构造滤波器组
语音识别的方法-HMM
语音库
特征提取 l1 l2 ln
Baum-Welch 重估计
收敛?
No
Yes
结束
HMM
图:HMM的训练过程
音视频技术研究小组
语音识别的方法-HMM
l1
HMM 1 P(X|l1) Recognized word ?
Speech
特征提取
似然度计算 . . . lV
HMM V
选取 最大值
l
似然度计算
P(X|lV)
图:HMM的识别过程
音视频技术研究小组
语音识别的方法-HMM
设:(1)待识语音的特征模式:T =t1,t2,…, tI
(2)词汇表中第n个单词:W(n), 1≤n≤N
(3)当T 被观察到后,与T 对应的发声内容是 单词 W(n)的概率: P( W(n)|T ) 目标:k = argmax{ P( W(n)|T ) } W=w(1),w(2),…,w(Q)的概率表示为: P(W)=P(w(1),w(2),…,w(Q))
音视频技术研究小组
语音识别的方法-DTW

基于欧式距离度量两个语音参数间的距离
d [T (i), R( w(i))] d [(ci , c j )] ci (k ) c j (k )
k 1
p
2

序列中所有参数距离的累加和为两者间的最终距离
D min d [T (ቤተ መጻሕፍቲ ባይዱ ), R ( w(i ))]
时间规整函数:j=w(i)
i i
模板语音序列
设 T={a1 , a2 , …… , ai , …… , aI} i=1~I R={b1 , b2 , …… , bj , …… , bJ} j=1~J I≠J
时间规整要解决的问题是使元素a和元素b之间匹配,使每对匹配
样本之间的差别最小,达到总的欧氏距离最小。
图:语音识别的基本原理图
音视频技术研究小组
语音识别的分类

固定音频检索
识别对象是固定的语音内容

孤立词识别
识别对象是简单的几个字、词

连续语音识别-LVCSR (Large Vocabulary Continuous Speech Recognition)
非特定人、连续语音、大词汇量
音视频技术研究小组
频率/Hz
图:MFCC的波器组
音视频技术研究小组
常用的语音参量-美尔频率倒谱系数(MFCC)
的 m[0] 位 置 m[1] 和 密发 切声 相时 关共 m[ L 1] 振 峰
MFCC
语音信号的 时域波形 DFT
x[n] n 0,1,..., N 1
范语 围音 幅度谱 内信 的号 X [k ] 能在 k 0,1, ..., N 1 量各 分个 布频 图:MFCC提取流程 带

频率小于20Hz 一般称为次声波(subsonic) 高于20kHz的信号称为超声波 (ultrasonic)
音视频技术研究小组
音频信号的分类
Voice Speech 语音 Audio音频 Sound 非语音 浊音 Unvoice 清 音
Music 乐音
Noise 杂音
语音是人类通信最直接、最自然的方式。 语音信号不仅仅是声音的载体,同时还携带了情感和意向 (:-)__微笑 :- (__苦笑 :-H__冷笑 :-0__狞笑)
w(i ) i 1
I
DTW算法简洁,运算量小,适合固定音频检索和小型的孤立词的识别。
音视频技术研究小组
语音识别的方法-HMM
P(A1)
A1
A2
P(A2/A1)
句子 字 音子 特征 矢量
BEGIN
音子a sa1 sa2
音子b sa3 sa4 sa5
图:基于HMM实现语音识别的架构
音视频技术研究小组
相关文档
最新文档