7第七章语音信号识别

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

端点检测：从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能使处理的时
间减到最小，而且能排除无声段的噪声干扰。实验
表明：端点检测的正确与否影响到识别率的高低。
语音端点检测的方法：短时能量和短时过零率。
13
7.2 语音识别原理和识别系统的组成
三、语音特征参数的提取特征参数和识别方法有关系，是语音识别的关键之处，选择的好坏直接影响语音识别的精度。语音特征参数包括：短时平均能量、短时过零率、频谱、三个共振峰频率（F1、F2、F3的频率值、带宽、幅值）、线性预测系数、LPC倒谱和Mel倒谱等。
征矢量对模板库中的每个码本的总平均失真量误
差，找出最小的失真误差对应的码本（代表一个字），将对应的字输出作为识别的结果。
17
码本
每一个字做一个码本，共M个字
Y1 Y2
YM
模板库
任意语音帧
X
特征矢量序列形成
输出结果Yi 计算失真误差判决
特征矢量序列模板库
X＝{X1 , X2 , …… , XN} Y1 , Y2 , …… , YM
28
jຫໍສະໝຸດ Baidu
J
(I,J)
j-J=(i-I)/2
j-J=2(i-I)
j=2i
(1,1)
1 1
j=i/2
全局最优
I
29
i
动态时间规正法(DTW)的具体解法--行进方向
j
(i-1,j) 1
ck=(i,j)
2
(i-2,j-1)
2
1
(i,j-1)
(i-1,j-1)
2 (i-1,j-2)
i
行进方向的另一种解释
2 1 2 1 2
23
三、动态时间规整的原理描述
60年代由日本学者提出，算法的思想是把未
知量伸长或缩短(压扩)，直到与参考模板的长度一致，在这一过程中，未知单词的时间轴会产生扭曲或弯折，以便其特征量与标准模式对应。
24
原理描述
DTW 是把时间规整和距离测度计算结合起来。测试语音
参数共有I帧矢量，而参考模板共有J帧矢量，I和J不等，寻
并计算出最佳匹配距离D(T,R)。
37
标号
j 4 3
R c a
b
(c,c)
g(3,4)
2
1
c
(a,c)
a 1
c 2
c 3
Ｔ
i 标号
g(1,1)=d(a,c)=3
g (i 1, j 2) 2d (i, j 1) d (i, j ) g (i, j ) min g (i 1, j 1) 2d (i, j ) g (i 2, j 1) 2d (i 1, j ) d (i, j )
d [T (i), R( w(i))] d [(ci , c j )] ci (k ) c j (k )
k 1
p
2
计算两倒谱矢量帧(i和j) 间的欧氏距离，两矢量帧中分别具有p个倒谱参数。
25
j
j
时间规整函数 j=w(i)
A
i
i
为了使T（测试）的第i个样本与R（参考）的
第j个样本对正，其对应的点不在直线对角线上，
d (T (i), R( j )) d (i, j )
最佳匹配失真测度/距离 D(T,R)= g(I,J)/(I+J)
35
总代价函数
每一个点的总代价函数是前一点总代价函数和
到达该点的代价函数之和的最小值。
时间规整，它把1个k个阶段的决策，化为单个k 个阶段的决策过程，这种决策过程称为动态规划计划。
找一个时间规整函数j=w(i)，它将测试矢量的时间轴i非线性地映射到模板的时间轴j上，并使该函数w(i)满足：
I
D min d [T (i ), R ( w(i ))]
w(i ) i 1
第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度
D 最优时间规整情况下所有矢量帧间的距离，也称为代价函数
4
语音识别用于家用电器，走入人类未来生活
德国西门子公司推出的一种新洗衣机,洗衣物非常专业，知道什么样的脏衣物选择合适洗涤程序和洗涤剂，而主人只需要口头命令即可，比如 “半个小时后再洗”。
与普通洗衣机的不同之处是安装了语音识别
芯片，能根据用户的语音指令确定洗涤程序。
5
三、语音识别的类型
1.根据识别的词汇量来分，有：（1）大词汇（1000个以上的词汇，如会议系统）（2）中词汇（20～1000个词汇，如定票系统）（3）小词汇（1～20个词汇，如语音电话拨号） 2.根据讲话人的范围来分，有：（1）单个特定人（2）多讲话人（有限的讲话人）（3）与讲话者无关
20
7.3 动态时间规整
一、动态时间规整的提出
语音信号具有很强的随机性，不同的发音习惯，发音时所处的环境不同，心情不同都会导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音，或者带上一点呼吸音，此时，由于拖音或呼吸音会被误认为一个音素，造成单词的端点检测不准，造成特征参数的变化，从而影响测度估计，降低识别率，因此在语音识别时，首先有必要对语音信号进行时间规整。
14
7.2 语音识别原理和识别系统的组成
四、模式匹配将未知语音的特征参数与模板参数逐一进行
比较与匹配，判决的依据是失真测度最小的准则。
语音识别的测度有很多，欧氏距离测度及其变
形、线性预测失真测度等。
15
欧氏距离测度 K维特征矢量：
Xi＝{xi1 , xi2 , …… , xiK}
Yj＝{yj1 , yj2 , …… , yjK} 均方误差欧氏距离
31
j
g(i,j) d(T(i),R(j)) 1 d(T(i),R(j-1))
2 g(i-1,j-2)
i
g (i, j ) g (i 1, j 2) 2d (T (i), R( j 1)) d (T (i), R( j ))
j 2
g(i-1,j-1)
g(i,j) d(T(i),R(j))
1.对自然语言的识别和理解。首先必须将连续的
讲话分解为词、音素等单位，其次要建立一个理
解语义的规则。
2.语音信息量大。语音模式不仅对不同的说话人
不同，对同一说话人也是不同的，例如，一个说
话人在随意说话和认真说话时的语音信息时不同
的。一个人的说话方式随着时间变化。
9
五、语音识别的主要问题
3.语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响，致使识别率低。
由规定的行进方向可知在任意一点（i,j）,其
g(T(i),R(j))=g(i,j)(代价函数值)可由它前面的点
g(i-1,j-2）或g(i-1,j-1)或g(i-2,j-1)按下式计算：
g (i 1, j 2) 2d (i, j 1) d (i, j ) g (i, j ) min g (i 1, j 1) 2d (i, j ) g (i 2, j 1) 2d (i 1, j ) d (i, j )
21
特征矢量按发音的时间顺序提取 wen {X , X , … , X } 1 2 N
语码本
文 {Y1 ,Y2 ,…,YM} 码本音码本学码本
模板库
22
二、动态时间规整的定义
一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序。其中各音素持续时间的长短与音素本身以及讲话人的状况有关。为了提高识别率，克服发同一音而发音时间长短的不同，采用对输入语音信号进行伸长或缩短直到与标准模式的长度一致。这个过程称为时间规整。
11
2. 识别：将输入语音进行处理，提取特征参数，和模式库中的模板进行比较匹配，作出判决。预处理语音特征参数分析失真测度计算识别决策
模式匹配
标准模板
专家知识
语音识别的框图
12
7.2 语音识别原理和识别系统的组成
二、预处理
语音信号的放大、防混叠滤波、自动增益控制、
模数转换、消除噪声、端点检测。
所谓听懂，有两层意思，一是指把用户所说的
话逐词逐句转换成文本；二是指正确理解语音中所
包含的要求，作出正确的应答。
2
7.1语音识别技术的一般概念
二、语音识别的应用语音识别技术是以语音为研究对象，涉及到生理
学、心理学、语言学、计算机科学以及信号处理等诸
多领域。
随着语音识别技术的逐渐成熟，语音识别技术开
18
wen {X , X , … , X } 1 2 N
语码本
文码本 {Y1 ,Y2 ,…,YN} 音码本学码本
模板库
19
专家知识库
用来存储各种语言学知识，如汉语声调变调规则、
音长分布规则、同音字判别规则、构词规则、语法规
则、语义规则等。对于不同的语言有不同的语言学专
家知识库。
判决是语音识别的最后一步，也是系统识别效果的最终表现。根据若干准则及专家知识，判决选出可能结果中最好的结果，由识别系统输出。
1 d 2 ( X ,Y ) K
( xi y i ) 2
i 1
K
16
模式匹配过程先对系统中的每个字，做一个码本作为该字
的参考（标准）模板,共有M个字，故共有M个码
本，组成一个模板库。
识别时，对于任意输入的语音特征矢量序列X
＝{X1 , X2 , … , XN}，计算该序列中每一个特
第七章语音识别
7.1 语音识别技术的一般概念 7.2 语音识别原理和识别系统的组成 7.3 动态时间规整 7.4 说话人识别
1
第七章语音识别
7.1语音识别技术的一般概念一、语音识别的定义语音识别是指从语音到文本的转换，即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。
始得到广泛的应用，涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业，通过采用语音识别技术，可以极大的简化这些领域的业务流程以及操作；提高系统的应用效率。
3
语音识别应用实例
1.语音识别以IBM推出的ViaVoice为代表，国内
则推出Dutty ++语音识别系统、天信语音识别系统、
世音通语音识别系统等。 2. 数据库检索：对庞大的数据进行繁杂的检索和查询，通过使用语音识别技术，将变得轻松、方便。 3. 特殊的环境所需的语音命令：用语音发出操作指令。
i
g (i, j ) g (i 1, j 1) 2d (T (i), R( j ))
j
d(T(i-1),R(j))
d(T(i),R(j)) g(i,j)
2
g(i-2,j-1)
1
i
g (i, j ) g (i 2, j 1) 2d (T (i 1), R( j )) d (T (i), R( j ))
36
动态时间规正法(DTW)的计算实例1 设待识语音模式为T=acc，参考模式为R=cbac，若a、b 、 c之间的距离分别为
d(a,b)=d(b,a)=2、d(a,c)=d(c,a)=3、
d(b,c)=d(c,b)=1、d(a,a)=d(b,b)=d(c,c)=0
试用DTW法，在点阵图上画出最佳匹配路径，
最小。
27
时间规整过程
时间规整就是按照两模式之间的所有矢量帧间的距离D最小(代价函数最小）的原则，不断计算两模式间的距离，以寻找最优的路径,一般应使规整函数w(i)满足下列条件：规整函数w(i)在A和B的端点必须匹配，有：起点：i(k)=j(k)=1 终点：i(k)=I j(k)=J
为了防止漫无目的从(1,1)搜索到(I,J)，因此对两点之间路径的斜率予以规定，最大为2，最小为 1/2。
6
四、语音识别的方法
1.模式匹配法
在训练阶段，用户将词汇表中的每一词依次说一
遍，并且将其特征矢量作为模板存入模板库。
在识别阶段，将输入语音的特征矢量依次与模板
库中的每个模板进行相似度比较，将相似度最高者作
为识别结果输出。
7
wen
特征矢量LPC倒谱c(n)
语
文
音
学模板库
8
五、语音识别的主要问题
得到一条弯曲的曲线j=w(i) 。j=w(i)称为规整函数。
26
B
时间规整的依据
设 T={a1 , a2 , …… , ai , …… , aI} i=1～I
R={b1 , b2 , …… , bj , …… , bJ}
I≠J
j=1～J
时间规整要解决的问题是使元素a和元素b之间匹
配，使每对匹配样本之间的差别最小,达到欧氏距离
10
7.2 语音识别原理和识别系统的组成一、语音识别的步骤
1.根据识别系统的类型选择能满足要求的一种识别
方法，采用语音分析技术预先分析出这种方法所要
求的语音特征参数，这些语音参数作为标准模式由
计算机存储起来，形成标准模式库，称为模板。这
个过程称为“学习”和“训练”。在某些识别系统中，还备有专家知识库，其中存放由语言学家的各种知识，如同音字判决规则、语法规则、语义规则等。