7第七章语音信号识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
端点检测:从包含语音的一段信号中确定出语音 的起点和终点。有效的端点检测不仅能使处理的时
间减到最小,而且能排除无声段的噪声干扰。实验
表明:端点检测的正确与否影响到识别率的高低。
语音端点检测的方法:短时能量和短时过零率。
13
7.2 语音识别原理和识别系统的组成
三、语音特征参数的提取 特征参数和识别方法有关系,是语音识别的关 键之处,选择的好坏直接影响语音识别的精度。 语音特征参数包括:短时平均能量、短时过零 率、频谱、三个共振峰频率(F1、F2、F3的频率值、 带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱 等。
征矢量对模板库中的每个码本的总平均失真量误
差,找出最小的失真误差对应的码本(代表一个 字),将对应的字输出作为识别的结果。
17
码本
每一个字做一 个码本,共M个字
Y1 Y2
YM
模板库
任意 语音 帧
X
特征矢量 序列形成
输出结果Yi 计算 失真误差 判决
特征矢量序列 模板库
X={X1 , X2 , …… , XN} Y1 , Y2 , …… , YM
28
jຫໍສະໝຸດ Baidu
J
(I,J)
j-J=(i-I)/2
j-J=2(i-I)
j=2i
(1,1)
1 1
j=i/2
全局最优
I
29
i
动态时间规正法(DTW)的具体解法--行进方向
j
(i-1,j) 1
ck=(i,j)
2
(i-2,j-1)
2
1
(i,j-1)
(i-1,j-1)
2 (i-1,j-2)
i
行进方向的另一种解释
2 1 2 1 2
23
三、动态时间规整的原理描述
60年代由日本学者提出,算法的思想是把未
知量伸长或缩短(压扩),直到与参考模板的长度一 致,在这一过程中,未知单词的时间轴会产生扭曲 或弯折,以便其特征量与标准模式对应。
24
原理描述
DTW 是把时间规整和距离测度计算结合起来。测试语音
参数共有I帧矢量,而参考模板共有J帧矢量,I和J不等,寻
并计算出最佳匹配距离D(T,R)。
37
标号
j 4 3
R c a
b
(c,c)
g(3,4)
2
1
c
(a,c)
a 1
c 2
c 3

i 标号
g(1,1)=d(a,c)=3
g (i 1, j 2) 2d (i, j 1) d (i, j ) g (i, j ) min g (i 1, j 1) 2d (i, j ) g (i 2, j 1) 2d (i 1, j ) d (i, j )
d [T (i), R( w(i))] d [(ci , c j )] ci (k ) c j (k )
k 1
p
2
计算两倒谱矢量帧(i和j) 间的欧氏距离,两矢量 帧中分别具有p个倒谱参数。
25
j
j
时间规整函数 j=w(i)
A
i
i
为了使T(测试)的第i个样本与R(参考)的
第j个样本对正,其对应的点不在直线对角线上,
d (T (i), R( j )) d (i, j )
最佳匹配失真测度/距离 D(T,R)= g(I,J)/(I+J)
35
总代价函数
每一个点的总代价函数是前一点总代价函数和
到达该点的代价函数之和的最小值。
时间规整,它把1个k个阶段的决策,化为单个k 个阶段的决策过程,这种决策过程称为动态规划计 划。
找一个时间规整函数j=w(i),它将测试矢量的时间轴i非线性 地映射到模板的时间轴j上,并使该函数w(i)满足:
I
D min d [T (i ), R ( w(i ))]
w(i ) i 1
第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度
D 最优时间规整情况下所有矢量帧间的距离,也称为代价函数
4
语音识别用于家用电器,走入人类未来生活
德国西门子公司推出的一种新洗衣机,洗衣物 非常专业,知道什么样的脏衣物选择合适洗涤程序 和洗涤剂,而主人只需要口头命令即可,比如 “半个小时后再洗”。
与普通洗衣机的不同之处是安装了语音识别
芯片,能根据用户的语音指令确定洗涤程序。
5
三、语音识别的类型
1.根据识别的词汇量来分,有: (1)大词汇(1000个以上的词汇,如会议系统) (2)中词汇(20~1000个词汇,如定票系统) (3)小词汇(1~20个词汇,如语音电话拨号) 2.根据讲话人的范围来分,有: (1)单个特定人 (2)多讲话人(有限的讲话人) (3)与讲话者无关
20
7.3 动态时间规整
一、动态时间规整的提出
语音信号具有很强的随机性,不同的发音习惯, 发音时所处的环境不同,心情不同都会导致发音持 续时间长短不一的现象。如单词最后的声音带上一 些拖音,或者带上一点呼吸音,此时,由于拖音或 呼吸音会被误认为一个音素,造成单词的端点检测 不准,造成特征参数的变化,从而影响测度估计, 降低识别率,因此在语音识别时,首先有必要对语 音信号进行时间规整。
14
7.2 语音识别原理和识别系统的组成
四、模式匹配 将未知语音的特征参数与模板参数逐一进行
比较与匹配,判决的依据是失真测度最小的准则。
语音识别的测度有很多,欧氏距离测度及其变
形、线性预测失真测度等。
15
欧氏距离测度 K维特征矢量:
Xi={xi1 , xi2 , …… , xiK}
Yj={yj1 , yj2 , …… , yjK} 均方误差欧氏距离
31
j
g(i,j) d(T(i),R(j)) 1 d(T(i),R(j-1))
2 g(i-1,j-2)
i
g (i, j ) g (i 1, j 2) 2d (T (i), R( j 1)) d (T (i), R( j ))
j 2
g(i-1,j-1)
g(i,j) d(T(i),R(j))
1.对自然语言的识别和理解。首先必须将连续的
讲话分解为词、音素等单位,其次要建立一个理
解语义的规则。
2.语音信息量大。语音模式不仅对不同的说话人
不同,对同一说话人也是不同的,例如,一个说
话人在随意说话和认真说话时的语音信息时不同
的。一个人的说话方式随着时间变化。
9
五、语音识别的主要问题
3.语音的模糊性。说话者在讲话时,不同的词可能 听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响, 以致改变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响,致使识 别率低。
由规定的行进方向可知在任意一点(i,j),其
g(T(i),R(j))=g(i,j)(代价函数值)可由它前面的点
g(i-1,j-2)或g(i-1,j-1)或g(i-2,j-1)按下式计算:
g (i 1, j 2) 2d (i, j 1) d (i, j ) g (i, j ) min g (i 1, j 1) 2d (i, j ) g (i 2, j 1) 2d (i 1, j ) d (i, j )
21
特征矢量按发音的时间顺序提取 wen {X , X , … , X } 1 2 N
语 码本
文 {Y1 ,Y2 ,…,YM} 码本 音 码本 学 码本
模板库
22
二、动态时间规整的定义
一次正确的发音应该包含构成该发音的全部音 素以及正确的音素连接次序。 其中各音素持续时间的长短与音素本身以及讲 话人的状况有关。为了提高识别率,克服发同一音 而发音时间长短的不同,采用对输入语音信号进行 伸长或缩短直到与标准模式的长度一致。这个过程 称为时间规整。
11
2. 识别:将输入语音进行处理,提取特征参数, 和模式库中的模板进行比较匹配,作出判决。 预处理 语音特征 参数分析 失真测度 计算 识别决策
模式匹配
标准 模板
专家 知识
语音识别的框图
12
7.2 语音识别原理和识别系统的组成
二、预处理
语音信号的放大、防混叠滤波、自动增益控制、
模数转换、消除噪声、端点检测。
所谓听懂,有两层意思,一是指把用户所说的
话逐词逐句转换成文本;二是指正确理解语音中所
包含的要求,作出正确的应答。
2
7.1语音识别技术的一般概念
二、语音识别的应用 语音识别技术是以语音为研究对象,涉及到生理
学、心理学、语言学、计算机科学以及信号处理等诸
多领域。
随着语音识别技术的逐渐成熟,语音识别技术开
18
wen {X , X , … , X } 1 2 N
语 码本
文 码本 {Y1 ,Y2 ,…,YN} 音 码本 学 码本
模板库
19
专家知识库
用来存储各种语言学知识,如汉语声调变调规则、
音长分布规则、同音字判别规则、构词规则、语法规
则、语义规则等。对于不同的语言有不同的语言学专
家知识库。
判决是语音识别的最后一步,也是系统识别效果 的最终表现。根据若干准则及专家知识,判决选出可 能结果中最好的结果,由识别系统输出。
1 d 2 ( X ,Y ) K
( xi y i ) 2
i 1
K
16
模式匹配过程 先对系统中的每个字,做一个码本作为该字
的参考(标准)模板,共有M个字,故共有M个码
本,组成一个模板库。
识别时,对于任意输入的语音特征矢量序列X
={X1 , X2 , … , XN},计算该序列中每一个特
第七章 语音识别
7.1 语音识别技术的一般概念 7.2 语音识别原理和识别系统的组成 7.3 动态时间规整 7.4 说话人识别
1
第七章 语音识别
7.1语音识别技术的一般概念 一、语音识别的定义 语音识别是指从语音到文本的转换,即让计算 机能够把人发出的有意义的话音变成书面语言。通 俗地说就是让机器能够听懂人说的话。
始得到广泛的应用,涉及日常生活的各个方面如电信、 金融、新闻、公共事业等各个行业,通过采用语音识 别技术,可以极大的简化这些领域的业务流程以及操 作;提高系统的应用效率。
3
语音识别应用实例
1.语音识别以IBM推出的ViaVoice为代表,国内
则推出Dutty ++语音识别系统、天信语音识别系统、
世音通语音识别系统等。 2. 数据库检索:对庞大的数据进行繁杂的检索 和查询,通过使用语音识别技术,将变得轻松、方 便。 3. 特殊的环境所需的语音命令:用语音发出操 作指令。
i
g (i, j ) g (i 1, j 1) 2d (T (i), R( j ))
j
d(T(i-1),R(j))
d(T(i),R(j)) g(i,j)
2
g(i-2,j-1)
1
i
g (i, j ) g (i 2, j 1) 2d (T (i 1), R( j )) d (T (i), R( j ))
36
动态时间规正法(DTW)的计算实例1 设待识语音模式为T=acc, 参考模式为R=cbac, 若a、b 、 c之间的距离分别为
d(a,b)=d(b,a)=2、d(a,c)=d(c,a)=3、
d(b,c)=d(c,b)=1、d(a,a)=d(b,b)=d(c,c)=0
试用DTW法,在点阵图上画出最佳匹配路径,
最小。
27
时间规整过程
时间规整就是按照两模式之间的所有矢量帧间 的距离D最小(代价函数最小)的原则,不断计算两 模式间的距离,以寻找最优的路径,一般应使规整函 数w(i)满足下列条件:规整函数w(i)在A和B的端点 必须匹配,有: 起点:i(k)=j(k)=1 终点:i(k)=I j(k)=J
为了防止漫无目的从(1,1)搜索到(I,J),因此对 两点之间路径的斜率予以规定,最大为2,最小为 1/2。
6
四、语音识别的方法
1.模式匹配法
在训练阶段,用户将词汇表中的每一词依次说一
遍,并且将其特征矢量作为模板存入模板库。
在识别阶段,将输入语音的特征矢量依次与模板
库中的每个模板进行相似度比较,将相似度最高者作
为识别结果输出。
7
wen
特征矢量LPC倒谱c(n)



学 模板库
8
五、语音识别的主要问题
得到一条弯曲的曲线j=w(i) 。j=w(i)称为规整函数。
26
B
时间规整的依据
设 T={a1 , a2 , …… , ai , …… , aI} i=1~I
R={b1 , b2 , …… , bj , …… , bJ}
I≠J
j=1~J
时间规整要解决的问题是使元素a和元素b之间匹
配,使每对匹配样本之间的差别最小,达到欧氏距离
10
7.2 语音识别原理和识别系统的组成 一、语音识别的步骤
1.根据识别系统的类型选择能满足要求的一种识别
方法,采用语音分析技术预先分析出这种方法所要
求的语音特征参数,这些语音参数作为标准模式由
计算机存储起来,形成标准模式库,称为模板。这
个过程称为“学习”和“训练”。在某些识别系统 中,还备有专家知识库,其中存放由语言学家的各 种知识,如同音字判决规则、语法规则、语义规则 等。
相关文档
最新文档