ch9-语音识别
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 d 2 ( X ,Y ) K
(x
i 1
K
i
yi )
2
模式匹配过程
先对系统中的每个字,做一个码本作为该字 的参考(标准)模板,共有M个字,故共有M个码 本,组成一个模板库。 识别时,对于任意输入的语音特征矢量序列X ={X1 , X2 , … , XN},计算该序列中每一个特 征矢量对模板库中的每个码本的总平均失真量误
矢量的时间轴i非线性地映射到模板的时间轴j上,并 使该函数w(i)满足:
I
D min d [T (i ), R ( w(i ))]
w(i ) i 1
第i帧测试矢量T(i)和第j帧模 板矢量R(j)之间的距离测度
D
最优时间规整情况下所有矢量帧间的距离, 代价函数
D min d [T (i ), R ( w(i ))]
动态时间规整
一、动态时间规整的提出 二、动态时间规整的定义
三、动态时间规整的原理描述
四、动态时间规整的应用
一、动态时间规整的提出
语音信号具有很强的随机性,不同的发音习惯,
发音时所处的环境不同,心情不同都会导致发音持
续时间长短不一的现象。如单词最后的声音带上一
些拖音,或者带上一点呼吸音,此时,由于拖音或
模板库
二、动态时间规整的定义
一次正确的发音应该包含构成该发音的全部音
素以及正确的音素连接次序。
其中各音素持续时间的长短与音素本身以及讲
话人的状况有关。为了提高识别率,克服发同一音
而发音时间长短的不同,采用对输入语音信号进行
伸长或缩短直到与标准模式的长度一致。这个过程
称为时间规整。
三、动态时间规整的原理描述
库中的每个模板进行相似度比较,将相似度最高者作
为识别结果输出。
wen
特征矢量LPC倒谱c(n)
语
文
音
学 模板库
DTW(Dynamic Time Warping)
动态时间规整
由于语音有较大的随机性,即使同一个人在不同时
刻的同一句话发的同一个音,也不可能具有完全相同
的时间长度,因此时间伸缩处理是必不可少的。
2
1 2 W(1,1)=2
(i,j-1)
(i-1,j-1)
2 (i-1,j-2) W(1,1)(0,1)=2*1
60年代由日本学者提出,算法的思想是把未
知量伸长或缩短(压扩),直到与参考模板的长度一 致,在这一过程中,未知单词的时间轴会产生扭曲 或弯折,以便其特征量与标准模式对应。
原理描述
DTW 是把时间规整和距离测度计算结合起来。测 试语音参数共有I帧矢量,而参考模板共有J帧矢量,
I和J不等,寻找一个时间规整函数j=w(i),它将测试
混合高斯密度函数。
句子
P(A1)
BEGIN
A1
A2
P(A2/A1)
字 A1
音子a sa1 sa2
音子b sa3 sa4 sa5
音子a 特征 矢量
用HMM实现连续语音识别的框架
句法层:每个句子由若干字构成,每个字都选自于
字库。
字层:每个字由音子串接而成,需要一个数据库来
描述每一个字如何用音子串接的。
语音识别是指从语音到文本的转换,即让计算
机能够把人发出的有意义的话音变成书面语言。通
俗地说就是让机器能够听懂人说的话。
所谓听懂,有两层意思,一是指把用户所说的
话逐词逐句转换成文本;二是指正确理解语音中所
包含的要求,作出正确的应答。
二、语音识别的应用
语音识别技术是以语音为研究对象,涉及到生理 学、心理学、语言学、计算机科学以及信号处理等诸
wen {X , X , … , X } 1 2 N
语 码本
文 码本 {Y1 ,Y2 ,…,YN} 音 码本 学 码本
模板库
专家知识库
用来存储各种语言学知识,如汉语声调变调规则、
音长分布规则、同音字判别规则、构词规则、语法规
则、语义规则等。对于不同的语言有不同的语言学专
家知识库。
判决是语音识别的最后一步,也是系统识别效果 的最终表现。根据若干准则及专家知识,判决选出可 能结果中最好的结果,由识别系统输出。
的起点和终点。有效的端点检测不仅能使处理的时
间减到最小,而且能排除无声段的噪声干扰。实验 表明:端点检测的正确与否影响到识别率的高低。 语音端点检测的方法:短时能量和短时过零率。
三、语音特征参数的提取
特征参数和识别方法有关系,是语音识别的关
键之处,选择的好坏直接影响语音识别的精度。
语音特征参数包括:短时平均能量、短时过零 率、频谱、三个共振峰频率(F1、F2、F3的频率值、 带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱 等。
配,使每对匹配样本之间的差别最小,达到欧氏距离
最小。
时间规整过程
时间规整就是按照两模式之间的所有矢量帧间 的距离最小(D,代价函数最小)的原则,不断计算两 模式间的距离,以寻找最优的路径,一般应使规整函 数w(i)满足下列条件:规整函数w(i)在A和B的端点 必须匹配,有: 起点:i(k)=j(k)=1 终点:i(k)=I j(k)=J
芯片,能根据用户的语音指令确定洗涤程序。
三、语音识别的类型
1.以所要识别的对象来分,有:
(1)孤立词识别(字或词间有停顿,用于控制系统)
(2)连接词识别(十个数字连接而成的多位数字识别
或由少数指令构成词条的识别,用于数据库查询、电
话和控制系统)
(3)连续语音识别和理解(自然的说话方式)
(4)会话语音识别(识别出会话语言)
w(i ) i 1
I
d [T (i), R( w(i))] d [(ci , c j )] ci (k ) c j (k )
k 1
p
2
计算两倒谱矢量帧(i和j) 间的欧氏距 离,两矢量帧中分别具有p个倒谱参数。
j
j
时间规整函数 j=w(i)
A
i
i
为了使T(测试)的第iБайду номын сангаас样本与R(参考)的
话人在随意说话和认真说话时的语音信息时不同
的。一个人的说话方式随着时间变化。
3.语音的模糊性。说话者在讲话时,不同的词可能 听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响, 以致改变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响,致使识 别率低。
呼吸音会被误认为一个音素,造成单词的端点检测 不准,造成特征参数的变化,从而影响测度估计, 降低识别率,因此在语音识别时,首先有必要对语 音信号进行时间规整。
特征矢量按发音的时间顺序提取 wen {X , X , … , X } 1 2 N
语 码本
文 {Y1 ,Y2 ,…,YM} 码本 音 码本 学 码本
种知识,如同音字判决规则、语法规则、语义规则
等。
2. 识别:将输入语音进行处理,提取特征参数, 和模式库中的模板进行比较匹配,作出判决。
预处理
语音特征 参数分析
失真测度 计算
识别决策
模式匹配
标准 模板
专家 知识
语音识别的框图
二、预处理
语音信号的放大、防混叠滤波、自动增益控制、 模数转换、消除噪声、端点检测。 端点检测:从包含语音的一段信号中确定出语音
第j个样本对正,其对应的点不在直线对角线上,
得到1条弯曲的曲线。j=w(i)称为规整函数。
B
时间规整的依据
设 T={a1 , a2 , …… , ai , …… , aI} i=1~I
R={b1 , b2 , …… , bj , …… , bJ}
I≠J
j=1~J
时间规整要解决的问题是使元素a和元素b之间匹
语音识别的一些问题
- 食之无味,弃之可惜
- 不少从事Speech Recognition的人改行 - 永远做不好,永远有的做
一分钟现象
从技术人员演示 到实际参观者或用户试
用
用户对系统的评价基本在一分钟内完成
一般的过客用户很少有耐性去学会如 何使用
语音识别原理和识别系统的组成
一、语音识别的步骤和框图
为了防止漫无目的从(1,1)搜索到(I,J),因此对 两点之间路径的斜率予以规定,最大为2,最小为 1/2。
j
J
(I,J)
j-J=(i-I)/2
j-J=2(i-I)
j=2i
(1,1)
1 1
j=i/2
I
全局最优
i
动态时间规正法(DTW)的具体解法--行进方向
j W(1,1)(1,0)=2*1
(i-2,j-1) (i-1,j) 1 ck=(i,j)
世音通语音识别系统等。 2. 数据库检索:对庞大的数据进行繁杂的检索 和查询,通过使用语音识别技术,将变得轻松、方 便。 3. 特殊的环境所需的语音命令:用语音发出操 作指令。
2008年奥运会多语言需求
i
多语种信息 自动翻译系统
语音识别用于商场导购
采用语音识别和语音合成技术,能与客户进行交
互式对话,帮助客户找到他们所需要的商品。一个动
2.根据识别的词汇量来分,有:
(1)大词汇(1000个以上的词汇,如会议系统) (2)中词汇(20~1000个词汇,如定票系统) (3)小词汇(1~20个词汇,如语音电话拨号) 3.根据讲话人的范围来分,有: (1)单个特定人
(2)多讲话人(有限的讲话人)
(3)与讲话者无关
四、语音识别的方法
1.模板匹配法 在训练阶段,用户将词汇表中的每一词依次说一 遍,并且将其特征矢量作为模板存入模板库。 在识别阶段,将输入语音的特征矢量依次与模板
二、预处理 三、语音特征参数的提取 四、模式匹配
一、语音识别的步骤
1.根据识别系统的类型选择能满足要求的一种识别
方法,采用语音分析技术预先分析出这种方法所要
求的语音特征参数,这些语音参数作为标准模式由 计算机存储起来,形成标准模式库,称为模板。这 个过程称为“学习”和“训练”。在某些识别系统 中,还备有专家知识库,其中存放由语言学家的各
差,找出最小的失真误差对应的码本(代表一个
字),将对应的字输出作为识别的结果。
码本 每一个字做一 个码本,共M个字
Y1 Y2 YM
模板库
任意 语音 帧
特征矢量 X 序列形成
计算 输出结果Yi 失真误差 判决
特征矢量序列 模板库
X={X1 , X2 , …… , XN} Y1 , Y2 , …… , YM
作传感器可以启动系统,询问顾客“需要我帮你寻找
什么吗?”如果顾客回答说“我在找面包。系统将会
告诉顾客:“面包在第11过道,就是直接往前第3个
过道,我们今天有WHEATIO面包特惠,需要我为您打
印一张优惠券吗?
语音识别用于家用电器,走入人类未来生活
德国西门子公司推出的一种新洗衣机,洗衣物 非常专业,知道为什么样的脏衣物选择合适洗涤程 序和洗涤剂,而主人只需要口头命令即可,比如 “半个小时后再洗”。 与普通洗衣机的不同之处是安装了语音识别
第9章 语音识别(speech recognition)
语音识别技术的一般概念
语音识别的原理和识别系统的组成
动态时间规整DTW
基于统计模型框架的识别法(HMM)
说话人识别
语种辨识
语音识别技术的一般概念
一、语音识别的定义 二、语音识别的应用
三、语音识别的类型
四、语音识别的方法
五、语音识别的主要问题
一、语音识别的定义
DTW用满足一定条件的时间规整函数,描述待识别
模式和参考模板的时间对应关系,求解两个模板匹配, 就是累积距离测度最小对应的规整函数。
2.随机模型法 采用HMM模型,使用概率参数来进行估计和判决。
无声 段
声母 辅音段
送气 段
前过 渡段
元音 段
后过 渡段
鼻音 段
(1)发音的各个段构成相应的状态。 (3)基本单元发音速率(停留时间和转移时间)对应状 态转移概率(0.5)。 (2)声学变化(LPC倒谱)对应输出序列,概率分布成
语音层:每个音子用一个HMM模型及其相应的参数
来描述(状态及其状态间的转移)。 声学层:提取语音帧特征矢量。
五、语音识别的主要问题
1.对自然语言的识别和理解。首先必须将连续的
讲话分解为词、音素等单位,其次要建立一个理
解语义的规则。
2.语音信息量大。语音模式不仅对不同的说话人
不同,对同一说话人也是不同的,例如,一个说
多领域。
随着语音识别技术的逐渐成熟,语音识别技术开
始得到广泛的应用,涉及日常生活的各个方面如电信、
金融、新闻、公共事业等各个行业,通过采用语音识
别技术,可以极大的简化这些领域的业务流程以及操
作;提高系统的应用效率。
语音识别应用实例
1.语音识别以IBM推出的ViaVoice为代表,国内
则推出Dutty ++语音识别系统、天信语音识别系统、
四、模式匹配
将未知语音的特征参数与模板参数逐一进行 比较与匹配,判决的依据是失真测度最小的准则。 语音识别的测度有很多,欧氏距离测度及其变 形、线性预测失真测度等。
欧氏距离测度
K维特征矢量:
Xi={xi1 , xi2 , …… , xiK}
Yj={yj1 , yj2 , …… , yjK} 均方误差欧氏距离