语音识别(speechrecognition)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

差,找出最小的失真误差对应的码本(代表一个
字),将对应的字输出作为识别的结果。
码本 每一个字做一 个码本,共M个字
Y1 Y2 YM
模板库
任意 语音 帧
特征矢量 X 序列形成
计算 输出结果Yi 失真误差 判决
特征矢量序列 模板库
X={X1 , X2 , …… , XN} Y1 , Y2 , …… , YM
语音识别(speech recognition)
语音识别技术的一般概念
语音识别的原理和识别系统的组成
动态时间规整DTW
基于统计模型框架的识别法(HMM)
说话人识别
语种辨识
语音识别技术的一般概念
一、语音识别的定义 二、语音识别的应用
三、语音识别的类型
四、语音识别的方法
五、语音识别的主要问题
一、语音识别的定义
多领域。
随着语音识别技术的逐渐成熟,语音识别技术开
始得到广泛的应用,涉及日常生活的各个方面如电信、
金融、新闻、公共事业等各个行业,通过采用语音识
别技术,可以极大的简化这些领域的业务流程以及操
作;提高系统的应用效率。
语音识别应用实例
1.语音识别以IBM推出的ViaVoice为代表,国内
则推出Dutty ++语音识别系统、天信语音识别系统、
语音识别是指从语音到文本的转换,即让计算
机能够把人发出的有意义的话音变成书面语言。通
俗地说就是让机器能够听懂人说的话。
所谓听懂,有两层意思,一是指把用户所说的
话逐词逐句转换成文本;二是指正确理解语音中所
包含的要求,作出正确的应答。
二、语音识别的应用
语音识别技术是以语音为研究对象,涉及到生理 学、心理学、语言学、计算机科学以及信号处理等诸
语音识别的一些问题
- 食之无味,弃之可惜
- 不少从事Speech Recognition的人改行 - 永远做不好,永远有的做
一分钟现象
从技术人员演示 到实际参观者或用户试

用户对系统的评价Байду номын сангаас本在一分钟内完成
一般的过客用户很少有耐性去学会如 何使用
语音识别原理和识别系统的组成
一、语音识别的步骤和框图
w(i ) i 1
I
d [T (i), R( w(i))] d [(ci , c j )] ci (k ) c j (k )
k 1
p
2
计算两倒谱矢量帧(i和j) 间的欧氏距 离,两矢量帧中分别具有p个倒谱参数。
j
j
时间规整函数 j=w(i)
A
i
i
为了使T(测试)的第i个样本与R(参考)的
话人在随意说话和认真说话时的语音信息时不同
的。一个人的说话方式随着时间变化。
3.语音的模糊性。说话者在讲话时,不同的词可能 听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响, 以致改变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响,致使识 别率低。
种知识,如同音字判决规则、语法规则、语义规则
等。
2. 识别:将输入语音进行处理,提取特征参数, 和模式库中的模板进行比较匹配,作出判决。
预处理
语音特征 参数分析
失真测度 计算
识别决策
模式匹配
标准 模板
专家 知识
语音识别的框图
二、预处理
语音信号的放大、防混叠滤波、自动增益控制、 模数转换、消除噪声、端点检测。 端点检测:从包含语音的一段信号中确定出语音
作传感器可以启动系统,询问顾客“需要我帮你寻找
什么吗?”如果顾客回答说“我在找面包。系统将会
告诉顾客:“面包在第 11 过道,就是直接往前第 3 个
过道,我们今天有 WHEATIO 面包特惠,需要我为您打
印一张优惠券吗?
语音识别用于家用电器,走入人类未来生活
德国西门子公司推出的一种新洗衣机,洗衣物 非常专业,知道为什么样的脏衣物选择合适洗涤程 序和洗涤剂,而主人只需要口头命令即可,比如 “半个小时后再洗”。 与普通洗衣机的不同之处是安装了语音识别
二、预处理 三、语音特征参数的提取 四、模式匹配
一、语音识别的步骤
1.根据识别系统的类型选择能满足要求的一种识别
方法,采用语音分析技术预先分析出这种方法所要
求的语音特征参数,这些语音参数作为标准模式由 计算机存储起来,形成标准模式库,称为模板。这 个过程称为“学习”和“训练”。在某些识别系统 中,还备有专家知识库,其中存放由语言学家的各
2
1 2 W(1,1)=2
(i,j-1)
(i-1,j-1)
2 (i-1,j-2) W(1,1)(0,1)=2*1
为了防止漫无目的从(1,1)搜索到(I,J),因此对 两点之间路径的斜率予以规定,最大为2,最小为 1/2。
j
J
(I,J)
j-J=(i-I)/2
j-J=2(i-I)
j=2i 1 1
(1,1)
j=i/2
I
全局最优
i
动态时间规正法(DTW)的具体解法--行进方向
j W(1,1)(1,0)=2*1
(i-2,j-1) (i-1,j) 1 ck=(i,j)
四、模式匹配
将未知语音的特征参数与模板参数逐一进行 比较与匹配,判决的依据是失真测度最小的准则。 语音识别的测度有很多,欧氏距离测度及其变 形、线性预测失真测度等。
欧氏距离测度
K维特征矢量:
Xi={xi1 , xi2 , …… , xiK}
Yj={yj1 , yj2 , …… , yjK} 均方误差欧氏距离
1 d 2 ( X ,Y ) K
(x
i 1
K
i
yi )
2
模式匹配过程
先对系统中的每个字,做一个码本作为该字 的参考(标准)模板,共有M个字,故共有M个码 本,组成一个模板库。 识别时,对于任意输入的语音特征矢量序列X ={X1 , X2 , … , XN},计算该序列中每一个特 征矢量对模板库中的每个码本的总平均失真量误
世音通语音识别系统等。 2. 数据库检索:对庞大的数据进行繁杂的检索 和查询,通过使用语音识别技术,将变得轻松、方 便。 3. 特殊的环境所需的语音命令:用语音发出操 作指令。
2008年奥运会多语言需求
i
多语种信息 自动翻译系统
语音识别用于商场导购
采用语音识别和语音合成技术,能与客户进行交
互式对话,帮助客户找到他们所需要的商品。一个动
库中的每个模板进行相似度比较,将相似度最高者作
为识别结果输出。
wen
特征矢量LPC倒谱c(n)



学 模板库
DTW(Dynamic Time Warping)
动态时间规整
由于语音有较大的随机性,即使同一个人在不同时
刻的同一句话发的同一个音,也不可能具有完全相同
的时间长度,因此时间伸缩处理是必不可少的。
60年代由日本学者提出,算法的思想是把未
知量伸长或缩短(压扩),直到与参考模板的长度一 致,在这一过程中,未知单词的时间轴会产生扭曲 或弯折,以便其特征量与标准模式对应。
原理描述
DTW 是把时间规整和距离测度计算结合起来。测 试语音参数共有I帧矢量,而参考模板共有J帧矢量,
I和J不等,寻找一个时间规整函数j=w(i),它将测试
2.根据识别的词汇量来分,有:
(1)大词汇(1000个以上的词汇,如会议系统) (2)中词汇(20~1000个词汇,如定票系统) (3)小词汇(1~20个词汇,如语音电话拨号) 3.根据讲话人的范围来分,有: (1)单个特定人
(2)多讲话人(有限的讲话人)
(3)与讲话者无关
四、语音识别的方法
1.模板匹配法 在训练阶段,用户将词汇表中的每一词依次说一 遍,并且将其特征矢量作为模板存入模板库。 在识别阶段,将输入语音的特征矢量依次与模板
模板库
二、动态时间规整的定义
一次正确的发音应该包含构成该发音的全部音
素以及正确的音素连接次序。
其中各音素持续时间的长短与音素本身以及讲
话人的状况有关。为了提高识别率,克服发同一音
而发音时间长短的不同,采用对输入语音信号进行
伸长或缩短直到与标准模式的长度一致。这个过程
称为时间规整。
三、动态时间规整的原理描述
wen {X , X , … , X } 1 2 N
语 码本
文 码本 {Y1 ,Y2 ,…,YN} 音 码本 学 码本
模板库
专家知识库
用来存储各种语言学知识,如汉语声调变调规则、
音长分布规则、同音字判别规则、构词规则、语法规
则、语义规则等。对于不同的语言有不同的语言学专
家知识库。
判决是语音识别的最后一步,也是系统识别效果 的最终表现。根据若干准则及专家知识,判决选出可 能结果中最好的结果,由识别系统输出。
混合高斯密度函数。
句子
P(A1)
BEGIN
A1
A2
P(A2/A1)
字 A1
音子a sa1 sa2
音子b sa3 sa4 sa5
音子a 特征 矢量
用HMM实现连续语音识别的框架
句法层:每个句子由若干字构成,每个字都选自于
字库。
字层:每个字由音子串接而成,需要一个数据库来
描述每一个字如何用音子串接的。
第j个样本对正,其对应的点不在直线对角线上,
得到1条弯曲的曲线。j=w(i)称为规整函数。
B
时间规整的依据
设 T={a1 , a2 , …… , ai , …… , aI} i=1~I
R={b1 , b2 , …… , bj , …… , bJ}
I≠J
j=1~J
时间规整要解决的问题是使元素a和元素b之间匹
配,使每对匹配样本之间的差别最小,达到欧氏距离
最小。
时间规整过程
时间规整就是按照两模式之间的所有矢量帧间 的距离最小(D,代价函数最小)的原则,不断计算两 模式间的距离,以寻找最优的路径,一般应使规整函 数w(i)满足下列条件:规整函数w(i)在A和B的端点 必须匹配,有: 起点:i(k)=j(k)=1 终点:i(k)=I j(k)=J
DTW 用满足一定条件的时间规整函数,描述待识别
模式和参考模板的时间对应关系,求解两个模板匹配, 就是累积距离测度最小对应的规整函数。
2.随机模型法 采用HMM模型,使用概率参数来进行估计和判决。
无声 段
声母 辅音段
送气 段
前过 渡段
元音 段
后过 渡段
鼻音 段
(1)发音的各个段构成相应的状态。 (3)基本单元发音速率(停留时间和转移时间)对应状 态转移概率(0.5)。 (2)声学变化(LPC倒谱)对应输出序列,概率分布成
芯片,能根据用户的语音指令确定洗涤程序。
三、语音识别的类型
1.以所要识别的对象来分,有:
(1)孤立词识别(字或词间有停顿,用于控制系统)
(2)连接词识别(十个数字连接而成的多位数字识别
或由少数指令构成词条的识别,用于数据库查询、电
话和控制系统)
(3)连续语音识别和理解(自然的说话方式)
(4)会话语音识别(识别出会话语言)
矢量的时间轴i非线性地映射到模板的时间轴j上,并 使该函数w(i)满足:
I
D min d [T (i ), R ( w(i ))]
w(i ) i 1
第i帧测试矢量T(i)和第j帧模 板矢量R(j)之间的距离测度
D
最优时间规整情况下所有矢量帧间的距离, 代价函数
D min d [T (i ), R ( w(i ))]
语音层:每个音子用一个 HMM 模型及其相应的参数
来描述(状态及其状态间的转移)。 声学层:提取语音帧特征矢量。
五、语音识别的主要问题
1.对自然语言的识别和理解。首先必须将连续的
讲话分解为词、音素等单位,其次要建立一个理
解语义的规则。
2.语音信息量大。语音模式不仅对不同的说话人
不同,对同一说话人也是不同的,例如,一个说
的起点和终点。有效的端点检测不仅能使处理的时
间减到最小,而且能排除无声段的噪声干扰。实验 表明:端点检测的正确与否影响到识别率的高低。 语音端点检测的方法:短时能量和短时过零率。
三、语音特征参数的提取
特征参数和识别方法有关系,是语音识别的关
键之处,选择的好坏直接影响语音识别的精度。
语音特征参数包括:短时平均能量、短时过零 率、频谱、三个共振峰频率(F1、F2、F3的频率值、 带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱 等。
呼吸音会被误认为一个音素,造成单词的端点检测 不准,造成特征参数的变化,从而影响测度估计, 降低识别率,因此在语音识别时,首先有必要对语 音信号进行时间规整。
特征矢量按发音的时间顺序提取 wen {X , X , … , X } 1 2 N
语 码本
文 {Y1 ,Y2 ,…,YM} 码本 音 码本 学 码本
动态时间规整
一、动态时间规整的提出 二、动态时间规整的定义
三、动态时间规整的原理描述
四、动态时间规整的应用
一、动态时间规整的提出
语音信号具有很强的随机性,不同的发音习惯,
发音时所处的环境不同,心情不同都会导致发音持
续时间长短不一的现象。如单词最后的声音带上一
些拖音,或者带上一点呼吸音,此时,由于拖音或
相关文档
最新文档