孤立词语音识别算法性能
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
#
引言
近年来, 语音识别技术渐渐走出实验室, 中小字表实时语
和 /01 识别法, 以及这两种方法相结合的二级识别法。 与绝大 多数语音识别算法相同,这两种方法首先都要进行特征提取。 文章使用在语音识别中得到广泛应用的线形预测系数( 234 ) 特征, 矢量的距离均取似然比距离 %567&。
音识别系统在电话、 家电等领域逐渐开始得到应用, 一些型号 的语音芯片也已投放市场, 但总的来说很多产品使用效果仍不 尽人 意 , 如识别词汇量少, 允许发音长度短, 识别速度慢, 识别 率低等。这固然有硬件水平及成本方面的因素, 但要使语音识 别技术具有很好的实用性, 从而能在生产生活中得到更广泛的 普及, 除了提高硬件性能外, 必须要在算法上做更多的工作, 使 识别速度和识别率能得到进一步提高。 目前国外语音识别方面的研究工作主要集中在非特定人、 大字表、 连续语音识别系统上, 国内的研究大多集中于连续语 语 音 新 特 征 的 研 究 %!&、 高 噪 声 环 境 下 的 识 别 %’&、 隐马尔 音 识 别 %#&、 科夫模型( 及神经网络等识别技术 ()))
#
78 74&.-#)39 68 :4; <48 =4)3%"#)39 >8&)3 6#)"&.9 ( QB;ROE@;<S TU VN;OBNO ABP 0ONIBTHTCS TU 4I;BA , (OUO; !’""!5) ! ( 0@;BCIDA QB;ROE@;<S, WO;X;BC #"""8*)
1?%0’&(0: VYOAKOE POYOBPOB<, ;@THA<OP JTEP EONTCB;<;TB NAB :O J;POHS D@OP ;B EOAH AYYH;NA<;TB$ZB <I;@ YAYOE, -. ABP /01 AEO NAEOUDHHS ABAHS@O@, ;B TEPOE <T ;?YETRO <IO YOEUTE?ABNO TU <IO )ABPAE;B ;@THA<OP JTEP EONTCB;<;TB @S@<O?, :T<I UTE @YOOP ABP ANNDEANS$VOROEAH ?O<ITP@ AEO YETYT@OP :S AB<ITE@, ABP <IO OLYOE;?OB<@ @ITJ <IO@O ?O<ITP@ AEO OUUON<;RO ABP OA@S <T :O AYYH;OP$ @#AB.’*%: VYOONI [ONTCB;<;TB, Z@THA<OP 1TEP , [ONTCB;<;TB VYOOP , -., /01
%&’ 系数阶数对识别效果的影响
正确率 第一组 第二组 第三组 识别速度 ( 秒) 第三组
错误词 ( 总词数 第二组
)阶 #" 阶 #! 阶 #+ 阶 #. 阶 #) 阶 !" 阶
*# ( #+" !0 ( #+" #! ( #+" #, ( #+" #* ( #+" #+ ( #+" !- ( #+"
时间顺序从而对识别率有较大的影响。 目前用该方法实现的识 别系统识别率通常在 )"/到 ,"/左右。
近的位置, 也有极少数在第三近的位置。 有鉴于此, 我们在文中 尝试了如下方法: 首先利用速度较快的算法筛选出最接近的三 个参考语音,然后将这三个语 音 的 完 整 的 %&’ 特 征 序 列 与 待 识音的完整的 %&’ 特征序列进行 123 匹配, 得到 最 后 的 识 别 结果。
!$!$!
123 识别法 4-5,6
由于同一人发同一音的瞬时速度通常会在一定范围内变
动, 导致训练特征序列与待识别特征序列的长度不同, 因此需 要寻找一种待识别样和各模板时间轴之间的一种变换关系, 用 来消除它们做匹配比较时由于相应时间上的差异所造成的同 类音距离偏大的现象。 这种结合时间变换关系求特征序列之间 具体算法在国 距离的技 术 称 为 123 技 术 。 该 方 法 发 展 较 早 , 外七十年代末就已基本发展成熟, 其优点是识别率高, 缺点是 计算量大, 并且随语音序列长度增加而迅速增加。目前用该方 法实现的识别系统识别率通常可达 ,"/以上。
, ( #+" + ( #+" * ( #+" 0 ( #+" + ( #+" 0 ( #+" 0 ( #+"
+
实验数据及结论
实验对象: 打开、 关闭、 制冷、 取暖、 升 #+ 个 两 至 三 字 词 (
温、 降温、 强风、 弱风、 温度一、 温度二、 温度三、 温度四、 温度五、 温度六) , 由两名男性青年发音作为测试集。 其中一名男青年在 噪音( 说话声、 音乐声、 较大的空调噪声混合) 大、 中、 小情况下 对各语音各发 #! 遍,另一名男青年在噪音适中情况下对各语 音 发 #! 遍 , 每个词的前两次发音作为训练音, 后 #" 次 发 音 作 为 被 识 别 音 。 被 识 别 音 按 上 述 顺 序 分 别 构 成 第 #、 !、 *、 + 测试 集, 各由 #+" 个语音构成。其中 # 、 + 测试集以各种不同规律进 行发音( 轻、 重、 缓、 急、 先轻后重、 先重后轻、 先缓后急, 先急后 缓) , !、 * 测试集发音相对一致性较好。 实验平台: &;;;+0" , .+< 内存, =:<:>:-!+ 声卡和廉价微 型麦克风。计算所使用的软件为 ?@ABC?D,) 操 作 系 统 和 <:2E
表#
%&’
阶数 第一组
*$!
精简表示语音的特征序列中特征矢量的数目
在对两个语音特征序列进行匹配时, 这两个序列各自的长
度( 总帧数) 将对计算速度具有极大影响, 这 在 123 计 算 中 表 现得尤其突出, 由此可以想到, 为了提高识别速度, 可以从减少 语音序列的总帧数方面着手。减少帧数的可行办法主要有两 种, 一是删除次要帧, 二是相邻帧合并。 根据语音识别理论,一段语音是由一个个不同状态组成, 同一个状态内语音特征呈较平稳的形态,相邻帧距离较小, 而 在不同状态过渡的过程中, 语音模式变化剧烈, 相邻帧距离较 大。研究表明, 在语音识别中起主要作用的帧是处于不同状态 过渡位置的帧 4,6。 根据该结论可以尝试如下方法: 先顺序求出一 次语音的全部相邻特征矢量的距离, 然后删除相邻帧间距较小 的一部分特征帧,利用余下的相邻帧间距较大的帧进行识别。 此外还可考虑用平均的方法把语音序列的相邻的若干帧合并 为一帧, 该方法在实验中取得了良好效果。
认为 %&’ 是 7 域声道全极点模型传递函数 8 ( 的分 7) 9# ( : ( 7) 母 :( 的 系 数 。 有 关 文 献 4)6 指 出 , 7) %&’ 的 阶 数 可 以 考 虑 取 ) 到 !" 之 间 , 如果低于 ) 阶, 对声道模型逼近的误差太大, 而当 阶数从 #! 阶逐渐往 !" 阶甚至更高阶过渡的时候, 虽逼近效果 略有改善, 但增添了一些不必要的细节, 有时使效果反而变坏, 同时计算量大幅度增加。阶数具体如何选择, 应综合考虑系统 特性。
!$!
识别方法
!$!$# -. 识别法 %567& -. 的主要工作是聚类,即在特征空间中合理地拟定一组
点( 该组点整体称为码本, 每个点成为码字) , 于是特征空间中 任一点均可按最小距离准则用码本之一来代表( 称为该点的矢 量量化点) 。 训练时由训练音特征序列生成相应的一组码本, 识 别时计算待识音特征序列各帧矢量到各码本的总畸变, 取畸变 值最小同时满足一定距离要求的码本对应音作为识别结果。 该 方法优点是识别计算量较小, 缺点是没有利用语音特征序列的
实验四是二级识别效果测试, 各 率的影响, 识 别 方 法 为 123; 次测试的不同之处在于采用了不同的第一级识别对参考语音 在实 进行筛选。 第二级识别均采用识别率最高的全序列 123。 验一中, 为了测试噪音对不同阶数 %&’ 系 数 识 别 效 果 的 影 响 , 其它实 用同一人在不同条件下录制的 # 、 !、 * 测试集进行测试。 验均用噪音和发音随机性较强的 # 、 这样可 + 测试集进行测试, 以更好地表现出不同方法所产生的效果差距。 在识别速度统计 降温” 的发音进行一次识 中, 用 <:2%:F 程 序 对 特 定 的 某 次 “ 别的时间为基准。 需要说明的是, 由于软件特性的不同, 根据测 试用 8’ 编写的相同程序速度将加快 #" 倍以上, 可 以 达 到 实 时识别的要求。 实验一:
%567& 或格形算法, 协方差算法) 成后, 对每个帧, 根据 /DE:;B 算法(
以及自 动 翻 译 系 统
计算其 B 阶 234 系数, 从而得到 B 维 234 特征矢量。 这里有一 本文将在后面给出具 个问题, 就是 234 系数的阶数 B 的选择, 体的讨论和实验结果。
总的趋势也是向大字表或高噪声条件下的识别这个 的 研 究 %,&, 方向发展。而对于已经比较成熟的矢量量化( 、 动态时间归 -.) 正( 等识别方法, 如何进一步提高其识别速度与识别率 /01) 从而使其能迅速在生产生活中得到实际应用, 则相对研究较少。 该文作者在声控产品开发的过程中, 本着保证识别率的前 提下尽量提高识别速度的目的, 进行了大量实验, 在文中提出 了一些具有实用价值的方法, 希望能为语音识别技术的进一步 实用化提供一些有益的参考。
%*, +&
!$#
特征提取
%8&, %#"& 首先 麦 克 风 输 入 通 过 放 大 、 反 混 叠 滤 波 %5&, , 以 ##"!+(9
采样率进 行 采 样 、 得到一系列 8:;< = > / 变 换 等 一 系 列 预 处 理 , 约 #"?@) 进行分帧, 根据能 的采样值, 随 后 按 #"" 采 样 点 > 帧 ( 量特征和过零率特征进行端点检测 %##&, 提取有效语 音 。 然 后 根 约 !" ?@) 进行分帧, 分 据语音的短时周期特性, 按 !"" 点 > 帧( 割 方 法 是 加 长 度 为 !"" 点 的 (A??;BC 窗 , 帧 移 #"?@。 分 帧 完
能( 识别速度和识别率) 改善进行分析与探索, 并通过对实验数据的讨论, 提出了一些有效的改进方法。 关键词 语音识别 孤立词 识别速度
-. /01
文献标识码 = 中图分类号 03’"#$,
文章编号 #""!G8’’#G( !""# ) !#G"#**G"’
!"# $#%#&’(" &)* +,-’./#,#)0 .) 0"# 123.’40", 5.’ +%.2&0#* 6.’* $#(.3)404.)
!Baidu Nhomakorabea
孤立词语音识别的几种基本方法
这里主要讨论两种孤立词识别中常用的方法: -. 识 别 法
作者简介: 徐霄鹏、 刘庆升, 中国科大硕士生, 研究方向为声控产品及语音识别芯片开发。吴及, 清华大学博士生, 研究方向为语音识别系统研究。 黄文浩, 中国科大教授, 博导。
#** !""#$!# 计算机工程与应用
%:F0$* 。
实验内容:实验一用于 考 证 不 同 阶 数 的 %&’ 系 数 对 识 别 速度和识别率的影响, 采用的识别方法为 8G ; 实验二用于考证
%&’ 特 征 序 列 删 减 对 识 别 速 度 和 识 别 率 的 影 响 , 识 别 方 法 为 123;实验三用于考证 %&’ 特征序列合并对识 别 速 度 和 识 别
孤立词语音识别算法性能研究与改进
徐霄鹏 #
#
吴
及!
刘庆升 #
黄文浩 #
( 中国科学技术大学精密仪器系, 合肥 !’""!5 ) ! ( 清华大学电子工程系, 北京 #"""8* )
FG?A;H: IAJKLDM?A;H$D@<N$OPD$NB
摘要
文章针对特定人中小字表孤立词语音识别, 以提高实用性为目的, 对两种常用识别方法( 的效果及其性 -. 、 /01)
* 识别性能改进的一些考虑 *$# %&’ 阶数选择
线形预测分析基于如下基本概念, 即一语音样值能用过去 的若干语音样值的线形组合来近似估计( 预测) 。 按在一所分析 的帧( 短时段) 内实际的各语音样与各预测样之间的差值的平 方和最小准则, 可以决定唯一的一组预测系数, 即 %&’ 。可以
4,6