孤立词语音识别算法性能

合集下载

语音识别技术简介

语音识别技术简介

语音识别技术简介我想大家都听过阿里巴巴与四十大盗的故事,阿里巴巴的“芝麻开门”就是一个语音识别的例子,可见语音识别是很早就启蒙了。

今天我就和大家一起来学习一下语音识别技术。

让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。

伴随计算机技术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式厅的关键技术之一”。

语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方向。

其最终目标是实现人与机器进行自然语言通信。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

今天主要讲的内容有:语音识别的发展历史、系统分类、基本方法、系统结构、面临问题以及前景展望。

语音识别发展历史1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。

1960年英国的Denes等人研究成功了第一个计算机语音识别系统。

大规模的语音识别[3]研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。

进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。

在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。

此外,再次提出了将神经网络技术引入语音识别问题的技术思路。

进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。

但是,在语音识别技术的应用及产品化方面出现了很大的进展。

我国语音识别研究工作起步于五十年代,但近年来发展很快。

研究水平也从实验室逐步走向实用。

我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。

基于DTW改进算法的孤立词语音识别仿真

基于DTW改进算法的孤立词语音识别仿真
( 山东理 工 大 学 交 通 与车辆 工程 学 院 ,山东 淄博 2 5 5 0 9 1 ) 摘 要 :为提 高识 别率和 识别 效 率 , 采 用双 门限过零 率和 短 时能 量作 为 端 点检 测 的依 据 , 提取 Me l
频率倒 谱 系数作 为语 音 特征 参 数 , 并使用 D TW 算 法进 行 模 式 匹配. 由于 传 统 D TW 算 法 计 算 量 大, 所 以采 用局部 路 径约束 和 区域 约束进 行 改进 , 并用 Ma t l a b对 改进后 的 DT W 算 法进 行 了仿 真. 实验证 明该 算 法对孤 立词 语 音识别 能够 达到 较好 的识别 结 果.
l a r g e a m ou nt o f da t a i n t h e ma t c h i ng p r oc e s s , D TW a l go r i t hm i s i m pr o v e d by us i ng l o c a l c o n—
第 2 7卷 第 1 期
2 0 1 3年 1月
山 东 理 工 大 学 学 报( 自 然 科 学 版)
J o u r n a l o f S h a n d o n g Un i v e r s i t y o f Te c h n o l o g y ( Na t u r a l S c i e n c e Ed i t i o n )
Vo 1 . 2 7 No . 1
J a n .2 0 1 3
文章 编 号 : 1 6 7 2 — 6 1 9 7 ( 2 0 1 3 ) 0 1 — 0 0 6 3 — 0 4
基于 D TW 改进 算 法 的孤 立词 语 音 识 别 仿 真
刘 静 ,王 儒 ,曲金 玉 ,李 东荣

基于DTW的孤立词说话人识别研究

基于DTW的孤立词说话人识别研究

基于DTW的孤立词说话人识别研究作者:李冰程建政刘康程利来源:《数字技术与应用》2013年第10期摘要:利用遗传算法优越的全局搜索能力对传统DTW算法进行改进,重点研究遗传动态时间规划算法(GA_DTW)的实现机理、编码方式、适应度函数设计、种群初始化、选择机理、交叉运算、变异操作和终止策略。

实验结果表明,在孤立词的说话人识别上,该算法具有识别率更高、耗时更少的优点。

关键词:说话人识别 DTW GA_DTW中图分类号:TN912.3 文献标识码:A 文章编号:1007-9416(2013)10-0098-02在孤立词语音识别中,DTW(动态时间规整)是一个经典算法。

它将时间规整和欧式距离相结合,通过局部最优解,使两个特征矢量之间的累积失真量最小。

本文将遗传算法用于DTW中,从全局角度出发,使整个系统的识别效率大大改善。

1 DTW的基本原理假设参考模板特征矢量序列为,输入测试语音特征矢量序列为,其中,DTW就是要寻找时间规整函数m=w(n),把测试模板的时间轴n非线性映射到参考模板的时间轴m,并满足[1]:(1)式中,是第n帧测试矢量和第m帧参考矢量的距离测度,一般这个距离测度采用欧氏距离的平方,如式2:(2)其中,,Q是特征矢量维数。

实际应用中,DTW采用动态规划技术实现最优化算法,w (n)被限制在一个平行四边形内如图1,其一条边的斜率为2,另一条边的斜率为1/2。

规整函数的起始点为(1,1),终止点为(N,M)。

DTW算法用简单的局部路径限制,使沿路径的累积距离最小,其动态搜索的空间并不是整个矩形网格,而是局限于平行四边形区域内,许多点达不到,因此,本文采用基于遗传算法的动态时间规划算法(GA_DTW)用全局搜索能力来寻找最佳匹配路径[2]。

2 GA_DTW算法机理设参考模板为:R={R(1),R(2),…,R(m),…,R(M)},测试模板为:T={T (1),T(2),…,T(n),…,T(N)},R与T间的总失真距离表示为D[R,T],为使两模板的相似度较高,失真距离越小越好[3]。

在孤立词语音识别中动态时间规正的改进算法

在孤立词语音识别中动态时间规正的改进算法
18 1
2 1 ,6 2 ) 0 0 4 ( 5
C m u r n ier ga d p l ain 计算机工程与应用 o p  ̄ E gn ei n A p i t s n c o
@数 据 库 、 号 与信 息处 理@ 信
在孤 立词语音 识别 中动态 时 间规正 的改进 算法
汲清 波 , 卢 侃 李 , 康。
语 音识别是机器通过识别和理解 过程把人类的语言信号 转 变为 响应 的文本 或命令 的技术 , 本质 上是一种模 式识别 的
过程, 模板匹 配法是模式 识别 中最 常用 的一种基 于相 似度计

要 : 态时间规 正( y1 cTmew唧 ig 是语音 识别 中的一种经典算法 , 动 D I mi i a n) 算法简单 有效 , 因此在 实现孤 立词识 别 系统中获
得 了广泛的应用。提 出-  ̄ DT 的改进算法 , - W 采用两次在 时间域上的规正 , 计算程序 简洁规 范, 使 计算量减少。经 实验验证 , 改
a d Ap l a in . 0 0 4 ( 5 : 1 — 2 . n pi t s2 1 .62 ) 181 0 c o
Ab t a t Dy a c i W ap n i a i d f c a sc l l o i m i s e c r c g i o s se Be a s t e l o i m i sr c : n mi T me r i g s k n o l s ia a g rt h n p e h e o n t n y t m. c u e h a g r h i t s smp e a d v l . t a h e e x e sv p l a i n i p e h r c g i o f sn l r . i a e a s s mp o e i l n ai i c iv s e tn i e a p i t n s e c e o n t n o i g e wo dTh s p p r r ie i r v d DT a- d c o i W l g rt m t t c t wap n S h t t oi h wi h wie i me r i g, O t a i wi a e r g a n r t e n r d c t e ac lt n wo k. ay i f t e l m k p o r m o ma i a d e u e h c lu a i r An l ss l v o o h smu a i n r s l h ws t a e i r v d DT l o i m o n y c n i c e s e o n t n s e d b t a s mp o e p a f a i lt e u t s o h t t mp o e o s h W ag rt h n t o l a n r a e r c g i o p e u lo i r v r c c - i i

孤立词语音识别中期报告

孤立词语音识别中期报告

1 课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。

我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别十个元音。

直至1973年才由中国科学院声学所开始计算机语音识别。

1986年3月我国高科技发展计划(863计划)启动,国家863智能计算机专家组为语音识别技术研究专门立项,每两年举行一次专题会议。

现在我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势。

国内有不少语音识别系统已研制成功。

在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。

在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。

在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

随着信息产业的迅速发展,人们倾向于使用高效,快捷,方便的电子产品。

语音识别作为人机交互的一项关键领域,具备了实时,方便,快速等特点,在当今科学技术的发展上也有着日益重要的地位。

在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。

例如,驾驶员在高速行驶的汽车内电话拨号,飞行员在飞行过程中发出必要的命令等,都需要语音识别系统,另外语音识别也给失明者带来很大的帮助。

2课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法,期望在进行端点检测时,能进一步提高识别率。

该设计要求采用TW算法。

主要任务:1、理论分析,提出设计方案;2、语音采集;3、特征提取,形成训练集;4、特定人孤立词语音识别算法的程序实现。

3基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统,因此它的基本结构与常规模式识别系统一样,包含有特征提取、模式匹配、参考模式库等三个基本单元。

基于DTW的孤立词语音识别系统的研究与实现

基于DTW的孤立词语音识别系统的研究与实现

基于DTW的孤立词语音识别系统的研究与实现
王娜;刘政连
【期刊名称】《九江学院学报:自然科学版》
【年(卷),期】2010(000)003
【摘要】通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息
的形式。

语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。

让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。

随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,
【总页数】4页(P31-33,39)
【作者】王娜;刘政连
【作者单位】
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.基于DTW和EMD的孤立词语音识别研究 [J], 徐必伟;苏成利;杨微;曹江涛
2.一种新的基于DTW的孤立词语音识别算法 [J], 周炳良;邓立新;洪民江
3.基于孤立词语音识别系统的DTW硬件实现 [J], 肖春华;黄樟钦;侯义斌;李达;霍
思佳
4.基于DTW的孤立词语音识别系统的研究与实现 [J], 王娜;刘政连
5.基于DTW的孤立词语音识别系统设计 [J], 叶硕;彭春堂;杜珍珍;贺娟
因版权原因,仅展示原文概要,查看原文内容请购买。

语音识别技术

语音识别技术

历史早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。

而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。

最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。

其识别方法是跟踪语音中的共振峰。

该系统得到了98%的正确率。

到1950年代末,伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。

1960年代,人工神经网络被引入了语音识别。

这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model 的应用。

从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。

[1]。

此后严格来说语音识别技术并没有脱离HMM框架。

尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。

编辑本段模型目前,主流的大词汇量语音识别系统多采用统计模式识别技术。

典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。

该模块的主要任务是从输入信号中提取特征,供声学模型处理。

同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

统计声学模型。

典型系统多采用基于一阶隐马尔科夫模型进行建模。

发音词典。

发音词典包含系统所能处理的词汇集及其发音。

发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型。

用于孤立词识别的语音识别系统实验报告

用于孤立词识别的语音识别系统实验报告

用于孤立词识别的语音识别系统实验报告语音是人际交流的最习惯、最自然的方式,它将成为让计算机智能化地与人通信,人机自然地交互的理想选择。

让说话代替键盘输入汉字,其技术基础是语音识别和理解。

语音识别将人发出的声音、音节、或短语转换成文字和符号,或给出响应执行控制,作出回答。

该系统用于数字0~9的识别,系统主要包括训练和识别两个阶段。

实现过程包括对原始语音进行预加重、分帧、加窗等处理,提取语音对应的特征参数。

在得到了特征参数的基础上,采用模式识别理论的模板匹配技术进行相似度度量,来进行训练和识别。

在进行相似度度量时,采用DTW 算法对特征参数序列重新进行时间的对准。

一、 特征提取1、端点检测利用短时平均幅度和短时过零率进行端点检测,以确定语音有效范围的开始和结束位置。

首先利用短时平均幅度定位语音的大致位置。

做法为:(1)确定一个较高的阈值MH,短时平均幅度大于MH 的部分一定是语音段。

(2)分别沿这一语音段向两端搜索,大于某个阈值ML 的部分还是语音段,这样能较为准确地确定语音的起始点,将清音与无声段分开。

因为清音的过零率远远高于无声段,确定一个过零率的阈值Z min , 从ML 确定的语音段向前搜索不超过一帧的长度,短时过零率突然低于Zmin 三倍的点被认为是语音的起始点。

2、预加重对输入的原始语音进行预加重,其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。

假设在n 时刻的语音采样值为x(n),则经过预加重处理后的结果为:y(n)=x(n)+αx(n-1) α=0.983、分帧及加窗语音具有短时平稳的特点,通过对语音进行分帧操作,可以提取其短时特性,便于模型的建立。

帧长取为30ms ,帧移取为10ms ,然后将每帧信号用Hamming 窗相乘,以减小帧起始和结束处的信号不连续性。

Hamming 窗函数为: w(n)=0.54-0.46cos(12-N n π) (0≤n ≤N-1) 该系统中,hamming 窗的窗长N 取为240。

基于DTW的孤立词语音识别研究

基于DTW的孤立词语音识别研究
H( )一 1一 () 1
20
皆0 1 0

50
1 0O
1 50
2O 0
式 中 a为 预 加 重 系 数 , a取 值 为 0 9 1 0之 间 的数 , .一 .



般 取 值 为 d一0 9 。 .5 语 音 处 理 中 的窗 是 与短 时 分 析 紧 密 联 系 的 , 加 窗 的 而
图 2 数 字 … 的 端 点 检 测 结 果 3’
语 音 信 号 的特 征 参 数 主 要 有 : 量 、 度 、 零 率 、 能 幅 过 频 谱 、 谱 和 功 率谱 等 , 常 用 的特 征 提取 方法 有 : 性 预 测 倒 其 线
倒 谱 参 数 I CC和 Me 倒 谱 系 数 MF C。线 性 预 测 倒 谱 P l C 参数 L C P C是 从 人 的发 声 模 型角 度 出发 , 用 线 性 预 测 编 利
图5放宽起始点后的区域限制在放宽端点限制的dtw算法中累计距离矩阵中的元素1212132131不是根据局部判决函数计算得到的而是直接将帧匹配距离矩阵的元素填入自动从其中选择最小的一个作为起点对于终点也是从放宽终点的允许范围内选择一个最小值作为参考模式和测试模式的匹配距离
第1卷 第2 1 期
2 1年 2 02 月
明显 。
从 包 含语 音 的 一段 信 号 中 确 定 出 该 语 音 的起 始 点 及
终 止 点 的 过 程 为 语 音 端 点 检 测 。在 孤 立词 识 别 中 , 定 单 确 词 语 音 信 号 的起 始 端 点 可 以 减 少 量 的 计算 , 高语 音 识 别 提 的 效 率 。 目前 常 用 的 端 点 检 测 的 方 法 有 短 时 能 量 、 时 过 短 零 率 和 双 门 限 端 点 检 测 等 方 法 。图 2是数 字 “ ” 端 点 检 3的 测 结 果 , 中红 色 线 为 检 测 到 的 语 音 信 号 起 始 点 和 终 止 其

语音识别

语音识别

语音识别技术的研究摘要:随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,其技术的应用正在日益改变着人类的生产和生活方式。

本文介绍了语音识别的基本原理、方法,综述了语音识别系统的分类及语音识别系统模型,并分析了语音识别所面临的问题。

关键字:语音识别,应用,语音识别原理,语音识别系统语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

语音识别技术正逐步成为计算机信息处理技术中的关键技术.语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

其应用领域非常广泛,常见的应用系统有:语音输入系统,语音控制系统,智能对话查询系统等。

1 语音识别基础1.1语音识别技术原理语音识别系统本质上是一种模式识别系统。

包括特征提取、模式匹配、参考模式库等三个基本单元.它的基本结构如图所示:未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理.再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。

而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。

然后根据此模板的定义,通过查表就可以给出计算机的识别结果。

显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

预处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。

最常用的预处理有端点检测和语音增强。

端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。

语音识别概述

语音识别概述

语音识别项目概述1.语音识别概述与分类语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。

孤立词识别的任务是识别事先已知的孤立的词,如“开机"、“关机"等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现。

根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。

显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。

注:在特定人语音识别中,不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。

2.项目概述近年来,随着汽车产业的发展和汽车的普及,人们对车辆性能要求的不断提高,舒适性和便利性成为了当代社会汽车产业产业所追求的一致目标。

因而车载电子产品的种类和功能也日益增加,越来越便于车主的使用,然而随之而来的也造成了操作的繁琐性,甚至于存在一定安全隐患。

车载设备以服务用户为目的,因此人们需要一种更方便、更自然、更加人性化的方式与控制系统交互,而不再满足于复杂的键盘和按钮操作。

基于听觉的人机交互是该领域的一个重要发展方向。

目前主流的语音识别技术是基于统计模式.然而,由于统计模型训练算法复杂,运算量大,一般由工控机、PC机或笔记本来完成,这无疑限制了它的运用。

嵌入式语音交互已成为目前研究的热门课题.嵌入式语音识别系统和PC机的语音识别系统相比,虽然其运算速度和内存容量有一定限制,但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域.结合这一应用背景,本项目以语音识别模块LD3320为核心,结合Avr系列的MCU控制器,提出了一种方便现代生活的智能车载语音识别控制系统,以满足现代车辆车主在车内工作、休息、娱乐以及行车安全等方面的要求.本项目以语音识别技术为基础,利用语音命令作为人机接口,来实现对车上装备的音频和视频播放器、空调、电动车窗、移动电话、车载导航系统、卫星电台等电子产品进行智能控制的功能。

基于DTW改进算法的孤立词识别系统的仿真与分析

基于DTW改进算法的孤立词识别系统的仿真与分析

(
引言
.!/ 是把时 间 规 整 和 距 离 测 度 计 算 结 合 起 来
[ %] , 它利用动态时间伸缩算 的一种非线 性 规 正 技 术
法有效地解决了孤立词识别时说话速度不均匀的难 题, 是语音识别 中 较 为 经 典 的 一 种 算 法。 由 于 算 法 较易实现, 对硬件要求也不高, 因此广泛用于小词汇 量孤立词语音识别和小词汇量连接词语音识别系统 中。 但 是, .!/ 算 法 对 端 点 检 测 的 精 度 依 赖 性 较 大, 而且运算量较大。笔者对 .!/ 算法进行了深 入 研究, 提出了一种改进的端点检测算法, 同时采用了 一种改进的 .!/ 算法进行了仿真。仿真数据表 明, 改进的算法能有效 的 减 少 识 别 时 间 和 存 储 量, 提高 系统性能。
图’ 传统端点检测算法的检测结果
由此可以 得 出 对 % 和 $ 长 度 的 限 制 条 件, 如 ())和 (*)所 示, 当 不 满 足 这 两 个 条 件 时, 认为这两 者差别实在太大, 无法进行动态弯折匹配。 !% ( $ ! ’ ()) (*) !$ ( % ! ! 在 ! 轴上的每一帧不需要与 & 轴上的每一帧进 行比较, 而只与 & 轴上相邻的部分帧进行比较。 对于 虽然所要比较的 & 轴上的帧数不 ! 轴上每前进一帧, 同, 但弯折特性是一样的, 累积距离是由下式实现的: ( (, ( (, [’ ( ( ( ") , ’ ) )& * ) )# +,( ( ( ", , ’ ) ( ") ( ( ( ", ] ’ ) ( !) 由于 ! 轴上每前进一帧, 只需要用到前一列的 累积距离, 所以只需要两个列矢 量 ’ 和 * 分 别 保 存 前一列的累积距离和 计 算 当 前 列 的 累 积 距 离, 而不 用保存整个距离矩阵。 这样就可以实现减少存储量 和存储空间的目的。 ! ;!

语音识别技术综述

语音识别技术综述

语音辨别技术综述语音辨别技术综述电子信息工程2010 级 1 班郭珊珊【纲要】跟着计算机办理能力的快速提升,语音辨别技术获得了飞快发展,该技术的发展和应用改变了人们的生产和生活方式,正逐渐成为计算机办理技术中的要点技术。

语音技术的应用已经成为一个拥有竞争性的新兴高技术家产。

【要点词】语音辨别;语音辨别原理;语音辨别发展;产品语音辨别是以语音为研究对象,经过语音信号办理和模式辨别让机器人自动辨别和理解人类口述的语言。

语音辨别技术就是让机器经过辨别和理解过程把语音信号转变成相应的命令或文本的高新技术。

1语音识其余原理语音辨别系统本质是一种模式辨别系统,包含特色提取、模式般配、参照模式库等三个基本单位元。

未知语音经过话筒变换成电信号后加载识别系统的输入端,第一经过预办理,再依据人的语音特色成立语音模型,对输入的语音信号进行剖析,并抽取所需特色,在此基础上成立语音辨别所需的模板。

计算机在辨别过程中要依据语音识其余模型,将计算机中寄存的语音模板与输入的语音信号的特色进行比较,依据必定的搜寻和般配策略,找出一系列最优的与输入语音般配的模板。

而后依据此模板的定义,经过查表可给出计算机的辨别结果。

这类最优的结果与特色的选择、语音模型的利害、模板能否正确都有直接的关系。

2语音辨别系统的分类语音辨别系统能够依据对输入语音的限制加以分类。

2.1 从说话者与辨别系统的有关性考虑能够将辨别系统分为 3 类: (1) 特定人语音辨别系统:仅考虑关于专人的话音进行识别; (2) 非特定人语音系统:识其余语音与人没关,往常要用大批不一样人的语音数据库对识别系统进行学习; (3) 多人的辨别系统:往常能辨别一组人的语音,或许成为特定组语音辨别系统,该系统仅要求对要识其余那组人的语音进行训练。

2.2 从说话的方式考虑也能够将辨别系统分为 3 类: (1) 孤立词语音辨别系统:孤立词辨别系统要求输入每个词后要停留; (2) 连结词语音辨别系统:连结词输入系统要求对每个词都清楚发音,一些连音现象开始出现; (3) 连续语音辨别系统:连续语音输入是自然流畅的连续语音输入,大批连音和变音会出现。

-2012011257-孤立词语音识别技术研究

-2012011257-孤立词语音识别技术研究
1、短时能量、短时幅度
对信号完成上面的处理之后,第n帧的信号 为:
(4)
N代表帧长。不同的信号进行分帧后每一个帧会有不一样的能量。第n帧信号的短时能量En为:
(5)
2、短时过零率
通常,如果信号为连续的时间信号,短时过零率(ZCR)就是表示时域波形通过坐标时间轴的次数,语音的频谱特性就可以通过它表现出来了[]。就离散信号而言,邻近两个参数取样值不同的话就称之为过零。计算公式如下:
图1语音识别系统的原理图
1.2
语音识别的实现是一个比较复杂的过程,这是因为它牵扯到许多的知识点。这些知识点包括对信号的处理,一些算法的实现,还有一些语音识别的匹配方法。下面我们讲一下语音实现的具体过程。首先我们要获取一个语音库,其次是要对这些语音信号进行训练和处理,这些过程会在后面的章节中详细论述。通过训练将每一个词的模型保存建立为模版库。识别过程中,说话者声音也会经过一样的通道取得参数,保存建立为测试的模版。并在先前存储的参考模板库中匹配保存,然后把匹配率最大的参考模版作为最终的识别成果。从下图我们可以看到实现的具体步骤。
5.若在省教育厅、学校组织的毕业设计(论文)检查、评比中,被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为,本人愿意接受学校按有关规定给予的处理,并承担相应责任。
学生(签名):
日期:年月日
孤立词语音识别技术研究
学生:蒋召召(指导老师:方杰)
(皖西学院机械与电子工程学院)
摘要:语音识别是一种人机交互技术,它能通过机器识别和理解将语音信号转换为相应的命令或文本,以此实现人与计算机的“沟通”。孤立词语音识别系统主要应用于自动控制,如机器人操纵、通信设备控制、智能玩具操纵等。本文在基于MATLAB的基础上以隐马尔科夫模型为主要原理对孤立词语音命令识别系统进行了研究和实现。隐马尔科夫模型具有较高的识别准确度,在实现上也比较简单方便。通过最后的识别结果,证明这种该模型对语音识别技术的发展研究具有良好效果,最终实现了一个小词汇量的孤立词识别系统。

藏语孤立词语音识别技术研究

藏语孤立词语音识别技术研究

藏语孤立词语音识别技术研究赵尔平;王聪华;党红恩;雒伟群【摘要】针对藏语读音首先看后加字,然后根据元音的位置关系决定读音,而且元音比辅音携带更多听觉感知信息的特点,提出了一种改进的 HTK系统藏语孤立词语音识别技术.在识别特征参数中,增加更能表征元音特征的共振峰参数提高语音识别的正确性,通过循环迭代方法提高语音训练速度,利用藏文字母拉丁转写方法解决藏文和语音识别系统编码不一致的问题.在二次开发的H T K平台进行实验,正确率达到92.83%,实验结果表明元音特征在藏语音识别中起到重要作用.%Aiming at Tibetan pronunciation firstly look after hong jia zi , then its pronunciation is determined by the position of vowel , and a vowel carry more auditory perception information than a consonant in speech ,a Tibetan isolated word speech recognition technology of improved HTK system is proposed in this paper . The accuracy of speech recognition is improved by increasing a formant parameter in the recognition characteristic parameters , the formant parameter can characterize vowel features very well , the speech training speed is raised by cycle iteration , Tibetan letters transformation Latin alphabet solves inconsistent problem that Tibetan and speech recognition system code . The test is executed on the secondary developing HTK platform , the correct rate reaches 92.83% . Experimental result indicates that vowel features play an important role in Tibetan speech recognition .【期刊名称】《西北师范大学学报(自然科学版)》【年(卷),期】2015(000)005【总页数】5页(P50-54)【关键词】藏语孤立词;共振峰;M el倒谱特征;循环迭代;隐马尔可夫模型;语音识别【作者】赵尔平;王聪华;党红恩;雒伟群【作者单位】西藏民族大学信息工程学院,陕西咸阳 712082;西藏民族大学信息工程学院,陕西咸阳 712082;西藏民族大学信息工程学院,陕西咸阳 712082;西藏民族大学信息工程学院,陕西咸阳 712082【正文语种】中文【中图分类】TP912.34E-mail:*************Key words:Tibetan isolated word;formant;Mel cepstrum features;loop iteration;HMM;speech recognition语音识别是应用多学科交叉知识将语音信号转换为对应文字的技术,目的在于用声音实现人机交互.汉语、英语等主流语言的语音识别已取得很多成果,实验室环境下的识别效果可以满足人机交互系统的需要,在一些领域被广范应用.但是藏语语音识别还处在孤立词阶段,刚刚起步.1.1 隐马尔可夫模型隐马尔可夫模型(Hidden Markov model,HMM)是一种具有双重随机过程的统计分析模型,定义为五元组[1]67:其中,1)S为隐含状态,S={s1,s2,…,sN},N为隐含状态数目;2)O为可观察状态,O={o1,o2,…,oM},M为可观察状态数目,M=N或M≠N;3)Π为初始状态概率矩阵,Π={π1,π2,…,πN},πi=P(x0=si)(1≤i≤N)为初始时刻t=0模型各状态的概率;4)A为隐含状态转移概率矩阵,为t时刻状态si的条件概率下,在(t+1)时刻状态是sj的概率;5)B为观测状态概率矩阵,为t时刻隐含状态为sj条件下,观察状态是oi的概率.1.2HTK工具HTK(HiddenMarkovmodeltoolkit)是英国剑桥大学开发的一套构建隐马尔可夫模型( HMM)的工具箱,主要用于语音合成与识别、故障诊断和 DNA排序等领域[2],其核心功能包括数据准备、模型训练、语音识别.HTK具有允许用户根据实际需要进行二次开发的开源代码.1.3 藏语简介藏语是一种拼音文字,有30个辅音、4个单元音和1个无符号元音.国内学术界将藏语主要分为卫藏、安多和康三大方言[3].三大方言文字相同,发音有较大差异,文中选用使用人数最多、最具有代表性的卫藏方言(拉萨话)作为研究对象.2.1 卫藏语音卫藏方言作为现代藏语的标准,在长期应用发展中形成自己的规律与特点.研究表明[4],现代拉萨话的声母系统已经基本没有复辅音.声母系统主要指单辅音声母,共28个;韵母有45个(由单元音韵母、复合元音韵母和辅音韵尾的韵母三部分组成),韵母中有/a/,/i/,/u/,/e/,//,/ε/,/y/,/ø/ 8个基本元音、/iu/,/au/ 2个复合元音和7个辅音韵尾.现代拉萨话中单元音增多,尤其是鼻化元音,元音发音长短与声调有互补关系.藏语字母有一套严格排列规则,元音符号不能作为基字丁,只能固定地叠加在基字的上方或下方表示不同元音.元音的主要作用是做音节的韵母,每个音节中必须包含元音,元音在字母中的位置不同发音也不同.藏语先看后加字,然后根据元音的位置关系决定读音[5].2.2 元音特征Cole等提出元音比辅音对语音听觉感知更为重要[6].文献[7]采用噪声替换实验方法分别替换掉语音中的元音和辅音,实验结论是替换掉辅音的语音比替换掉元音的语音具有更高的识别率(比率约为2∶1),证明了元音比辅音携带了更多的信息.Kewley-Port等采用同样方法研究孤立词语音,发现元音比辅音携带了更多对语句可懂度有用的信息[8-9].由此可见,在语音识别中应用和识别元音特征至关重要.元音激励进入说话人声道引起共振,产生一组共振频率——共振峰,声学界学者研究表明[10],共振峰是区别不同元音的重要声学特征.由于藏语发音与元音位置有关,元音又比辅音携带了更多听觉感知信息,且卫藏韵母中包含8个基本元音和2个复合元音,所以提取共振峰参数(主要是前3个共振峰f1,f2,f3)对识别带有不同元音的藏语音增加了可靠的声学特征.因此文中在蔵语孤立词语音识别中,除了使用Mel倒谱参数外,增加共振峰参数来提高识别正确率.HTK平台利用12维MFCC系数和1维数能量经过一阶、二阶差分变后的39维MFCC特征向量进行语音识别,没有使用共振峰参数,文中对HTK平台进行改进,增加共振峰声学特征,与MFCC参数结合进行藏语音识别.3.1 提取共振峰特征共振峰信息包含在语音频率包络之中,因此共振峰参数信息提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰[11].提取共振峰参数的方法主要有倒谱法和线性预测法(LPC),倒谱法可以较好地分离出语音信号频谱包络结构.文中特别采用倒谱法,利用把语音频谱进行z变换、取对数和傅里叶变换变换等得到语音频谱的包络曲线.下面是倒谱法原理:选用最普遍的极零模型来描述表征声道响应x(n),其z 变换公式为[12]58经傅立叶、取对数和逆傅立叶变换得到复倒谱公式为倒谱算法将基音谐波和声道的频谱包络分离开,再对频谱包络曲线进行离散傅里叶变换得到离散谱曲线.按照离散频谱包络曲线各峰值能量的大小确定出1~4共振峰参数[11],而前3个共振峰参数就足以确定语音信号中的不同元音.提取中采用同态解卷技术消除基频谐波的影响,获得更精确的共振峰参数.3.2 共振峰与MFCC结合人耳对低频(<1 000 Hz)感知灵敏,感知力与频率大致呈线性关系;而对高频(>1 000 Hz)感知比较模糊,感知力与频率呈对数关系[13].Mel频率描述了人耳的这一听觉特性,将频谱转换为基于Mel频标的非线性频谱,再转换到频谱域中,Mel频标与频率f的关系可用下式近似表示[13]1333:Mel(f)= 2595lg(1+f/700).(4)MFCC参数提取步骤包括:①预加重;②分帧加汉明窗;③快速傅利叶转换;④三角带通滤波;⑤离散余弦变换得到12维MFCC系数;⑥对数能量;⑦差分变换.在差分变换之前,将3.1节中提取的f1,f2,f3共振峰参数增加到HTK系统,使得每帧语音基本特征为16维(1维对数能量、12维MFCC系数和3维共振峰参数),然后将16维基本特征进行一阶、二阶差分变换得到48维特征向量,即语音的差量倒频谱参数,它可以增加语音的动态特征.文中用48维差分倒谱参数对拉萨话语音进行训练与识别.3.3 循环迭代训练改进HTK训练过程(hmm0→hmm1→hmm2→hmm3→hmm4…),采用循环迭代训练过程(图1).采用循环迭代有两点益处:①多次修正HMM模型参数的初始值(hmm3→hmm0迭代),使训练算法快速收敛;②有利于统一搭建语音识别系统环境.由于每个单词发音不同,训练时的观察值个数不同,训练模型重估迭代次数存在不同,结果输出需要的文件目录就不一样多,不利于环境搭建.改进的循环迭代训练给每个单词统一搭建3个观察值目录,如果hmm2到hmm3迭代还未收敛,则继续hmm3到hmm0迭代,直到hmm2到hmm3迭代收敛时停止训练.训练是不断估计模型参数λ的最佳值,即模型的一个最大似然估计λ),每次迭代后都通过change度量收敛性,一旦change绝对值不再从一个HRest 迭代到下一个迭代减少,训练就停止.当change=0时,下次迭代时change的绝对值一定不会减少,此时表示已经收敛.基于Baum-Welch算法[14]的训练本质上是一种梯度下降方法,在训练过程中可能存在局部极小问题,所以训练开始用HCompv 工具对模型平坦初始化,用可变基底宏(varFloor1)的值在后续训练过程中作为估计的变化向量的基底,当后续训练某状态的估计变化值很小时,就用基底宏的值来代替,以避免局部极小问题,使得训练算法快速准确收敛.实践表明,循环迭代不会影响藏语音识别正确率,反而会加快训练速度,并使藏语音识别系统环境配置统一起来.3.4 藏文拉丁转写HTK工具箱是用来识别英语语音的,程序和配置文件(语法、任务字典、语音标注等)编码格式都是ANSI编码,文献[15]所述藏语字库国际标准编码是Unicode编码,如果配置文件中直接输入藏文就会成乱码,所以此系统不能直接识别藏语音.藏语研究者通常将藏文字母转写为拉丁字符来表示藏语的发音,所以文中采用国际通用的藏文字母拉丁转写来表示藏语单词,按文献[16]中规则转写.藏文拉丁转写方法解决了藏文与HTK系统编码不一致问题,方便改进的HTK系统实现藏语音识别.对HTK系统进行二次开发,增加共振峰参数提取、统计和分析功能,把原来的HTK平台系统与改进后的HTK平台系统进行比较实验测试.实验中,用于声学模型训练和测试的孤立词语音集采用16K采样频率,用16bit量化精度,双声道麦克风连接PC机在实验室环境下录制.选择拉萨地区发音标准的10位藏族学生(5男、5女)作为训练语料库发音对象,训练语料库包含10个学生对60个藏语词汇的一次朗读语音数据.测试语音库是30 个说话人(15 男、15 女)分别对60个训练词3次朗读语音数据,频谱特征观察矢量为每帧48 维向量.图2是改进后的HTK平台上进行的某一次测试结果,图2中单词识别率是93.55%,N=62表示被识别的孤立词总数(60个词和1个开始标志与1个结束标志),H=58表示正确识别词的数量,参考副本ref.mlf是训练时的整个语音标注文件,识别副本reco.mlf是测试时整个语音标注文件.通过比较语音在参考副本和识别副本中每项数据,进行识别性能测评.HTK与改进后的HTK系统30次平均测试结果如表1所示.由表1可知,共振峰与MFCC参数结合的方法(改进后的HTK)明显提高了拉萨话非特定人孤立词语音识别正确率,再次证明元音特征为孤立词识别提供了有用信息,元音在藏语发音中具有重要作用.实验过程中发现影响识别率的因素有:①语音信号正确标注,每个孤立词语音信号标注3个区域:开始停顿区、单词语音区、结束区,3个区域不能重叠,要有很小的间隙.②训练的语音必须有3个以上观察序列,否则不能训练,所以不能把一个人的连续几次发音数据作为语料库.③虚假共振峰影响识别率,尽量完全消除.④实验过程证明HMM模型选6个状态最佳,状态数增加或减少不会增加识别正确率.⑤循环迭代训练法不影响识别结果.文中对藏语拉萨话孤立词语音进行了分析,提出语音共振峰与MFCC参数为特征的藏语孤立词识别技术.在二次开发的HTK平台上进行测试,证明该方法明显提高藏语孤立词语音识别率,并指出影响识别率的几个干扰因素和解决方法.拉萨话是有声调的,长短声调与韵母发音有严格对应关系,今后研究方向是如何提取声调特征参与识别.而基字丁拆分技术可以实现藏语音中声母和韵母分离,声母、韵母声学特征也是今后研究的重要方向.[1] 王川,段德全,王晓东.基于改进的POS和HMM的Web信息抽取算法[J].河南师范大学学报(自然科学版),2010,38(5):65.[2] 魏巍,张海涛.一种基于HTK 的数字语音识别系统[J].计算机系统应用,2011,20(9):17.[3] 李冠宇,孟猛.藏语拉萨话大词表连续语音识别声学模型研究[J].计算机工程,2012,38(5):189.[4] 于洪志,高璐,李永宏,等.藏语机读音标SAMPA_ST的设计[J].中文信息学报,2012,26(4):67.[5] 刘博,杨鸿武,甘振业,等.利用SAMPA实现藏语的字音转换[J].计算机工程与应用,2011,47(35):117.[6] COLE R A,YANG Hong-yan,MAK B,et al.The contribution of consonants versus vowels to word rec ognition in fluent speech[C]//ProcICASSP 1996.Atlanta:IEEE,1996:853.[7] KEWLEY-PORT K,BURKLE Z,LEE Jae Hee.Contribution of consonant versus vowel information to sentenceintelligibility for young normal-hearing and elderly hearing-impairedlisteners[J].AcousticalSocietyofAmerica,2007,122(4):2365.[8] LEWICHI M S.A signal take on speech[J].Nature,2010,466(12):821.[9] 颜永红,李军锋,应冬文.语音中元音和辅音的听觉感知研究[J].应用声学,2013,32(3):231.[10] 赵力.语音信号处理[M].北京:机械工业出版社,2003:5-9.[11] 王坤赤,蒋华.基于语音频谱的共振峰声码器实现[J].现代电子技术,2007(21):168.[12] 王晓亚.倒谱在语音的基音和共振峰中提取的应用[J].无线电工程,2004,34(1):57.[13] 王宏志,徐玉超,李美静.基于Mel频率倒谱参数相似度的语音端点检测算法[J].吉林大学学报(工学版),2012,42(5):1331.[14] 张增银,元昌安,胡建军,等.基于GEP和Baum-Welch算法训练HMM模型的研究[J].计算机工程与设计,2013,31(9):2027.[15] 黄鹤鸣,赵晨星.藏文信息处理的Windows支持环境[J].计算机应用与软件,2009,26(12):188.[16] 李用宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报(自然科学版),2008,48(S1):622.。

ADSP

ADSP

ADSP
摘要:设计了一个嵌入式语音识别系统,该系统硬件平台以ADSP-
BF531 为核心,采用离散隐马尔可夫模型(DHMM)检测和识别算法完成了对非特定人的孤立词语音识别。

试验结果表明,该系统对非特定人短词汇的综合识别率在90%以上。

该系统具有小型、高速、可靠以及扩展性好等特点;可应用于许多特定场合,有很好的市场前景。

文中讲述了该系统CODEC、片外RAM、ROM 以及CPLD 等与DSP 的接口设计,语音识别运用的矢量量化、Mel 倒谱参数、Viterbi 等有关算法及其实际应用效果。

关键词:ADSP-BF531;语音识别;离散隐马尔可夫模型;非特定人;孤立词
自上世纪70 年代以来,国内外的专家们在语音识别研究领域内取得了重大突破,先后出现了动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经网络(ANN)等3 种主要方法。

DTW 虽然在孤立词语音识别中取得了不错的性能,但其要求的存储量和计算量太大;ANN 虽然前景看好但其目前尚未有突破性进展,目前它们都难以在工程中得到广泛的应用。

HMM 算法使语
音识别的计算量得到大大减少,而且正确率较高,从而在语音识别中得到广泛引用。

笔者在以ADSP-BF531 为核心构建的嵌入式系统上实现了对非特定人、孤立词的语音识别,该系统采用了端点检测、矢量量化(VQ)和离散隐马尔可夫模型(DHMM)等算法。

1 ADSP-BF531 介绍
ADSP-BF531 是ADI 公司Blackfin 系列的高性能DSP,其最高主频为400MHz,内有2 个16 位MAC,2 个40 位ALU,4 个8 位视频ALU,以及。

基于片上系统的孤立词语音识别算法设计

基于片上系统的孤立词语音识别算法设计
维普资讯
3 第 3 卷 第 l 期 3
V .3 o1 3






20 07年 7月
J l 0 7 u y2 0
No1 .3
Co p t rEn i e r n m u e gn e i g
博 士论 文 ・
文章编号:1 0- 2(I)- 15 3 文献标识码: 0 _3 8 I73一0 —0 0一4 2I l 2 I A
芯片的语音识别算法有着重要意义 。
1 孤立词语音识剐系统
孤立词语音识别系统应 用于嵌入式控制领域 ,例如数字
家庭控制、车载语音控制 和智能语音可控玩具等。这种系统
的原理如 图 1 。
降低系统成本。由于嵌 入式系统资源有限 ,语音命令识别 系 统所需要的词汇量有限,所须识别 的语音都是简短命令,因
析和记忆。S C有片 内处理器和片 内总线 ,具有速度快 、体 o 积小、成本低、可扩展性强等优点 ,已成为语 音识别技术应 用发展 的一个重要方向 “ 。研究和开发应用于 片上系统 S C o
系统 的特点进行 S C语音识 别算法 的选择和设计。 o () 1特征提取 算法 的选择 。MF C算法能很好地表征语音 C 信号 ,而且在噪声环境下能取得很好 的识别效果 。而 L C系 P 数对元音有较好的描述能力 ,对辅 音描述能力较差 ,抗噪声 性能也相对差些。但是考虑算法 的计算量 ,MF C提取特征 C
LI Jn iHUANG a g i, U i we, Zh n qn HOU b n Yii ( l g f o ue. in iesyo e hoo yBe ig10 2 ) Col e mp trBe igUnvri f cn lg , in 0 0 2 e oC j t T j

基于DTW算法的语音识别原理与实现

基于DTW算法的语音识别原理与实现

基于DTW算法的语音识别原理与实现[摘要]以一个能识别数字0~9的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。

其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论,最后给出了在Matlab下的编程方法和实验结果。

[关键字]语音识别;端点检测;MFCC系数;DTW算法[中图分类号]TN912.34[文献标识码]APrinciple and Realization of Speech Recognition Based on DTW AlgorithmAbstract With an example of the realization of a 0~9 identifiable speech recognition system, the paper described the basic principles and key technologies of isolated word speech recognition based on DTW algorithm, including method of endpoint detection, calculation of characteristic parameters, and implementation of DTW algorithm. Programming method under Matlab and experimental results are given at the end of the paper.Keyword speech recognition; endpoint detection; MFCC parameter; DTW algorithm0引言自计算机诞生以来,通过语音与计算机交互一直是人类的梦想,随着计算机软硬件和信息技术的飞速发展,人们对语音识别功能的需求也更加明显和迫切。

理论、语音语言学神经生理学等学科...

理论、语音语言学神经生理学等学科...

浙江大学硕士学位论文孤立词语音识别系统设计研究姓名:时晓东申请学位级别:硕士专业:电路与系统指导教师:沈海斌20060501浙江大学硕士学位论文馨摘要语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。

随着大规模集成电路技术的发展,语音识别技术的研究方向开始步入后时代,以嵌入式语音识别芯片为主。

本文对语音识别系统进行了概要的阐述,并提出了一种基于小码本孤立词语音识别系统的硬件实现方法。

并根据预处理单元、特征提取单元的特点,提出了一种更适合硬件实现的算法改进。

并给出了硬件实现的框架结构。

在预处理单元,为了简化硬件设计难度及提高识别的精度,从两个方面做了工作,一是对预加重模块采取了近似法,并在计算能量的除法中利用左移而成功避免了除法器的设计;二是在端点检测上进行了算法改进,分别采用了动态窗长及零能积差的阈值判决法。

从实验结果来看效果比较理想。

在特征提取上,摒弃了在软件设计中常用的杜宾法求解自相关方程的方法,而采用更适于硬件设计的舒尔法。

进一步优化了硬件设计。

本文的重点内容是模式匹配单元的实现。

根据系统要求,设计了一种基于算法的模式匹配算法,由于是基于孤立词并且是小码本的,所以采用算法是比较理想的选择,但算法有两个最大的缺陷:一是对端点的敏感性;二是运算量较大。

在这个问题上我们采取了折中,在传统的加速算法上进行了改进,采用了半宽松式的端点对准。

这样做有两个好处:一是使得算法对端点的敏感性得以大大改善;二是改进后的半宽松式的端点对准更适于硬件的实现。

从实验结果来看取得了较好的效果。

【关键字】语音识别端点检测特征提取模式匹配浙江大学硕士学位论文. 曲,,,舶 .沛,, . 髓廿,,印. № .锄 ?., 鸟衢狮,,,, 如 ;, ,幻 .. ,印,?.. ., ,,,砌 :四,;, .,恤浙江大学硕士学位论文?【 .:,℃ ;. 甜..’啊: 印, ,廿,,浙江大学硕士学位论文图表目录图.语音识别技术发展历史中的重要事件.... 图一语音识别的典型应用?..图语音识别基本原理框图??..图.特征提取模型框图..图.孤立词语音识别系统结构框图?..图.窗函数的时域和频域波形..图时间规整示意图?...图.常用的几种约束路径??,..图.预加重的硬件实现框图?.图.信号帧移示意图??....图.窗长可变的算法框图。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1?%0’&(0: VYOAKOE POYOBPOB<, ;@THA<OP JTEP EONTCB;<;TB NAB :O J;POHS D@OP ;B EOAH AYYH;NA<;TB$ZB <I;@ YAYOE, -. ABP /01 AEO NAEOUDHHS ABAHS@O@, ;B TEPOE <T ;?YETRO <IO YOEUTE?ABNO TU <IO )ABPAE;B ;@THA<OP JTEP EONTCB;<;TB @S@<O?, :T<I UTE @YOOP ABP ANNDEANS$VOROEAH ?O<ITP@ AEO YETYT@OP :S AB<ITE@, ABP <IO OLYOE;?OB<@ @ITJ <IO@O ?O<ITP@ AEO OUUON<;RO ABP OA@S <T :O AYYH;OP$ @#AB.’*%: VYOONI [ONTCB;<;TB, Z@THA<OP 1TEP , [ONTCB;<;TB VYOOP , -., /01
孤立词语音识别算法性能研究与改进
徐霄鹏 #
#

及!
刘庆升 #
黄文浩 #
( 中国科学技术大学精密仪器系, 合肥 !’""!5 ) ! ( 清华大学电子工程系, 北京 #"""8* )
FG?A;H: IAJKLDM?A;H$D@<N$OPD$NB
摘要
文章针对特定人中小字表孤立词语音识别, 以提高实用性为目的, 对两种常用识别方法( 的效果及其性 -. 、 /01)
%567& 或格形算法, 协方差算法) 成后, 对每个帧, 根据 /DE:;B 算法(
以及自 动 翻 译 系 统
计算其 B 阶 234 系数, 从而得到 B 维 234 特征矢量。 这里有一 本文将在后面给出具 个问题, 就是 234 系数的阶数 B 的选择, 体的讨论和实验结果。
总的趋势也是向大字表或高噪声条件下的识别这个 的 研 究 %,&, 方向发展。而对于已经比较成熟的矢量量化( 、 动态时间归 -.) 正( 等识别方法, 如何进一步提高其识别速度与识别率 /01) 从而使其能迅速在生产生活中得到实际应用, 则相对研究较少。 该文作者在声控产品开发的过程中, 本着保证识别率的前 提下尽量提高识别速度的目的, 进行了大量实验, 在文中提出 了一些具有实用价值的方法, 希望能为语音识别技术的进一步 实用化提供一些有益的参考。
%*, +&
!$#
特征提取
%8&, %#"& 首先 麦 克 风 输 入 通 过 放 大 、 反 混 叠 滤 波 %5&, , 以 ##"!+(9
采样率进 行 采 样 、 得到一系列 8:;< = > / 变 换 等 一 系 列 预 处 理 , 约 #"?@) 进行分帧, 根据能 的采样值, 随 后 按 #"" 采 样 点 > 帧 ( 量特征和过零率特征进行端点检测 %##&, 提取有效语 音 。 然 后 根 约 !" ?@) 进行分帧, 分 据语音的短时周期特性, 按 !"" 点 > 帧( 割 方 法 是 加 长 度 为 !"" 点 的 (A??;BC 窗 , 帧 移 #"?@。 分 帧 完
* 识别性能改进的一些考虑 *$# %&’ 阶数选择
线形预测分析基于如下基本概念, 即一语音样值能用过去 的若干语音样值的线形组合来近似估计( 预测) 。 按在一所分析 的帧( 短时段) 内实际的各语音样与各预测样之间的差值的平 方和最小准则, 可以决定唯一的一组预测系数, 即 %&’ 。可以
4,6
表#
%&’
阶数 第一组
*$!
精简表示语音的特征序列中特征矢量的数目
在对两个语音特征序列进行匹配时, 这两个序列各自的长
度( 总帧数) 将对计算速度具有极大影响, 这 在 123 计 算 中 表 现得尤其突出, 由此可以想到, 为了提高识别速度, 可以从减少 语音序列的总帧数方面着手。减少帧数的可行办法主要有两 种, 一是删除次要帧, 二是相邻帧合并。 根据语音识别理论,一段语音是由一个个不同状态组成, 同一个状态内语音特征呈较平稳的形态,相邻帧距离较小, 而 在不同状态过渡的过程中, 语音模式变化剧烈, 相邻帧距离较 大。研究表明, 在语音识别中起主要作用的帧是处于不同状态 过渡位置的帧 4,6。 根据该结论可以尝试如下方法: 先顺序求出一 次语音的全部相邻特征矢量的距离, 然后删除相邻帧间距较小 的一部分特征帧,利用余下的相邻帧间距较大的帧进行识别。 此外还可考虑用平均的方法把语音序列的相邻的若干帧合并 为一帧, 该方法在实验中取得了良好效果。
认为 %&’ 是 7 域声道全极点模型传递函数 8 ( 的分 7) 9# ( : ( 7) 母 :( 的 系 数 。 有 关 文 献 4)6 指 出 , 7) %&’ 的 阶 数 可 以 考 虑 取 ) 到 !" 之 间 , 如果低于 ) 阶, 对声道模型逼近的误差太大, 而当 阶数从 #! 阶逐渐往 !" 阶甚至更高阶过渡的时候, 虽逼近效果 略有改善, 但增添了一些不必要的细节, 有时使效果反而变坏, 同时计算量大幅度增加。阶数具体如何选择, 应综合考虑系统 特性。
实验四是二级识别效果测试, 各 率的影响, 识 别 方 法 为 123; 次测试的不同之处在于采用了不同的第一级识别对参考语音 在实 进行筛选。 第二级识别均采用识别率最高的全序列 123。 验一中, 为了测试噪音对不同阶数 %&’ 系 数 识 别 效 果 的 影 响 , 其它实 用同一人在不同条件下录制的 # 、 !、 * 测试集进行测试。 验均用噪音和发音随机性较强的 # 、 这样可 + 测试集进行测试, 以更好地表现出不同方法所产生的效果差距。 在识别速度统计 降温” 的发音进行一次识 中, 用 <:2%:F 程 序 对 特 定 的 某 次 “ 别的时间为基准。 需要说明的是, 由于软件特性的不同, 根据测 试用 8’ 编写的相同程序速度将加快 #" 倍以上, 可 以 达 到 实 时识别的要求。 实验一:
时间顺序从而对识别率有较大的影响。 目前用该方法实现的识 别系统识别率通常在 )"/到 ,"/左右。
近的位置, 也有极少数在第三近的位置。 有鉴于此, 我们在文中 尝试了如下方法: 首先利用速度较快的算法筛选出最接近的三 个参考语音,然后将这三个语 音 的 完 整 的 %&’ 特 征 序 列 与 待 识音的完整的 %&’ 特征序列进行 123 匹配, 得到 最 后 的 识 别 结果。
, ( #+" + ( #+" * ( #+" 0 ( #+" + ( #+" 0 ( #+" 0 ( #+"
!$!
识别方法
!$!$# -. 识别法 %567& -. 的主要工作是聚类,即在特征空间中合理地拟定一组
点( 该组点整体称为码本, 每个点成为码字) , 于是特征空间中 任一点均可按最小距离准则用码本之一来代表( 称为该点的矢 量量化点) 。 训练时由训练音特征序列生成相应的一组码本, 识 别时计算待识音特征序列各帧矢量到各码本的总畸变, 取畸变 值最小同时满足一定距离要求的码本对应音作为识别结果。 该 方法优点是识别计算量较小, 缺点是没有利用语音特征序列的
%:F0$* 。
实验内容:实验一用于 考 证 不 同 阶 数 的 %&’ 系 数 对 识 别 速度和识别率的影响, 采用的识别方法为 8G ; 实验二用于考证
%&’ 特 征 序 列 删 减 对 识 别 速 度 和 识 别 率 的 影 响 , 识 别 方 法 为 123;实验三用于考证 %&’ 特征序列合并对识 别 速 度 和 识 别
+
实验数据及结论
实验对象: 打开、 关闭、 制冷、 取暖、 升 #+ 个 两 至 三 字 词 (
温、 降温、 强风、 弱风、 温度一、 温度二、 温度三、 温度四、 温度五、 温度六) , 由两名男性青年发音作为测试集。 其中一名男青年在 噪音( 说话声、 音乐声、 较大的空调噪声混合) 大、 中、 小情况下 对各语音各发 #! 遍,另一名男青年在噪音适中情况下对各语 音 发 #! 遍 , 每个词的前两次发音作为训练音, 后 #" 次 发 音 作 为 被 识 别 音 。 被 识 别 音 按 上 述 顺 序 分 别 构 成 第 #、 !、 *、 + 测试 集, 各由 #+" 个语音构成。其中 # 、 + 测试集以各种不同规律进 行发音( 轻、 重、 缓、 急、 先轻后重、 先重后轻、 先缓后急, 先急后 缓) , !、 * 测试集发音相对一致性较好。 实验平台: &;;;+0" , .+< 内存, =:<:>:-!+ 声卡和廉价微 型麦克风。计算所使用的软件为 ?@ABC?D,) 操 作 系 统 和 <:2E
#
78 74&.-#)39 68 :4; <48 =4)3%"#)39 >8&)3 6#)"&.9 ( QB;ROE@;<S TU VN;OBNO ABP 0ONIBTHTCS TU 4I;BA , (OUO; !’""!5) ! ( 0@;BCIDA QB;ROE@;<S, WO;X;BC #"""8*)
相关文档
最新文档