孤立词语音识别程序

合集下载

语音识别技术简介

语音识别技术简介我想大家都听过阿里巴巴与四十大盗的故事，阿里巴巴的“芝麻开门”就是一个语音识别的例子，可见语音识别是很早就启蒙了。

今天我就和大家一起来学习一下语音识别技术。

让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。

伴随计算机技术发展，语音识别己成为信息产业领域的标志性技术，在人机交互应用中逐渐进入我们日常的生活，并迅速发展成为“改变未来人类生活方式厅的关键技术之一”。

语音识别技术以语音信号为研究对象，是语音信号处理的一个重要研究方向。

其最终目标是实现人与机器进行自然语言通信。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

主要包括特征提取技术、模式匹配准则及模型训练技术三个方面，所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

今天主要讲的内容有：语音识别的发展历史、系统分类、基本方法、系统结构、面临问题以及前景展望。

语音识别发展历史1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。

1960年英国的Denes等人研究成功了第一个计算机语音识别系统。

大规模的语音识别[3]研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。

进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。

在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM）的技术思路。

此外，再次提出了将神经网络技术引入语音识别问题的技术思路。

进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。

但是，在语音识别技术的应用及产品化方面出现了很大的进展。

我国语音识别研究工作起步于五十年代，但近年来发展很快。

研究水平也从实验室逐步走向实用。

我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。

基于 DSP 的非特定人语音识别系统

基于DSP的非特定人语音识别系统罗俊光1，汤荣江2（1，2：广东工业大学计算机学院广东广州 510006）摘要：本文介绍了一种基于TMS320C6711 DSP的非特定人、孤立词语音识别系统。

本文首先介绍了语音识别技术的基本原理，然后对不同的识别算法在多种嵌入式系统平台上进行性能分析和比较，可得到本语音识别系统具有较高的识别率、实时性和鲁棒性。

关键词：语音识别 DSP 嵌入式 MFCC中图分类号：TP391.42 文献标识码：BResearch and Realization of Speaker-Independent Speech Recognition System based on DSPJunGuang Luo, RongJiang Tang(Faculty of computer, Guangdong University of Technology, Guangdong Guangzhou, 510006) Abstract—This paper introduces a speaker-independent and isolated word speech recognition system based on TMS320C6711 DSP. Firstly, the fundamental theory of speech recognition technology is introduced. Then, we can get this speech recognition system has the better performance of recognition、real-time and robustness, according to the result of comparing with different recognition arithmetic in several embedded platforms that are specially designed. Keywords—Speech Recognition DSP Embedded system MFCC1.引言语音识别技术，作为2000～2010年间信息技术领域十大重要的科技发展技术之一，由于它可观的实际应用价值和技术上的难度成为当前的热点。

孤立词语音识别中期报告

1 课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。

我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别十个元音。

直至1973年才由中国科学院声学所开始计算机语音识别。

1986年3月我国高科技发展计划(863计划)启动，国家863智能计算机专家组为语音识别技术研究专门立项，每两年举行一次专题会议。

现在我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势。

国内有不少语音识别系统已研制成功。

在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。

在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。

在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

随着信息产业的迅速发展，人们倾向于使用高效，快捷，方便的电子产品。

语音识别作为人机交互的一项关键领域，具备了实时，方便，快速等特点，在当今科学技术的发展上也有着日益重要的地位。

在一些特定的环境或是对于一些特定的人，语音识别可以带来很大的方便。

例如，驾驶员在高速行驶的汽车内电话拨号，飞行员在飞行过程中发出必要的命令等，都需要语音识别系统，另外语音识别也给失明者带来很大的帮助。

２课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法，期望在进行端点检测时，能进一步提高识别率。

该设计要求采用TW算法。

主要任务：1、理论分析，提出设计方案；2、语音采集；3、特征提取，形成训练集；4、特定人孤立词语音识别算法的程序实现。

３基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统，因此它的基本结构与常规模式识别系统一样，包含有特征提取、模式匹配、参考模式库等三个基本单元。

语音识别技术

历史早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。

而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。

最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。

其识别方法是跟踪语音中的共振峰。

该系统得到了98%的正确率。

到1950年代末，伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。

这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间弯折Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model 的应用。

从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。

[1]。

此后严格来说语音识别技术并没有脱离HMM框架。

尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。

编辑本段模型目前，主流的大词汇量语音识别系统多采用统计模式识别技术。

典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。

该模块的主要任务是从输入信号中提取特征，供声学模型处理。

同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

统计声学模型。

典型系统多采用基于一阶隐马尔科夫模型进行建模。

发音词典。

发音词典包含系统所能处理的词汇集及其发音。

发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

语言模型。

声控机器人的特定人孤立词汉语识别系统设计

文章编号：６１７５２０）１０３ｏ１７ —８５（０６０－０５一４
ＤｅｉｎｏｉｅｅＳｅｋｒ・ｄｐｎｅｔａｄＩｏａｅ — ｒｐｅｈｓｇｆＣｈｎｐａｅ — ｅｅｄｎｎｓｌｔｄ・ｗｏｄＳｅｃｓ・・ＲｅｏｎｔｎＳｓｅｏｉｅＣｏｔｏｂｔｃｇｉｏｙｔｍｆＶｏｃｎｒｌＲｏｏｉ
声控机器人的特定人孤立词汉语识别系统设计
何燕玲马建国
四川绵阳６１１）２００（西南科技大学信息工程学院
摘要：利用语音命令对机器人的行动控制，有很大的实用价值。介绍了采用动态时问弯折（ｙｗ，ｙａｉＴｅ１ｒＤｎｍｃｉｍＷａｉ）ｒｎ算法进行模式匹配的特定人孤立词汉语识别系统。ｌｗ算法简单有效，ｐｇｙｒ尤其适合孤立词语识别系统。用
凌阳单片机ＳＣ０１建的机器人平台对系统进行测试，表明，ＰＥ６Ａ搭结果系统识别效果良好，制者通过语音可以实控
时控制机器人行动。
关键词：语音识别
动态时间弯折算法
特定人
孤立词
中图分类号：Ｐ４．３Ｔ２２６’
文献标识码：Ａ
ｃｉ．Ｔｅｔｓｉｇｒｓｌｈｗａｅｒｃｇｉｏｅｆｒｎｅｉｇｏｄｔｅｍａｉｕａｏａｃｉｖｈｐｈｔｅｕｔｓｏｔｔｔｏｎｔｎｐｒｍａｃｓｏｄａｎｐｌｔｒｃｎａｈｅｅｅｎｓｈｈｅｉｏｎｈｅｌｉｒａ —ｔｏｔｌｏｅｒｂｔｂｏｃ．ｍｅｃｎｒｆｔｏｙｖｉｅｏｈｏＫｅｒｓｐｅｈｒｃｇｉｏ；ｄａｃｔｒｉｇａｇｒｔｍ；ｓｅｋｒｄｐｎｅｔｓｌｔｒｙｗｏｄ：ｓｅｃｏｔｎｙｍｉｉｗａｐｎｏｉｅｎｉｎｍｅｌｈｐａｅｅｄｎ；ｉａｅｗｏｄｅｏ

用于孤立词识别的语音识别系统实验报告

用于孤立词识别的语音识别系统实验报告语音是人际交流的最习惯、最自然的方式，它将成为让计算机智能化地与人通信，人机自然地交互的理想选择。

让说话代替键盘输入汉字，其技术基础是语音识别和理解。

语音识别将人发出的声音、音节、或短语转换成文字和符号，或给出响应执行控制，作出回答。

该系统用于数字0～9的识别，系统主要包括训练和识别两个阶段。

实现过程包括对原始语音进行预加重、分帧、加窗等处理，提取语音对应的特征参数。

在得到了特征参数的基础上，采用模式识别理论的模板匹配技术进行相似度度量，来进行训练和识别。

在进行相似度度量时，采用DTW 算法对特征参数序列重新进行时间的对准。

一、特征提取1、端点检测利用短时平均幅度和短时过零率进行端点检测，以确定语音有效范围的开始和结束位置。

首先利用短时平均幅度定位语音的大致位置。

做法为：（1）确定一个较高的阈值MH,短时平均幅度大于MH 的部分一定是语音段。

（2）分别沿这一语音段向两端搜索，大于某个阈值ML 的部分还是语音段，这样能较为准确地确定语音的起始点，将清音与无声段分开。

因为清音的过零率远远高于无声段，确定一个过零率的阈值Z min , 从ML 确定的语音段向前搜索不超过一帧的长度，短时过零率突然低于Zmin 三倍的点被认为是语音的起始点。

2、预加重对输入的原始语音进行预加重，其目的是为了对语音的高频部分进行加重，增加语音的高频分辨率。

假设在n 时刻的语音采样值为x(n),则经过预加重处理后的结果为：y(n)=x(n)+αx(n-1) α=0.983、分帧及加窗语音具有短时平稳的特点，通过对语音进行分帧操作，可以提取其短时特性，便于模型的建立。

帧长取为30ms ，帧移取为10ms ，然后将每帧信号用Hamming 窗相乘，以减小帧起始和结束处的信号不连续性。

Hamming 窗函数为： w(n)=0.54-0.46cos(12-N n π) (0≤n ≤N-1) 该系统中，hamming 窗的窗长N 取为240。

文献语音检索系统孤立词识别技术的研究

维普资讯
科技信息
０科教视野０
ＳＩＮＥ＆ＴＣＮＯＧＦＭＡＴＯＮＣＥＣＥＨＯＬＹＩＯＲＮＩ
２００７年
第２３期
文语检索统立别术的献音系孤词识技研究
李志刚（黑龙江司法警官职业学院黑龙江哈尔类的语言吗？我们能扔掉键盘、标用自然语言态规划方法成功解决了语音信号特征参数序列比较时时长不等的难鼠在操纵计算机吗？人与计算机之间能够用自然语言进行通信和交流吗？题．孤立词语音识别中获得了良好性能。所以本系统所采用的模式匹配技术是动态时间弯折模式匹配技术。随着语音识别技术的发展，些梦想正在变为现实。这
６代，０年计算机的应用推动了语音识别的发展。这时期的重要成词的识别系统。果是提出了动态规划（ｙａｉＰｏｒｍｎ，称Ｄ和线性预测分析Ｄｎｍｃｒｇａｍｉｇ简Ｐ）３．大词汇量语音识别系统 — — 通常包括几千至几万个词的语音技术（ｉｅｒＰｅｉｔｎ简称Ｌ，中后者较好地解决了语音信号产识别系统。这些不同的限制也确定了语音识别系统的困难度。Ｌｎａｒｄｃｉ，ｏＰ）其根据上述分类本文所研究的系统属于孤立词、于特定人的小词基生模型的问题．对语音识别的发展产生了深远影响。

语音识别概述

语音识别项目概述1.语音识别概述与分类语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition)，关键词识别（或称关键词检出，keyword spotting)和连续语音识别。

孤立词识别的任务是识别事先已知的孤立的词，如“开机"、“关机"等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。

显然,非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。

注：在特定人语音识别中，不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。

2.项目概述近年来,随着汽车产业的发展和汽车的普及，人们对车辆性能要求的不断提高，舒适性和便利性成为了当代社会汽车产业产业所追求的一致目标。

因而车载电子产品的种类和功能也日益增加，越来越便于车主的使用，然而随之而来的也造成了操作的繁琐性，甚至于存在一定安全隐患。

车载设备以服务用户为目的，因此人们需要一种更方便、更自然、更加人性化的方式与控制系统交互,而不再满足于复杂的键盘和按钮操作。

基于听觉的人机交互是该领域的一个重要发展方向。

目前主流的语音识别技术是基于统计模式.然而，由于统计模型训练算法复杂,运算量大，一般由工控机、PC机或笔记本来完成，这无疑限制了它的运用。

嵌入式语音交互已成为目前研究的热门课题.嵌入式语音识别系统和PC机的语音识别系统相比，虽然其运算速度和内存容量有一定限制，但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域.结合这一应用背景，本项目以语音识别模块LD3320为核心,结合Avr系列的MCU控制器，提出了一种方便现代生活的智能车载语音识别控制系统，以满足现代车辆车主在车内工作、休息、娱乐以及行车安全等方面的要求.本项目以语音识别技术为基础，利用语音命令作为人机接口，来实现对车上装备的音频和视频播放器、空调、电动车窗、移动电话、车载导航系统、卫星电台等电子产品进行智能控制的功能。

语音识别技术综述

语音辨别技术综述语音辨别技术综述电子信息工程2010 级 1 班郭珊珊【纲要】跟着计算机办理能力的快速提升，语音辨别技术获得了飞快发展，该技术的发展和应用改变了人们的生产和生活方式，正逐渐成为计算机办理技术中的要点技术。

语音技术的应用已经成为一个拥有竞争性的新兴高技术家产。

【要点词】语音辨别；语音辨别原理；语音辨别发展；产品语音辨别是以语音为研究对象，经过语音信号办理和模式辨别让机器人自动辨别和理解人类口述的语言。

语音辨别技术就是让机器经过辨别和理解过程把语音信号转变成相应的命令或文本的高新技术。

1语音识其余原理语音辨别系统本质是一种模式辨别系统，包含特色提取、模式般配、参照模式库等三个基本单位元。

未知语音经过话筒变换成电信号后加载识别系统的输入端，第一经过预办理，再依据人的语音特色成立语音模型，对输入的语音信号进行剖析，并抽取所需特色，在此基础上成立语音辨别所需的模板。

计算机在辨别过程中要依据语音识其余模型，将计算机中寄存的语音模板与输入的语音信号的特色进行比较，依据必定的搜寻和般配策略，找出一系列最优的与输入语音般配的模板。

而后依据此模板的定义，经过查表可给出计算机的辨别结果。

这类最优的结果与特色的选择、语音模型的利害、模板能否正确都有直接的关系。

2语音辨别系统的分类语音辨别系统能够依据对输入语音的限制加以分类。

2.1 从说话者与辨别系统的有关性考虑能够将辨别系统分为 3 类： (1) 特定人语音辨别系统：仅考虑关于专人的话音进行识别； (2) 非特定人语音系统：识其余语音与人没关，往常要用大批不一样人的语音数据库对识别系统进行学习； (3) 多人的辨别系统：往常能辨别一组人的语音，或许成为特定组语音辨别系统，该系统仅要求对要识其余那组人的语音进行训练。

2.2 从说话的方式考虑也能够将辨别系统分为 3 类： (1) 孤立词语音辨别系统：孤立词辨别系统要求输入每个词后要停留； (2) 连结词语音辨别系统：连结词输入系统要求对每个词都清楚发音，一些连音现象开始出现； (3) 连续语音辨别系统：连续语音输入是自然流畅的连续语音输入，大批连音和变音会出现。

-2012011257-孤立词语音识别技术研究

1、短时能量、短时幅度
对信号完成上面的处理之后，第n帧的信号为：
（4）
N代表帧长。不同的信号进行分帧后每一个帧会有不一样的能量。第n帧信号的短时能量En为：
（5）
2、短时过零率
通常，如果信号为连续的时间信号，短时过零率(ZCR)就是表示时域波形通过坐标时间轴的次数，语音的频谱特性就可以通过它表现出来了[]。就离散信号而言,邻近两个参数取样值不同的话就称之为过零。计算公式如下：
图1语音识别系统的原理图
1.2
语音识别的实现是一个比较复杂的过程，这是因为它牵扯到许多的知识点。这些知识点包括对信号的处理，一些算法的实现，还有一些语音识别的匹配方法。下面我们讲一下语音实现的具体过程。首先我们要获取一个语音库，其次是要对这些语音信号进行训练和处理，这些过程会在后面的章节中详细论述。通过训练将每一个词的模型保存建立为模版库。识别过程中，说话者声音也会经过一样的通道取得参数，保存建立为测试的模版。并在先前存储的参考模板库中匹配保存，然后把匹配率最大的参考模版作为最终的识别成果。从下图我们可以看到实现的具体步骤。
5.若在省教育厅、学校组织的毕业设计（论文）检查、评比中，被发现有抄袭、剽窃、弄虚作假等违反学术规范的行为，本人愿意接受学校按有关规定给予的处理，并承担相应责任。
学生（签名）：
日期：年月日
孤立词语音识别技术研究
学生：蒋召召（指导老师：方杰）
（皖西学院机械与电子工程学院）
摘要：语音识别是一种人机交互技术，它能通过机器识别和理解将语音信号转换为相应的命令或文本，以此实现人与计算机的“沟通”。孤立词语音识别系统主要应用于自动控制，如机器人操纵、通信设备控制、智能玩具操纵等。本文在基于MATLAB的基础上以隐马尔科夫模型为主要原理对孤立词语音命令识别系统进行了研究和实现。隐马尔科夫模型具有较高的识别准确度，在实现上也比较简单方便。通过最后的识别结果，证明这种该模型对语音识别技术的发展研究具有良好效果，最终实现了一个小词汇量的孤立词识别系统。

6.第六章孤立词语音识别系统

-应用领域的限定应用领域的限定 -任务要求的限定任务要求的限定
6.2 系统构成及其主要技术项目
系统构成 - 参考模板为单词单位 - 参考模板为音素单位主要技术项目* 主要技术项目*
声学参数分析单词识别单词参考模ห้องสมุดไป่ตู้ 声学参数分析单词模板音素参考模板单词识别单词辞典识别输出
6.1 语音输入装置的实用化条件
(1)能达到足够高的识别率(99%) (1)能达到足够高的识别率(99%) 能达到足够高的识别率 (2)能进行实时处理能进行实时处理(≤0.3S) (2)能进行实时处理(≤0.3S) (3)能实现低价格 (3)能实现低价格
数字化技术的发展实时处理高识别率低价格模式识别技术的发展
语音识别基础
第六章孤立词语音识别系统
厦门大学人工智能研究所洪青阳博士 E-mail: qyhong@
第六章孤立词语音识别系统
语音输入装置的实用条件* 6.1 语音输入装置的实用条件* 6.2 系统构成及其主要技术项目* 系统构成及其主要技术项目* 几种典型的识别方式* 6.3 几种典型的识别方式* 系统实例介绍* 6.4 系统实例介绍*
• VQ部分的功能 VQ部分的功能
- 求平均失真
语音输入预处理 M个词的码本个词的码本
-yli , (1≤i≤M; 1≤l≤L) -L：码矢的个数
声学参 xn 数分析 (1≤n≤N)
识别结果 i* J个词的个词的第一级决策候选词码本下标j d1 d2 d3 门限值 DTW匹配计算
(1≤j≤J)
选出第1和第2个候选词(i - 选出第1和第2个候选词(i*, k*) - 如Di*≤d1，同时Dk*-Di*≥d2, 同时Dk*Dk* 则取i 为识别结果；否则，则取i*为识别结果；否则，取满足Di Di满足Di-Di*≤d3候选词作为 DTW处理的对象处理的对象。 DTW处理的对象。

2012届语音信号处理课程设计报告孤立词识别资料

课程设计报告名称语音信号处理课程设计基于动态时间规整的小规模孤立词语音识别系统设计与开发指导教师李红莲设计起止日期2015-5-14 至 2015-6-14学院信息与通信工程专业电子信息工程学生姓名班级/学号成绩指导老师签字12级“语音信号处理课程设计”任务书摘要本论文主要阐述了语音识别系统开发的过程，采用了端点检测和特征参数提取的思路，主要的关注点是如何运用MEL频率倒谱系数(MFCC)的算法,也运用了动态时间规整(DTW)算法，以MATLAB 语言为编程语言，编程和获得语音识别算法。

笔者设计的语音识别算法的识别率相对较高，而以该算法为基础的语音识别系统可以达到设计的要求，所以其市场前景广阔。

关键词：语音识别系统；MFCC；DTW；孤立词识别AbstractThis paper mainly expounds the voice recognition system development process, using the endpoint detection and feature extraction of ideas, the main concern is how to use MEL Frequency Cepstral Coefficients (MFCC) algorithm, also used the Dynamic Time Warping (DTW) algorithm in MATLAB language programming language programming and access to speech recognition algorithm.The author design the speech recognition algorithm of the recognition rate is relatively high, and based on the algorithm of speech recognition system can meet the design requirements, so its wide prospect of market.Keywords: speech recognition system, MFCC,the DTW (dynamic time warping); isolated words recognition;目录12级“语音信号处理课程设计”任务书 (2)摘要 (3)Abstract (4)第一章概述 (6)1.1主要内容 (6)1.2要求 (6)1.3主要仪器设备 (6)1.4基本方法 (6)第二章信号特征参数MFCC提取 (7)第三章 DTW算法 (9)第四章实现过程及结果 (11)4.1 实现过程 (11)4.2 结果及分析 (11)结束语 (12)参考文献 (12)附录 (13)1、place_recgrnition (13)2、vad (13)3、mfcc (15)4、dtw (16)5、out (19)第一章概述21世纪，人类要不断地进行信息交流和传递，而在这一过程中，语音无疑是最为方便的工具和主要的交流媒介。

一种基于联合得分的孤立词语音识别系统

维普资讯
Ｏ第３卷第ｌ期２
ＶＬ２ｏ３
・
计
算
机
工
程
２００６年５月
Ｍａ０６ｙ２０
№ ｌｏ
ＣｏｐｔｒＥｎｉｅｒｎｍｕｅｇｎｅｉｇ
人工智能及识别技术・
一
文编ｔ０４（０１＿８＿３文标码ｚ章号ｏ２２６ｏｏ每０ｌ８０）＿１＿献识Ａ
ｌ基于联合得分的语音识别系统描述
１．１系统框架
圈１系统槊构
１．别系统的前靖处理２识端点检测是实时语音识别系统的一个重要组成部分在本系统中采用了一种新颖的基于检测元音的端点检测算法。
１．３特征提取
本系统采用了改进的ＭＦＣ系数ＲＳＭＦＣ，ＣＡ — Ｃ以增加特征系数对噪声的鲁棒性。１．Ｍｅ倒谱参数．１ｌ３Ｍｅ倒谱参数（ｌｒｑｅｃＣｐｔｌｏｆｉｅｔｌＭｅ— ｅｕｎｙｅｓａＦｒＣｅｃｎｓｉ，
（ｃｏｌｔｌｃｒｎｃＣｍｍｕｉａｏｎｉｅｒｇＳｕｈＣｈｎｎｖｒｉｆｅｈｏｏｙＧａｇｈｕ５６０Ｓｈｏｅｔｉ＆ｏｏＥｏｎｃｔｎＥｇｎｅｉ，ｏｔｉｎｉａＵｉｅｓｙｏｃｎｌｇ，ｕｎｚｏ４）ｔＴ１０
中分号Ｐ９４圈类ｚ３１Ｔ．
种基于联合得分的孤立词语音识别系统
邝航字，张军，季飞，韦岗
（华南理工大学电子与通信工程系，』州５０４） “ １６０

HMM非特定人孤立词语音识别系统的FPGA实现

目前国内也一直在进行这方面的研究。本着这个目
型，是语音信号时变特征的有效表示法，在话音处理各个领域中得到了成功应用［。目前孤立词语音识２】
别技术已经趋于成熟，、词表（中小词表容量为１Ｏ～１０个）０的识别率已经达到９％以上，立词语音识８孤别技术已经由ＰＣ机走向嵌入式应用［。孤立词识３］
２０牟ｇ２０８１期
中图分类号：Ｐ９．Ｔ３１４文献标识码：Ａ文章编号：０９５２２０）２— ０９４１０ —２５（０８１０８ —０
ＨＭＭ非特定人孤立词语音识别系统的ＦＧＰＡ实现
万卫锋，赵峰
（上海交通大学微电子学院，上海２０４）０２０
（Ａ）ａｅｅｌ．ｎｒｃｌａｏｓｃｔｉｏｅｏｓｔｆｔｅｘａｔｎａｄｄｏｉｇｏｔＶＤｂｓｄＯｔｇＥｅｙａｅｒｔｎａｏｉｅｗｔｖｉｎｅ，ｅｕｔｃｏｅｄｅｎｈｏｇｃｅｉｓａｄｈｃａｒｅｒｉｎｃｎｔｈ
识别方法的不足，许多科研机构相继开始研发基于
非特定人的语音识别芯片。２０美国Ｔ公司开００年Ｉ发出以ＴＳ２５ｘ系列ＤＰ为核心的嵌入式非特定Ｍ３０４Ｓ人语音识别芯片，系统英文连续数字串的识别率该
为９．３条英文控制指令的识别率为９．％＿，８２４％，８４４］
（ｄｏｏＭｉｏｌｔｎｅ，ｌａＪｏｎｎｖｒｔ，Ｓａｇａ０４，ｎ）Ｓａ￣ｆｅｅｅｏｉｓ１ｒｅｒｓ啪ＩｉｉｔｇＵｉｅｓｙｈｎｈｉ０２０Ｏ￣ａａｏｉ２

孤立汉语数字语音识别系统

孤立汉语数字语音识别系统————————————————————————————————作者：————————————————————————————————日期:孤立汉语数字语音识别系统摘要:本文通过提取声音信号的Mel 倒谱系数作为特征,利用动态时间规整技术实现匹配算法，实现了特定人孤立汉语数字语音的识别,并利用Mat ｌab 编写了简单的图形用户界面。

关键词：语音识别；MFCC;DTW一、引言语言是人类所特有的最重要最自然的交流工具，也是人类信息的重要来源之一。

让机器拥有“听懂”人类口述语言的能力，将使得人与计算机之间的沟通变得更为方便快捷。

自从1952年ＡＴ&Ｔ贝尔实验室的开发出能识别十个英文数字的Audry 系统以来，语音识别技术已经得到了飞速发展,其中IBM 、M ｉcr ｏso ｆt 、Ａp ｐle 等公司在语音识别技术实用化上的巨资投入也使得这项技术在日常生活中得到广泛应用。

计算机技术的发展大大促进了数字信号处理技术的开发与应用，也使得更多的技术应用在语音识别方面。

ＭATLAB 是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言，它将数值分析、信号处理和图形显示有机地融合为一体，使得技术人员可以在较短的时间里对自己的想法进行实验验证。

本文就是在M ＡTL ＡB 基础上进行汉语数字语言识别的图形用户界面开发与程序设计的。

二、语音识别系统概述针对不同的任务,语音识别系统也可以采用对应的多种设计方案,但其大致的结构和模型思想基本上是相同的。

语音识别系统本质上是一种模式识别系统,它包括了特征提取、模式匹配、参考模型库这三个基本单元。

典型系统的基本结构如图1所示。

语言信号预处理特征提取模式识别模型库语音输入识别训练识别结果图1 典型语音识别系统目前常用的技术有特征参数匹配法、隐马尔科夫法和神经网络法。

其中语音特征参数可以是能量、基音频率、过量率、共振峰值等,目前常用的参数为基于发声声道特征模型,通过线性预测分析的线性预测倒谱系数LPCC 和基于人耳的听觉机理,反映听觉特性，模拟人耳对声音频率感知的梅尔倒谱系数M ＦC Ｃ等。

语音识别流程分析

语音识别流程分析摘要：语言识别是将人类自然语言的声音信号，通过计算机自动转换为与之相对应的文字符号的一门新兴技术，属于模式识别的一个分支。

语音识别的结果可以通过屏幕显示出文字符号，也可以存储在文本文件中。

语音识别技术能够把语音信息直接转换成文字信息，对于中文信息处理来说，无疑是一个最理想、最自然的汉字输入方式。

本文首先分析了语音识别的原理，在此基础上进行语音识别的流程分析，主要内容有：提取语音、端点检测、特征值提取、训练数据、语音识别。

选用HMM隐马尔科夫模型，基于VC2005编译环境下的的多线程编程，实现算法的并行运算，提升了语音识别的效率。

实验结果表明：所设计的程序满足语音识别系统的基本要求。

关键词：语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程前言语音识别是解决机器“听懂”人类语言的一项技术。

作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。

如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。

以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向：说话人识别、关键词检出、语言辨识和语音识别。

说话人识别技术是以话音对说话人进行区别，从而进行身份鉴别和认证的技术。

关键词检出技术应用于一些具有特定要求的场合，只关注那些包含特定词的句子。

语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术，本质上也是语音识别技术的一个方面。

语音识别就是通常人们所说的以说话的内容作为识别对象的技术，它是4个方面中最重要和研究最广泛的一个方向，也是本文讨论的主要内容。

语音识别技术，也被称为自动语音Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列[1]。

基于片上系统的孤立词语音识别算法设计

维普资讯
３第３卷第ｌ期３
Ｖ．３ｏ１３
・
计
算
机
工
程
２００７年７月
Ｊｌ０７ｕｙ２０
Ｎｏ１．３
ＣｏｐｔｒＥｎｉｅｒｎｍｕｅｇｎｅｉｇ
博士论文・
文章编号：１０－２（Ｉ）－１５３文献标识码：０＿３８Ｉ７３一０ —００一４２Ｉｌ２ＩＡ
芯片的语音识别算法有着重要意义。
１孤立词语音识剐系统
孤立词语音识别系统应用于嵌入式控制领域，例如数字
家庭控制、车载语音控制和智能语音可控玩具等。这种系统
的原理如图１。
降低系统成本。由于嵌入式系统资源有限，语音命令识别系统所需要的词汇量有限，所须识别的语音都是简短命令，因
析和记忆。ＳＣ有片内处理器和片内总线，具有速度快、体ｏ积小、成本低、可扩展性强等优点，已成为语音识别技术应用发展的一个重要方向 “ 。研究和开发应用于片上系统ＳＣｏ
系统的特点进行ＳＣ语音识别算法的选择和设计。ｏ（）１特征提取算法的选择。ＭＦＣ算法能很好地表征语音Ｃ信号，而且在噪声环境下能取得很好的识别效果。而ＬＣ系Ｐ数对元音有较好的描述能力，对辅音描述能力较差，抗噪声性能也相对差些。但是考虑算法的计算量，ＭＦＣ提取特征Ｃ
ＬＩＪｎｉＨＵＡＮＧａｇｉ，Ｕｉｗｅ，ＺｈｎｑｎＨＯＵｂｎＹｉｉ（ｌｇｆｏｕｅ．ｉｎｉｅｓｙｏｅｈｏｏｙＢｅｉｇ１０２）ＣｏｌｅｍｐｔｒＢｅｉｇＵｎｖｒｉｆｃｎｌｇ，ｉｎ００２ｅｏＣｊｔＴｊ

HMM基本原理及在语音识别中的应用

16
数字语音处理及MATLAB仿真张雪英编著
2．LPC倒谱系数(LPCC)
倒谱系数是信号的z变换的对数模函数的逆z 变换，一般先求信号的傅里叶变换，取模的对数，再求傅里叶逆变换得到。
主要优点：比较彻底地去掉了语音产生过程中的激励信息，反映了声道响应，而且往往只需要几个倒谱系数就能够很好地描述语音的共振峰特性。
20
数字语音处理及MATLAB仿真张雪英编著
近年来，基于听觉模型的语音特征提取方法在语音识别领域日益受到重视。
过零峰值幅度特征ZCPA就是基于人类听觉特性的一种特征。
下图给出了基于人耳听觉特性的ZCPA特征提取原理图：
21
数字语音处理及MATLAB仿真张雪英编著
耳蜗滤波器1
耳蜗滤波器2
数字语音处理及MATLAB仿真张雪英编著
第十章语音识别
1 10.1 概述
10.2 HMM基本原理及在语音识
2
别中的应用
1
数字语音处理及语音识别以语音为研究对象，涉及到生理学、心理学、语言学、计算机科学，以及信号处理等诸多领域，最终目的是实现人与机器进行自然语言通信，用语言操纵计算机。
28
数字语音处理及MATLAB仿真张雪英编著
隐马尔可夫模型是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：
一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。
17
数字语音处理及MATLAB仿真张雪英编著
3．Mel频率倒谱系数(MFCC)

基于VB的孤立词语音识别的实现

中图分类号：ＴＰ３９１文献标识码：Ａ
ＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＩｓｏｌａｔｅｄＷｏｒｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎＶＢ
ｒｅｃｏｇｎｉｔｉｏｎ，Ｆｉｎａｌｌｙｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｓｐｅｃｉｆｉｃｐｒｏｊｅｃｔｉｓｇｉｙｅｎｔｈｅｐｒａｃｔｉｃｅｐｒｏｃｅｓｓ．
第２６卷
第７期
电脑开发与应用
文章编号：１００３ — ５８５０（２０１３）０７ — ００７１ — ０２
基于ＶＢ的孤立词语音识别的实现
徐
（１．江苏省靖江高级中学，江苏靖江
毅，周
敏
靖江２１４５００）
Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｉｎｔｅｒｆａｃｅａｎｄｖｏｉｃｅｒｅｃｏｇｎｉｔｉｏｎＭｉｒｃｏｓｏｆｔＳｐｅｅｃｈＳＤＫ，ｉｎｔｈｅＶｉｓｕａｌＢａｓｉｃｐｒｏｇｒａｍｍｉｎｇｅｎｖｉｒｏｎｍｅｎｔ，ｕｓｉｎｇｔｈｅｄｅｖｅｌｏｐｍｅｎｔｋｉｔｍｅｔｈｏｄｆｏｒｉｓｏｌａｔｅｄｗｏｒｄｓｐｅｅｃｈ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

孤立词语音识别程序信息处理仿真实验语音处理部分一、实验目的按所学相关语音处理的知识，自己设计一个孤立词语音识别程序，分析所设计系统的特性。

熟悉不同模块间如何进行有效的组合，以及模块内的设计，重点掌握特征参数的提取和模式识别方法，并对不同的特征参数提取方法和模式匹配方法有大概的了解，知道其不同的优缺点。

二、实验内容1、熟悉预处理、特征参数提取、模式匹配三个模块的原理，并设计这三个模块的matlab子程序。

2、设计主程序，将上述3个模块合理组合构成一个系统，训练模板并测试。

三、实验原理及设计步骤1、孤立词语音识别系统：先用端点检测将语音中有用的语音部分提取出来（即将头部和尾部的静音部分除掉），然后提取语音信号的Mel尺度倒谱参数(MFCC)，进行动态归整(DTW算法)后与模板库里面的标准语音作比较，具体流程如下：图3.1孤立词语音识别系统2、各模块解析⑴预处理：包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。

这里将预加重器和噪声滤波器放在下一个模块里，所以预处理主要进行端点检测以捕捉到数据中的语音信息。

端点检测采用双门限法来检测端点。

同时，利用过零率检测清音，用短时能量检测浊音，两者配合。

整个语音信号的端点检测可以分为四段：静音、过渡段、语音段、结束。

程序中使用一个变量status来表示当前所处的状态。

在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。

在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。

而如果在过渡段中两个参数中任意一个超过了高门限，就可以确信进入语音段了。

一些突发性的噪声可以引发短时能量或过零率的数值很高，但是往往不能维持足够长的时间，这些可以通过设定最短时间门限来判别。

当前状态处于语音段时，如果两个参数的数值降低到低门限以下，而且总的计时长度小于最短时间门限，则认为这是一段噪音，继续扫描以后的语音数据。

否则就标记好结束端点，并返回⑵特征参数提取：常用的语音识别参数有线性预测参数(LPC)，线性预测倒谱参数(LPCC)和Mel 尺度倒谱参数(MFCC)等。

这里提取语音信号的Mel 尺度倒谱参数(MFCC)，步骤如下：预加重汉明窗傅立叶变换取模三角滤波函数组取对数离散余弦变换语音信号MFCC 归一化导谱提升计算差分系数并合并特征参数图3.2特征参数提取分析：①预加重()()-0.97(1)y n x n x n =-②加汉明窗()()()w x n y n w n =⨯③ FFT12/0()()N j nk N w w n X k x n e π--==∑这里直接采用现成的FFT 快速算法。

④对频谱进行三角滤波程序采用归一化mel 滤波器组系数⑤计算每个滤波器的输出能量120()ln ()()0N w m k S m X k H k m M -=⎛⎫=≤< ⎪⎝⎭∑ ⑥离散余弦变换(DCT)得到MFCC()1()()cos (0.5)/1,2,...,Mm C n S m n m M n p π==-=∑通常协方差矩阵一般取对角阵，三角滤波器组的对数能量输出之间存在着很大的相关，采用 DCT 这种正交变换可以去除参数之间的相关性，从而使后端识别模型采用对角阵具有更高的识别率⑦归一化倒谱提升π≤≤w = 1 + 6 * sin(u / 12) 1u12w = w/max(w)⑧计算差分系数并合并mfcc参数和一阶差分mfcc参数将其作为一个整体，让参数更完备。

⑶模式匹配：有矢量量化技术、DTW、HMM技术、人工神经网络技术。

目前,语音识别的匹配主要应用HMM和DTW两种算法。

DTW算法由于没有一个有效地用统计方法进行训练的框架，也不容易将低层和顶层的各种知识用到语音识别算法中，因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。

HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。

而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大, 又由于DTW算法本身既简单又有效，但HMM算法要复杂得多。

它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。

鉴于此,DTW更适合本系统的要求。

DTW算法原理：该算法基于动态规划（DP）的思想，解决了发音长短不一的模板匹配问题。

如果把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m=1~M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络，网络中的每一个交叉点（n，m）表示测试模式中某一帧的交汇点。

DP算法可以归结为寻找一条通过此网络中若干格点的路径，路径通过的格点即为测试和参考模板中进行计算的帧号。

路径不是随意选择的，首先任何一种语音的发音快慢都有可能变化，但是其各部分的先后次序不可能改变，因此所选的路径必定是从左下角出发，在右上角结束。

DTW算法可以直接按上面的描述来实现，即分配两个N×M的矩阵，分别为积累距离矩阵D和帧匹配距离矩阵d，其中帧匹配距离矩阵d（i，j）的值为测试模板的第i帧与参考模板的第j帧间的距离。

D（N，M）即为最佳匹配路径所对应的匹配距离。

无论在训练和建立模板阶段还是在识别阶段，都先采用端点算法确定语音的起点和终点。

已存入模板库的各个词条称为参考模板，一个参考模板可表示为R={R（1），R（2），……，R（m），……，R（M）}，m为训练语音帧的时序标号，m=1为起点语音帧，m=M为终点语音帧，因此M为该模板所包含的语音帧总数，R（m）为第m帧的语音特征矢量。

所要识别的一个输入词条语音称为测试模板，可表示为T={T（1），T（2），……，T（n），……，T（N）}，n为测试语音帧的时序标号，n=1为起点语音帧，n=N为终点语音帧，因此N为该模板所包含的语音帧总数，T（n）为第n 帧的语音特征矢量。

参考模板与测试模板采用相同形式的MFCC系数、相同的帧长、相同的窗函数和相同的帧移。

假设测试和参考模板分别用T和R表示，为了比较它们之间的相似度，可以计算它们之间的距离 D[T，R]，距离越小则相似度越高。

为了计算这一失真距离，应从T和R中各个对应帧之间的距离算起。

设n和m分别是T和R中任意选择的帧号，d[T（n），R（m）]表示这两帧特征矢量之间的距离。

距离函数取决于实际采用的距离度量，在DTW算法中通常采用欧氏距离。

四、实验结果及分析首先通过训练得到词汇表中（'盘古';'伏羲';'女娲';'神农'）各参考语音的特征序列，直接将这些序列存储为模板。

在进行识别时，将待识语音的特征序列依次与各参考语音特征序列进行DTW匹配，最后得到的总失真度最小且小于识别阈值的就认为是识别结果：正在计算参考模板的参数...ans =68 24ans =73 24ans = 65 24ans = 67 24正在计算测试模板的参数...ans =50 24ans =67 24ans =53 24ans =50 24正在进行模板匹配...正在计算匹配结果...测试模板 1 的识别结果为：盘古测试模板 2 的识别结果为：伏羲测试模板 3 的识别结果为：女娲测试模板 4 的识别结果为：神农分析：从输出的结果看，识别得到了正确的结果，这是由于采用了预加重、归一化导谱提升、加入差分系数。

为了进一步验证识别的正确性，看一下匹配距离距阵dist的数据：dist = 1.0e+004 *2.3121 4.7722 7.2296 4.62766.8274 2.8580 9.49807.19587.2506 6.6624 2.4080 5.37983.97504.7198 4.7717 3.6102距离距阵的对角线上是正确匹配模板的对应分数，可见对角线上的4个数值都是在本行中最小的，由此验证了识别结果的正确性。

但由于需要对大量路径及这些路径中的所有节点进行匹配计算，导致计算量极大，随着词汇量的增大其识别过程甚至将达到难以接受的程度，因此无法直接应用于大、中词汇量识别系统。

五、实验体会与思考这次实验，我所做的工作主要是设计并实现各模块的合理组合。

虽然在学习课程中已经对MATLAB有过一定的理论学习，但是要读懂MATLAB 的程序还需要找相关的书来看，通过这次实践，对matlab的语法与应用更加了解，培养了我们独立分析问题和解决问题的能力。

在设计过程中，我通过查阅大量有关资料，与同学交流经验和自学，并向老师请教等方式，使自己学到了不少知识，也经历了不少艰辛，但收获同样巨大。

在整个设计中我懂得了许多东西，也培养了我独立工作的能力，树立了对自己工作能力的信心，相信会对今后的学习工作生活有非常重要的影响。

而且大大提高了动手的能力，使我充分体会到了在创造过程中探索的艰难和成功时的喜悦。

虽然这个设计做的也不太好，但是在设计过程中所学到的东西是这次实验的最大收获和财富，使我终身受益。

要实现这个Dtw与Test的算法，主要是弄懂它的帧匹配距离的由来和累积距离的计算公式。

这也是实现本系统最难得一环，经过不断的调试修改，最终实现了算法的要求。

Dtw算法采用动态规划技术，存在一些问题：(1)运算量大。

由于要找出最佳匹配点，因此要考虑多种可能的情况．虽然路径限制减少了运算量，但运算量仍然很大，因而使识别速度减慢．这在大词汇量的识别中是一个严重缺点。

(2)识别性能过分依赖于端点检测。

端点检测的精度随着不同音素而有所不同，有些音素的瑞点检测精度较低。

由此影响识别率的提高。

(3)没有充分利用语音信号的时序动态信息。

在检测语音信号的端点时，一般采用平均能量或平均幅度值与过零率相乘的方法来判断。

如果所取窗长度较小，显然能够比较精确地检测到语音的端点，但会使运算量加大识别速度减慢，同时会把一些短时的脉冲噪音误认为语音，从而产生错误的识别。

如果所取窗长较大，可以加快语音处理的速度，会跳过一些短时噪音，但是端点的检测误差增加，对DTW这种端点非常敏感的算法几乎是致命的。

窗长取一合适的中间值固然可以减少窗长过短和过长的消极影响，但毋庸置疑也减弱了其积极的一面。