嵌入式语音识别综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
嵌入式语音识别技术及应用综述
张哲,S110331038,控制工程
(重庆邮电大学,自动化学院,400065)
摘要:随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,其技术的应用正在日益改变着人类的生产和生活方式。本文介绍了语音识别的基本原理、方法,综述了语音识别系统的分类及语音识别技术的应用,分析了语音识别所面临的问题。在此基础上,设计了一个基于ARM和DSP芯片的语音识别子系统,用于嵌入式系统中的语音识别,该语音识别子系统由ARM和DSP芯片为核心,配合其他功能电路,能够独立完成语音识别的工作。
关键字:语音识别;语音识别原理;嵌入式系统;应用;
On the Speech Recognition Technology and Its Application for Embedded System
ZHANG Zhe,S110331038
(Chongqing University of Posts and Telecommunications,School of Automation)
Abstract: With the rapid increase in computer processing capabilities, speech recognition technology has the rapid development of the application of its technology, which is increasingly changing people’s production and lifestyle. This article describes the basic principles of speech recognition methods, gives an overview of the classification of speech recognition systems and speech recognition technology, and analyses the problems faced by speech recognition. On those basis of speech recognition subsystem based on ARM and DSP chip, was designed for embedded systems. The subsystem can accomplish speech recognition independently.
Key words: speech recognition; speech recognition principle; embedded systems; application
引言
语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设备进行语音的沟通,让机器可以明白人类在说什么.并理解这是人类长期的梦想。
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别包括两种意义.一种是把人类口述的语句逐句的进行翻译并转换为文字.再一种就是对口述语言所包括的需求和询问做出合理的分析,而不是仅仅转换为书面文字。
语音识别技术。也被称为自动语音识别AutomaticSpeechRecognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术正逐步成为计算机信息处理技术中的关键术.语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
由于我国的汉语的基本特性(例如同音字比较多等),关于汉语的语音识别技术开发的难度会比较大一些。和国外相比我国的语音识别技术研究起步比较晚,但发展速度比较快,研究的水平也在逐步的提高。国家在1987年开始执行863计划,就专门为语音识别技术研究专设了项目,从1991年,每两
年举行一次全国性质的语音识别系统的测试。最有代表性的研究单位主要有清华大学的电子工程学、中科院的声学所、中科院自动化研究所和台湾的电脑与通讯工业研究所等.已经取得了很大的成果,我国关于大词汇量的连续识别语音系统研究水平和国外相当接近了。
一、语音识别基础
1、语音识别的发展
语音识别的研究从20世纪50年代AT&T 贝尔实验室开发的10个英文数字的语音识别系统开始,到6O-70年代,由于动态规划和线性预测分析技术的提出,有效地解决了语音信号的特征提取和不等长匹配问题,实现了特定人小词汇量的孤立词的识别,语音识别研究得到快速发展,特别是提出了矢量量化和隐马尔可夫模型(Hidden Markov Models,HMM)理论,使得语音识别研究取得突破性进展。进入80年代,以HMM模型和人工神经元网络(ANN)在语音识别技术上应用为代表的新技术不断出现,统计的语言模型开始取代基于规则的语言模型而成为主流,使得语音识别朝着大词汇量、连续语音和非特定人的语音识别方向深入,有效地解决了语音信号短时稳定、长时时变的非平稳特性,使语音序列建模方法、统计建模方法、词语之间关系的统计模型建立方法和语法规则机制建立方法在连续语音识别中得到深度应用。进入20世纪90年代后,语音识别在细化模型的设计、参数提取和优化以及系统的自适应等方面取得一系列关键性的进展,特别是现代信号处理技术如时频分析、小波分析、模糊理论、混沌与分形理论、遗传算法和支持向量机等都正在应用于说话人识别技术上,使得语音识别技术进一步成熟,并开始向市场提供产。
2、语音识别的基本原理
语音识别系统本质上是一种模式识别系统,它与人的认知过程一样,语音识别分为训练和识别两个过程。在训练阶段,语音识别系统对人类的语言进行学习,学习结束,把学习内容组成语音库存储起来。在识别阶段就可以把人们当前输入的语音在语音库中查找相应的词义或语义。它包括特征提取、模式匹配、参考模式库等三个基本单元.它的基本结构如图1所示:
图 1 语音识别系统的原理框图
未知语音经过话筒变换成电信号后在识别系统的输入端,首先经过预处理.再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型。将计算机中存放的语音模板与输入的语音信号的特征进行比较.根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
3、语音识别的方法概述
目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)、独立分量分析(ICA)等方法。
1)动动态时间规整算法(DynamicTimeWarping,DTW)是在非特定人语音识别中一种简单有效的方法.该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW 算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离