基于凌阳spce061a单片机声控小车的设计(Word)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本科毕业论文(设计)
题目: 基于凌阳SPCE061A声控小车的
设计
院系:物理与电子信息科学系
专业:电子信息科学与技术
******
学号:************
指导教师:***
教师职称:讲师
填写日期:2011年5月10日
摘要
语音识别是一门复杂的技术,它不仅包括语音的录制、播放、识别,还涉及语音信号的采集、压缩编码和解码等各项技术。

以往做语音识别有一般有两种途径。

一种是采用单片机进行扩展设计,另一种是利用专门的语音处理芯片。

普通的单片机往往不能实现这么复杂的过程和算法,即使勉强实现也要加很多的外围器件。

SPCE061A是凌阳科技推出的一款16位μ'nSP结构的微控制器,论文对系统的硬件电路和软件设计进行了分析与设计。

该系统具有结构简单, 很高的性价比,便于推广和应用。

借助于SPCE061A提供的语音特色,外只需设计一个H桥电机驱动电路,就比较容易实现语音控制小车的前进、后退、左转、右转停车等基本功能;
关键字:SPCE061A、语音识别、声控小车、单片机。

Abstract
Speech recognition is a complex technology, which includes not only voice recording, playback, recognition, speech signal is also involved in the collection, coding and decoding and other technologies. Speech recognition in the past have usually done in two ways. A microcontroller is used to extend the designer, and the other is the use of specialized voice processing chips. Often fail to achieve common SCM process and algorithm of this complexity, even if we manage to achieve a lot of peripheral devices also increases.
Sunplus SPCE061A is the launch of a 16-bit microcontroller μ'nSP structure, the paper system of hardware and software design analysis and design. The system is simple, highly cost-effective, easy promotion and application.With SPCE061A provides voice features, just outside the design of a H bridge motor drive circuit, relatively easy to implement voice control for car forward, backward, turn left, turn right to parking and other basic functions;
Keywords: SPCE061A; speech recognition; voice-activated car; microcontroller.
目录
前言 (1)
第一章语音识别的发展及前景 (2)
第一节语音识别的发展历史 (2)
第二节语音识别技术的应用前景 (3)
第二章凌阳音频 (5)
第一节音频背景知识 (5)
第二节语音压缩编码基础 (5)
第三节常见的几种音频压缩编码 (6)
第四节语音合成、辨识技术的介绍 (7)
第三章凌阳SPCE061A单片机简介 (9)
第一节音频压缩算法的编码标准及分类 (10)
第二节凌阳常用的音频形式和压缩算法 (10)
第三节凌阳语音的播放、录制、合成和辨识 (11)
第四节语音识别系统结构 (11)
第四章语音控制器总体设计 (13)
第一节设计要求 (13)
第二节 61板简介 (14)
第三节小车车体简介 (15)
第五章语音控制器硬件设计 (17)
第一节电源设计 (17)
第二节 SPCE061A最小系统 (18)
第三节程序下载模块 (19)
第四节声音采集模块 (20)
第五节播音模块 (21)
第六节电机驱动电路的设计 (21)
第六章语音控制器软件设计 (23)
第一节凌阳u'nSP IDE的项目结构 (23)
第二节声音压缩 (24)
第三节语音录制 (26)
第四节语音播放 (27)
第五节语音识别 (29)
第七章程序设计 (30)
第一节主程序设计 (30)
第二节功能子程序设计 (32)
第三节语音资源表配置 (36)
结论 (37)
致谢 (38)
主要参考文献 (39)
附录 (40)
附录A 元器件清单 (40)
附录B 61板电路图 (41)
前言
单片机作为计算机技术的一个重要分支、嵌入式系统的先头兵,广泛应用于工业控制、智能仪器、机电一体化、家用电器、智能产品、个人数字处理领域。

电子系统设计已进入了片上系统时代,其单片机功能越来越强,使其成为真正的系统单片机。

在语音处理、数字处理方便速度越来越快,许多功能都集成在单片机上,使外围电路大大的简化。

语音识别产品在人机交互应用中已经占到越来越大的比例。

例如果手机语音拨号、电子书语音阅读等。

随着微电子技术的迅速发展,语音识别技术的应用已经成为一个具有竞争性的新兴高技术产业。

基于凌阳SPCE061A单片机的声控小车,是在学习PIC、C51单片机的基础上,利用凌阳SPCE061A单片机的语音处理功能,深入学习和实际应用凌阳单片机。

了解语音的压缩编码和解码,语音的识别等各项处理技术。

通过学习凌阳16位单片机SPCE061A提供的语音特色来实现语音识别功能。

从而达到声控小车的硬件设计与软件设计。

本文所研究的是基于凌阳SPCE061A 单片机的嵌入式语音识别系统。

文章共分为7章:语音识别的发展及前景、凌阳音频、凌阳SPCE061A单片机简介、语音控制器总体设计、凌阳SPCE061A单片机简介、语音控制器总体设计、语音控制器软件设计、程序设计。

第一章语音识别的发展及前景
第一节语音识别的发展历史
对于对于语音识别的研究大约始于20世纪30年代。

从1937年开始,以C.A.Lindbergh 生生的儿子被拐骗事件作为开端,对语音的说话人个性开展了科学的测量和研究。

1945年,Bell实验室的L.G.Kesta目视观察语谱图匹配,提出了“声纹”的概念。

50年代,当时AT& T Bell实验室实现了第一个可识别10个英文数字的语音识别Andry系。

1962年,贝尔实验室L.G.Kesta第一次采用上述方法进行说话人识别的可能性。

早期的工作主要集中于人耳的听辨实验和探讨听音识别的可能性方面。

随着研究手段和工具的改进,研究逐渐脱离了单纯的人耳识别。

这时期重要的成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者办好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

1966年,美国法院第一次采用此方法进行了取证之后,随着电子技术和计算机技术的发展,通过机器进行语音识别成为现实。

70年代,语音识别领域取得突破。

在理论引,LP技术得到进一步发展。

动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

在实践上,实现了基于线性预测倒谱和DTW技术的物定人孤立语音识别系统。

80年代,语音识别研究一步走向深入,其显示着特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。

HMM模型的广泛应用也归功二AT& T Bell实验室Rabiner 等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。

ANN和HMM模型建立的语音识别系统,性能相当。

进入90年代以后,Reynolds对高斯混合模型(GMM)做了详细介绍后,GMM以其简单、灵活、有效,迅速成为目前与与文本无关的主流技术,将语音识别带入一个新的阶段。

1995年以来,相当部分的工作集中在利用现代信号处理技术,如时频分析、小波分析、神经网络等提取新的语音特征参数。

2000年左右,Reynolds在语音识别确认任务中提出了
UBM-MAP结构,为迫切要求语音识别系统从实验室走向实用,进入商业应用。

从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。

我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。

中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续
语音识别系统的识别精度,达到94.8%(不定长数字符串)和96.8%(定长数字符串)。

在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字符串)和98.7%(定长数字符串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。

研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。

中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——Pattek ASR ,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

1990 2001 2010
1930 1960 1970 1980
图1 语音识别研究发展历程
第二节 语音识别技术的应用前景
语音识别技术已经应用于各个领域,在信息处理、教育与商务应用、消费电子等方面已经展现出巨大的潜力。

一、信息处理领域的应用:虽然现在有越来越多的人拥有电脑,使用电脑进行工作娱乐等,但还是有多数的人被其复杂的操作界面不知所措。

文字输入也具有一定的困难,即便现在拥有各种各样的输入法,但是绝大多数是拼音和五笔。

还有不常用的区位码。

但这都没有摆脱使用键盘的传统方式。

语音识别技术在信息处理的巨大应用在于提供一种全新的输入方式,即人机交互方式。

二、教育与商务领域的应用:在教育与商务领域,语音识别技术的应用前景主要有语音教学、电话查询、电子商务等。

就教育领域而言,语音识别技术最直接的应用就是帮助学生更好地练习语言技巧,在过去,我们只能通过简单的模仿来进行学习,在没有指导老师在的时,无法精确的比较自己发音的精确性。

现在拥有许多的电子产品都具有复读的功能,而且可以对比,并给出朗读的分数。

例如现在的点读机等。

语音识别技术的另一个发展那就是电话语音查询,人们可以通过手机、网络用说话的方模型 小样本库 无噪、受控语音 大词表数据库 实际、任意语音 特征 语音波形 语音谱图 倒谱 模板匹配 隐马尔可夫模型 高斯混合模型 LPC 、LPCC 动态时间规模整向量量化 支持向量机 语音识别技术上的商业应用 MFCC
式对系统查询有关的天气、机票、银行信息、公司特定员工的电话号码、旅游信息,并取得结果。

但这针对非特定人群的识别,要对大量的人群进行分析综合得出所需的语音模型。

如果在这一领域取得突破那将创造无限的商业价值,而且极大的方便人们的生活。

随着网格技术的进一步发展,电子商务也正在日渐流行,设想一下,你也许只需要坐在家中,通过向计算机发布命令就可以实现网上购物,从而免掉跋涉之劳,语音识别技术和电子商务的结合,将创造一种全新的交易方式。

类似的,语音技术还可以用于声导系统等,总之,它将有可能改变我们的整个商业运作模式,并创造更大的便利。

三、消费电子产品的应用:由于大规模集成电路技术的发展,芯片的集成度越来越高,语音识别系统也已经完全可以制成专用芯片。

且体积小、处理速度、精度越来越快。

不是仅极限体积叫大的电脑,而是应用在手持设备上。

例如现在的手机能够进行语音拨号等功能。

现在,一般家电产品、机械系统乃至各类小型专用系统都是通过微处理器控制的,如果将这些具有控制功能的微处理器和具有语音识别功能的芯片组合在一起,形成具有控制功的语音识别芯片,安装在这些产品中。

使它们都具有语音识别功能。

设想你下班回家,也许只需要坐在沙发上说说几句话,就能打开空调,烧水,房间里响起柔和的音乐,厨房里开始烹饪食品等。

让生活随心所欲。

在未来语音识别系统的应用将更加广泛。

各种各样语音识别系统产品将出现在我的生活中,语音识别的应用以及人机界面自然化的发展可谓前途无限,语音识别技术发展到今天,今天它还仍然处在起步阶段,中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。

只能在某些特定的场合应用。

但在大词汇量的非特定人语音识别系统,在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,但这已足以给你的生活带来巨大的变化。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

第二章凌阳音频
第一节音频背景知识
音频信号(Audio)是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。

指频率范围在20Hz~20KHz的声音信号,根据声波的特征,可把音频信息分类为规则音频和不规则声音。

而规则音频又可划分为波形声音、语音、音乐三种形式。

其中波形是自然界中所有的声音,是声音数字化的基础;语音也可以表示为波形声音,但波形声音表示不出语言、语音学的内涵。

语音是对讲话声音的一次抽象。

是语言的载体,是人类社会特有的一种信息系统,是社会交际工具的符号。

音乐与语音相比更规范一些,是符号化了的声音。

但音乐不能对所有的声音进行符号化。

乐谱是符号化声音的符号组,表示比单个符号更复杂的声音信息内容。

声音的三个要素是音调、音强和音色。

声波或正弦波有三个重要参数:频率ω0、幅度A n、和相位ψn,这也就决定了音频信号的特征。

电话、电视、传真等着信号是我们日常生活中常见的模拟信号。

传统的电话通信、电视广播、传真通信系统等都是模拟信号,且无法储存到计算。

而数字信号在通信及储存具有模拟通信无可比拟的优越性,所以现代系统通信都是数字通信系统。

一般而言将声音储存到计算机时,需要做模拟语音的数字化工作,而模拟语音数字化分为两个过程即采样和量化。

如图2所示。

离散信号
模拟信号数字信号
取样器量化器
图2语音信号的数字化处理
第二节语音压缩编码基础
随着计算机网络、通信等技术的飞速发展,语音压缩编码也发展与应用。

语音压缩编码在移动通信、卫星通信、多媒体技术以及IP电话中得到广泛应用。

语音编码就是将模拟信号数字化,数字化后可以数字信号传输、储存、处理等,充分利用数字信号处理的各项技术。

在保证音质的前提下,尽量减小存储空间或降低传输比特率来节省带宽,还需要对数字化之后的语音信号进行压缩编码。

语音压缩编码中的数据量是指:数据量=(采样频率×量化位数)/8(字节数) ×声道数目。

例如:电话语音=8k×8B×1=64kbps=8kB/s=28MB/h;
通过对语音资料的压缩,达到高效率存储和转换资料的结果,即在保证一定声音质量的条件下,以最小的资料率来表达和传送声音信息。

实际应用中,未经压缩编码的音频资料量
很大,进行传输或存储是不现实的。

所以要通过对信号趋势的预测和冗余信息处理,进行资料的压缩,这样就可以使我们用较少的资源建立更多的信息。

举个例子,没有压缩过的CD品质的资料,每分钟的需要约11MB的内存容量来存储内容。

如果将原始资料进行压缩处理,在确保声音品质不失真的前提下,将数据压缩一半就可以完全还原效果。

而在实际操作中,可以依需要来选择合适的算法。

第三节常见的几种音频压缩编码
波形编码是将时间域或频率域或变换域信号直接编码为数字信号,力求使重建语音波形保持原始语音信号的波形形状。

译码是其反过程,将收到的数字序列经过译码和滤波恢复成模拟信号。

编码具有语音质量好、高码率、抗噪声性能强等优点,适于高保真音乐及语音。

其缺点是所需用的编码速率高,一般在64~16kb/s之间。

脉冲编码调制(Pulse Code Modulation,PCM)、增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、自适应增量调制(ADM)等都属于波形编码。

波形编码当其编码速率进一步降低时,其语音质量等性能指标下降很快。

参数编码又称为声源编码或声码器,有时又称为分析-综合编码,它是将信号源信号在频域或其他变换域提取特征参数,然后对这些特征进行编码和传输;在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信号。

参数编码是通过对语音信号特征参数的提取和编码,力求使重建语音信号具有尽可能高的可懂度,即保持原语音信号的语意,但重建语音信号的波形与原语音信号波形却相差远甚远。

参数编码的优点是可实现低速率语音编码,其编码速率可低至2.4k/s以下。

其缺点是由于重建信号的波形同原语音信号的波形可能会有相当大的差别,所以语音质量较差,自然度较低,即使是熟悉人一般也听不出讲话人是谁。

此外,参数编码的坚韧也不够好。

线性预测编码(LPC)及其它各种改进型都属于参数编码。

混合编码:混合编码使用参数编码技术和波形编码技术,计算机技术的发展为语音编码技术的发展提供强有力的工具,大规模和超大规模集成电路的出现则为各种语音编码算法的实现提供了基础。

最近二十几年来,语音编码技术取得了许多突破性的进展,产生了一系列新一代的编码和参数编码算法,这就混合编码。

混合编码将波形编码和参数编码结合起来,克服了波形编码和参数编码的缺点,吸收了它们的长处,在16~4k/s速率上能够得到高质量的合成语音。

混合编码技术在现代通信系统中得到广泛的应用。

多脉冲激励线性预测编码(MPLPC),规划脉冲激励线性预测编码(KPELPC),码本激励线性预测编码(CELP)等都是属于混合编码技术。

其数据率和音质介于参数和波形编码之间。

混合编码技术仍然处于迅速发展之中。

目前仍有许多新的编码算法不断出现。

三种音频压缩编码的比较,如表1所示。

表1 三种音频编码比较
分类优点缺点示例
波形编码通用、音频质量较高很难获得较大的压缩比PCM,ADPCM,SBC 参数编码压缩比较大信号源必须已知LPC
混合编码介于波形与参数编码之间.... CELP,MPLPC
总之,音频压缩技术之趋势有两个:
降低资料率,提高压缩比,用于廉价、低保真场合(如:电话)。

追求高保真度,复杂的压缩技术(如:CD)。

第四节语音合成、辨识技术的介绍
一、语音合成技术
语音合成是一门跨学科的前沿技术,涉及到下列相关研究领域:自然语言理解、语言学语音学、信号处理、心理学、声学等。

它将上述领域的研究成果结合在一起,使计算机具备说话的能力。

研究目标是可懂、清晰、自然、具有表现力。

按照人类语言功能的不同层次,语音合成分为三个层次:
(一)从文字到语音的合成;
(二)从概念到语音的合成;
(三)从意向到语音的合成;
二、语音辨识技术
语音识别(SR, Speech Recognition),又称之为自动语音识别(ASR, Automatic Speech Recognition)是指计算机将人发出的声音、字或短语转换成文字、符号或作出相应(如执行控制、做出回答)。

语音辨识技术主要有三大研究范围,分别是口音独立、连续语音、可辨认词汇数量。

(一)口音独立
特定发音人识别SD(Speaker Dependent)模式,语音样板由单个人训练,也只能识别训练人的语音命令,而他人的命令识别率较低或几乎不能识别。

非特定发音人识别SI(Speaker Independent)模式,语音样板适用不同年龄、不同性别、不同口音的人进行识别,使用者无需训练即可使用,并进行辨识。

(二)连续语音
单字音辨认:确保每个字音都能正确分割出来,但必须给一字一字的分开来读,非常不自然,与平常说话的连续方式有所不同。

整句辨识:能按正常说话速度,整句表达,中间不需要停顿。

这种方式自然,但难度高,现阶段识别率不高。

由于中文同音太多,因此目前所有中文语音识别系统几乎都以词为依据,来判断同音字词。

(三)可辨认词汇数量
在系统内部建立词汇数据库的多少,将直接影响其辨识能力。

按辨识的词汇量来说,可分为小词汇量(10~100个)、中词汇量(100~1000个)、无限词汇量
图3是文本到语音的转换过程:
文本输入
合成语音输出
图3 从文本到语音转换过程示意
文本处理
韵律处理 语音合成 词典及语言规范
语音数据库
第三章 凌阳SPCE061A 单片机简介
台湾凌阳公司推出的16位嵌入式语音处理SPCE061A 是一款高度集成化的单片机处理器,不仅有同类型单片机的通用功能,而且最在的特点在于它具有语音识别处理能力。

它的主要性能:32位通用可编程输入输出/输出端口;内置换2K 字的SRAM 和32K 的Flash ;2个16位可编程的定时器/计数器;2个10位DAC(数-模转换)输出通道;7通道10位电压模-数转换器(ADC)和单通道声音模-数转换器;声音模-数转换器输入通道,内置麦克风放大器和自动增
益控制(AGC)功能;SPCE061A 处理芯片是一款功能齐全的单片机,且包含了DSP 功能,在设计上它所需的外接的器件数量大大减少。

同时,SPCE061A 也是一款16位结构的u'nSP 微控制器,支持可编程音频处理,使用凌阳音频处理,使用凌阳公司音频编码SACM_S24方式(2.4kbit/s ),能容纳210秒的语音数据;CPU 时钟为0.32MHz-49.152MHz 具有较高的处理速度,能够非常容易地、快速地处理复杂的数字信号。

工作电压低,具有睡眠功能,能耗低。

因此,以SPCE061A 为微控制器适用于语音识别领域的一种经济的选择。

SPCE061A 的结构如图5所示。

图5 凌阳SPCE061A 单片机内部结构
双16位定时器/
计数器 时基 中断控制
7通道10位ADC 单通道语音ADC +AGC
双通道10位DAC
串行I/O 接口 锁相环 振荡器
CPU 时钟 实时时钟
低电压监测与复位
32个管脚通用输入输出端口
16位微控 制器
u'nSP 内核 ICE
FLASH
RAM UART 通信接口
ICE_EN ICE_SCK
ICE_SDA
V cp MIC_IN
AUD1 XI/R XO
AUD2
IOA0~15 IOB0~15
图4 SPCE061A 外观
第一节音频压缩算法的编码标准及分类
一、压缩算法的编码
不同音频质量等级的编码技术标准(频响),如表2。

表2 不同音频质量标准比较
信号类型频率范围(Hz)采样率(kHz)量化精度(位)
电话话音200~3400 8 8
宽带音频(AM质量)50~7000 16 16
调频广播(FM质量)20~15k 37.8 16
高质量音频(CD质量)20~20k 44.1 16
凌阳音频压缩算法处理的语音信号的范围是200Hz-3.4KHz的电话话音。

二、压缩分类
压缩分无损压缩和有损压缩。

所谓无损压缩格式,是利用数据的统计冗余进行压缩,可完全回复原始数据而不引起任何失真,但压缩率是受到数据统计冗余度的理论限制,一般为2:1到5:1.这类方法广泛用于文本数据,程序和特殊应用场合的图像数据(如指纹图像,医学图像等)的压缩。

无损压缩一般指:磁盘文件,压缩比低:2:1~4:1。

无损压缩的优势具有100%的保存、没有任何信号丢失;音质高,不受信号源的影响;在不同无损压缩格式之间互相转换,而不会丢失任何数据等特点。

所谓有损压缩是利用了人类对声波或图像中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始声音的影响缩小,却换来了大得多的压缩比。

有损压缩广泛应用于语音,图像和视频数据的压缩。

如音/视频文件,压缩比可高达100:1。

凌阳音频压缩算法根据不同的压缩比分为以下几种,如表3所示。

表3 不同压缩算法的压缩比
音频压缩编码凌阳音频压缩算法压缩比
波形编码SACM-A2000 8:1,8:1.25,8:1.5
混合编码SACM-S480 80:3,80:4.5
参数编码SACM-S240 80:1.5
由压缩比可知音质排序:A2000>S480>S240
第二节凌阳常用的音频形式和压缩算法
一、波形编码
波形编码采用子带编码技术(sub-band)即SACM-A2000。

特点为语音质量高、编码率高,适于高保真语音和音乐。

二、参数编码。

相关文档
最新文档