智能机器人语音控制系统的设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能机器人语音控制系统的设计
摘要
语音识别技术是当今世界的研究热点之一,一直受到学术界和企业的普遍关注,语音识别技术的应用对于智能机器人的实用化会取到巨大的作用。
同时,通过智能机器人这一平台,也可以更好的研究语音技术的实用化问题,从而使之得到更广泛的运用。
本系统的设计的目的就是为了方便人机交互,论文首先介绍了智能机器人语音识别技术的发展历程,并分析了影响机器人语音识别的主要因素。
然后详细介绍了语音识别的原理以及在语音信号处理过程中采用的分析方法和技术。
接着介绍了芯片SPCE061A 单片机的特点,并以此芯片为主控芯片建立起了语音控制系统的硬件结构,并编写了相应的程序。
最后,通过对系统进行了调试和仿真得出结论:该机器人采用语音识别对机器人进行控制,可以完成向前走、倒退、左转、右转、停止、发射等功能。
关键字:SPCE061A单片机;机器人;语音识别;调试和仿真
THE DESIGN OF SPEECH-CONTROLLED
INTELLIGENT ROBOT SYSTEM
ABSTRACT
Speech recognition technology is one of the focus of today's world, has been the general concern of academia and business.Speech recognition technology for intelligent robots will be practical to take a great role. Meanwhile, the intelligent robot platform can better study the practical problems speech technology, thus making it more widely used.
The purpose of this design is to facilitate human-computer interaction. First the paper introduces the development process of the intelligent robot voice recognition technology, and analyzes the impact of the main factors to the robot speech recognition. Then it introduces the principle of speech recognition and speech signal processing methods and techniques used in analysis. And then it describes the characteristics of the chip microcomputer SPCE061A, and to establish a voice control system hardware structure of this system,compiled the corresponding program. Finally, the system was debugged and simulated.The conclusion is that the robot speech recognition to control the robot can be done forward, backward, turn left, turn right, stop, firing and other functions.
Key word : SPCE061A MCU;robotics;peech recognition;debugging and simulation
目录
1 绪论 (1)
1.1课题研究背景 (1)
1.2智能机器人概述及现状 (2)
1.2.1 智能机器人概述 (2)
1.2.2 智能机器人发展方向 (3)
1.3语音识别技术的概述 (5)
1.4语音识别的发展历史 (5)
1.4.1 国外研究历史及现状 (5)
1.4.2 国内研究历史及现状 (6)
1.5语音识别技术的前景和应用 (7)
1.6影响智能机器人语音识别系统设计的主要因素 (8)
1.7论文主要研究内容 (9)
2 语音识别原理和设计采用方案 (10)
2.1语音识别的分类 (10)
2.2语音识别基本原理 (10)
2.3语音信号预处理 (11)
2.4特征量的提取 (12)
2.4.1 线性预测分析 (13)
2.4.2 倒谱分析 (15)
2.5模式匹配及模型训练技术 (15)
2.6本设计选用的方案 (16)
2.6.1 系统采用的芯片 (16)
2.6.2 系统采用的语音识别算法 (17)
3 智能机器人语音控制系统硬件电路设计 (19)
3.1设计总体方案 (19)
3.2SPCE061A单片机的主要特点 (20)
3.3电源模块 (21)
3.4MIC输入模块 (22)
3.5语音输出模块 (23)
3.6超声波传感模块 (23)
3.7通信模块 (24)
3.8机器人动作模块 (25)
4 智能机器人语音控制系统软件设计 (27)
4.1设计总体方案 (27)
4.2语音识别模块 (29)
4.3语音训练模块 (30)
4.4语音播放模块 (31)
4.5机器人动作模块 (32)
5 系统调试及仿真 (33)
5.1系统调试 (33)
5.1.1 硬件调试 (33)
5.1.2 软件调试 (33)
5.2系统仿真 (34)
5.3结论 (35)
参考文献 (36)
致谢 (37)
附录设计源程序 (38)
附件:
附件1 开题报告(文件综述)
附件2 译文及原件影印件
1 绪论
1.1 课题研究背景
随着现代科学技术和计算机技术的发展,人们在与计器的信息交流中,需要一种更加方便、自然的方式。
语言是人类最重要、最有效、最常用的和最方便的通信形式。
这很容易让人想到能否用自然语言代替传统的人机叫交流方式,如键盘、鼠标等,人机自然语音对话就意味着机器应具有听觉,能听懂人类的口头语言,这就是语音识别的功能。
“通语音识别是语音信号处理的重要研究方向之一,控制论创始人维纳在1950年曾指出:常,我们把语音仅仅看作人与人之间的通信手段,但是,要使人向机器,机器向人以及机器讲话,那也是完全办得到的”。
语音是语言信息的载体,语音识别的基本任务是将输入的语音转化为相应的语言代码。
这样,不仅使存储或传输这样的语言代码时的数码率比起存储或传输原来有语音信号来大幅降低,而且还在于它把一种连续的语音信号变成一种有限符号,这样的符号容易被计算机理解其含义,并且便于与人类交流,因而语音识别得到十分广泛的应用。
随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。
近二三十年来,语音识别在工作、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用]1[。
当今,语音识别产品在人机交互应用中己经占到越来越大的比例。
近年来,随着消费类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加。
使得语音识别系统大量地从PC机转移到嵌入式设备中。
通过研究者的不断努力,现在嵌入式非特定人语音识别系统识别精度己经达到85%以上,而对特定人语音识别系线的识别精度就更高了。
嵌入式语音识别系统与PC机的语音识别系统相比,虽然其运算速度和存储容量有限,但它具有自己的一些特点。
首先,除语音识别功能外。
为了有一个友好的人机界面和对识别正确与否的验证,该系统还具备语音提示及语音回放功能其次,嵌入式语音识别系统多为实时系统。
即当用户说完待识别的词条后,系统立即完成识别功能洋右乐回应。
最后,嵌入式语音识别系统具有体积小。
可靠性高、耗电省、投入少、价格低廉并且便携性好。
可支持移动作业等优点。
这是嵌入式语音识别系统与PC机的语音识别系统相比最大的优势,嵌入式语音识别系统的优点使得其应用的领城十分广泛。
从研究现状来看,作为语音识别的标志性技术,无限词汇量、非特定人、连续语音识别系统在比较安静环境下,对于比较正式的书面语言已经达到了相当高的使用程度,在限定环境下还能达到更好的效果,我们仍要进一步提高识别系统对不同环境、不同说话人和不太说话内容的稳健性。
语音识别技术主要包含几个方面:语音控制、电子发声、连续语音识别、非连续语音识别和语音学习。
目前主要是在支持中英文混合识别问题上,存在一些障碍,同时在识别大量词汇和个别发音方面还很难做到准确。
作为语音识别技术新方向的语音学习,它则要求人模仿标准发音,其面临的困难是如何衡量人的好坏。
1.2 智能机器人概述及现状
1.2.1 智能机器人概述
我们从广泛意义上理解所谓的智能机器人,它给人的最深刻的印象是一个独特的进行自我控制的“活物”。
其实,这个自控“活物”的主要器官并没有像真正的人那样微妙而复杂。
智能机器人具备形形色色的内部信息传感器和外部信息传感器,如视觉、听觉、触觉、嗅觉。
除具有感受器外,它还有效应器,作为作用于周围环境的手段。
这就是筋肉,或称自整步电动机,它们使手、脚、长鼻子、触角等动起来。
我们称这种机器人为自控机器人,以便使它同前面谈到的机器人区分开来。
它是控制论产生的结果,控制论主张这样的事实:生命和非生命有目的的行为在很多方面是一致的。
正像一个智能机器人制造者所说的,机器人是一种系统的功能描述,这种系统过去只能从生命细胞生长的结果中得到,现在它们已经成了我们自己能够制造的东西了]2[。
智能机器人能够理解人类语言,用人类语言同操作者对话,在它自身的“意识”中单独形成了一种使它得以“生存”的外界环境——实际情况的详尽模式。
它能分析出现的情况,能调整自己的动作以达到操作者所提出的全部要求,能拟定所希望的动作,并在信息不充分的情况下和环境迅速变化的条件下完成这些动作。
当然,要它和我们人类思维一模一样,这是不可能办到的。
不过,仍然有人试图建立计算机能够理解的某种“微观世界”。
比如维诺格勒在麻省理工学院人工智能实验室里制作的机器人。
这个机器试图完全学会玩积木:积木的排列、移动和几何图案结构,达到一个小孩子的程度。
这个机器人能独自行走和拿起一定的物品,能“看到”东西并分析看到的东西,能服从指令并用人类语言回答问题。
更重要的是它具有“理解”能力。
为此,有人曾经在一次人工智能学术会议上说过,不到十年,我们把电子计算机的智力提高了10倍;如维诺格勒所指出的,计算机具有明显的人工智能成分。
机器人现在已被广泛地用于生产和生活的许多领域,按其拥有智能的水平可以分为三个层次。
一是工业机器人,它只能死板地按照人给它规定的程序工作,不管外界条件有何变化,自己都不能对程序也就是对所做的工作作相应的调整。
如果要改变机器人所做的工作,必须由人对程序作相应的改变,因此它是毫无智能的。
二是初级智能机器人。
它和工业机器人不一样,具有象人那样的感受,识别,推理和判断能力。
可以根据外界条件的变化,在一定范围内自行修改程序,也就是它能适应外界条件变化对自己怎样作相应调整。
不过,修改程的原则由人预先给以规定。
这种初级智能机器人已拥有一定的智能,虽然还没有自动规划能力,但这种初级智能机器人也开始走向成熟,达到实用水平。
三是高级智能机器人。
它和初级智能机器人一样,具有感觉,识别,推理和判断能力,同样可以根据外界条件的变化,在一定范围内自行修改程序。
所不同的是,修改程序的原则不是由人规定的,而是机器人自己通过学习,总结经验来获得修改程序的原则。
所以它的智能高出初能智能机器人。
这种机器人已拥有一定的自动规划能力,能够自己安排自己的工作。
这种机器人可以不要人的照料,完全独立的工作,故称为高级自律机器人。
这种机器人也开始走向实用。
1.2.2 智能机器人发展方向
不过,尽管机器人人工智能取得了显著的成绩,控制论专家们认为它可以具备的智能水平的极限并未达到。
问题不光在于计算机的运算速度不够和感觉传感器种类少,而且在于其他方面,如缺乏编制机器人理智行为程序的设计思想。
你想,现在甚至连人在解决最普通的问题时的思维过程都没有破译,人类的智能会如何呢——这种认识过程进展十分缓慢,又怎能掌握规律让计算机“思维”速度快点呢?因此,没有认识人类自己这个问题成了机器人发展道路上的绊脚石。
制造“生活”在具有不固定性环境中的智能机器人这一课题,近年来使人们对发生在生物系统、动物和人类大脑中的认识和自我认识过程进行了深刻研究]3[。
结果就出现了等级自适应系统说,这种学说正在有效地发展着。
作为组织智能机器人进行符合目的的行为的理论基础,我们的大脑是怎样控制我们的身体呢?纯粹从机械学观点来粗略估算,我们的身体也具有两百多个自由度。
当我们在进行写字、走路、跑步、游泳、弹钢琴这些复杂动作的时候,大脑究竟是怎样对每一块肌肉发号施令的呢?大脑怎么能在最短的时间内处理完这么多的信息呢?我们的大脑根本没有参与这些活动。
大脑——我们的中心信息处理机“不屑于”去管这个。
它根
本不去监督我们身体的各个运动部位,动作的详细设计是在比大脑皮层低得多的水平上进行的。
这很像用高级语言进行程序设计一样,只要指出“间隔为一的从1~20的一组数字”,机器人自己会将这组指令输入详细规定的操作系统。
最明显的就是,“一接触到热的物体就把手缩回来”这类最明显的指令甚至在大脑还没有意识到的时候就已经发出了。
把一个大任务在几个皮层之间进行分配,这比控制器官给构成系统的每个要素规定必要动作的严格集中的分配合算、经济、有效。
在解决重大问题的时候,这样集中化的大脑就会显得过于复杂,不仅脑颅,甚至连人的整个身体都容纳不下。
在完成这样或那样的一些复杂动作时,我们通常将其分解成一系列的普遍的小动作(如起来、坐下、迈右脚、迈左脚)。
教给小孩各种各样的动作可归结为在小孩的“存储器”中形成并巩固相应的小动作。
同样的道理,知觉过程也是如此组织起来的。
感性形象——这是听觉、视觉或触觉脉冲的固定序列或组合(马、人),或者是序列和组合二者兼而有之。
学习能力是复杂生物系统中组织控制的另一个普遍原则,是对先前并不知道、在相当广泛范围内发生变化的生活环境的适应能力。
这种适应能力不仅是整个机体所固有的,而且是机体的单个器官、甚至功能所固有的,这种能力在同一个问题应该解决多次的情况下是不可替代的。
适应能力这种现象,在整个生物界的合乎目的的行为中起着极其重要的作用。
控制机器人的问题在于模拟动物运动和人的适应能力。
建立机器人控制的等级——首先是在机器人的各个等级水平上和子系统之间实行知觉功能、信息处理功能和控制功能的分配。
第三代机器人具有大规模处理能力,在这种情况下信息的处理和控制的完全统一算法,实际上是低效的,甚至是不中用的。
所以,等级自适应结构的出现首先是为了提高机器人控制的质量,也就是降低不定性水平,增加动作的快速性。
为了发挥各个等级和子系统的作用,必须使信息量大大减少。
因此算法的各司其职使人们可以在不定性大大减少的情况下来完成任务。
总之,智能的发达是第三代机器人的一个重要特征。
人们根据机器人的智力水平决定其所属的机器人代别。
有的人甚至依此将机器人分为以下几类:受控机器人——“零代”机器人,不具备任何智力性能,是由人来掌握操纵的机械手;可以训练的机器人——第一代机器人,拥有存储器,由人操作,动作的计划和程序由人指定,它只是记住(接受训练的能力)和再现出来;感觉机器人——机器人记住人安排的计划后,再依据外界这样或那样的数据(反馈)算出动作的具体程序;智能机器人——人指定目标后,机器人独自编制操作计划,依据实际情况确定动作程序,然
后把动作变为操作机构的运动。
因此,它有广泛的感觉系统、智能、模拟装置(周围情况及自身——机器人的意识和自我意识)。
1.3 语音识别技术的概述
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等]4[。
1.4 语音识别的发展历史
1.4.1 国外研究历史及现状
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初]5[。
这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。
这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其
他干扰。
因此原有的模板匹配方法已不再适用。
实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。
HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。
统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。
在声学模型方面,以Markov 链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。
在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。
另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。
语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。
比较有代表性的系统:IBM公司推出的ViaV oice和DragonSystem公司NaturallySpeaking,Nuance 公司的NuanceV oicePlatform语音平台,Microsoft的Whisper,Sun的V oiceTone等。
其中IBM公司于1997年开发出汉语ViaV oice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaV oice'98。
它带有一个32.000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。
该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
1.4.2 国内研究历史及现状
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
我国语音识别技术的研究水平已经基本上
与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室]6[。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。
在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。
研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。
中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品—PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。
1.5 语音识别技术的前景和应用
在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”。
使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。
语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。
语音技术的应用已经成为一个具有竞争性的新兴高技术产业]7[。
语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。
这些技术已经能够满足通常应用的要求。
由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。
在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。
一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。
人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。
调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。