语音识别软件流程图
基于语音识别的智能对话系统的研究
第40卷第5期2022年10月沈阳师范大学学报(自然科学版)J o u r n a l o f S h e n y a n g N o r m a lU n i v e r s i t y(N a t u r a l S c i e n c eE d i t i o n)V o l.40N o.5O c t.2022文章编号:16735862(2022)05044605基于语音识别的智能对话系统的研究与实现张浩华,李哓慧,王爱利,刘凡杨,柴欣,程骞阁(沈阳师范大学物理科学与技术学院,沈阳110034)摘要:随着时代的发展变化,人工智能在整个互联网中逐渐普及㊂作为人工智能中比较成熟的技术,语音识别被广泛应用在各行各业中㊂在信息技术服务业和教育行业中,语音识别系统的制作为人们的知识获取提供了便利的学习方式㊂通过研究语音识别技术的发展现状㊁语音识别算法的基本原理,对比3种典型的算法,选择出最优算法,进而实现了语音识别算法在硬件上的应用㊂通过将m i c r o:b i t作为主板,搭配I Ob i t2.0扩展板,利用语音识别模块识别关键词语,不断检测听到的语音词汇,对听到的语音块作出反应,同时M P3模块和腔体小喇叭协同配合,播放问题对应的答案,从而设计完成了具有语音识别及对话功能的智能系统㊂关键词:语音识别算法;m i c r o:b i t;语音识别模块;智能对话中图分类号:T P273文献标志码:Ad o i:10.3969/j.i s s n.16735862.2022.05.012R e s e a r c h a n d i m p l e m e n t a t i o n o fi n t e l l i g e n t d i a l o g u e s y s t e mb a s e do n s p e ec h r e c o g n i t i o nZ HA N G H a o h u a,L I X i a o h u i,WA N G A i l i,L I U F a n y a n g,C HA I X i n,C H E N GQ i a n g e(C o l l e g e o f P h y s i c a l S c i e n c e a n dT e c h n o l o g y,S h e n y a n g N o r m a lU n i v e r s i t y,S h e n y a n g110034,C h i n a)A b s t r a c t:W i t h t h e d e v e l o p m e n ta n d c h a n g e o ft h e e r a,a r t i f i c i a li n t e l l i g e n c ei s g r a d u a l l yp o p u l a r i z e d i n t h ew h o l e i n t e r n e t.A u t o m a t i cS p e e c hR e c o g n i t i o n,a s o n e o f t h em a t u r e t e c h n o l o g yi n t h e a r t i f i c i a l i n t e l l i g e n c e i n d u s t r y,i sw i d e l y a p p l i e d t o k i n d s o f j o b s.E s p e c i a l l y i n t h e i n f o r m a t i o nt e c h n o l o g y s e r v i c ea n de d u c a t i o n w o r k,t h e m a n u f a c t u r eo fs p e e c hr e c o g n i t i o ns y s t e m p r o v i d e sc o n v e n i e n t l e a r n i n g w a y f o r p e o p l e w h o g e tk n o w l ed g e.I nt h i s p a pe r,w es t u d y b a s i cs i t u a t i o na b o u tA u t o m a t i cS p e e c hR e c o g n i t i o nd o m e s t i ca n do v e r s e a s,a n df u n d a m e n t a l p r i n c i p l eo f s p e e c hr e c o g n i t i o n a l g o r i t h m.B y c o m p a r i n g t h r e e c l a s s i c a l a l g o r i t h m s a n d s e l e c t i n g s u i t a b l e o n e,r e s e a r c h e r sh a v e c o m p l e t e da p p l i c a t i o n i nh a r d w a r e.T h ed e s i g nc o n s i d e rm i c r o:b i t a sm a i nb o a r da n d I Ob i t a s e x p a n s i o nb o a r d.I t u s e s s p e ec hr e c o g n i t i o n m od u le r e c o g n i z em a i n t e r m s a n dd e t e c tc o n s t a n t l y s o u nd sa n dle t t e r st h a ti th e a r s.M e a n w h i l e,i tr e a c t st ot h e w o r d sh e a r i n g.T h e nc o n n e c t i n g t h e M P3m od u l ea n dt h ec a v i t y s pe a k e r,s p e a k e r w i l l p l a y t h ea n s w e ra b o u tt h ep r o b l e m.F i n a l l y,a n i n t e l l i g e n t d i a l o g u e s y s t e mi s d e s i g n e d.K e y w o r d s:v o i c e r e c o g n i t i o n a l g o r i t h m;m i c r o:b i t;v o i c e r e c o g n i t i o n m o d u l e;i n t e l l i g e n td i a l o g u e0引言古往今来,人类社会不断变化,科学技术也在不断更新㊂现代科学技术的发展,推动着人类经济㊁社收稿日期:20211023基金项目:中国高等教育学会创新创业教育重点研究项目(2020C Y D03);辽宁省教育厅科学研究经费项目(L J K Z1006)㊂作者简介:张浩华(1977-),男,辽宁沈阳人,沈阳师范大学副教授,博士㊂会生活等的方方面面㊂在这种时代背景下,机器人系统应运而生㊂人们对机器人系统本质的了解逐渐加深,促使它开始不断地渗入到人类的生产生活中去㊂据此,人们发展创造了各种各样不同形态的智能系统㊂智能语音系统的出现促进了学生的知识学习㊂通过语音识别,智能系统会根据关键词回答出正确答案,也可以根据关键词播放对应的文章㊁歌曲㊂它可以应用在教育培训机构或者学校的教学上,也可致力于科普知识的宣传㊂智能机器人系统的应用与研发在近年来形成了非常火爆的趋势,人机交互的真正实现离不开语音识别技术的快速发展[1]㊂1 语音识别基本理论1.1 国内外现状20世纪50年代,世界各国开始研究简单的英文数字识别内容;70年代,语音识别理论及算法大规模涌现;到80年代,研究者们采用统计分析的方法研究连续语音识别,研究重点转移到了词汇量较大的语音上㊂在我国,20世纪50年代末有研究者采用电子管电路对英文中的元音字母进行识别㊂70年代,中国开始进行计算机语音识别的研究㊂90年代,清华大学和中科院自动化所等单位在汉语听写机原理样机的研究方面取得了重要成果㊂21世纪,深度学习的出现极大促进了语音识别技术的发展[2]㊂1.2 基本原理语音识别[3],原理是接收语音信号,并将语音信号转化为文字,或者对其进行查询的操作[4]㊂按照识别对象的不同,它可以分为孤立词㊁连接词和连续语音识别等;根据针对的发音人,能够划分为特定人语音识别和非特定人语音识别[5]㊂非特定人语音识别系统更适合生活的实际需求㊂语音识别包括以下几部分:提取与处理语音特征㊁对语音进行降噪㊁建立语言模型㊁声学模型训练[6]㊂1.3 主流算法在语音识别技术常用的方法中,随机模型法包括几种主流算法,一般主要有动态时间规整方法㊁矢量量化方法㊁隐马尔可夫模型方法㊁人工神经网络[7]方法和支持向量机等语音识别方法[8]㊂动态时间规整算法可以比较二者之间相似的范围[9]㊂此方法计算起来比较复杂,但方法比较简单,识别语音较为准确㊂它不容易将各种知识应用到算法中去㊂矢量量化是对信号进行压缩,所需要训练的数据较少,所用存储空间也较小㊂它被用在词汇较少的情况中㊂但是,这种算法在很多性能上都没有优于基于参数模型的隐马尔可夫模型的方法㊂隐马尔可夫模型是一种使用概率的统计模型,广泛应用于信号处理㊁语音识别㊁行为识别等应用领域㊂V i t e r b i 算法被用于寻找观测时间序列的隐含状态序列,尤其在隐马尔可夫模型中[10]㊂此种算法可以被用于词汇量较多的情况和系统中,缺点是需要占用较大存储空间,但识别率却高出许多㊂2 语音识别算法V i t e r b i 算法可以帮助找到问题解决的最优路径,计算量也比同样功能的算法更小㊂它将全局最优的方法展开到局部最优,很好地解决了全局的问题㊂它在保证最优解的情况下,序列中的基于非线性的时间对准和针对词语边界的检测问题也得到很好地解决㊂由此,该算法成为语音识别中常被采用的算法㊂输入:模型λ=(A ,B ,Π)和观测O =(o 1,o 2, ,o T )输出:最优路径I *=(i *1,i *2, ,i *T )1)初始化δ1(i )=Πi b i (o 1),i =1,2, ,N φ1(i )=0,i =1,2, ,N 2)递推,对t =2,3, ,T δt (i )=m a x 1<=j <=N [δt -1(j )a ji ]b i (o t ),i =1,2, ,N φt (i )=a r g m a x 1<=j <=N [δt -1(j )a j i ],i =1,2, ,N 3)终止P *=m a x 1<=j <=N δT (i )i *t =a r g m a x 1<=j <=N [δT (i )] 4)最优路径回溯,对t =T -1,T -2, ,1744 第5期 张浩华,等:基于语音识别的智能对话系统的研究与实现844沈阳师范大学学报(自然科学版)第40卷i*t=φt+1(i*t+1)求得最优路径I*=(i*1,i*2, ,i*T)3语音识别算法的实现3.1系统总体设计本系统主要采用m i c r o:b i t主控板和I O b i t2.0扩展板为主架构,与语音识别模块相连接,采用语音识别芯片L D3320,通过语音识别获取控制指令[11]㊂同时搭配M P3模块及腔体小喇叭,实现总体搭建,整体系统框图如图1所示㊂本系统通过添加词组,对用户的言语进行识别并比对,识别完成后,相应地播放对应的音频㊂本设计有较强的灵活性㊂图1系统框图F i g.1S y s t e mb l o c kd i a g r a m3.2系统硬件设计3.2.1 m i c r o:b i t主板m i c r o:b i t是基于微软公司的开源平台编程经验工具包,是一台微型计算机[12]㊂开发板集成三合一传感器芯片,同时兼具加速度计㊁磁力计和陀螺仪的功能,可以与手机A P P进行蓝牙通信;它还自带m i c r o U S B供电接口,也可外接电池盒供电,实物如图2所示㊂本系统选取m i c r o:b i t主板,控制其他模块的功能,它具有较为全面的功能和易于编程的特点[13]㊂图2实物图F i g.2P h y s i c a l d i a g r a m3.2.2I Ob i t2.0扩展板I Ob i t是一款支持m i c r o:b i t的I O口引出扩展板㊂它可以引出m i c r o:b i t上的所有输入/输出资源,同时自带蜂鸣器开关,通过跳线帽的自由切换,实现对P0引脚的连接与释放㊂此扩展板既支持3V 电压,也支持5V电压,可连接多种传感器㊂扩展板增加了较为丰富的传感器功能模块,满足设计的多种需求㊂3.2.3语音识别模块语音识别模块选取了适合的语音识别算法应用于芯片,它可以通过语音唤醒来制作智能系统的部分㊂通过两线式串行总线识别语句㊁获取结果,发送和接收数据,实现人类和机器的交互㊂当断电时,它可以保存其中的数据,模块可以添加高达50条的识别语句,每条语句的汉字不能超过10个㊂嵌入L D3320芯片的语音识别模块,可以完成识别语音和声音控制的功能[14]㊂针对非特定人的语音识别技术A S R[15]是以关键词语列表为基础的一种匹配识别算法㊂它的本质在于声音特征提取完毕后,寻找匹配度最高的语句㊂输入到语音芯片的声音要与关键词进行对比逐个打分㊂同时,它有以下3种识别模式㊂循环检测模式:系统会不断检测听到的语音并识别㊂口令检测模式:识别到口令时,蜂鸣器响一声,之后开始识别,每唤醒一次识别一次㊂按钮检测模式:外界语音传输到系统主控中心,语音识别芯片会开始计时,在固定的时间段内,外界发出对应的词汇语音㊂计时结束后,需要重新触发按键继续识别[16]㊂模块原理如图3所示㊂图3 模块原理图F i g .3 M o d u l es c h e m a t i cd i a gr a m 3.2.4 M P 3-T F -16P模块图4 M P 3模块方案图F i g .4 M o d u l es c h e m ed i a gr a m M P 3模块提供串口,直接采用微处理器对不同格式的音频解码㊂根据编码方式及编码过程,会从存储卡中自动寻找到对应格式的音频文件,此时,M P 3模块对调出的文件解码,播放对应的语音文件[17]㊂此模块在上层可以完成音乐播放的指令和音乐播放的形式选择,省去下层烦琐的操作,可靠性得以提升㊂它支持多种不同的采样率,让音乐选取更加多样㊂同时,它可以通过不同的方式控制音乐播放,有简单的输入输出㊁按键开关控制和串口控制模式等㊂文件系统中最多包含100个文件夹,每个文件夹有255首曲目㊂片上系统(s y s t e mo nc h i p ,S o C )方案,开发难度和成本较低,因而被选用,方案如图4所示㊂同时,选用了将内存㊁U S B 等接口和驱动电路整合在一起的集成电路M C U ,利用a D S P 进行解码,硬解码的方式使得整个系统更加稳定可靠㊂3.3 系统软件设计3.3.1语音识别模块主程序设计图5 语音识别流程图F i g .5 S p e e c h r e c o gn i t i o n f l o w c h a r t 语音模块要进行初始化设置,添加词语列表,同时设置变量作为识别结果㊂接通电源时,微控制器向语音识别芯片写入系列词语,然后控制芯片循环识别听到的声音信号[18]㊂本系统通过检测人们发出的声音,判断识别词语是否匹配,并播放对应文件夹的音频㊂语音识别流程如图5所示㊂3.3.2 M P 3-T F -16P 模块主程序设计M P 3-T F -16P 模块与语音识别模块配合使用,实现问答功能㊂M P 3-T F -16P 模块的部分代码如下:b a s ic .f o r e v e r (f u n c t i o n (){ v a l u e =A s r .A s r _R e s u l t () s e r i a l .w r i t e N u m b e r (v a l u e ) i f (v a l u e ==1){d f p l a ye r .s e t T r a c k i n g (1,df p l a y e r .y e s O r N o t .t y p e 1) } b a s i c .p a u s e (2000)})3.4 系统性能测试语音识别算法有很多种,本文将算法传输到芯片实现语944 第5期 张浩华,等:基于语音识别的智能对话系统的研究与实现054沈阳师范大学学报(自然科学版)第40卷音识别获得了较大的完成度㊂本系统应用语音识别算法,结合m i c r o:b i t主板㊁扩展板,通过对语音识别模块和M P3-T F-16P模块进行设计编码,很好地实现了离线语音识别的功能㊂4结语本文分别从语音识别理论的简要概述㊁语音识别算法的对比以及其在硬件系统上的实现几个方面介绍了基于语音识别的智能对话系统,通过语音识别算法嵌入芯片,结合使用语音识别模块和M P3-T F-16P模块,实现了问答功能和人机交互,为算法在硬件的实现提供了一定参考㊂语音识别算法在智能音箱㊁智能家居等人工智能领域被广泛应用,对于不同的智能系统都有很好的借鉴作用㊂本次设计的智能对话系统,具有较强的实用性和推广性,可以在此基础上继续改进㊂参考文献:[1]胡钊龙,李栅栅.语音识别技术在智能语音机器人中的应用[J].电子技术与软件工程,2021(13):7273.[2]鱼昆,张绍阳,侯佳正,等.语音识别及端到端技术现状及展望[J].计算机系统应用,2021,30(3):1423.[3]K A U R G,S R I V A S T A V A M,K UMA R A.S p e e c h r e c o g n i t i o nu s i n g e n h a n c e d f e a t u r e sw i t hd e e p b e l i e f n e t w o r k f o r r e a l t i m e a p p l i c a t i o n[J].W i r e l e s sP e r sC o mm u n,2021,120(4):32253242.[4]于俊婷,刘伍颖,易绵竹,等.国内语音识别研究综述[J].计算机光盘软件与应用,2014,17(10):7678.[5]胡新月.语音识别技术在软件工程中的应用[J].电子技术与软件工程,2021(3):240241.[6]肖安帅,樊国华,崔泽坤,等.语音识别相关技术研究[J].信息与电脑(理论版),2020,32(16):138140.[7]I Q B A L M,R A Z AS A,A B I D M,e t a l.A r t i f i c i a l n e u r a l n e t w o r kb a s e de m o t i o nc l a s s i f i c a t i o na n dr e c o g n i t i o nf r o m s p e e c h[J].I n t JA d vC o m p u t S c iA p p l,2020,11(12):434444.[8]王敏妲.语音识别技术的研究与发展[J].微型机与应用,2009,28(23):12,6.[9]王素宁,朱俊杰,李志勇,等.基于D TW算法的电力调度语音识别研究和应用[J].电力与能源,2021,42(1): 3538+64.[10]朱祥.基于隐马尔可夫模型和聚类的英语语音识别混合算法[J].测量与控制,2020,28(5):175179.[11]张洪源,杨佩.基于语音控制的智能分类垃圾桶的设计[J].电脑知识与技术,2021,17(23):148149.[12]张帆.基于m i c r o:b i t主控板的智能小车的硬件设计与实现[J].电子制作,2019(19):3840.[13]米晶爽,张铁成,尹晓娇.基于m i c r o:b i t开发板的可编程动漫衍生形象机器人研究[J].工业设计,2020(4): 155156.[14]陈俊涛,许健才.面向服务机器人的简易人机语音交互系统设计[J].科学技术创新,2020(28):130131.[15]J A F R IA.C o n c a t e n a t i v es p e e c hr e c o g n i t i o nu s i n g m o r p h e m e s[J].I n tJ A d v C o m p u tS c iA p p l,2021,12(3): 671680.[16]高翔.基于L D3320的语音智能加热杯系统设计[J].软件,2020,41(12):129133.[17]王敏坤,贾海天,施连敏.基于n R F4L01和M P3模块的智能导游系统的实现[J].工业控制计算机,2012,25(3): 8788.[18]葛炎风.基于语音控制的L E D照明系统的研发[J].机电技术,2021(3):2730.。
基于RSC-4128的聋哑人语音交互系统设计
基于RSC-4128的聋哑人语音交互系统设计王海鹏;阙大顺;祁宠杰;董航【摘要】结合自动语音识别、语音合成和单片微处理技术,研究设计了一种基于RSC-4128语音信号处理器的聋哑人语音交互系统.分别完成了系统的总体设计和软硬件设计,并采用STM32和WT588D语音播报模块使系统更加智能,帮助聋哑人更易于与外界交流.系统测试结果表明,该系统实现了语音的自动识别、识别结果的文字显示和快速按键触发语音播报等功能,并具有低功耗和便于携带的特点.%Combined with automatic speech recognition,speech synthesis and microprocessor technology,a deaf-mute voice interaction system based on speech signal processor RSC-4128 is developed.The overall design of the system and its hardware and software design are completed.STM32 and WT588D voice announcement modules are used in the system to make the system more intelligent to help the deaf-mute communicate with others more easily.The results of experiments showed that the system realized automatic recognition of speech,text display of recognized speech,speech announcement triggered by fast-buttons and so on.The system also has the characteristics of low power consumption and portability.【期刊名称】《电气自动化》【年(卷),期】2013(035)004【总页数】3页(P12-14)【关键词】自动语音识别;语音合成;RSC-4128;STM32;WT588D【作者】王海鹏;阙大顺;祁宠杰;董航【作者单位】武汉理工大学信息工程学院,湖北武汉430070;武汉理工大学信息工程学院,湖北武汉430070;武汉理工大学光纤传感技术与信息处理教育部重点实验室,湖北武汉430070;武汉理工大学信息工程学院,湖北武汉430070;武汉理工大学信息工程学院,湖北武汉430070【正文语种】中文【中图分类】TP2720 引言根据第二次全国残疾人抽样调查的结果汇总表明,截至2006年4月1日,我国患听力残疾人数为2004万,占总残疾人数24.16%,言语残疾127万,占总残疾人总数的1.53%[1]。
语音识别技术
基于DTW的语音识别
• DTW算法通过局部优化的方法实现加权距离和最小,即
D ( i , j ) = m in
C
∑
N
n=1
d x , y Wn i n j n ( ) ( )
(
)
∑W
n =1
N
n
Wn 为加权函数,需考虑两个因素: ⑴ 根据第n对匹配点前一步局部路径的走向来选取; ⑵ 考虑语音各部分给予不同权值,以加强某些区别特征。
• 对于孤立词(或命令)识别,DTW算法与HMM算法在相同的 环境下,识别效果相差不大。 • 优点: -可靠性强 -复杂度低 • 关于DTW理论已作介绍
基于matlab的DTW识别算 法实现
• 实验模板:”a,b,c,d,e,你好“的wav文件(8k采样, 单声道,精度8位) • DTW算法采用两步约束:
・ 说话人识别常用参数分类:
(1) 线性预测参数及其判生参数 (2) 语音频谱直接导出的参数 (3) 混合参数 (4) 其他鲁棒性参数
说话人识别与语种辨识
・ 模式匹配的方法: (1) 概率统计方法; (2) 动态时间规整方法(DTW) (3) 矢量量化方法(VQ) (4) 隐马尔可夫模型方法(HMM) (5) 人工神经网络方法(ANN)
语音识别的概述
语音识别系统的分类
分类依据 语音的发音 方式 孤立词语音 识别系 统 连接字语音 识别系 统 非特定人语 音识别系 统 说话人 词汇量的大 小 小词汇量 (10-100) 识别的方法 动态时间规 整(DTW) 矢量量化 (VQ) 隐马尔可夫 模型 (HMM ) 隐马尔可夫 模型 (HMM)、 人工神经 网络 (ANN) 应用场合
y y
yk =
Y = y1 , y2 ,L , yTy , k = 1, 2,L , Ty
语音识别方法简介
◆ 不同的语音识别系统,虽然具体实现细节有所不 同,但所采用的基本技术相似,一个典型语音识别系 统的实现过程如图1所示。
语音信号 预处理
训练
特征提取
识别
参考模式 模式匹配
识别结果 判决规则
图1 语音识别的实现
待识别的语音经过话筒变换成电信号后加在识 别系统的输入端,首先要经过预处理,预处理预处 理包括反混叠失真滤波、预加重和端点检测。等。 经过预处理后,按照一定的特征提取方法产生语音 特征参数,这些特征参数的时间序列便构成了待识 别语音的模式,将其与已经存储在计算机内的参考 模式逐一进行比较(模式匹配),最佳匹配(由判决规 则确定) 的参考模式便是识别结果。参考模式是在系 统使用前获得并存储起来的,为此,要输入一系列 已知语音信号,提取它们的特征作为参考模式,这 一过程称为训练过程。
TI的OMAP平台
OMAP(Open Multimedia Applications Platform 开放式 多媒体应用平台)是TI公司针对移动通讯以及多媒体 嵌入应用系统开发的一套应用处理器架构体系。
内核软件技术
1.为加速信号处理的速度,OMAP平台的内核软件 组件允许应用程序利用数字信号处理器(DSP), 从而提高终端应用性能。
Zero-crossings with Peak-amplitudes )
LPCMCC(LPC 美尔倒谱系数 )
• 对于词组的动态学习功能,解决了用户精神疲劳程度高的问 题;
• 组词功能自然衍生高精度语音人名拨号(Name_dialing)功 能,而且容量比现有手机中的人名识别技术高一个数量级 (从10-20到100-200),成十倍地提高用户查找电话本的时 间;
• 便捷友好的交互界面,与现有系统兼容,充分考虑用户习惯; • 采用人耳仿生学原理设计的语音识别特征提取算法,大大提
语音识别芯片LD3320介绍第三讲
语音识别芯片LD3320介绍语音识别芯片LD3320驱动程序1、芯片复位复位就是对LD3320芯片的第47腿(RSTB*)发送低电平,然后需要对片选CS做一次拉低→拉高的操作,以激活内部DSP。
按照以下顺序:void LD_reset(){RSTB=1;delay(1);RSTB=0;delay(1);RSTB=1;delay(1);CSB=0;delay(1);CSB=1;delay(1);}delay(1)是为了更稳定地工作。
初始化一般在程序的开始进行,如果有时芯片的反应不太正常,也可用这个方法恢复芯片初始状态。
2、语音识别语音识别的操作顺序是:语音识别用初始化(包括通用初始化)→写入识别列表→开始识别,并准备好中断响应函数,打开中断允许位。
这里需要说明一下,如果不用中断方式,也可以通过查询方式工作。
在“开始识别”后,读取寄存器B2H的值,如果为21H就表示有识别结果产生。
在此之后读取候选项等操作与中断方式相同。
(1)通用初始化按照以下序列设置寄存器。
void LD_Init_Common(){bMp3Play=0;LD_ReadReg(0x06);LD_WriteReg(0x17,0x35);delay(10);LD_ReadReg(0x06);LD_WriteReg(0x89,0x03);delay(5);LD_WriteReg(0xCF,0x43);delay(5);LD_WriteReg(0xCB,0x02);/*PLL setting*/LD_WriteReg(0x11,LD_PLL_11);if(nLD_Mode==LD_MODE_MP3){LD_WriteReg(0x1E,0x00);//!!注意,下面三个寄存器,会随晶振频率变化而设置不同//!!注意,请根据使用的晶振频率修改参考程序中的CLK_INLD_WriteReg(0x19,LD_PLL_MP3_19);LD_WriteReg(0x1B,LD_PLL_MP3_1B);LD_WriteReg(0x1D,LD_PLL_MP3_1D);}else{LD_WriteReg(0x1E,0x00);//!!注意,下面三个寄存器,会随晶振频率变化而设置不同//!!注意,请根据使用的晶振频率修改参考程序中的CLK_INLD_WriteReg(0x19,LD_PLL_ASR_19);LD_WriteReg(0x1B,LD_PLL_ASR_1B);LD_WriteReg(0x1D,LD_PLL_ASR_1D);}LD_WriteReg(0xCD,0x04);LD_WriteReg(0x17,0x4c);delay(5); LD_WriteReg(0xB9,0x00);LD_WriteReg(0xCF,0x4f);LD_WriteReg(0x6F,0xFF);}(2)语音识别用初始化按照以下序列设置寄存器。
语音识别基本知识及单元模块方案设计
语音识别基本知识及单元模块方案设计Last revision on 21 December 2020语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
1语音识别的基本原理语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。
而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。
然后根据此模板的定义,通过查表就可以给出计算机的识别结果。
显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。
动态时间规整算法(Dynamic Time Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。
在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。
智能电梯语音识别控制系统设计
第14卷㊀第3期Vol.14No.3㊀㊀智㊀能㊀计㊀算㊀机㊀与㊀应㊀用IntelligentComputerandApplications㊀㊀2024年3月㊀Mar.2024㊀㊀㊀㊀㊀㊀文章编号:2095-2163(2024)03-0199-04中图分类号:TP391.4文献标志码:A智能电梯语音识别控制系统设计王金硕,张紫阳,郑昌威,宋㊀蕾(辽宁科技大学电子与信息工程学院,辽宁鞍山114051)摘㊀要:随着语音识别技术的不断发展,无接触语音控制模式在公共设施上的应用也不断普及㊂为实现无接触语音控制模式在电梯控制系统上的应用,本文设计智能电梯语音识别控制系统,通过语音识别模块配合单片机实现对电梯的基本控制,并添加部分辅助功能以实现电梯的智能化设计,提高对于多种电梯应用环境的功能性㊁简化结构㊁拓展应用范围㊁实现电梯的自动化㊁智能化发展㊂关键词:电梯;语音识别;无接触语音控制;单片机DesignofintelligentelevatorspeechrecognitioncontrolsystemWANGJinshuo,ZHANGZiyang,ZHENGChangwei,SONGLei(SchoolofElectronicandInformationEngineering,UniversityofScienceandTechnologyLiaoning,Anshan114051,Liaoning,China)Abstract:Withthecontinuousdevelopmentofvoicerecognitiontechnology,theapplicationofcontactlessvoicecontrolmodeinpublicfacilitiesisalsobecomingmoreandmorepopular.Inordertorealizetheapplicationofthecontactlessvoicecontrolmodeintheelevatorcontrolsystem,theintelligentelevatorvoicerecognitioncontrolsystemisproposed,whichmainlyrealizesthebasiccontroloftheelevatorthroughthevoicerecognitionmodulewiththesingle-chipmicrocomputer,andaddssomeauxiliaryfunctionstorealizetheintelligentdesignoftheelevator.Theresearchfruitsimprovethefunctionalityoftheelevatorapplicationenvironment,simplifythestructure,expandtheapplicationrange,andrealizetheautomationandintelligentdevelopmentoftheelevator.Keywords:elevator;speechrecognition;contact-freevoicecontrol;microcontroller基金项目:大学生创新创业训练计划项目(2023年立项)㊂作者简介:王金硕(2004-),男,本科生,主要研究方向:电子工程;张紫阳(2003-),男,本科生,主要研究方向:电子工程;郑昌威(2003-),男,本科生,主要研究方向:电子工程㊂通讯作者:宋㊀蕾(1976-),女,博士,副教授,主要研究方向:冶金工程㊂Email:2327603962@qq.com收稿日期:2023-03-300㊀引㊀言随着人工智能和边缘计算的不断普及与发展,人们的生活水平日渐提高,语音识别技术作为智能化发展的一个重要分支已经成为了社会发展的潮流方向[1]㊂从生产方面来说,通过语音智能控制电梯的模式能够克服传统电梯的局限性,进一步提高自动化和智能化水平[2];从生活方面来说,电梯具有使用频繁㊁使用人群复杂㊁空间狭小㊁空气难以流通等特点,使用者直接接触按键将可能造成病毒的传播,而无接触控制模式可以极大程度地减小病毒传播的风险[3]㊂另外,无接触式的电梯控制方式可以减少因频繁使用按键导致的按键损伤,减小维护成本[4]㊂智能电梯控制系统主要通过语音模块实现电梯的无接触控制,并结合面部识别进行人员认定,继而又添加了传感器模组结合单片机进行一般风险的处理㊂通过将语音识别和面部识别相结合的方式实现电梯的智能化控制,从而有效提高了电梯运行的安全性㊂1㊀设计思路为实现智能电梯语音识别控制系统的主要功能,在语音智能控制的基础上,通过加装人脸识别系统㊁语音识别功能㊁一般风险处理等辅助模块进一步实现电梯的智能化设计,其自动控制模式也极大地促进了电梯的智能化㊂首先,为了减小运营成本并保证人员安全,目前很多社区和办公场所通过门卡的方式限制外来人员使用电梯,但刷门卡通过有时候也会带来很多不便,比如忘带门卡等情况[5]㊂而通过人脸识别和语音识别的方式对外来人员进行区分,不仅可以使识别更精确,保证安全,还可以切实提升电梯使用的便捷性,防止因 丢卡 而无法使用电梯的情况发生[6]㊂同时,外来人员也可以语音申请㊁并在允准后使用电梯,避免了外来人员无法使用电梯的情况,从而提供了更好的使用体验㊂其次,通过添加对一般风险的预警㊁外界连接交流等功能实现对电梯突发状况的风险处理㊂当风险发生时电梯会自动向外部发送运行状态异常信号,同时电梯内人员也可选择与外界进行语音联络,有助于外部人员较快地了解电梯内部情况㊂智能无接触控制系统在语音唤醒后开始收集使用者的面部信息,在面部信息比对完成后开启对电梯的语音化控制,通过语音模组对声音进行收取并将相应的控制信号输出给单片机,由单片机处理并输出信号控制电梯㊂外来人员使用电梯时也可向系统发出请求,经允许后可以使用电梯㊂此外,当检测或者接收到紧急情况信息时,单片机也将开启应急处理模式,并将电梯内部情况实时传递到外部总控端,以利于外界了解电梯内部和人员情况,更加及时,便捷地应对和处理突发情况㊂2㊀语音模块设计2.1㊀语音模块硬件介绍电梯的无接触化控制由VC-02语音识别模组实现的㊂该模组使用了US516P6语音芯片,能够精确完成声音信号与数字信号的相互转换,从而实现语音识别的功能[7]㊂US516P6芯片支持数字信号处理(DSP)指令集以及浮点运算单元,可以定制语音算法算子,实现对音频信息的收集与处理,具有良好的稳定性[8]㊂该离线识别算法与芯片架构深度融合,在音频方面支持I2S总线输入输出及模拟和数字音频输入与双声道数字模拟输出,可以实现语音控制的个性化定制和精准识别功能㊂VC-02的应用电路如图1所示㊂D A C_RM I C-M I C+G P I O_B7/T X1G P I O_B6/R X1G P I O_A25N CS D A/G P I O_B3S C L/G P I O_B2T C K/G P I O_B O/T XS P K+S P K-G N DV C CG P I O_A27G P I O_B8D A C_LG P I O_A26N C T M S/G P I O_B1/R XM I C-M I C+S P K+ S P K-M I CS P KV C-02V C C图1㊀VC-02应用电路Fig.1㊀VC-02applicationcircuit2.2㊀语音识别模块设计系统的语音识别模块以VC-02语音识别模组为主控单元,在设置好命令词后通过识别声音与命令词比对输出相应的控制信号㊂命令词实现的功能主要分为电梯控制㊁用户注册和自动化转人工等多个方面㊂VC-02通过提前设置的声音命令词和声音播报,让使用者可以通过说出对应的命令词实现控制系统的启用㊁对电梯的控制以及进行相应的操作[9]㊂芯片对每一个命令词都有一个相应的控制信号,将信息发送至单片机以判断对电梯下一步的控制方案㊂如芯片在识别到使用者前往的楼层时,将通过串口向单片机发送控制信号,并由单片机发送对电梯的控制信息使电梯到达相应楼层㊂在使用过程中,语音模块将按照先后顺序依次读取命令词,以防止语音识别系统在复杂的使用环境下混淆命令词㊂在VC-02语音模组中还添加了特定识别词,以实现外来人员识别㊁人员信息注册㊁唤醒声音识别系统和应急通讯等功能㊂当语音识别模块接收到上述特殊命令词后,将相应的控制信息发送到单片机,在信息处理的单片机上预留了一个输入和输出端口,通过有线的方式将上述特殊信息传递给总控端对信息进行处理,处理后将控制信息发送到单片机中㊂当单片机接收到可以使用的信号时,语音识别的流程如图2所示㊂单片机收取信息执行对应操作特殊命令词V C-02收取声音选择操作方案退出录入完成申请录入信息是否为批准用户语音唤醒开始语音识别与人脸识别相结合是否图2㊀语音识别流程图Fig.2㊀Flowchartofspeechrecognition3㊀面部识别模块设计3.1㊀OpenMV的人脸识别OpenMV是一种可以通过编程语言实现其逻辑功能的可编程摄像头模块[10],其人脸识别的主要功能是通过局部二值模式(LocalBinaryPattern)特征描述的,LBP通过描述图像局部特征的算子,提取特征纹理,完成人脸识别[11]㊂人脸检测是通过002智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀OpenMV的构造函数进行匹配并判断对象是否处于图像中㊂通过该函数可以更精准地对电梯内部人员进行面部识别,OpenMV通过对每一位电梯使用者进行拍照记录,将使用者的面部信息与数据库中的人脸模型进行相似度匹配,匹配成功后发送命令信号,进行语音控制电梯的操作[13]㊂3.2㊀面部识别设计面部识别功能主要是由OpenMV摄像头模块进行数据采集,实现人脸信息录入和电梯进入人员的识别两个功能㊂在对语音电梯控制系统进行语音唤醒后,要对进入电梯人员进行识别㊂OpenMV将采集到的人脸信息与数据库中的人脸数据加以比对,找出比对符合率最大的,并判断符合率是否达到人脸匹配成功的要求㊂如果识别失败则转入人脸信息的录入,摄像头将采集不同角度和不同表情的人脸数据进行储存,并将录用的人脸信息进行备份㊂人脸识别流程如图3所示㊂单片机收取信息执行对应操作选择操作方案申请录入信息语音唤醒开始录入完成退出人脸识别识别成功识别失败图3㊀人脸识别流程图Fig.3㊀Flowchartoffacerecognitiondesign4㊀一般风险处理电梯成为人们日常生活中重要的组成部分,保证电梯安全运行是公共设施建设的必要要求[14]㊂而在电梯内发生的风险一般都是突发的,没有太多的反应时间,同时电梯封闭的环境也易导致营救人员对内部突发状况和人员情况不了解,增加了救援难度[15]㊂在智能电梯控制系统设计的过程中主要围绕对风险的及时感知与预警以及对突发情况的辅助通讯等方面展开㊂通过预警㊁通讯与辅助救援等方面增强电梯使用的安全性,使智能电梯控制系统成为电梯安全运行的保障之一[16]㊂4.1㊀风险预警风险预警模块在电梯开始运行时开启,将传感器传输出的电梯运行状况信号传递给单片机进行检测㊂由于电梯内部为封闭空间,为保证数据传输的稳定性,单片机检测到的运行状况数据将通过有线的方式传输到数据库中[17]㊂当系统监测到电梯运行异常时,将通知外界的总控端进行预警㊂风险预警的预警状态分为4种:电梯运行速度异常㊁火警故障㊁断电故障和电梯门异常,电梯的运行状态结构如图4所示㊂运行速度异常火警故障断电故障电梯门异常单片机对传感器信号进行检测并进行逻辑分析红外感应电源检测温度检测光电传感器开关门信号电源维修信号火警信号电梯运行状态图4㊀电梯运行状态Fig.4㊀Runningstateoftheelevator㊀㊀目前市面上大多数种类的电梯是由轿厢中的控制系统控制电梯运行的,该系统主要以单片机或者可编程逻辑控制器(PLC)作为控制核心[18]㊂电梯在运行过程中由电机带动钢丝绳控制轿厢升降,轿厢中的控制系统接收到系统命令后,串行总线和电梯顶部的电机进行通讯[19],电梯的位置是由轿厢中的控制系统来进行检测的,一般都采用增量编码器计数的方式配合双稳态磁开关或光电开关来识别轿厢位置,从而将电梯的位置信号传递给电梯控制系统[20]㊂系统通过接收电梯的位置信号计算电梯的运行速度,判断电梯运行状态是否异常㊂电梯运行速度由电梯通过楼层的时间决定,电梯平均速度计算公式如下:V-=ðni=1dnti㊀㊀其中,d为楼层宽度;n为电梯从开始运行到停止状态时通过的楼层数量;ti为电梯从开始运行到停止状态通过每一个楼层所用的时间㊂另外,系统还添加了温度传感器,当温度值高于预警值时系统将发送火警故障预警㊂系统的电源检测电路能够判断电梯是否为带电状态,当检测到电梯为无电状态时发送断电预警,并添加了12V的锂电池外加电源以确保预警功能的正常运行㊂在电梯门处添加红外感应模块,当电梯在停止状态时开启,开启后如果单片机延时一定时间无法检测到红外感应,则发送电梯门异常故障预警等㊂4.2㊀辅助通讯当电梯被判断为异常运行时,电梯内的人员可102第3期王金硕,等:智能电梯语音识别控制系统设计以通过语音控制或外界强制与电梯内部进行语音连接㊂电梯内部与外界的信息采用有线的方式以防止电梯内部封闭信号弱等问题㊂通过与内部人员的沟通了解电梯内部状况,以便于救援人员对电梯内人员精准㊁有效地开展救援㊂5 结束语智能电梯语音识别控制系统通过无接触化语音控制模式实现对电梯的运行㊁人员识别㊁故障检测等功能㊂系统结构相对简单,对于电梯的多种应用环境都有良好的功能性,泛用性强㊂系统的设计包括语音与面部双识别㊁无接触控制电梯㊁突发状况的预警通讯,符合了当下智能化发展的设计需求㊂智能电梯语音识别控制系统设计对基础设施智能化建设提供了新的解决方案,系统的具体设计细节也有待进一步完善㊂参考文献[1]吴哲顺.基于协同边缘计算的声纹识别系统的研究与实现[D].广州:广东工业大学,2020.[2]汪鑫,于浩,张雨婷,等.基于单片机的智能电梯系统的设计与研究[J].物联网技术,2022,12(9):68-69.[3]陈伍昌,蒋政培.应对新冠肺炎疫情的电梯防疫包和无接触式呼梯选层技术[J].中国电梯,2021,32(24):63-65.[4]郝天玥.基于神经网络的无接触电梯控制系统的应用研究[D].大连:大连交通大学,2021.[5]骆凯.浅谈电梯IC卡刷卡系统[J].特种设备安全技术,2020(2):45-46.[6]赵慧,张伟,郝喆.基于OpenMV视觉模块的人脸识别监控系统研究[J].信息化研究,2022,48(1):55-58.[7]刘金凤.基于DSP的语音转换系统研究[D].长春:吉林大学,2006.[8]曾铮.基于DSP和USB的声音信号采集系统设计[D].北京:北方工业大学,2006.[9]郭罡,李锦宇,李小兵,等.嵌入式命令词语音识别系统[J].信号处理,2004(5):525-528,474.[10]王大伟,陈章玲.基于LBP与卷积神经网络的人脸识别[J].天津理工大学学报,2017,33(6):41-45.[11]姜煜杰.改进的LBP算法在人脸识别中的研究与应用[J].湖北师范大学学报(自然科学版),2023,43(2):51-59.[12]刘庆婷,陈梅.基于OpenMV的智能门卫系统[J].信息技术与信息化,2021(6):273-277.[13]胡徐胜,陶彬彬,曾胜.基于STM32的测温与身份识别系统设计[J].天津理工大学学报,2021,37(4):36-39.[14]王壹创,冯顺念,成龙,等.关于疫情期间免接触电梯的设计[J].电子制作,2022,30(12):6-8.[15]李宇杰,段二明.分析电梯检验中的控制系统常见问题及解决措施[J].中国设备工程,2023(24):173-175.[16]王恩亮,华驰,陈洁.基于STM32F103ZET6的自定义通信协议电梯监控系统设计[J].中国安全生产科学技术,2016,12(12):160-165.[17]陈军.基于ARM嵌入式的电梯信息采集及微投系统优化与研究[D].武汉:武汉纺织大学,2021.[18]闫妍.智能电梯控制中的PLC节能设计与实现[J].电子制作,2015(16):17.[19]申玉宏,刘丽.单片机在电梯自动控制中的应用分析[J].电子制作,2015(1):54.[20]孔庆鹏.电梯轿厢井道精密位置检测与变频驱动系统的研究[D].杭州:浙江工业大学,2002.202智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第14卷㊀。
基于单片机的智能语音识别系统设计毕业设计论文
基于单片机的智能语音识别系统设计(硬件部分)系别:专业班:姓名:学号:指导教师:基于单片机的智能语音识别系统设计(硬件部分)The Design of Intelligent SpeechRecognition System Based onSingle-chip Computer(HardWare)摘要本文设计一个让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术的语音识别系统。
本语音识别系统以LD3320语音识别芯片为核心部件,主控MCU选用STC10L08XE。
主控MCU通过控制LD3320内部寄存器以及SPI flash实现语音识别和对话。
通过麦克风将声音信息输入LD3320进行频谱分析,分析后将提取到的语音特征和关键词语列表中的关键词语进行对比匹配,找出得分最高的关键词语作为识别结果输出给MCU,MCU针对不同的语音输入情况通过继电器对语音命令所对应的电器实现控制。
同时也可以通过对寄存器中语音片段的调用,实现人机对话。
设计中,电源模块采用3.3V供电,主要控制及识别部分采用LM1117-3.3稳压芯片,语音播放及继电器部分采用7812为其提供稳定的电流电压。
寄存器采用一片华邦SPI flash芯片W25Q40AVSNIG,大小为512Kbyte。
系统声音接收模块采用的传感器为一小型麦克风——驻极体话筒,在它接收到声音信号后会产生微弱的电压信号并送给MCU。
另外系统还采用单片机产生不同的频率信号驱动蜂鸣器来完成声音提示,此方案能完成声音提示功能,给人以提示的可懂性不高,但在一定程度上能满足要求,而且易于实现,成本也不高。
关键词:语音识别 LD3320 STC10L08XE单片机频谱分析AbstractThis paper designs a hi-tech speech recognition system which enables machines to transfer speech signals into corresponding texts or orders by recognizing and comprehending. The centerpiece of the speech recognition system is LD3320 voice recognition chip,its master MCU is STC10L08XE. Master MCU achieve voice conversation by controlling the internal registers and SPI flash LD3320.The sound information is inputted into LD3320 by microphone to do spectrum analysis. After analyzing the voice characteristics extracted are compared and matched with the key words in the list of key words.Then the highest scores of key words found would be output to MCU as recognition results. MCU can control the corresponding electrical real of speech recognition for different voice input through the relays and can also achieve voice conversation through a call to voice clips in register.In the design,power module uses 3.3V.The main control and identification part adopt LM1117-3.3 voltage regulator chip,and 7812 is used to provide stable current and voltage for the part of voice broadcast and relay.Register uses chip SPI flash W25Q40A VSNIG which is 512Kbyte. The sensor used in the speech reception module of the design is microphone,namely electrit microphone.After receiveing the sound signal,it can produce a weak voltage signal which will be sent to MCU. In addition,the system also adopts a different frequency signals generated by microcontroller to drive the buzzer to complete the voice prompt, and this program can complete the voice prompt.The program gives a relatively poor intelligibility Tips.However, to some extent,it can meet the requirements and is easy to implement and the cost is not high.Key words:Speech Recognition LD3320 STC10L08XE Single-chip computer Spectrum Analysis目录摘要 (I)Abstract (II)绪论 (1)1设计方案 (5)1.1 系统设计要求 (5)1.2总体方案设计 (5)2 系统硬件电路设计 (6)2.1电源模块 (6)2.2 寄存器模块 (6)2.3 控制单元模块 (7)2.3.1 STC10L08XE单片机简介 (8)2.3.2 STC11/10xx系列单片机的内部结构 (10)2.4 声音接收器模块 (10)2.5 声光指示模块 (11)2.6 语音识别模块 (11)2.6.1 LD3320芯片简介 (11)2.6.2 功能介绍 (12)2.6.3 应用场景 (13)2.6.4 芯片模式选择 (15)2.6.5 吸收错误识别 (16)2.6.6 口令触发模式 (17)2.6.7 关键词的ID及其设置 (18)2.6.8 反应时间 (18)3 系统软件设计 (20)3.1 系统程序流程图 (20)3.2 系统各模块程序设计 (20)3.2.1 主程序 (20)3.2.2 芯片复位程序 (27)3.2.3 语音识别程序 (28)3.2.4 声音播放程序 (37)4 系统调试 (44)4.1 软件调试 (44)4.1.1 上电调试 (44)4.1.2 读写寄存器调试 (44)4.1.3 检查寄存器初始值 (44)4.2 硬件电路调试 (45)4.2.1 硬件检查 (45)4.2.2 硬件功能检查 (45)4.3 综合调试 (46)结论 (47)致谢 (48)参考文献 (49)附录1实物图片 (50)附录2系统电路图 (51)绪论课题背景及意义让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。
实时语音识别系统在家庭监护机器人的实现
和 处理 隐马可 夫模 型 ( HMM )的 实 验 工 具 包 四 由英 国 剑 桥 s ,
大 学 工 程 系 ( a r g nv r t E g e r g D p r e t C mb d e U i s y n i e n e at n , i e i n i m
1 语 音 识 别 算 法 处理 器 选择 ) 根 据 系统 设 计 功 能 的要 求 , 目前 常用 的 语音 识 别 芯 片 种
K e o ds p ec r c g to y w r :s e h e o ni n;h m e c r bo ;AT ;r a -i y t m i o ae r o t K e ltme s se
语 音 是 人 类 最 常 用 的 交 流 方 式 。 是 人 类 和 计 算 机 交 流 也 最 渴 望 的 方 式 口 因此 用 语 音 同 计 算 机 交 流 也 成 为 了 最 近 研 1 。 究 的 热 点 . 算 机 对 语 音 的 理 解 是 计 算 机 科 学 中 的一 个 引 人 计 人 胜 的 、 有 挑 战 性 的课 题 [ 富 2 1 。 进入 9 0年 代 , 着 多媒 体 时 代 的 来 临 , 切 要 求 语 音 识 随 迫 别 系 统 从 实 验 室 走 向 实 用 。许 多 发 达 国家 如 美 国 、 日本 、 国 韩
了 系统 的 软 件 硬 件 设 计 的 正确 性 。
关键 词 : 音 处 理 ;家庭 机 器人 ; T 语 A K;实 时 系统
中 图 分 类 号 :I 2 2 P 4
文献标识码 : A
文 章 编 号 :17 — 26 2 1 )7 0 3 — 3 64 6 3 (0 2 0 — 12 0
V V 一5
基于语音识别技术控制智能家居
基于语音识别技术控制智能家居
(1) DHT11温湿度模块:实时采集家居环境下的温湿度数据信息发送给STM32主控制芯片进 行处理 (2) 麦克风+语音识别模块:接受和识别人所发出的语音控制信号,并将其转换成为STM32 主控芯片所能识别的语音控制命令 (3) 手机APP+ONE NET云平台+ESP8266无线通信WiFi模块:手机APP端可以通过ESP8266无 线通信模块实现对各联网设备进行控制。同时,STM32主控芯片通过ESP8266无线通信模块 把传感器采集的数据上传到ONE NET云平台,并在手机APP端实现实时查看 1.2输出电路端 (1) 舵机模块:可以通过语音、手机APP,同时,也可以设置普通按钮来控制舵机的启停, 进而实现对家居环境中的窗帘的开关进行控制 (2) LED:模拟室内灯光的亮灭,可以对STM32主控芯片识别的语音和手机APP的控制命令进 行LED灯的亮灭
2.4 DHT11温度湿度模块硬件电路设计
DHT11 温湿度模块电路是一种常用的温湿度测量模块, 它采用数字信号输出方式,能够快速、准确地测量当前 环境的温度和湿度 。DHT1温湿度模块的接口电路包括 三个引脚,分别是 VCC、GND 和 DATA。其中,VCC 和 GND 为模块的电源接口,DATA 为数字信号输出接口。 DHT11模块硬件接线图如图5所示
1.系统硬件结构框图 智能家居语音控制系统硬件结构框图如图1所示。其中,由DHT11温湿度模块、麦克风 +语音识别模块以及手机+ONE NET云平台+ESP8266无线通信WiFi模块组成系统的输入 电路端;由舵机控制的窗帘、LED灯和继电器模拟空调的开关调节组成系统的输出电 路端。各模块功能描述如下:图1 系统硬件结构框图 1.1输入电路端
基于小波神经网络的嵌入式语音识别系统
中图分类号:T 3 1 2 P 1. 5( 1) 9 02 — 2 07 99 2 2 0 — 08 0 0
、
引言
语音识别是将人类语音信号进行预处理、特征提取 ,然后和 测试 、训练 后存 储在 计 算机 中 的标准 模型 进行 比较 ,得 出判 定和 识别结果。从本质上讲,语音识别是通过先进的计算机 、信号处
摘要 :本 文介绍 了基 于嵌 入 式操作 系统 W idws E和 A no C RM 平 台的语 音识 别 系统 ,该 系统使 用 了小 波神 经网络 技 术。 系统 使 用 ¥C 40芯 片进 行控 制和语 音识 别 ,使 用 S C 0 1 片 完成训 练算 法 、语 音信 号特 征提 取 ,具有 较好 的 可移植 3 21 P E 6A芯 性 ,在 小波神 经 网络 算 法的帮 助下 ,系统有较 高的识 别率 。
理技 术将 语音 信号 转变 为计 算机 可 以识别 的 二进 制编码 ,并进行 处理 的技 术 。语音 识别 技术 在智 能家 电、工 业现场 控制 、机 器人
等领 域有 广 阔的应 用前 景 。
早期 的 语音 识别技 术 多基 于线 性系 统理 论 ,但人 的发 音是 复
杂 的非线 性过 程 , 以线 性 系统 理论 为基 础 的语音 识别 技术 局 限性 较大 。近 年 来 ,非线 性技 术逐渐 运 用 到了语 音识 别领 域 ,国 内外 学者 研 究较 多的 理论 有人工 神经 网络 、 小波变 换 等非线 性技 术 。 小波 变 化具 有时 频局部 性等 特 点 , 经 网络具有 自适 应性 好 、 神 容错 性 强等 优 点,结 合 以上两 种技 术 的优 点 ,本 文介 绍 了一种 基 于小 波变 换 神经 网络 的嵌 入式 语 音识别 系统 ,该系统 是智 能轮 椅 的组 成 部分 ,可 以让 轮椅 使用 者通过 语 音直 接控 制轮椅 的行 动 。
人工智能语音识别技术培训ppt
• 语音识别系统的实现与应用:本次培训还讲解了如何实现一个完整的语音识别系统,包括各个模块的组合方式、优化方法 等,并且介绍了语音识别技术在各个领域的应用,如智能家居、车载娱乐、智能客服等。
声学模型与语言模型
声学模型
将语音信号映射到声学特征空间,建立声学模型,用于识别语音中的音素、单 词等。常见的声学模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN )等。
语言模型
基于自然语言处理技术,建立语言模型,用于识别语音中的语法、语义等信息 。常见的语言模型包括n-gram语言模型、循环神经网络(RNN)等。
人工智能语音识别技术培训
汇报人:可编辑
2023-12-22
目录 Contents
• 引言 • 语音识别基础知识 • 深度学习在语音识别中的应用 • 语音识别技术应用场景与案例分析 • 实践操作与技能提升 • 总结与展望未来发展趋势
01
引言
培训背景与目的
人工智能技术的快速发展
培训目的
随着人工智能技术的不断进步,语音 识别技术作为其中的重要分支,在各 个领域得到了广泛应用。
预加重
消除语音信号中的高频噪 声,提高后续处理的准确 性。
分帧和加窗
将语音信号分成若干个短 时帧,并使用窗函数对帧 进行加窗处理,以提取帧 内的特征。
特征提取与降噪
特征提取
从语音信号中提取出反映语音特 征的关键参数,如梅尔频率倒谱 系数(MFCC)、线性预测编码 (LPC)等。
降噪处理
对语音信号进行降噪处理,以减 少环境噪声和其他干扰对语音识 别的影响。常见的降噪方法包括 自适应滤波、卡尔曼滤波等。
基于语音识别和GPS定位的智能垃圾分类APP
Software Engineering and Applications 软件工程与应用, 2020, 9(6), 475-486Published Online December 2020 in Hans. /journal/seahttps:///10.12677/sea.2020.96055基于语音识别和GPS定位的智能垃圾分类APP黄珂,杨文杰,刘佳*武汉商学院,信息工程学院,湖北武汉收稿日期:2020年11月16日;录用日期:2020年12月17日;发布日期:2020年12月24日摘要在垃圾分类逐渐立法、执法、司法的今天,如何引导民众正确地进行垃圾分类已成为社会要点问题之一。
针对这一问题本文提出了一款智能垃圾分类APP的设计,采用经典三层结构设计,使用物联网技术及百度定位服务使得移动端与垃圾站点互联,实现站点信息的“可视化”同时支持路线导航功能;综合科大讯飞语音,可实现在线语音识别并分类。
操作简单方便,实用性强,准确性高,适用范围广,符合国家创新、协调、绿色、开放、共享的发展理念。
关键词物联网,语音识别,GPS定位,垃圾分类Intelligent Garbage Classification APPBased on Speech Recognition andGPS PositioningKe Huang, Wenjie Yang, Jia Liu*School of Information Engineering, Wuhan Business University, WBU, Wuhan HubeiReceived: Nov. 16th, 2020; accepted: Dec. 17th, 2020; published: Dec. 24th, 2020AbstractWith the gradual legislation, law enforcement and judicature of garbage classification, how to *通讯作者。
语音识别算法及其实现
一、概述1.1. 选题意义目前,高科技发展迅速,日新月异,而因为实际需要,各种防盗技术也日趋多样化。
其中智能人声防盗系统引起了我们的兴趣,因此我们选了语音识别算法及其实现这一课题,来探究一下语音识别的原理及其实现过程。
语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。
语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。
近年来,高性能数字信号处理芯片DSP技术的迅速发展,为语音识别的实时实现提供了可能。
其中,凌阳公司的单片机以其良好的性价比和代码的可移植性被广泛地应用于各个领域。
因此,我们采用凌阳公司的具有DSP功能和语音特色的完全SOC技术的凌阳十六位单片机来实现语音信号的识别。
1.2. 实验目的1、掌握特定人语音辨识技术。
2、可以应用于简单语音控制场合。
二、算法原理2.1.语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。
但无论那种语音识别系统,其基本原理和处理方法都大体类似。
一个典型的语音识别系统的原理图如图1所示。
语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。
预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。
语音信号识别最重要的一环就是特征参数提取。
提取的特征参数必须满足以下的要求:(1)提取的特征参数能有效地代表语音特征,具有很好的区分性;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。
在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。
在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。