基于语音识别的智能对话系统的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第40卷第5期2022年10月
沈阳师范大学学报(自然科学版)
J o u r n a l o f S h e n y a n g N o r m a lU n i v e r s i t y(N a t u r a l S c i e n c eE d i t i o n)
V o l.40N o.5
O c t.202
2
文章编号:16735862(2022)05044605
基于语音识别的智能对话系统的研究与实现
张浩华,李哓慧,王爱利,刘凡杨,柴欣,程骞阁
(沈阳师范大学物理科学与技术学院,沈阳110034)
摘要:随着时代的发展变化,人工智能在整个互联网中逐渐普及㊂作为人工智能中比较成
熟的技术,语音识别被广泛应用在各行各业中㊂在信息技术服务业和教育行业中,语音识别系统
的制作为人们的知识获取提供了便利的学习方式㊂通过研究语音识别技术的发展现状㊁语音识别
算法的基本原理,对比3种典型的算法,选择出最优算法,进而实现了语音识别算法在硬件上的应
用㊂通过将m i c r o:b i t作为主板,搭配I Ob i t2.0扩展板,利用语音识别模块识别关键词语,不断检
测听到的语音词汇,对听到的语音块作出反应,同时M P3模块和腔体小喇叭协同配合,播放问题
对应的答案,从而设计完成了具有语音识别及对话功能的智能系统㊂
关键词:语音识别算法;m i c r o:b i t;语音识别模块;智能对话
中图分类号:T P273文献标志码:A
d o i:10.3969/j.i s s n.16735862.2022.05.012
R e s e a r c h a n d i m p l e m e n t a t i o n o fi n t e l l i g e n t d i a l o g u e s y s t e m
b a s e do n s p e e
c h r e c o g n i t i o n
Z HA N G H a o h u a,L I X i a o h u i,WA N G A i l i,L I U F a n y a n g,C HA I X i n,
C H E N GQ i a n g e
(C o l l e g e o f P h y s i c a l S c i e n c e a n dT e c h n o l o g y,S h e n y a n g N o r m a lU n i v e r s i t y,S h e n y a n g110034,C h i n a)
A b s t r a c t:W i t h t h e d e v e l o p m e n ta n d c h a n g e o ft h e e r a,a r t i f i c i a li n t e l l i g e n c ei s g r a d u a l l y
p o p u l a r i z e d i n t h ew h o l e i n t e r n e t.A u t o m a t i cS p e e c hR e c o g n i t i o n,a s o n e o f t h em a t u r e t e c h n o l o g y
i n t h e a r t i f i c i a l i n t e l l i g e n c e i n d u s t r y,i sw i d e l y a p p l i e d t o k i n d s o f j o b s.E s p e c i a l l y i n t h e i n f o r m a t i o n
t e c h n o l o g y s e r v i c ea n de d u c a t i o n w o r k,t h e m a n u f a c t u r eo fs p e e c hr e c o g n i t i o ns y s t e m p r o v i d e s
c o n v e n i e n t l e a r n i n g w a y f o r p e o p l e w h o g e tk n o w l e
d g e.I nt h i s p a p
e r,w es t u d y b a s i cs i t u a t i o n
a b o u tA u t o m a t i cS p e e c hR e c o g n i t i o nd o m e s t i ca n do v e r s e a s,a n df u n d a m e n t a l p r i n c i p l eo f s p e e c h
r e c o g n i t i o n a l g o r i t h m.B y c o m p a r i n g t h r e e c l a s s i c a l a l g o r i t h m s a n d s e l e c t i n g s u i t a b l e o n e,
r e s e a r c h e r sh a v e c o m p l e t e da p p l i c a t i o n i nh a r d w a r e.T h ed e s i g nc o n s i d e rm i c r o:b i t a sm a i nb o a r d
a n d I O
b i t a s e x p a n s i o nb o a r d.I t u s e s s p e e
c hr e c o g n i t i o n m o
d u l
e r e c o g n i z em a i n t e r m s a n dd e t e c t
c o n s t a n t l y s o u n
d sa n dl
e t t e r st h a ti th e a r s.M e a n w h i l e,i tr e a c t st ot h e w o r d sh e a r i n g.T h e n
c o n n e c t i n g t h e M P3m o
d u l ea n dt h ec a v i t y s p
e a k e r,s p e a k e r w i l l p l a y t h ea n s w e ra b o u tt h e
p r o b l e m.F i n a l l y,a n i n t e l l i g e n t d i a l o g u e s y s t e mi s d e s i g n e d.
K e y w o r d s:v o i c e r e c o g n i t i o n a l g o r i t h m;m i c r o:b i t;v o i c e r e c o g n i t i o n m o d u l e;i n t e l l i g e n t
d i a l o g u e
0引言
古往今来,人类社会不断变化,科学技术也在不断更新㊂现代科学技术的发展,推动着人类经济㊁社
收稿日期:20211023
基金项目:中国高等教育学会创新创业教育重点研究项目(2020C Y D03);辽宁省教育厅科学研究经费项目(L J K Z1006)㊂
作者简介:张浩华(1977-),男,辽宁沈阳人,沈阳师范大学副教授,博士㊂
会生活等的方方面面㊂在这种时代背景下,机器人系统应运而生㊂人们对机器人系统本质的了解逐渐加深,促使它开始不断地渗入到人类的生产生活中去㊂据此,人们发展创造了各种各样不同形态的智能系统㊂智能语音系统的出现促进了学生的知识学习㊂通过语音识别,智能系统会根据关键词回答出正确答案,也可以根据关键词播放对应的文章㊁歌曲㊂它可以应用在教育培训机构或者学校的教学上,也可致力于科普知识的宣传㊂智能机器人系统的应用与研发在近年来形成了非常火爆的趋势,人机交互
的真正实现离不开语音识别技术的快速发展[
1]㊂1 语音识别基本理论
1.1 国内外现状
20世纪50年代,世界各国开始研究简单的英文数字识别内容;70年代,
语音识别理论及算法大规模涌现;到80年代,
研究者们采用统计分析的方法研究连续语音识别,研究重点转移到了词汇量较大的语音上㊂在我国,20世纪50年代末有研究者采用电子管电路对英文中的元音字母进行识别㊂70年代,
中国开始进行计算机语音识别的研究㊂90年代,
清华大学和中科院自动化所等单位在汉语听写机原理样机的研究方面取得了重要成果㊂21世纪,深度学习的出现极大促进了语音识别技术的发展[2]㊂1.2 基本原理
语音识别[3],原理是接收语音信号,并将语音信号转化为文字,或者对其进行查询的操作[
4]㊂按照识别对象的不同,它可以分为孤立词㊁连接词和连续语音识别等;根据针对的发音人,能够划分为特定人
语音识别和非特定人语音识别[
5]㊂非特定人语音识别系统更适合生活的实际需求㊂语音识别包括以下几部分:提取与处理语音特征㊁对语音进行降噪㊁建立语言模型㊁声学模型训练[6]㊂1.3 主流算法
在语音识别技术常用的方法中,随机模型法包括几种主流算法,一般主要有动态时间规整方法㊁矢
量量化方法㊁隐马尔可夫模型方法㊁人工神经网络[7]方法和支持向量机等语音识别方法[
8]㊂动态时间规整算法可以比较二者之间相似的范围[9]㊂此方法计算起来比较复杂,但方法比较简单,识别语音较为准确㊂它不容易将各种知识应用到算法中去㊂
矢量量化是对信号进行压缩,所需要训练的数据较少,所用存储空间也较小㊂它被用在词汇较少的情况中㊂但是,这种算法在很多性能上都没有优于基于参数模型的隐马尔可夫模型的方法㊂
隐马尔可夫模型是一种使用概率的统计模型,广泛应用于信号处理㊁语音识别㊁行为识别等应用领
域㊂V i t e r b i 算法被用于寻找观测时间序列的隐含状态序列,尤其在隐马尔可夫模型中[10]㊂此种算法可以被用于词汇量较多的情况和系统中,缺点是需要占用较大存储空间,但识别率却高出许多㊂2 语音识别算法
V i t e r b i 算法可以帮助找到问题解决的最优路径,
计算量也比同样功能的算法更小㊂它将全局最优的方法展开到局部最优,很好地解决了全局的问题㊂它在保证最优解的情况下,序列中的基于非线性的时间对准和针对词语边界的检测问题也得到很好地解决㊂由此,该算法成为语音识别中常被采用的算法㊂输入:模型λ=(A ,B ,Π)和观测O =(o 1,o 2, ,o T )
输出:最优路径I *=(i *1,i *2, ,i *T )1
)初始化δ1(i )=Πi b i (o 1),i =1,2, ,N φ1(i )=0,i =1,2, ,N 2)递推,对t =2,3, ,T δt (i )=m a x 1<=j <=N [δt -1(j )a j
i ]b i (o t ),i =1,2, ,N φ
t (i )=a r g m a x 1<=j <=N [δt -1(j )a j i ],i =1,2, ,N 3)终止P *=m a x 1<=j <=N δT (i )i *t =a r g m a x 1<=j <=N [δT (i )] 4)最优路径回溯,对t =T -1,T -2, ,1
7
44 第5期 张浩华,等:基于语音识别的智能对话系统的研究与实现
844沈阳师范大学学报(自然科学版)第40卷
i*t=φt+1(i*t+1)
求得最优路径
I*=(i*1,i*2, ,i*T)
3语音识别算法的实现
3.1系统总体设计
本系统主要采用m i c r o:b i t主控板和I O b i t2.0扩展板为主架构,与语音识别模块相连接,采用语音识别芯片L D3320,通过语音识别获取控制指令[11]㊂同时搭配M P3模块及腔体小喇叭,实现总体搭建,整体系统框图如图1所示㊂本系统通过添加词组,对用户的言语进行识别并比对,识别完成后,相应地播放对应的音频㊂本设计有较强的灵活性㊂
图1系统框图
F i g.1S y s t e mb l o c kd i a g r a m
3.2系统硬件设计
3.2.1 m i c r o:b i t主板
m i c r o:b i t是基于微软公司的开源平台编程经验工具包,是一台微型计算机[12]㊂开发板集成三合一传感器芯片,同时兼具加速度计㊁磁力计和陀螺仪的功能,可以与手机A P P进行蓝牙通信;它还自带m i c r o U S B供电接口,也可外接电池盒供电,实物如图2所示㊂本系统选取m i c r o:b i t主板,控制其他模块的功能,它具有较为全面的功能和易于编程的特点[13]㊂
图2实物图
F i g.2P h y s i c a l d i a g r a m
3.2.2I Ob i t2.0扩展板
I Ob i t是一款支持m i c r o:b i t的I O口引出扩展板㊂它可以引出m i c r o:b i t上的所有输入/输出资源,同时自带蜂鸣器开关,通过跳线帽的自由切换,实现对P0引脚的连接与释放㊂此扩展板既支持3V 电压,也支持5V电压,可连接多种传感器㊂扩展板增加了较为丰富的传感器功能模块,满足设计的多种需求㊂
3.2.3语音识别模块
语音识别模块选取了适合的语音识别算法应用于芯片,它可以通过语音唤醒来制作智能系统的部分㊂通过两线式串行总线识别语句㊁获取结果,发送和接收数据,实现人类和机器的交互㊂当断电时,它可以保存其中的数据,模块可以添加高达50条的识别语句,每条语句的汉字不能超过10个㊂嵌入L D3320芯片的语音识别模块,可以完成识别语音和声音控制的功能[14]㊂针对非特定人的语音识别技术A S R[15]是以关键词语列表为基础的一种匹配识别算法㊂它的本质在于声音特征提取完毕后,寻找匹配度最高的语句㊂输入到语音芯片的声音要与关键词进行对比逐个打分㊂同时,它有以下3种识别
模式㊂
循环检测模式:系统会不断检测听到的语音并识别㊂
口令检测模式:识别到口令时,蜂鸣器响一声,之后开始识别,每唤醒一次识别一次㊂
按钮检测模式:外界语音传输到系统主控中心,语音识别芯片会开始计时,在固定的时间段内,外界
发出对应的词汇语音㊂计时结束后,需要重新触发按键继续识别[16]㊂模块原理如图3所示㊂图3 模块原理图
F i g .3 M o d u l es c h e m a t i cd i a g
r a m 3.2.4 M P 3-T F -16P
模块
图4 M P 3模块方案图F i g .4 M o d u l es c h e m ed i a g
r a m M P 3模块提供串口,
直接采用微处理器对不同格式的音频解码㊂根据编码方式及编
码过程,会从存储卡中自动寻找到对应格式的
音频文件,此时,M P 3模块对调出的文件解
码,播放对应的语音文件[
17]㊂此模块在上层可以完成音乐播放的指令和音乐播放的形式
选择,省去下层烦琐的操作,可靠性得以提升㊂它支持多种不同的采样率,让音乐选取更加多样㊂同时,它可以通过不同的方式控制音乐播放,有简单的输入输出㊁按键开关控制和串口控制模式等㊂文件系统中最多包含100个文件夹,每个文件夹有255首曲目㊂片上系统(s y s t e mo nc h i p ,S o C )方案,开发难度和成本较低,因而被选用,方案如图4所示㊂同时,选用了将内存㊁U S B 等接口和驱动电路整合在一起的集成电路M C U ,利用a D S P 进行解码,硬解码的方式使得整个系统更加稳定可靠㊂
3.3 系统软件设计
3.3.1
语音识别模块主程序设计
图5 语音识别流程图F i g .5 S p e e c h r e c o g
n i t i o n f l o w c h a r t 语音模块要进行初始化设置,添加词语列表,同时设置变
量作为识别结果㊂接通电源时,微控制器向语音识别芯片写
入系列词语,然后控制芯片循环识别听到的声音信号[
18]㊂本系统通过检测人们发出的声音,判断识别词语是否匹配,并播
放对应文件夹的音频㊂语音识别流程如图5所示㊂3.3.2 M P 3-T F -16P 模块主程序设计
M P 3-T F -16P 模块与语音识别模块配合使用,
实现问答功能㊂M P 3-T F -16P 模块的部分代码如下:
b a s i
c .f o r e v e r (f u n c t i o n (){ v a l u e =A s r .A s r _R e s u l t () s e r i a l .w r i t e N u m b e r (v a l u e ) i f (v a l u e ==1){
d f p l a y
e r .s e t T r a c k i n g (1,d
f p l a y e r .y e s O r N o t .t y p e 1) } b a s i c .p a u s e (2000)})3.4 系统性能测试
语音识别算法有很多种,本文将算法传输到芯片实现语9
44 第5期 张浩华,等:基于语音识别的智能对话系统的研究与实现
054沈阳师范大学学报(自然科学版)第40卷音识别获得了较大的完成度㊂本系统应用语音识别算法,结合m i c r o:b i t主板㊁扩展板,通过对语音识别模块和M P3-T F-16P模块进行设计编码,很好地实现了离线语音识别的功能㊂
4结语
本文分别从语音识别理论的简要概述㊁语音识别算法的对比以及其在硬件系统上的实现几个方面介绍了基于语音识别的智能对话系统,通过语音识别算法嵌入芯片,结合使用语音识别模块和M P3-T F-16P模块,实现了问答功能和人机交互,为算法在硬件的实现提供了一定参考㊂语音识别算法在智能音箱㊁智能家居等人工智能领域被广泛应用,对于不同的智能系统都有很好的借鉴作用㊂本次设计的智能对话系统,具有较强的实用性和推广性,可以在此基础上继续改进㊂
参考文献:
[1]胡钊龙,李栅栅.语音识别技术在智能语音机器人中的应用[J].电子技术与软件工程,2021(13):7273.
[2]鱼昆,张绍阳,侯佳正,等.语音识别及端到端技术现状及展望[J].计算机系统应用,2021,30(3):1423.
[3]K A U R G,S R I V A S T A V A M,K UMA R A.S p e e c h r e c o g n i t i o nu s i n g e n h a n c e d f e a t u r e sw i t hd e e p b e l i e f n e t w o r k f o r r e a l t i m e a p p l i c a t i o n[J].W i r e l e s sP e r sC o mm u n,2021,120(4):32253242.
[4]于俊婷,刘伍颖,易绵竹,等.国内语音识别研究综述[J].计算机光盘软件与应用,2014,17(10):7678.
[5]胡新月.语音识别技术在软件工程中的应用[J].电子技术与软件工程,2021(3):240241.
[6]肖安帅,樊国华,崔泽坤,等.语音识别相关技术研究[J].信息与电脑(理论版),2020,32(16):138140.
[7]I Q B A L M,R A Z AS A,A B I D M,e t a l.A r t i f i c i a l n e u r a l n e t w o r kb a s e de m o t i o nc l a s s i f i c a t i o na n dr e c o g n i t i o nf r o m s p e e c h[J].I n t JA d vC o m p u t S c iA p p l,2020,11(12):434444.
[8]王敏妲.语音识别技术的研究与发展[J].微型机与应用,2009,28(23):12,6.
[9]王素宁,朱俊杰,李志勇,等.基于D TW算法的电力调度语音识别研究和应用[J].电力与能源,2021,42(1): 3538+64.
[10]朱祥.基于隐马尔可夫模型和聚类的英语语音识别混合算法[J].测量与控制,2020,28(5):175179.
[11]张洪源,杨佩.基于语音控制的智能分类垃圾桶的设计[J].电脑知识与技术,2021,17(23):148149.
[12]张帆.基于m i c r o:b i t主控板的智能小车的硬件设计与实现[J].电子制作,2019(19):3840.
[13]米晶爽,张铁成,尹晓娇.基于m i c r o:b i t开发板的可编程动漫衍生形象机器人研究[J].工业设计,2020(4): 155156.
[14]陈俊涛,许健才.面向服务机器人的简易人机语音交互系统设计[J].科学技术创新,2020(28):130131.
[15]J A F R IA.C o n c a t e n a t i v es p e e c hr e c o g n i t i o nu s i n g m o r p h e m e s[J].I n tJ A d v C o m p u tS c iA p p l,2021,12(3): 671680.
[16]高翔.基于L D3320的语音智能加热杯系统设计[J].软件,2020,41(12):129133.
[17]王敏坤,贾海天,施连敏.基于n R F4L01和M P3模块的智能导游系统的实现[J].工业控制计算机,2012,25(3): 8788.
[18]葛炎风.基于语音控制的L E D照明系统的研发[J].机电技术,2021(3):2730.。