基于深度学习的语音识别方法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Artificial Intelligence •

人工智能Electronic Technology & Software Engineering 电子技术与软件工程• 245【关键词】深度学习语音识别现状前景

信息技术的高速发展让人们对人工智能的研究更加深入，也有了长足的进步。人工智能的深入研究和应用将给人们的生活和工作带来很大的改变。对智能化的深入研究和开发，将广泛运用到机器语言，机器学习模型的构建就显得极为重要。基于信息技术日新月异的变化，智能化研究中的语音识别已经成为可能，虽然基于人工神经网络引入声学理论的应用让语音识别的准确率和高效率有了很大的提高，但随着相关研究的深入和使用需求的提高，仍然存在一些缺陷。因此，对深度学习的研究和改进就显得尤为重要。以下是笔者的一点看法。1 人工智能语音识别技术现状

人工智能语音识别技术指的是计算机通过获取并识别语言输入信号，将其转换为相应文本的技术。目前，这项技术已经被广泛运用到人们的日常生活中。一些人们常见的电子产品，都拥有语音识别技术，提高人们工作生活效率的同时，给人们的生活方式带来了很大改变。但是，语音识别技术不单单是要计算机能够正确转换语音信号输入，同时，还要能够获取其中的主要信息，同时执行指令。目前，虽然语音识别技术已经被较为广泛地运用，但是依旧只是停留在表层发展，存在很多缺陷与不便。

1.1 噪声干扰问题

当下的语音识别系统对噪声干扰还未有有效的解决方式。讲话人在周围有噪音，或者由于语气、语调、情绪等原因导致发声不准确或者不清楚的情况下，语音识别系统则不能有效地识别语音信号，或者干脆不能识别语音信号。

1.2 端点检测技术有待提高

端点检测技术在语音信号识别中占据着重要位置，刨去噪音干扰的因素，即使在特别安静的环境中，大部分语音信号识别的错误都来自于端点检测器。即，提高语音识别技术的关键在于提高端点检测技术，而提高端点检测基于深度学习的语音识别方法

文/毕馨文

技术的关键在于寻找更加稳定的语音参数。2 基于人工智能深度学习的语音识别方法分析2.1 语音识别方法中的语音拾取和提取特征采样和端点检测是语音拾取的两项重要环节。采样即收集声音信息的样本，再由转换器将所收集到的模拟音频信号样本转换成数字音频文件，是语音拾取中的初始环节。在这个环节中，声卡用高于录制最高频率两倍的频率来收集语音信号，来确保避免因低频而产生失真。端点检测又叫语音活动检测或者语音边界检，是指在有噪音的环境中收集语音样本时，识别语音与噪音，降低语音编码速率、减少设备能耗和通信宽带，从而提高识别率的作用。实现这一作用的设备叫语音活动检测器。目前，在端点检测过程中，有两大问题亟待解决，首先是背景环境中的噪声问题，即怎样高效又准确地区别噪声与需要采集的声音信号，这就需要寻找到更加稳定的语音参数，明确语音提取特征；其次是前后沿剪切问题，即从人声发出到语音检测开始之间存在时延，所以语音波形的开始和结尾就会被当做静音而减掉，因此导致还原出来的语音与语音原稿有出入。2.2 语音识别方法中的模拟训练和语音识别判断模拟训练和语音识别判断主要包括两方面内容：（1）训练，就是采用固定的识别方法作为标准，通过训练或者汇聚同类来获得相应的语音参数，并将所获得的语音参数作为参考模板保存起来，与众多的参考模板一起建成参考模板库，作为语音识别中的一项参考标准。（2）分别对比识别样本与各自参考模板，将相似度最高的作为识别字。对比的具体方法主要有三种。第一种是将语音特征训练提取结果直接保存为模板。识别过程中，输入语音信号与训练特征提取，获得待识别字的向量序列，比较该序列与各存储模板，将距离最小者判定为所需字符。第二种是不以特征向量判断每一个待识别汉字的存储方式，而是以态图为主。第三，即语音动态时间匹配性问题的解决办法。选用适当的方法将语音特点序列划分为n 段，计算每一段特征子序列平均值（即平均位置），获得n 个特征矢量作为模板。3 基于人工智能深度学习的语音识别方法的前景3.1 广泛应用于人类的日常生活和工作目前，人类在工作和生活中的电子产品日渐增多，并带来了很大的便利，语音识别的运用让更多的电子产品提高了用户体验满意率，

但其存在的问题同时也在降低用户体验满意率。基于人工智能深度学习的语音识别方法的研究如若能够更加广泛地运用到电子产品中，在未来的人机接口中，将提高深度网络对信息处理的广泛程度，同时也将减少噪音对语音识别的干扰问题。3.2 更加接近“人智”基于人工智能深度学习的语音识别方法，将参考深度神经网络算法，更加接近人脑获取信息、分析信息、处理信息的过程和模式，也因此可以构建强大的感知与认知的综合能力引擎。从感知方面来说，将有可能囊括并汇聚来自听觉、视觉、阅读等感知信息，从而扩充感知范围。从认知方面来说，将更加准确地判断认识语言输入，并运用强大的推理和逻辑网络，做出及时而有效的决策并进行有效的输出，与人类形成一个强大的信息交互模式。3.3 推动人工智能产业链的发展基于人工智能深度学习的语音识别系统将在语音识别过程中能够更加准确地识别语音信号，同时对其进行准确的分析，并产生决策性的输出，将极大地提高用户体验。其次智能语音软件的进步也能够推动硬件产品的改良和进步，提高产品的精确度，拓宽产品应用范围。再次，具有语音识别系统的产品和语音识别系统将逐渐实现多样化的语音服务模式，逐渐发展为比较成熟的产业链。4 结束语基于深度学习的语音识别方法在理念和技术上都有待进步和提升，希望更多的专家和技术人员能够继续在人工智能语音识别方面改进技术，早日发展出成熟的产业链，更加方便人们的生活和工作。参考文献[1]刘鹏程,袁三男,刘虹.基于深度学习的语音识别系统研究[J].新型工业化,2018,8(05).[2]戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017(03).[3]穆宝良.基于深度学习的语音识别方法[J].信息与电脑(理论版),2018(22).作者简介毕馨文（1997-），女，江苏省扬州市人。大学本科学历。电子电气工程师。研究方向为语音识别。作者单位University of Birmingham Birmingham B15 2TT