语音识别调查报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新手眼中的语音识别技术
最早接触语音识别技术是最开始使用智能机的时候,小米手机的智能语音识别助手,可以识别人说出的名字进行通讯录查找,进行短信发送,电话拨打等基本动作,但是误差不低,体验较差。后来接触到越来越多的语音识别及其相关技术,应用范围也越来越广,比如听歌识曲,用户体验更好的苹果语音助手Siri,语音记事本,科大讯飞的语音输入,微信的语音识别登入。这激发了我对语音识别的浓厚兴趣,对语音识别技术的发展历史,当下现状,未来走向进行了了解和思考,于是有了此文的诞生。
一语音识别技术的发展史
追溯语音识别技术的发展壮大历史,已有六、七十年。随着近代计算机科学和电子信息工程等学科的逐步成长,语音识别技术也经历了不同的技术改进,其发展历程也历经坎坷。
最早的科研工作者从对发音音素的特征研究出发,对语音识别进行探索。1952年,美国AT&T的Bell实验室的研究人员实现了针对特定说话人的英文数字孤立词语音识别系统。最开始的语音识别系统采用的还是模拟电子元器件,主要提取数字发音中元音的共振峰信息,借助模板匹配的方式进行特定人的孤立数字识别,不过这种模板匹配的方法还是较为简单的水平。
与此同时,和它同时代的普林斯顿大学的RCA(Radio Corporation of America)实验室,在1956年,独立地用类似的原理(利用模拟滤波器组获得元音部分的频谱),完成了能够针对固定说话人的包括十个单音节词的识别系统。1959年,伦敦大学的科学家构建了一个可以识别四个元音和九个辅音的音素识别器,这项研究的光辉之处在于它第一次使用统计学的原理,用可以被使用的音素序列的统计信息作为限定来提高多音素词的音素的识别率,这项研究创造性的引入了数学的方法,为以后语音识别的发展打下了坚实的基础。同年,麻省理工大学的林肯实验室实现了十个元音单元的识别器,虽然它仍然是通过分析声道的共振峰信息,但是它的进步在于识别是针对非特定人的。
60年代开始,语音识别技术进入了发展的高速期,东京大学的语音识别器引入了过零率分析的方法,NEC--Nippon Electric Corporation实验室也加入其中,
推动了语音识别技术的发展。之后,动态规划算法被引入。音素动态跟踪的方法也被开创性的应用在连续语音识别中。70年代,好几项里程碑性质的成就被达成,在一批科学家的努力下,模式识别,动态规划,线性预测编码等技术和思想被引入语音识别技术中。现在仍是主流研究方法的统计建模方法也是在这一时期被引入。80年代,连续的词汇已经能够被识别。这一时期,最辉煌的成就在于把技术的中心从模板匹配的方法转移到统计模型方法上面来,尤其是隐马尔科夫模型(Hidden Markov Model,HMM)的理论和方法获得了长足的发展。同时,神经网络继50年代后被重新引入语音识别上来,它的回归也预示着当下语音识别技术的飞跃。
90年代以后直到现在,对于语音识别的研究逐渐地由朗读式语音转移到了现实生活中“真实对话语音”,比如:广播新闻语音(Broadcast News,BN)、电话语音(Conversational Telephone Speech,CTS)、会议(Meeting)语音、采访(Interviewing)语音等。这其中,由于环境越来越复杂。面临的挑战也越来越大。研究者也在一点点的努力降低误差率。进入21世纪,万维网的迅猛发展,移动端平台的普及和计算能力的飞跃,以及云计算的出现,也极大地推动了语音识别的研究和应用。复杂的语音识别核心部分放在云端的超级计算机完成,设备上的只保留语音的收集和初步处理,使得越来越多的用户能及时的享受高质量的语音识别的体验。
二语音识别的当下
经过几代研究者的坚持不懈的努力,当下的用户借助手中的智能机即可享受高质量的语音识别服务。在语音识别技术应用方面,语音识别的应用已经不再像原有的“单机模式”,即一台设备需要安装一套识别系统,这样大大浪费了资源和更新速度。而是采用“云端模式”,在移动设备上仅仅保留语音识别的前端,完成语音的收集和预处理,真正的识别解码放置到云端上。这样做的好处是,服务提供商可以随时更新语言及声学模型,同时用户无需保留非常大的各种模型,也获得了实惠和方便随着移动设备的不断普及。当前,移动设备在个人用户中已经逐步取代了个人电脑的地位。因此,移动应用方兴未艾,一系列语音应用如雨后春笋般冒出,其中最出名的莫过于苹果iPhone手机的Siri语音助手和Google
的语音搜索系统。大公司的科研成果开始进入千家万户,被越来越多的人所分享,改变着人类的生活。
在当下,因为大数据和高性能计算的出现,以及近十年来数据量的爆炸式积累,深度学习的应用越来越广泛。而在这些领域的应用反过来又推动了深度学习的发展。深度学习的初衷是模仿人类的神经网络感知外部世界,如果把人想象成计算机,那么语音和图像就是最主要的输入形式。所以自然而然的,我们也寄希望于机器能够利用深度学习对外部世界的声音进行处理和识别。与此同时,深度学习的迅猛发展,已经大有一统江湖的味道,语音识别只是它的应用领域之一,而且深度学习确实为语音识别的发展带来了里程碑式的进步。
三语音识别的未来
作为一名新手来说,对这样一个伟大命题做出的任何判断都是片面的。在此我仅仅将自己的一点想打说出来。
国内的众多厂商都在从事着语音识别应用的开发,智能家居,智能汽车,智能机器人,人们希望以声音而不是手来发送指令,控制房门的开关,汽车的行驶,机器人的运动。然而在我看来,有一个可能比较小众的发展方向。就是基于一个人生的语音和行为习惯进行处理,模拟出他将来的语音,并达到和人正常交流的目的。对于那些失去并思念亲人的人来说,这或许是目前比死而复生更切合实际的安慰。这也是一种行为学习做出预测的方法,并加入人的情感,使得这一技术越发的成熟。
四总结
科学之海无边,科学之路漫漫。人常说医者仁心,悬壶济世。科学家又何尝不是,身处这个信息技术大爆炸的时代,若能做下一点变人类生活的事,为人类文明的发展留下自己的一点贡献,也不枉读了这么多年书。
五参考文献
[1]张建华,刘刚.基于深度学习的语音声学模型研究
[2]梁静.基于深度学习的语音识别研究 2014
[3]周志华.机器学习.清华大学出版社