昆明理工大学 人工智能 大作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程名称:人工智能
论文题目:中文语音识别技术的最新研究进展学院:信息工程与自动化学院
专业:计算机科学与技术
年级: 09级
学生姓名:孙浩川(200910405310)
指导教师:王剑
教务处制
摘要
本文简要介绍了语音识别技术的发展历史,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别在通信等领域中的应用。机器能听懂人类的语言吗?我们能扔掉键盘、鼠标用自然语言操纵计算机吗?随着语音识别技术的发展,梦想正在变为现实。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。简要介绍语音识别的发展历史,采用的关键技术,面临的困难与挑战以及广阔的应用前景。
关键字:中文、语音识别、技术、发展
目录
一、语音识别技术的发展历史 (3)
1、国外的发展形势 (3)
2、国内的发展 (3)
二、语音识别技术发展所面临的困难 (4)
1、认识语音识别系统 (4)
2、面临的困难 (4)
3、解决困难的方法 (5)
三、语音识别技术的应用以及发展前景 (5)
1、目前语音识别技术在许多领域的应用 (5)
2、对语音识别技术的发展前景 (6)
四、结束语(结论) (6)
谢辞 (7)
参考文献 (8)
一、语音识别技术的发展历史
1、国外的发展形势
首先,从国外的形势看来。语音识别的研究工作可以追溯到20世纪50年代AT&T 贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,他们把原本艰涩的HMM纯数学模型工程化,从而使统计方法成为了语音识别技术的主流,更多地从整体平均的角度来建立最佳的语音识别系统。人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT 都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
2、国内的发展
看了国际的情况,现在看看我们国家的语音识别技术的发展情况。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10
个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。1986年3月我国高科技发展863计划启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。从此我国的语音识别技术进入了一个前所未有的发展阶段。在非特定人语音识别方面:清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。在连续语音识别方面:91年12月四川大学计算机中心在微机上实现了一个主题受限的特定
人连续英语——汉语语音翻译演示系统。在孤立字大词汇量语音识别方面:最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919
特定人语音识别与理解实时系统。
二、语音识别技术发展所面临的困难
1、认识语音识别系统
首先介绍一下语音识别系统的分类方式及依据。根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如下图所示。
2、面临的困难
目前,语音识别技术还面临着许多的问题,还不够成熟,主要有:第一,语音识别的研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但还缺乏普遍适用性。第二,语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统
性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。第三,高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。第四,语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。第五,我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。第六,语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术(即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分)等等技术细节要解决。
3、解决困难的方法
在研究语音识别的道路上既然出现了这么多的问题,那么为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络……所有这些努力都取得了一定成绩。
当然,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。
三、语音识别技术的应用以及发展前景
1、目前语音识别技术在许多领域的应用
目前世界各国都加快了语音识别应用系统的研究开发,并已有一些实用的语音识别系统投入商业运营。在美国语音识别系统的销售额逐年上升,由于使用了语音识别系统,为企业赢得了巨额收入。语音识别系统有AT&T于1992年开发的VRCP系统。该系统是有五个单词(collect,person,third number,operator和calling card)的非特定人小词汇量语音识别系统,现已应用于AT&T通信网上,可以实现自动话务员协助式呼叫,代替话务员完成五种呼叫类型。此外,语音识别技术在iphone中应