语音识别的发展史和背景

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语音识别的发展史和背景
语音识别技术发展至今,已经有五、六十年的历史。它伴随着计算机科学和通信等学科的发展逐步成长。其中经历了许多种不同的技术改进,为了对这几十年语音识别技术有一个概观,在这一节,简要的介绍一下语音识别技术的发展历史。

对于语音识别的探索最早可以追溯至20世纪五十年代,当时,科研工作者们试图对发音音素的特征进行研究。1952年来自AT&T的Bell实验室的研究人员,实现了针对特定说话人的英语数字孤立词语音识别系统,此系统采用模拟电子器件实现,主要是提取数字发音中元音的共振峰信息,通过简单的模板匹配的方式进行特定人的孤立数字识别。和它同时代的普林斯顿的RCA(Radio Corporation of America)实验室,在1956年,独立地用类似的原理(利用模拟滤波器组获得元音部分的频谱),完成了能够针对固定说话人的包括十个单音节词的识别系统。1959年,伦敦大学的科学家构建了一个可以识别四个元音和九个辅音的音素识别器,这项研究的光辉之处在于它第一次使用统计学的原理,用可以被使用的音素序列的统计信息作为限定来提高多音素词的音素的识别率。同年,麻省理工大学的林肯实验室实现了十个元音单元的识别器,虽然它仍然是通过分析声道的共振峰信息,但是它的进步在于识别是针对非特定人的。

60年代以后,语音识别技术得到了长足发展。几种语音识别的基本概念被相继提出。首先是日本的一些实验室(包括东京大学和NEC--NipponElectric Corporation实验室)加入了语音识别的研究行列。他们用硬件实现了几种音素和数字的识别器。其中东京大学的识别器引入了过零率分析的方法;NEC实验室的也因为这项研究引入了一个长期的语音识别的项目。60年代有三项比较有影响的工作。一项是由RCA实验室的Martin提出并实现了解决语音时长不统一的归一化打分机制,这种机制大大减少了语音时长对于识别得分的影响。另外一项工作是来自前苏联的Vintsyuk提出用动态规划算法(Dynamic Programming,DP)实现动态时间弯折(Dynamic Time Warping,DTW),此算法可以把两个长度不同的语音进行时间对齐,从而使两段语音可以在相同时间长度下得到更有意义的相似度度量,此技术在词表小且词条不易混淆的应用环境下取得了很大的成功,一度是自动语音识别技术的主流。60年代的第三项成就来自卡内基梅隆大学(Carnegie Mellon University,CMU)的Reddy,他利用音素动态跟踪的方法在连续语音识别上做出了开创性的工作『111,他对于语音识别的开创性工作最终在CMU培育出长期的语音识别研究计划,使CMU一直以来引领着语音识别技术的

前进。

虽然70年代本领域的主要研究围绕着孤立词识别进行,但是70年代仍然取得了好几项里程碑性质的成就。首先通过俄国、日本和美国的一批科学家的努力,使得孤立词识别从理论上得以完善,并已经可以实用。其中,俄国的Velichko和Zagoruyko把模式识别的思想引入到语音识别中来.日本的Sakoe把动态规划更好地应用到了语音识别技术中.美国的Itakura把线性预测编码(Linear Predictive Coding,LPC)从普通的语音编码引入语音识别。另一方面,以IBM、Bell实验室为代表的一些研究机构,开始把研究中心从孤立词识别系统转到了尝试研究大词表连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)技术。许多科学家通过研究提出了两种解决途径。一种是专家系统的途径,现在已不再是现代语音识别研究的主流;另一种是统计建模的方法,仍是目前主流的研究方法,即利用统计模型来构建语音识别系统,主要方向分别由IBM和Bell实验室所代表。在近20年的时间里面,IBM实验室实现了三种任务的识别器:1.一种简单是数据库语音查询系统;2.一种简单的办公语音助手系统;3.一种简单的听写机用于笔记记录。另外,在AT&T的Bell实验室把研究重点投入到真正让识别做到说话人无关的技术上。他们采用了大量的聚类算法确定出在不同的人的发音上的特征,至今他们的算法仍然得到广泛的应用。

到了80年代,语音识别的研究中心从孤立词识别向前进步到连接词的识别。其目的在于在孤立词的基础上,仍然通过单个词的模式匹配,能够识别出连续说出的词汇。有不少连接词识别的技术被提出,其中包括:NEC实验室的双层动态规划方法;英国的JSRU(Joint peech Research Unit)提出的一遍解码方法;贝尔实验室的层次构建时间弯折算法[211和时间同步网络搜索算法等。这些算法各有各的优势,在不同的任务上面体现出的优势也不太一样。然而,80年代最辉煌的成就在于把技术的中心从模板匹配的方法转移到统计模型方法上面来,尤其是隐马尔科夫模型(Hidden Markov Model,HMM)的理论和方法获得了长足的发展[231。80年代初期,HMM仅仅在一些有名的实验室(IBM实验室,IDA(Institute of Defense Analyses)等)得到了深入研究,到了80年代的中后期,HMM才被世界上的其他研究者们知道,并得到广泛应用。另一方面,80年代后期,神经网络模型又被重新应用到语音识别上来,虽然第一次引入是在50年代,但是由于理解不够深入和应用上的问题,没能证明神经网络在语音识别上的有效性。这一次,神经网络的回归,催生了好几个实践系统。伴随着统计语言模型的出现,HMM和语言模型把连续语音识

别技术推到一个新的高峰,现在,世界上绝大多数的语音识别系统都采用了这两个技术。80年代另外一个很有名的社区,是有美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)所支持的一系
列研究项目,催生了数个有名的语音识别系统。他们包括了:美国卡内基梅隆大学的李开复博士成功实现了世界上第一个基于HMM的针对非特定人、大词汇表连续语音识别系统SPHINX;BBN的BYBLOS系统;林肯实验室、SRI、MIT,Bell实验室也相继推出了语音识别系统。

90年代以后,由于在HMM整体框架设计以及模型的自适应方面取得了一些突破性进展,因此这个时期的语音识别技术突飞猛进,并且许多研究机构或公司都推出了开源或者非开源的语音识别系统,掀起了语音识别技术的产品化的热潮,如IBM公司的Via-voice系统,DRAGON系统,英国剑桥大学的HTK系统等。其中广为使用的是英国剑桥大学开发的开源工具包HTK(Hidden Markov Tool Kit)。HTK对语音识别贡献巨大,为很多从事语音识别的研究单位提供了结构完整、全面的一套软件基线系统。从此,语音识别研究的门槛大大降低,从而更加有效地推动了语音识别技术的快速发展和相互交流。

90年代以后直到现在,对于语音识别的研究逐渐地由朗读式语音转移到了现实生活中“真实对话语音”,比如:广播新闻语音(Broadcast News,BN)、电话语音(Conversational Telephone Speech,CTS)、会议(Meeting)语音、采访(Interviewing)语音等。特别是从1997年到2001年,美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)组织了关于电话交谈语音识别的国际评测。与广播新闻语音相比,电话交谈的语音信道噪声更加恶劣、口语化现象和方言口音的影响更加严重、说话人语音混叠问题更加突出,因此难度和挑战性更大。当时最好系统的词错误率仅在40%左右。典型技术包括声道长度归一化技术、基于最大交互信息熵的鉴别性声学模型训练等。

进入21世纪,因特网得到了普及,每台电脑都可以连入万维网,同时,移动互联网技术也得到了快速发展,便携计算机设备从以往的笨重的PDA设备,变为当前的智能手机系统,一台智能手机的计算能力已经远远高于90年代的一台个人电脑。同时随着移动互联网技术的
发展,手机上网速度越来越快,这给语音识别技术的发展和应用带来了新的平台。随着硬件设备越来越廉价以及云计算技术的出现,也大大的推动了语音识别的研究和应用。在技术应用方面,语音识别的应用已经不再像原有的“单机模式”,即一台设备一套识别系统,转而采用“云模式”,设备上仅仅保留识别的前端,真

正的识别解码放置到云端。这样做的好处是,服务提供商可以随时更新语言及声学模型,同时用户无需保留非常大的各种模型,也获得了实惠和方便。随着移动设备的不断普及,当前,移动设备的在个人用户中已经逐步取代了个人电脑的地位,因此,移动应用方兴未艾,一系列语音应用如雨后春笋般冒出,其中最出名的莫过于苹果iPhone手机的Siri语音助手和Google的语音搜索系统。在识别技术的理论研究方面,首先是解码网络构建上得到了发展,得益于计算机硬件的发展,让基于加权有限状态转换机(Weighted Finite-State Transducer:WFST)的语音识别解码器从理论上得到了完善,从实践上也得到了更加广泛的应用。另外,声学模型的建模技术也获得不断提高,异方差线性区分分析技术、说话人自适应训练技术(Speaker Adaptive Training,SAT)、说话人高斯化技术(Gaussianization)以及鉴别性的声学模型训练包括最小分类错误准则(Minimum Classification Error,MCE),最小音素错误(Minimum Phone Error,MPE)准则等:另一方面,近几年,基于上下文相关的深度置信神经网络(Deep Belief Nets:DBN)声学模型训练也取得了巨大的成功。LVCSR的架构有从原来的GMM-HMM逐渐转变为了DNN-HMM的趋势。

在我国,语音识别的研究工作一直紧着跟国际步伐。最早,由中国科学院声学研究所的马大猷院士领导的科研小组对汉语的语音信号进行了系统研究,到70年代末期取得突破性进展。80年代开始,语音识别的研究队伍越来越壮大,很多科学家和科研单位都投身其中,开展的研究包括最初的针对特定人的、小词汇量孤立词识别,到后来的非特定人、大词汇量连续语音识别。到80年代末,汉语的全音节语音识别技术取得了相当大的进展,同时清华大学的王作英教授提出了基于段长分布的HMM语音识别模型(Duration Distribution Based HMM,DDBHMM),推动了我国的连续语音识别技术的进步。1986年,国家863项目语音方向开始设立。从1991年开始,国家863计划专家组每年或隔年举行一次国内的的语音识别技术评测,中科院声学所、自动化所、清华大学、北京大学、北京理工大学、北京邮电大学、北方交通大学、哈尔滨工业大学等相关研究机构积极参加,参加评测的系统和机构代表了国内在这一领域的最高研究水平。进入新世纪,汉语语音识别相关应用进入蓬勃发展的阶段,一批投身语音的单位和企业相继涌现,如中科信利、科大讯飞、中科模识、华录润声、微信、上海闻通、上海华镇、盛大等。

语音识别技术历经半个多世纪的发展慢慢趋于成熟,正逐步从实验室理论研究走向应用市场,与其相关的应用和任务也逐渐进入

到人们的日常生活当中。当前科技进步的速度可以用突飞猛进来形容,可以预见在未来,语音识别技术会在全世界各项技术全面进步和语音研究人员的共同努力下达到实用的水平,从而让高可靠性的便捷人机交互能直接服务人模的工作和生活。

相关文档
最新文档