人工智能语音识别发展报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

人工智能语音识别发展报告Report of Artificial I ntelligence Development

目录

1.语音识别 (3)

1.1.语音识别概念 (3)

1.2.语音识别发展历史 (4)

1.3.人才概况 (6)

1.4.论文解读 (8)

1.5.语音识别进展 (173)

语音识别

1.语音识别

1.1.语音识别概念

语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语

音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,

使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等[8]。

语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处

理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行

语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音

库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参

数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信

号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识

别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择

都有直接的关系。

实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式

识别过程相同,语音识别包括如图所示3 个基本部分。实际上,由于语音信息的复

杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。

图 6-1 语音识别系统框架

其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其

中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数

提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,

用于后续处理,这相当于一种信息压缩。之后进行特征参数提取,用于语音训练

和识别。常用的特征参数有基于时域的幅度、过零率、能量以及基于频域的线性预

测倒谱系数、Mel 倒谱系数等。

1.2.语音识别发展历史

语音识别的研究工作可以追溯到20 世纪50 年代。在1952 年,AT & T 贝尔

研究所的Davis,Biddulph 和Balashek 研究成功了世界上第一个语音识别系统Audry 系统,可以识别10 个英文数字发音。这个系统识别的是一个人说出的孤

立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956 年,在RCA 实验室,Olson和Belar 研制了可以识别一个说话人的10 个单音节的系统,

它同样依赖于元音带的谱的测量。1959 年,英国的Fry 和Denes 研制了一个能

够识别4 个元音和9 个辅音的识别器,他们采用了谱分析仪和模式匹配器。所不同

的是他们对音素的序列做了限制(相当于现在的语法规则),以此来增加字识别的

准确率。但当时存在的问题是的理论水平不够,都没有取得非常明显的成功。

60 年代,计算机的应用推动了语音识别技术的发展,使用了电子计算机进行语音识别,提出了一系列语音识别技术的新理论—动态规划线性预测分析技术,较

好的解决了语音信号产生的模型问题。该理论主要有三项研究成果。首先是美国新泽

西州普林斯顿RCA 实验室的Martin 和他的同事提出一种基本的时间归一化方法,

这种方法有效的解决了语音事件时间尺度的非均匀性,能可靠的检测到语音的起始点和终止点,有效地解决了识别结果的可变性。其次,苏联的Vintsyuk 提出了用动态规划的方法将两段语音的时间对齐的方法,这实际上是动态时间规整(Dynamic Time Warping)方法的最早版本,尽管到了80 年代才为外界知晓。第三个是卡耐基梅隆

大学的Reddy 采用的是音素的动态跟踪的方法,开始了连续语音识别的研究工作,为后来的获得巨大成功的连续语音识别奠定了基础。

70 年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然

语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。这一

时期的语音识别方法基本上是采用传统的模式识别策略。其中苏联的Velichko 和Zagoruyko 的研究为模式识别应用于语音识别这一领域奠定了基础;日本的迫江

和千叶的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式

语音识别

之间进行非线性时间匹配的方法;日本的板仓的研究则提出了如何将线性预测分析技术加以扩展,使之用于语音信号的特征抽取的方法。同时,这个时期还提出了矢量量化和隐马尔可夫模型理论。

80 年代,语音识别研究进一步走向深入。这一时期所取得的重大进展有:(1)隐马尔科夫模型(HMM)技术的成熟和不断完善,并最终成为语音识别的主流方法。(2)以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。(3)人工神经网络(ANN)在语音识别中的应用研究的兴起。ANN 具有较好的区分复杂分类边界的能力,显然它十分有助于模式识别。在这些研究中,大部分采用基于反向传播算法(BP 算法)的多层感知网络[9]。

20世纪90 年代,语音识别技术逐渐走向实用化,在建立模型、提取和优化特征参数方面取得了突破性的进展,使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品,从而许多具有代表性的产品问世。比如IBM 公司研发的汉语ViaVoice 系统,以及Dragon 工司研发的DragonDictate 系统,都具有说话人自适应能力,能在用户使用过程中不断提高识别率。

21世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。2009 年,Hinton 将深度神经网络(DNN)应用于语音的声学建模,在TIMIT 上获得了当时最好的结果。2011 年底,微软研究院的俞栋、邓力又把DNN 技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM 时代。DNN 带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升。同时DNN 还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。

目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识

相关文档
最新文档