神经网络技术在语音识别领域的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

神经网络技术及其在语音识别领域的应用
苗峰（21225075）浙江大学机械电子工程专业
摘要：本文对神经网络技术以及语音识别技术的发展历程及基本原理做了概述，针对传统语音识别技术的缺点，介绍不同神经网络技术分支在语音识别领域的应用和实现方式并分析了各自的特点。

关键字：神经网络；语音识别；概述
1神经网络技术概述
1.1神经网络技术简介
人工神经网络（Artificial Neural Networks，简记作ANN），是对人类大脑系统的一阶特性的一种描述，属于人工智能研究的一种方法。

神经网络是一个由大量简单的处理单元组成的高度复杂的大规模自适应系统，人工神经网络是对人脑功能作某种简化、抽象和模拟，是一个高度复杂的、非线性动力学系统，具有学习、记忆、联想、归纳、概括和抽取、容错以及自学自适应的能力[1]。

近年来除在模式识别、非线性动态处理及自动控制等领域显示出极强的生命力外，在预测、评价等方面也取得了很好的应用效果。

1.2神经网络技术的发展历程
人工神经网络的发展始于本世纪40年代，经历了兴起、萧条和兴盛三个时期。

从1943年心理学家McCulloch和数学家Pitts提出著名的M-1模型到50年代末Rosenblatt提出感知机，从而将神经网络的研究应用于工程实践，形成了神经网络第一次研究高潮，并在信号识别等领域取得了一定成绩。

60年代初到70年代末，知识工程的出现给人工智能由实验室走向实用带来了希望，同时微电子技术的发展使得传统计算机的处理能力有很大提高，但是神经网络方法由于拓扑结构和算法上的局限性而处于相对停滞的阶段。

到了80年代传统计算机及信息处理方法在处理复杂问题过程特别是知识推理体系和人工智能中的表达、采集、存取及推理中都遇到了严重的挑战，美国生物物理学家教授J.J.Hopfield于1978年和1984年发表在美国科学院院刊上的两篇文章提出了一种特殊的非线性动态结构以解决优化问题，标志着神经网络研究高潮的又一次到来。

八十年代以来神经网络理论研究迅速发展，各国学者提出了许多神经网络模型，如Hopfield模型、
前向神经网络任（EedForword NN)模型、Kohonen自组织特征映射(self-organizing Feature Mapping)模型、径向基RBF(Radial Base Functi)网络以及以小波分析为基础的小波神经网络等[2]。

神经网络的应用研究己遍及各个学科、领域，如信号处理、模式识别、知识处理、市场分析、信用分析、医用诊断系统等。

并与多种交叉学科结合解决现实世界中的非量化问题，如模糊神经网络己广泛应用于智能控制等领域，生产管理领域等。

1.3神经网络技术的基本原理
人工神经网络实质上是描述了一个网络如何将其输入单元转化为输出单元的数学计算过程。

一般地，组成人工神经网络的要素主要包括人工神经元、网络结构以及网络学习算法。

1.3.1人工神经元模型
人工神经网络作为对生物神经系统的某种模拟，其基本要素是人工神经元，即神经网络操作的基本信息处理单元。

典型的人工神经元模型如图1-1所示，其主要由三部分组成：连接链、加法器以及激活函数。

连接链的值表示神经元的各个输入信号的连接强度或权重；加法器用于求取各输入信号被加权的和；激活函
图1-1 神经元非线性模型
数作为人工神经网络的核心要素，主要作用是建立输入信号与输出信号之间的非线性映射关系，并将输出信号的值限制到允许范围之内的一定值，因此激活函数也称压制函数。

典型神经元模型由输入信号到输出信号的作用过程可以用数学表达式表示为[3]：
其中x1, x2, x3···x m是输入信号，w k1, w k2, w k3···w km是神经元k的连接权值，u k是输入信号的加法器的输出，ψ（g）是激活函数是神经元输出信号。

偏置b k的作用是对加法器的输出u k做仿射变换，如下所示：
其中v k称为诱导局部域。

偏置b k又可以表示为-θk，θk称为神经元k的阈值，于是典型神经元模型的作用过程可以表示为：
1.3.2神经网络的结构
根据神经网络结构、激活函数以及计算过程的不同，人工神经网络可以分为各种不同的类型。

人工神经网络中神经元的构造方式是和训练网络的学习算法相对应的，从连接方式看，人工神经网络主要有两种基本结构：前馈网络和反馈网络。

1)前馈网络。

在人工神经网络中，神经元以层的形式组织。

在多层神经网
络中，输入层单元通过中间层单元过渡后映射到神经元的输出层单元，
各层的每一个神经元的输出都直接与紧邻的下一层的神经元的输入端
相连，这个网络是严格的单向网络，由于层与层之间没有反馈存在，因
此称为前馈网络。

典型的三层前馈网络结构如图1-2 a所示。

图1-2神经网络结构示意图
2)反馈网络。

在反馈型网络中，所有神经元都是一样的，既可以作为计算
单元，同时又可以接受输入，并向外界输出，即每一个神经元的输出影
响作用于该神经元的输入，造成多个围绕网络的信号传输的封闭回路，
也称为反馈环。

典型的单层反馈网络结构如图1-2 b所示。

1.3.3神经网络的学习方式
人工神经网络的重要特性之一是网络具有自学习能力，并能够通过学习改善其行为。

神经网络主要是通过调节其连接链的权值和偏置水平（阈值）来完成对环境的学习过程的。

学习的方式主要有三种[4]：
1)监督学习（有教师学习）。

这种学习模式采用的是纠错规则，在学习训
练过程中需要不断给网络提供“教师信号”，一个“教师信号"由一个输
入模式和一个期望网络正确输出的模式成对组成。

将神经网络的实际输
出同期望输出进行比较，当网络的输出与期望的“教师信号”的正确输
出不符合时，根据差错的方向和大小依据一定的规则调整权值，以使下
一次网络的输出更接近期望结果。

对于有教师学习，网络在能执行工作
任务之前必须先经过学习，当网络对于各种给定的输入均能产生所期望
的输出时，即认为网络己经在教师的训练下“学会”了训练数据集中包
含的知识和规则，可以用来进行工作了。

2)非监督学习（无教师学习）。

在学习过程中，需要不断地给网络提供动
态输入信息。

网络能根据特有的内部结构和学习规则，在输入信息流中
发现任何可能存在的模式和规律，同时能根据网络的功能和输入信息调
整权值，这个过程称为网络的自组织，其结果是使网络能对属于同一类
的模式进行自动分类。

在这种学习模式中，网络的权值调整不取决于外
来教师信号的影响，可认为网络的学习评价标准隐藏于网络内部。

3)再励学习（强化学习）。

这种学习方式介于上述两种情况之间，外部环
境对系统结果只给出评价信息而不是给出正确答案。

学习系统通过强化
那些受奖的动作来改善自身的性能。

2语音识别技术概述
2.1语音识别技术简介
随着计算机技术的发展，人与机器之间的交流也越来越广泛和深入，从科学研究到日常生活，计算机己经渗透到人们生活的各个方面。

在现代社会中，人们逐渐习惯借助计算机来完成各项事务。

在这种情况下，如何让计算机智能化地与人进行通信，使人机交互更加自然方便成为现代计算机科学的重要研究课题之一[5]。

语音识别(Speech Recognition)主要是指让机器听懂人说的话，即在各种情况下，准确地识别出语音的内容，从而根据其信息，执行人的各种意图。

语音识别是一门涉及面很广的交叉学科，它是目前发展最为迅速的信息研究诸领域中的一个，与计算机、通信、语音语言学、数理统计、信号处理、神经心理学和人工智能等学科都有着密切的关系。

语音识别的最大优势在于使得人机用户界面更加自然和容易使用。

随着计算机技术、模式识别和信号处理技术及声学技术等的发展，使得能满足各种需要的语音识别系统实现成为可能。

近二三十年来，语音识别在工业、军事、交通、医学、民用诸方面，特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。

2.2语音识别技术的发展历程
语音识别的研究工作可以追溯到20世纪50年代。

在1952年，AT&T贝尔研究所的Davis，Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统，可以识别10个英文数字发音。

1956年，在RCA实验室，Olson和Belar研制了可以识别一个说话人的10个单音节的系统，它同样依赖于元音带的谱的测量。

1959年，英国的Fry和Denes研制了一个能够识别4个元音和9个辅音的识别器，他们采用了谱分析仪和模式匹配器。

60年代，计算机的应用推动了语音识别技术的发展，提出了一系列语音识别技术的新理论动态规划线性预测分析技术，较好的解决了语音信号产生的模型问题。

代表是美国新泽西州普林斯顿RCA实验室的Martin有效的解决了语音事件时间尺度的非均匀性和识别结果的可变性；苏联的Vintsyuk提出了用动态规划的方法将两段语音的时间对齐的方法；卡耐基梅隆大学的Reddy采用的是音素的动态跟踪的方法为连续语音识别奠定了基础。

70年代，语音识别研究取得了重大的具有里程碑意义的成果，在小词汇量、孤立词的识别方面取得了许多实质性的进展；IBM语音研究小组，AT&A的贝尔研究所也开始了一系列有关非特定人语音识别的实验；苏联的Velichko和Zagoruyko的研究为模式识别应用于语音识别这一领域奠定了基础；日本的迫江和干叶的研究则展示了如何利用动态规划(Dynamic Programming)技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法；日本的板仓的研究则提出了如何将线性预测分析技术(LPC)加以扩展；同时，这个时期还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代，语音识别研究进一步走向深入。

实验室语音识别研究的巨大突破产生于20世纪80年代末：一些小词汇量的识别系统具备了较高的识别率。

同时，人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍。

美国卡耐基梅隆大学开发的连续语音识别系统——SPHINX，它是第一个高性能的非特定人、大量词汇的连续语音识别系统；隐马尔科夫模型(HMM)技术的成熟和不断完善，并最终成为语音识别的主流方法；人工神经网络(ANN)在语音识别中的应用研究的兴起。

90年代，在语音识别的系统框架方面并没有什么重大突破。

但是，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用，在语音识别技术的应用及商品化开发方面出现了很大的进展。

比较有代表性的有：IBM公司推出的ViaV oice和Dragon System公司的Naturally Speaking，Nuance公司的Nuance V oice Platform语音平台，Microsoft的Whisper和Sun的V oiceTone等[6]。

2.3语音识别的基本原理及实现方法
语音识别过程就是一个模板匹配的过程，模板训练的好坏直接关系到语音系统识别的效果。

语音识别模版匹配的过程如图2-1。

图2-1基于模板匹配的语音识别系统结构
2.3.1语音信号的预处理
语音信号的预处理是语音识别的前提与基础，因此语音信号的预处理在语音识别中具有举足轻重的地位。

语音信号的预处理，包括语音的预加重、加窗分帧处理与端点检测等步骤[7]。

2.3.2语音短点检测
语音信号的起止点判别是任何一个语音识别系统都必不可少的组成部分。

因为只有准确地找出语音段的起点和终点，才有可能使采集到的数据是真正要分析的语音信号，这样做不但减少了数据量、运算量和处理时间，同时也有利于提高系统识别率。

端点作为语音分割的重要特征，在很大程度上影响了语音识别系统的性能。

常见的端点检测方法有短时平均能量和短时过零率两种。

2.3.3语音信号的特征提取
特征提取的实质就是对语音信号进行数字化，用反映语音信号特点的若干特征参数来代表话音，将模拟信号转化为数字信号以便用计算机来进行处理。

特征的选择对识别效果至关重要，选择的标准应体现对异音字之间的距离尽可能大，而同音字之间的距离应尽可能小。

若以前者距离与后者距离之比为优化准则确定目标量，则应是该量最大。

同时，还要考虑特征参数的计算量，应在保持高识别率的情况下，尽可能减少特征维数，以减少存储要求和利于实时实现。

语音信号的特征有多种度量标准，反映短时谱包络的参数是语音识别中采用的主要特征参数，常用的有线性预测系数(LPC)、线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)等[8]。

2.3.4语音信号识别的主要技术
语音识别过程就是一个模板匹配的过程，模板训练的好坏直接关系到语音系
统识别的效果。

为了得到一个好的模板，往往需要有大量的原始语音数据来训练这个语音模型，特别是对于非特定人的语音识别系统来说，这一点显得更为重要。

因此，在开始进行语音识别研究之前，首先要建立一个语音数据库，数据库包括不同性别、年龄、口音的说话人的声音，并且必须具有代表性，能均衡地反映实际使用情况。

否则，用这种语音数据库训练出来的语音模型很难得到满意的识别效果。

模板训练就是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模板参数。

常用的语音识别技术有：矢量化（VQ）技术、动态时间规整（DTW）、隐马尔科夫模型技术（HMM）、人工神经网络技术（ANN）等[9]。

3神经网络技术在语音识别中的应用
3.1神经网络技术进行语音识别的优点
基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。

ANN采用了并行处理机制、非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成果，因此，具有高速的信息处理能力，并且有着较强的适应和自动调节能力，在训练过程中能不断调整自身的参数权值和拓扑结构，以适应环境的和系统性能优化的需求，在模式识别中有着速度快、识别率高等显著特点。

目前语音识别神经网络主要有多层感知器误差反转（BP）网络、量子神经网络、循环神经网络、模糊聚类神经网络、混沌神经网络、回归神经网络、基于RBF神经网络的语音识别方法等[10]。

3.1.1多层感知器误差反转（BP）网络
多层感知器误差反传网络(BP网络)是采用反向传播算法的多层感知器神经网络，系统地解决了多层神经元网络中隐单元层连接权的学习问题，并在数学上给出了完整的推导,克服了HMM对声学上相似的词易混淆的缺点，已成功地用于音素识别。

采用BP算法的神经网络模型一般称为BP网络。

多层BP神经网络模型的拓扑结构如图3-1所示。

由图可见，它由输入层、中间层和输出层组成。

其中，中间层也叫隐含层，它可以是一层或多层[11]。

图3-1 三层BP网络结构图
BP网络的学习过程由两部分组成：正向传播和反向传播。

当正向传播时，输入信息从输入层经隐单元层处理后传向输出层，每一层神经元的状态只影响下一层的神经元状态。

如果在输出层得不到希望的输出，则转入反向传播。

反向传播时，误差信号从输出层向输入层传播并沿途调整各层间的连接权值以及神经元的偏置值，以使误差信号不断减小，这种过程不断迭代，最后使得信号误差达到允许的范围之内。

传统的BP神经网络不可避免的存在局部极小的问题，BP算法的收敛算法较慢，造成网络性能脆弱，容错性下降，浮点溢出，而太小的网络可能根本不收敛的问题。

通过对输入矢量的归一化、初始权值合理的设定、采用批处理输入训练样本、采取自适应学习率的方法可以改善这种问题。

3.1.2量子神经网络
人脑中存在量子效应以及量子效应在人脑中所起的重要作用。

英国Oxford 大学的Penrose教授早在1989年就开始研究人脑中的量子效应问题，他发现人体中一些细胞对单个量子敏感，因此大脑中可能存在量子力学效用，并提出将量子现象与广义相对论结合的新物理学能够解释人的理解、认知、意识等能力的观点。

他从生物神经信息处理的角度阐述了量子效应与人脑功能的关系，为量子计算与ANN的结合提供了有益的支持[12, 13]。

经典ANN的许多功能源于其并行分布式信息处理能力和神经元变换的非线性。

然而，量子理论的态叠加原理使QNN具有比ANN更强的并行处理能力并能处理更大型数据集。

与经典ANN相比，QNN具有以下几方面的潜在优势：(1)指数级的记忆容
量和回忆速度；(2)实现高性能、少隐层节点数的量子神经网络；(3)快速学习和高速信息处理(1010bits/s)能力；(4)由于不存在模式之间的相互干扰而具有消除灾变性失忆的潜力：(5)单层量子神经网络可求解线性不可分问题：(6)由于可实现高密度的量子神经元(1011个神经元/mm3)和利用量子神经元之间的纠缠特性而不需要网络连线使QNN的网络规模较小、网络拓扑结构较简单；(7)高稳定性和高可靠性等。

3.1.3循环神经网络
循环神经元网络（RNN）是一种既有前馈通路,又有反馈通路的神经元网络，其中反馈通路可将某一些神经元的输出经过一个或几个时间节拍之后送到其它神经元或自身反馈通路的引入，使得网络能够有效地处理时间序列的上下文信息, 这对语音识别来说是尤其重要的。

90年代初期有人提出利用（RNN）进行语音音素识别。

将循环神经网络技术和HMM算法结合所采取的初始层训练，样本分步训练、教师信号分段添加等训练策略都能够在提高训练速度和效率的同时，使得模型分类性能有明显提高[13]。

3.1.4模糊聚类神经网络
该方法以模糊系统模型为基础，利用改进的模糊聚类辨识算法，构成一种新型的模糊聚类神经网络(FCNN)，并将其作为概率密度函数的估计器，对每个状态的输出进行预测．它不仅能有效地在语音识别中引入帧间相关信息，而且能克服状态输出概率密度函数为混合高斯分布的束缚。

该方法由Takagi和Sugeno提出，是解决复杂系统辨识的有效方法之一，它是通过模糊规则来描述系统的行为，然后由多个局部线性模型来模糊逼近所描述的系统[14]。

该模型结构如图3-2。

图3-2 T-S模糊神经网络结构
该网络采用乘积推理规则、加权法及最大隶属度法去模糊化。

这种基于乘积型、高斯型的模糊神经网络已经被证明具有全局收敛性。

T-S网络可以有效的发挥神经网络和模糊系统各自的优势[15]，不仅能够解决模糊系统模糊隶属函数的自动调整和模糊规则的生成问题，而且还使得网络不再是—个“黑箱子”学习模式。

传统T-S模糊神经网络具有很好的学习、训练和推理能力，能够引入领域专家的经验知识，并利用模糊规则来指导网络的训练，使网络的训练能够更符合人的推理习惯。

4参考文献
1. 覃光华, 人工神经网络技术及其应用. 四川大学,[博], 2003.
2. 唐红梅, 人工神经网络技术在成熟期企业员工绩效评估中的研究与开发, 2006, 武汉理工大学.
3. 俞立婷, 何俊佳, and 陈家宏, 输电线路雷电活动时空分布特征的数据挖掘. 高电压技术, 2008. 34(2): p. 314-318.
4. 王景新, 基于神经网络技术的网络入侵检测系统研究与实现, 2002, 中国人民解放军国防科学技术大学.
5. 朱淑琴, 语音识别系统关键技术研究, 2004, 西安电子科技大学.
6. 雷涛, 基于神经网络的语音识别研究, 2005, 浙江工业大学.
7. 章文彬, 基于脉冲神经网络的语音识别方法研究, 2007, 浙江工业大学.
8. 夏妍妍, 基于RBF 神经网络的语音识别方法的应用研究, 2008, 大连海事大学.
9. 郑肖霞, 基于RBF 神经网络的语音识别研究, 2007, 河北工业大学.
10. 李鹏怀and 徐佩霞, 基于DSP 的嵌入式语音识别系统的实现[J]. 计算机工程, 2005. 31(16).
11. 吴炜烨, 基于神经网络语音识别算法的研究, 2009, 中南大学.
12. 李飞, 赵生妹, and 郑宝玉. 量子神经网络及其在语音识别中的应用. 2005.
13. 朱小燕, 王昱, and 徐伟, 基于循环神经网络的语音识别模型.计算机学报, 2001. 24(2): p. 213-218.
14. 刘宇红, 刘桥, and 任强, 基于模糊聚类神经网络的语音识别方法.计算机学报, 2006. 29(10): p. 1894-1900.
15. 王鹏and 张雪英, 改进的T - S 模糊神经网络在语音识别中的应用.计算机工程与应用, 2009. 45(4).。