基于BP神经网络的语音识别技术

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

上海海事大学

神经网络与语音识别

院系: 物流工程学院

课程名称: 制造与物流决策支持系统学生姓名: 学号:

时间:

一．绪论 (3)

1.1 研究背景及意义 (3)

1.2 语音识别的国内外研究现状 (3)

1.3研究内容 (4)

二．语音识别技术 (5)

2.1语音信号 (5)

2.2语音信号的数学模型 (5)

2.3语音识别系统结构 (6)

2.4语音信号预处理 (7)

2.4.1 语音信号的采样 (8)

2.4.2语音信号的分帧 (8)

2.4.3语音信号的预加重 (9)

2.4.4 基于短时能量和过零率的端点检测 (9)

2.5 特征参数提取 (13)

三．基于BP神经网络语音识别算法实现 (16)

3.1 BP神经网络原理 (16)

3.2 输入层神经元个数的确定 (16)

3.3网络隐含层数的确定 (17)

3.4隐含层神经元个数的确定 (17)

3.5 BP神经网络构造 (17)

3.6 BP神经网络的训练 (18)

3.6.1训练样本集合和目标值集合 (18)

3.6.2 网络训练 (18)

3.7网络训练 (19)

3.8 语音的识别结果 (20)

四．总结 (21)

参考文献 (22)

附录 (23)

一．绪论

计算机的飞速发展，使人们的生活方式发生了根本性的改变，鼠标、键盘，这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异，假如让“机器”能够听懂人的语言，并根据其信息去执行人的意图，那么这无疑是最理想的人机智能接口方式，因此语音识别作为一门极具吸引力的学科应运而生，很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。

语音识别(Speech Recognition)是指，计算机从人类获取语音信息，对语音信息进行分析处理，准确地识别该语音信息的内容、含义，并对语音信息响应的过程。语音信号具有非稳定随机特性，这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理，那么要求计算机能像人类一样地识别语音信号很有挑战性。

1.1 研究背景及意义

语言在人类的智能组成中充当着很重要的角色，人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段，人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展，人们对实现人机对话产生越来越迫切的要求，使得语音识别技术近年来得到了迅速的发展，语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学，它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。

1.2 语音识别的国内外研究现状

通过语音传递信息是人类最重要，最有效，和最方便的交换信息的形式，语音识别主要指让机器转达人说的话，即在各种情况下，准确的识别出语音的内容，

从而根据其信息，执行人的各种意图。

广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音识别，是指内容识别方面。采用计算机进行语音识别到现在已经发展了50年。

从特征参数上改进，采用各种办法进行语音增强是一个研究方向，但是到目前为止，还没有一种办法能把语音信号完美地从噪音环境提取出来。语音识别有广泛的商业化运用前景，主要可以分为通用场合和专用场合两个方面。

1.3研究内容

本文研究的主要内容是结合模式识别的基本理论，研究BP神经网络孤立词语音识别的问题，实现1-5共5个数字的识别。分析了语音信号的预处理，特征提取及BP神经网络算法实现。

二．语音识别技术

2.1语音信号

语音信号是随时间变化的一维信号，由一连串的音素组成，各个音素的排列有一定的规则。语音具有声学特征的物理性质，声音质量与它的频率范围有关，语音信号的频谱分量主要集中在200~3400Hz的范围内。语音信号的另一个重要特点是它的短时性。语音信号的特征是随时间变化而变化，只有在一段很短的时间间隔中，才保持相对稳定的特性。研究表明，在5ms~40ms的范围内语音信号的频谱特性和一些物理特征基本保持不变。语音信号短时特征和短时参数包括它的短时能量、短时过零率、短时相关函数、短时频谱等。

语音信号的最基本组成单位是音素。音素可分成浊音和清音两大类。如果将只有背景噪声的情况定义为“无声”，那么音素可分成“无声”、“浊音”和“清音”三类。在短时分析的基础上可以判断一小段语音属于哪一类。如果是浊语音段，还可测定它的另一些重要参数，如基音频率和共振峰等。

2.2语音信号的数学模型

建立语音信号的数学模型是语音信号处理的基础。从人的发音器官的机理来假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特征是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时可以采用线性时不变模型。通过上面的分析，将语音生成系统分成三个部分，喉的部分称为声门，在声门(声带)以下，称为“声门子系统”，它负责产生激励振动，是“激励系统”。从声门到嘴唇的呼气通道是声道，是“声道系统”，声道的形状主要由嘴唇和舌头的位置来决定。在说话的时候，声门处气流冲击声带产生振动，然后通过声道响应变成声音，由于发不同音时，声道的形状不同，所以能够听到不同的语音。语音从嘴唇辐射出去，所以嘴唇以外是“辐射系统”。激励的不同情况发不同性质的音，激励一般分为浊音激励和清音激励。发浊音时声道受到声带振动的激励引起共振，产生间歇的类斜三角形脉冲；发清音时声道被阻碍形成湍流，可以把清音激励模拟成随机白噪声。完整的语音信号的数学模型