基于RBF神经网络的抗噪语音识别(精)
基于RBF神经网络滤波的噪声消除
基于RBF神经网络滤波的噪声消除
董翠英;王志秦
【期刊名称】《唐山学院学报》
【年(卷),期】2007(20)6
【摘要】RBF神经网络噪声抵消系统不需要关于输入信号和噪声的先验知识,非线性映射能力强.采用自适应噪声抵消基本原理,构造RBF神经网络自适应滤波器,然后针对该系统,建立Simulink仿真模型.仿真结果表明,该方法具有良好的噪声抑制能力.
【总页数】3页(P39-40,52)
【作者】董翠英;王志秦
【作者单位】唐山学院,信息工程系,河北,唐山,063000;唐山学院,信息工程系,河北,唐山,063000
【正文语种】中文
【中图分类】TN713
【相关文献】
1.基于FIR滤波器的冲激引信谐波噪声消除方法 [J], 宋宝军;付红卫;王欣
2.基于时频峰值滤波的电力线通信噪声消除方法 [J], 苏岭东;翟明岳;何欣
3.基于空时域级联滤波的红外焦平面条状噪声消除算法 [J], 王书朋;付程琳;侯颖
4.基于柔性形态学滤波优化的周期性噪声消除算法 [J], 卫星;焦蓬蓬;史永
5.基于RBF神经网络的语音信号的噪声消除 [J], 董翠英;周长英
因版权原因,仅展示原文概要,查看原文内容请购买。
基于Mel倒谱特征和RBF神经网络的语音识别改进
基于Mel倒谱特征和RBF神经网络的语音识别改进
祝进云;张明
【期刊名称】《现代计算机:上半月版》
【年(卷),期】2016(000)006
【摘要】在科技快速发展的今天,人工智能技术日益成熟,包括机器人、语音识别、图像识别以及大师系统的等技术也在被不断地尝试使用在人们生活的各个方面。
语音识别技术在现如今不管是PC端还是移动端都有很多应用,从苹果公司采用的Siri 语音助手到今天微软的小娜语音助手,越来越证实语音识别技术在将来有很大的发展空间。
基于Mel倒谱特征和RBF神经网络的语音识别改进算法结果表明,与现有的语音识别技术对比时,语音识别率有较大的提高,能够达到语音识别的改进的预期效果。
【总页数】6页(P3-8)
【作者】祝进云;张明
【作者单位】上海海事大学信息工程学院上海201306
【正文语种】中文
【中图分类】TP183
【相关文献】
1.基于Mel倒谱特征和RBF网络的孤立词语音识别方法 [J], 侯雪梅;田磊
2.基于小波Mel倒谱系数的抗噪语音识别 [J], 张小玫;张雪英;梁五洲
3.基于Mel倒谱特征和RBF神经网络的语音识别改进 [J], 祝进云;张明
4.一种基于改进Mel倒谱的语音质量评估方法 [J], 宣章健;蔡晓霞;廖锡畅;丁睿
5.基于特征相对贡献度对加权Mel倒谱的改进 [J], 王家盛;郭其威;吴松;马建敏因版权原因,仅展示原文概要,查看原文内容请购买。
基于RBF神经网络的语音信号的噪声消除
便使 输 出. 1接近 于所 期望 的参考 信号d 1。 y ) + ∞ )
己 知信 号 和 噪 声 的先 验 知 识 ,但 在 许 多实 际问 题 中往往 无法 预知 …。为 了提 高 滤波性 能 ,滤波 器 的
权 系数 往 往 承 受 随 着输 入 信 号而 发 生 变 化 ,这 种 滤 波即为 自适 应 滤波 ( C) AN 。它利用 与 噪声 相关 的信 号来调 整滤 波参数 ,实现对 噪 声的抑制 。 神 经 网络 是 模 仿 和延 伸 人 脑 智 能 、 思维 、意 识 等功 能 的 非 线性 自适 应 系统 ,它 具 有全 新 的 信
[2 ] 第3 卷 2 8 2 第5 期 2 1— 0 5 0
骞I 匐 、
g =G ( =R ( X—C I ) =1 , n () X) ,I 1 } , , …2 i 2 1 其 中 ,x为 2 维 输 入 向量 ;C 6分 别是 第i n i 和 个
别 、 自适 应滤 波等领 域 。
理 论 在 不 断地 发 展 与 完善 应 用 也 越 来越 广 泛 。 自
适 应 滤 波 器 的原 理 如 图 l 示 。 图 1 :xk 一 所 中 ( )一表
示 时刻 的 输入 信号 值 ;y 一表示 时 刻 的输 出信 号 )
RF B 神经 网络第i 隐节 点的输 出为 : 个
Y ( ) +[( ) Ok 】 sk [( ) Ok 】 k =S () z七 一z () +2 ( )zk 一z ( )
基于最小径向基函数(MRBF)神经网络的非线性噪声对消
( l g fElcrc lI or ain, ihu n Unv riy, Col eo e tia nf m t e o Sc a ie st Che g u 6 0 6 n d 1 0 5)
中图 分 类 号 :TN 1 ; I 3 9 1TP 8 文 献 标 识 码 :A
No lne r n ie c n e l r ba e n m i i a a i l n—i a o s a c le s d o n m lr d a ba i u to n u a e wo ks s s f nc i n e r ln t r
维普资讯
电
子
测
量
技
术 ቤተ መጻሕፍቲ ባይዱ
第 3 0卷 第 9 期
2 0 年 9月 07
ELECTRONI C M EAS UREM[ ENT TECHNOL0GY
基 于 最 小 径 向基 函 数 ( R F) 经 网 络 的 非 线 性 M B 神 噪 声 对 消
0 引
言
层 的变换 是 非 线 性 的 , 隐含 层 到 输 出层 的 映 射 是 线 性 而 的 。图 1 示 了基本 R F 网络 的拓 扑 结 构 , 显 B 由输 人 层 , 隐
在一般 的信号检 测 与处 理 中, 噪声 为 加性 高斯 特 性 当 时 , 统 的线 性 滤 波 器 具 有 很 好 的 效 果 , 是 当用 线 性 滤 传 但 波器 滤 波 处 理 非高 斯 噪声 时 , 了 达 到 足够 的精 度 , 常 为 通 要求 很高 的 阶数 , 增加 了运算 量 , 适合 实 时 要 求 的场 合 。 不 由于 径 向基 函数 ( F) RB 神经 网络具 有 良好 的非 线性 映 射 能力 , 可以 任意精 度逼 近连 续非 线 性 函数 。R F的运 用 已 B 经取 得一定 的成 果 。但 一般 的 R F神 经 网络 确定 隐 单 B 元个数 和参 数更 新 困难 , 文采 用 一 种 最小 径 向基 函 数 ]本 神经 网络来 实现 , 以降低 运算 复杂 度 , 于实 时运行 。 可 利
基于神经网络的音频信号降噪技术
基于神经网络的音频信号降噪技术音频信号降噪是一项重要的信号处理技术,它在许多领域中都有广泛的应用,例如通信、语音识别、语音合成等。
随着神经网络技术的快速发展,基于神经网络的音频信号降噪技术逐渐成为研究热点。
本文将从神经网络的基本原理、音频信号降噪的挑战、基于神经网络的音频信号降噪方法等方面展开讨论。
一、神经网络基本原理神经网络是一种模仿人脑结构和功能而设计出来的计算模型。
它由大量相互连接并具有适应性调节能力的简单处理单元组成,这些处理单元被称为神经元。
每个神经元都接收来自其他神经元传递过来的输入,并根据输入和自身内部状态产生输出。
在训练过程中,通过调整连接权重和阈值等参数,使得网络能够对输入进行正确分类或输出期望结果。
这种学习过程通常通过反向传播算法实现,即将输出误差反向传播到每个连接权重,并根据误差大小来调整权重的值。
二、音频信号降噪的挑战音频信号降噪是一项具有挑战性的任务,主要由以下几个方面的因素造成:1. 噪声类型多样:不同环境下的噪声类型多种多样,例如白噪声、背景噪声、谐波失真等。
不同类型的噪声对降噪算法提出了不同要求。
2. 声音信号复杂性:真实世界中的音频信号通常具有复杂结构和高度非线性特性。
这使得降噪算法需要具备一定的非线性建模能力。
3. 实时性要求:在实时通信等应用场景中,对降噪算法提出了实时处理和低延迟要求。
这对算法设计提出了更高的挑战。
三、基于神经网络的音频信号降噪方法基于神经网络的音频信号降噪方法主要包括以下几个方面:1. 基于深度神经网络(DNN):深度神经网络是一种多层结构组成的神经网络模型,它可以通过层层处理来学习输入和输出之间更复杂、更抽象的映射关系。
在音频信号降噪中,DNN可以用于学习音频信号的特征表示,然后通过降噪模型进行噪声抑制。
2. 基于循环神经网络(RNN):循环神经网络是一种具有记忆性的神经网络模型,它可以处理具有时序关系的序列数据。
在音频信号降噪中,RNN可以用于建模音频信号的时序特性,并通过记忆单元对过去时刻的信息进行记忆和处理。
粒子群优化RBF神经网络的语音识别研究
_ + I 铖 r 字 技 术 露
应 用研 究
粒子群优化 R B F神经网络的语音识别研究
王 凯
( 四川大学电气信 息学院 四川成都 6 1 0 0 6 5 )
摘要 : 提 出一种 改进 的径 向基( RB F ) 神 经 网络 , 通过 运 用有 监督 的粒子 群优化 ( P s o) 聚 类学 习方法, 来求 解网络 隐层 基 函数 中心 和宽度 。 并将此 改进 的R B F 神 经 网络 用于语音识 另 l l 1 构建 了语音识 剐仿 真 系统。 结果表 明与 标 准R B F 神 经 网络相 比, P S O4  ̄ 的R 出F 神 经 网络 在缩短 训练 时间的 同 时, 具有 较 高 的识 别 率 。 关键 词 : 粒子群 径 向基 神 经 网络 语音识 别 中图分类 号: T P 3 9 1 文献 标识码 : A
Ke y Wo r d s : P a r t i c l e s wa r n q o p t i mi z a t i o n Ra ia d l b si a s f u n c t i o n Ne u r l a n e wo t r k ; S p e e c h r e c o g n i t i o n
Wa n g Ka i
( S c h o o l o f E l e c t r i c a l E n g i n e e r i n g a n d I n f o r ma t i o n , S i c h u a n Un i v e r s i t y , C h e n g d u , P . R. C 6 1 0 0 6 5 )
Ab s t r a c t : An i mp r o v e d Ra i ̄Ba d s i s F u n c i t o n( RBF ) n e u r a l n e t wo r k h a s b e e n p r o p o s e d t o o b t a i n t h e c e n t e r a n d wi d t h o f h i d d e n l a y e r b a s i s f u n c d o n b y u s i n g s u p e r v i s e d p a r t i c l e s wa m - i o p t i mi z a t i o n( P S O) t h e c l u s t e r i n g l e a ni r n g me t h o d s . T h i s i mp r o v e d RBF n e u r a l n e wo t r k h a s b e e n u s e d f o r s p e e c h r e c o g n i t i o n
遗传优化RBF神经网络背景下的声纹识别研究
遗传优化RBF神经网络背景下的声纹识别研究
张鹏
【期刊名称】《信息与电脑》
【年(卷),期】2022(34)1
【摘要】本文以遗传优化RBF神经网络为基础分析声纹识别算法,通过增加学习网络权重能力和全局寻优能力,提升声纹识别准确度。
对语音进行预处理并提出语音
特征参数,以遗传RBF神经网络为基础,从初始化种群、选择适应度函数、选择操作、交叉和变异操作4个方面完成模型构建。
通过仿真试验分析,得到遗传优化RBF神经网络背景下声纹识别的技术优势。
【总页数】3页(P159-161)
【作者】张鹏
【作者单位】湖北警官学院
【正文语种】中文
【中图分类】TP183
【相关文献】
1.基于遗传算法优化的RBF神经网络在MBR膜污染仿真预测中的研究
2.基于遗传优化RBF神经网络的声纹识别研究
3.基于遗传算法优化的RBF神经网络在MBR
膜污染仿真预测中的研究4.基于改进遗传算法的RBF神经网络结构优化研究5.基
于RBF神经网络和遗传算法的超声速Licher双翼优化设计研究
因版权原因,仅展示原文概要,查看原文内容请购买。
粒子群优化 RBF 神经网络的语音识别研究
粒子群优化 RBF 神经网络的语音识别研究
粒子群优化 RBF 神经网络是一种智能计算方法,被广泛应用
于语音识别领域,具有很好的性能和效果。
在语音识别中,RBF 神经网络是一种常用的分类器,它具有
高效、精确和可靠等优势。
而粒子群优化算法则是一种优化方法,可以优化神经网络的权值和偏置,提高神经网络的预测准确性和泛化能力。
粒子群优化算法是一种自适应的优化方法,可以自动调整权值和偏置,提高神经网络的分类准确率。
该算法通过模拟粒子的群聚行为,不断调整参数,逐步优化神经网络的输出结果。
同时,该算法还能够避免陷入局部最优解,保证搜索结果的全局最优性。
在语音识别研究中,粒子群优化算法通常与 RBF 神经网络相
结合,形成一个自适应的分类器。
该分类器在声学模型训练中具有广泛的应用,可以识别各种不同的语音信号,实现语音识别的精度和鲁棒性提升。
同时,在实际应用中,粒子群优化算法和 RBF 神经网络的结
合还能够有效地处理噪声和语速变化等信号干扰问题,提高语音识别的鲁棒性和可靠性。
此外,粒子群优化算法还可以优化神经网络的参数,使其更加精细和高效。
总之,粒子群优化RBF 神经网络是一种有效的语音识别方法,可以提高语音识别的准确性和实用性。
在未来的研究中,我们
将继续深入研究该方法,并进一步探索其在语音识别领域的应用前景。
用文化算法改进的RBF神经网络在语音识别中的应用
[ ] 梅海燕.免费电子期刊 的开发与ng a utDe p yM i i ft t r e e t o c l i bo e l n ngo Ne wo k Fr eElc r ni he
( 任编辑 : 永胜 ) 责 王
[ ] 葛杭网 上免费资源综述[ ] 2 J. 图书馆学研究 ,05 1 :9 7 . 2 0 ( )6 - 2
[ ] 朱 天 慧 . 学 图 书 馆 免 费 网络 学 术 资源 建 设 探 析 [ ] 书 馆 3 大 J. 图 学 刊 ,0 52 :8 5 . 2 0 ( )5 — 9 [] 4 罗娟 . 十年 我 国免 费 电子 资源 文 献 研 究 综 述 [] 世 纪 图 书 近 J. 新
( 0) 10 0 . 1 : 0 —1 3
另一层用 于知识存储 , 层之间既 相互独立 , 两 又相 互联系 , 同 共 方法和途径对这些资源进行挖掘 , 获得有价值 的、 有序 的、 方便 利 用的电子资源 , 以说一直是我们每一个有信息需求的用户的重 可 要任务 。关于对免费电子资源 的深度挖掘 , 还需要继续探索。
[ ] 魏 秀泉. 1 网上免费电子资源的开发 与利用 [] J. 中国教 育研 究
与创 新 杂 志 ,0 6 3 1 :2 2 . 2 0 ,( )2 — 3
[ ] 金燕 , 9 张玉 峰. 网络 数据挖掘及 其在面 向 We b的知识检索 中的应用 [] J . 图书情报技术 ,0 36 :5 5 . 现代 2 0 ( )5 — 7 [O 练森 , 1] 姜仁珍 , 鞠静 , 图书馆 对网络免 费资源的采集 与 等. 重新组织初探 [] J. 科技信息 ,0 8 2 )l. 20 (3 :7
一种基于RBF神经网络的汉语耳语音转化为正常语音的方法
49收稿日期:2018-08-06作者简介:王海燕(1979—),女,汉族,江苏苏州人,讲师,硕士研究生,研究方向:自动化控制,智能语音控制。
耳语音是一种特别的发音模式,发音的主要特点是声带不振动,没有基频,声级低。
耳语音转换在禁止大声喧哗的场所、移动通讯通话质量提高、国家安全部门语音识别系统升级、公安法院语音破译以及电子人工喉音质改进等方面具有非常重要的应用价值。
目前,对耳语音转换的研究主要有:粟学丽[1]等人使用相对熵法作为耳语音识别和转换的预处理来重建正常语间,改善了语音的音质,但是转换时延较长;黄程[2]等人提出了使用混合激励线性预测法实现汉语耳语音重建为正常语音,语音转换的自然度有待改善;Morris.R.w [3]等人提出谱修正法实现了耳语音的转换,但重建后的语音带有明显的失真,使得转换后的语音有较强的金属音质。
本方法将汉语耳语音和正常语音韵母部分的线谱对参数,通过RBF网络训练得到汉语耳语音到正常语音的线谱对参数转换模型,通过转换模型修正汉语耳语音的线谱对参数;然后将修正好的汉语耳语音的线谱对参数和正常语音基频平均值,输入到线谱对参数合成器中进行汉语耳语音韵母的转换;最后将转换后的清音和韵母结合,输出目标语音。
1 汉语耳语音的特点耳语音发音时声门保持半开的状态使得声道增加了气管和肺的部分,声道传输函数随之发生相应改变,从而导致耳语音的共振峰发生偏移。
耳语音的清辅音部分与正常语音的发音方式基本没有区别,但是元音部分却有明显的差异。
正常语音的元音是由准周期脉冲激励,含有明显的基音频率。
耳语音的声源为噪声源,声带不振动,故耳语音的元音没有基频。
而汉语的声调识别与韵律合成控制都与基频有关,汉语耳语音[4]的声母和韵母的特征差异不大,导致汉语耳语音的声韵较难分割,使得耳语音的可懂度和清晰度变差。
2 RBF神经网络在耳语音转换中的应用RBF [5](Radial basis function)神经网络是种高效的单隐含层前馈式网络,能以任意精度逼近任何非线性连续函数。
RBF神经网络和HMM用于音乐识别的算法研究(可编辑)
RBF神经网络和HMM用于音乐识别的算法研究(可编辑)太原理工大学硕士学位论文RBF神经网络和HMM用于音乐识别的算法研究姓名:李炳男申请学位级别:硕士专业:信号与信息处理指导教师:张雪英20090401RBF神经网络和 HMM用于音乐识别的算法研究摘要音乐信号处理是信号处理领域中的重要组成部分。
为了能让计算机与人类能够用音乐自由的沟通,有关计算机音乐处理的研究,意义日益凸显。
音乐的计算机自动识别是新兴的交叉学科,其研究涉及物理学、信号处理、人机交互、音乐理论等诸多学科知识。
本文研究的音乐识别正是将计算机多媒体技术、信号处理与模式识别的相关知识和技术同音乐理论相结合,用计算机模拟人对音乐认知和分析的过程。
论文首先介绍了计算机音乐的发展,并对基本乐理及音乐信号的特性进行了简单的描述。
围绕音乐相关理论,论文对比了音乐信号与语音信号的特性,选取MFCCMel-Frequency Cepstral Coefficients作为单音信号的特征,并对特征矢量维数的选择进行了讨论,利用 RBF神经网络对钢琴 88个单音进行识别,实验取得了 100%的识别结果。
实验结果表明所选特征对识别钢琴单音信号是有效的。
其次论文研究了在西方音乐和弦识别中使用频率较高的音级轮廓Pitch Class Profile简称 PCP特征及其计算方法,给出了具体的计算公式。
论文基于 HMM构建了音乐和弦识别系统,定义了 36个状态,每个状态代表一类和弦;通过一个 12维的多元高斯函数拟合观察向量的概率分布, 该模型分别由高斯函数的均值向量和和协方差向量来定义。
论文II借助 Chris Harte制作的标签文件训练得到有监督的 HMM。
识别过程通过 Viterbi算法,对输入信号依照极大似然法来寻找最佳路径,即最佳的和弦序列。
为了克服系统处理快节奏音乐时出现的如下问题:识别空和弦时系统常发生混淆,论文采用了得到很多学者认可的节拍同步分析算法。
基于LPMCC特征和小波RBF网络的语音识别
引言
识 别 网络 的选 取 是 语 音 识 别 系统 中 的 关 键 步
率与 实 际频 率 并不 成线性 正 比关 系。通 过实验 研究
发现 , 于人耳 的 听觉 模 型 提 取 的特 征 参 数 更具 有 基 优 于其它 参数 的鲁 棒性 。Me频 带 划分 是对 人 耳 听 l 觉特性 的一种 工程 化 模 拟 , 的 听 觉感 知 除 了音 调 人 骤, 其性 能 的优 劣 决 定 了识别 率 的高 低 。常 用 的识 别 方法有 隐 马 尔 可 夫 模 型 ( HMM) 神 经 网 络 等 。 和 其 中 R F神 经 网络除 了具有 一般 神经 网络 的优 点 , B 如多维 非线性 映 射 能 力泛 化 能 力 , 行 信 息处 理 能 并 力等 , 还具有 很强 的聚类分 析 能力 , 能将 语音 的动 它 静 态特性 和听觉 感 知 特 性 融合 到 网络 特性 之 中u 。 J 但 是 R F网络 中 的激活 函数不 具有 时 频局 部特 性 , B
和谱合 成 特性 。根 据人类 听觉 系统对 频率 及幅 度 的
这使得网络在训练时 由于出现冗余 而降低收 敛速
度, 而小 波分 析对 非平 稳 随机 信 号 具有 良好 的时 域
感知实验结果 , 在此尺度下提取语音特征 , 更符合人 耳 的听觉 特 性 】 因此 将 常 规 的 L C进一 步按 符 。 P
合人 耳 听觉特 性 的 Me尺 度进 行 非 线 性 变换 , 到 l 得 L l 谱 系数 ( P MC 作 为 特 征 参 数 。既 PMe倒 L C C) ]
考 虑 了声 道 激励 , 又兼顾 人耳 听觉 , 具有 更强 的抗 噪
性。
局部特性和变焦能力。本文将小波 函数代 替 R F B 网络 中 的激 活 函 数 , 用 改 进 的 L 使 P倒 谱 特 征 ( P C 提取方法 , L Mc ) 构建 了一个非特定人 的孤立词 语音识别 系统 , 在不同 S R下进行识别 , N 得到了较 好的识别效果。
RBF神经网络模式识别
动态RBF神经网络模式识别12721211,秦自杰2013-03-01摘要:本文讨论了神经网络模式识别的特点,研究了一种RBF神经网络在模式识别中的训练方法。
对RBF神经网络的训练采用一种区域映射的方式,并由此使用区域映射误差函数,同时结合RAN新性条件进行网络节点的动态调整。
不但加快了网络的训练过程,而且获得较小的网络结构,提高了网络的泛化性能和正确率。
关键词:径向基函数;分类;区域映射;动态;模式识别A Dynamic RBF Neural Network for Pattern RecognitionAbstract:The characteristics of neural network for pattern recognition are discussed in this paper. The problem of training RBF neural network for pattern recognition is considered. In this paper, a new training algorithm based on the regional mapping and novelty condition of RAN is proposed. The result show the effectiveness of the proposed approach in RBF network training for pattern recognition, mainly in shortening the learning time, simplifying the structure of network and improving the classification accuracy.Keywords: RBF; classification; regional mapping; dynamic; Pattern Recognition1 引言模式识别的任务是把模式正确地从特征空间映射到类空间,或者说是在特征空间中实现类的划分。
基于全监督算法RBF神经网络的语音识别
C efins特 征 提 取 方 法 提 取 , 不 同信 噪 比下 ofc t) ie 在 进 行识别 , 到 了较好 的识 别效 果 。 得
R F神经 网 络 的结 构 与 多层 前 向 网络 结 构类 B 似, 同许多 B P网络一样 , 也是 一 种 三层 静 态前 向 它
耳 的听觉特 性 。 因此将 常 规 的 L C进 一步 按 符 合 P 人耳 听 觉 特 性 的 Me 尺 度 进 行 非 线 性 变 换 , 到 l 得
值聚类算法[对初值的选择 比较敏感 , 3 ] 不具备全局
优 化特性 , 常收敛 于局部 最佳 值 , 而影 响 网络 的 常 从
最 终训练 结果 [ 。全监督 训 练算法 的基本 思路 是 将 4 ] 网络 的所 有参数 的调 整过 程作 为一个 监督 学习 的过 程 , 同时加 以调整 , 即 以达 到 性 能指 标 最 小 , 这样 可
基 于全 监 督 算 法 RB F神 经 网络 的语 音识 别
侯 雪梅
( 1 11
摘要 : 利用 R F神经 网络 , B 采用全监督训练 算法, 实现基于 R F神经 网络的抗噪语 音识 别 系统 。与传 统的 K- B 均值 聚类算法相 比较 , 用全监督训 练算 法可避免 隐含层节点 中心容 易对初始值敏 感的缺 点, 采 且能使 R F网络具备 更 B
训练 。但 隐层 节点 中心矢 量 的选取 对 网络 的学 习 能
率 与实 际频 率并 不成线 性正 比关 系 。通 过实验 研究
发现 , 基于人 耳 的 听觉模 型提 取 的特 征 参 数更 具 有
优于 其它参数 的鲁 棒性 。Me频带 划分 是对人 耳 听 l
基于神经网络的语音音频降噪技术研究
基于神经网络的语音音频降噪技术研究随着社会发展和科学技术的不断进步,语音技术在我们日常生活中的应用越来越广泛,我们可以通过语音进行人机交互、智能语音助手、智能家居控制、语音识别等等。
但是,随之而来的问题就是如何提高语音信号的质量,提高语音信号的清晰度和识别度。
其中最常见的问题就是语音信号中的噪声干扰。
如何有效地去除语音信号中的噪声干扰,提高语音信号质量,对于语音技术的发展和提高至关重要。
因此,基于神经网络的语音音频降噪技术研究成为了研究的热点方向之一。
一、语音信号降噪的重要性语音信号降噪是语音信号处理中的一个重要环节,它的目的是去除语音信号中的噪声干扰,提高语音信号质量,使得语音信号更加清晰、易于识别和理解。
语音信号中的噪声干扰主要来自于环境、麦克风等,在语音信号录制过程中不可避免。
这些噪声干扰有可能会在后期的语音识别过程中产生较大的误差,并影响后续处理和应用。
因此,去除语音信号中的噪声干扰具有重要的意义。
二、传统降噪方法的不足在语音信号降噪方面,传统的方法包括滤波、谱减法、估计-最小化算法等等。
而这些传统的方法在实际应用过程中却存在很多的不足和局限性:1. 对噪声的假设方式有限。
传统方法通常会假设噪声是稳态的,具有随机的特性,但是实际上这种假设很难在复杂环境中得到满足。
2. 对语音信号处理选择性不足。
传统方法更多的是根据噪声的特性进行处理,而忽略了语音信号的特性和语音信号当中的多种噪声干扰。
3. 依赖于特定参数。
传统方法通常需要根据先验定义一些参数,但这些参数往往需要经过长时间的人为调整才能得到最好的效果。
三、基于神经网络的语音降噪技术与传统的方法相比,神经网络作为一种新的技术方向,可以更好地解决上述的问题。
目前主要有两种类型的神经网络模型可以进行语音降噪,分别为自动编码器和卷积神经网络。
由于自动编码器和卷积神经网络在算法原理、网络结构、性能指标等方面存在差异,因此在不同的应用场景中选择不同的模型将得到更优秀的语音降噪效果。
基于RBF神经网络滤波的噪声消除
Ab ta t RBF e alne wo k no s a c lato ys e do sno e h e ou n o ma i n o sr c : n ur t r i ec n e l i n s t m e tne d t e pr vi s i f r to f i pu i a n oiea sbe t ra iiy o on i a pp ng n tsgn la d n s nd ha t e b lt fn lne rma i .Ac or i o t e t o y o e f c d ng t h he r fs l-
仿 真模 型 。仿真 结 果表 明 , 方法具 有 良好 的噪 声抑制 能 力。 该
关 键词 : 声 ; 噪 自适 应滤 波 ; B R F神经 网络 ; 噪声抵 消 中图分类 号 : TN7 3 文献 标识 码 : 1 A 文 章编 号 :6 2 4 X( 0, 0 —0 3 —0 1 7 —3 9 2 0 ) 6 0 9 2 7
维普资讯
第 2 第 6朋 O卷
2 0 年 儿 月 07
唐 山 学院 学 报
J u n l fTa g h n Co lg o r a o n s a l e e
Vo . O No 6 12 .
NOV 0 .2 07
基 于 R F神 经 网络 滤 波 的 噪声 消 除 B
No s n e l to s d o ie Ca c la i n Ba e n RBF u a t r le i g Ne r lNe wo k Fit r n
DONG iyn W ANG i n Cu- ig, Zh- qi
( p r me to n o ma in En i e rn Ta g h n Col g Ta g h n 0 3 0 , i a De a t n fI f r to g n e i g, n s a l e. n s a 6 0 0 Ch n ) e
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2007,43(22Computer Engineering and Applications 计算机工程与应用基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60472094;山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20051039。
作者简介:白静,博士研究生,研究方向:语音信号处理等;张雪英,博士生导师,研究方向:语音信号处理等;侯雪梅,硕士研究生,研究方向:语音识别等。
语音识别实用化所遇到的难题之一是在噪声环境下获得与净音环境下相接近的识别结果。
语音识别在实现过程中通常涉及多种因素,需要同时考虑。
由于语音信号的随机性,以及对人类听觉机理了解甚浅,因此,目前在噪音环境下语音识别系统尚不能达到全部实用化,语音识别实用化研究一直是业界的焦点。
本文采用符合人耳听觉特性的Mel 频率与LP 倒谱系数结合起来形成LP Mel 倒谱(Linear Predictive Mel Cepstral Coeffi-cients ,LPMCC 作为提取的语音特征参数,用RBF 神经网络模型作为识别网络,分别采用聚类算法和全监督算法,在VC++平台上用两种算法分别实现了基于RBF 神经网络的孤立词语音识别系统,得到了在不同信噪比和不同词汇量下的识别率。
实验结果表明此种方法抗噪性能较强,识别效果好。
1语音识别系统基本结构图1为基于RBF 神经网络的语音识别系统结构。
预处理包括对原始语音信号进行预加重、加窗和分帧等处理。
预加重通过一个传递函数为H (Z =1-αZ -1(0.9<α<1.0的滤波器进行滤波;加窗分帧选用Hamming 窗。
经过预处理后,将语音信号的特征参数(LPMCC 提取出来,使用RBF 神经网络得到识别结果。
2RBF 神经网络的结构和映射2.1RBF 神经网络的结构图2为RBF 神经网络的拓扑结构。
第一层为输入层,由信号源节点组成;第二层为隐含层,用径向基函数作为隐单元的“基”构成隐含层空间,其单元数视所描述问题的需要而定;第三层为输出层,它对输入模式的作用基于RBF 神经网络的抗噪语音识别白静,张雪英,侯雪梅BAI Jing ,ZHANG Xue-ying ,HOU Xue-mei太原理工大学信息工程学院,太原030024College of Information Engineering ,Taiyuan University of Technology ,Taiyuan 030024,China E-mail :bj613@BAI Jing ,ZHANG Xue -ying ,HOU Xue -mei .Noise -robust speech recognition based on RBF neural puter Engineering and Applications ,2007,43(22:28-30.Abstract :To solve the problem that recognition rates of speech recognition systems decrease in the noisy environment presently ,uses character possessing RBF neural network ,which have optimal approach capability and the fast training speed ,adopts cluster-ing algorithm and whole supervision algorithm and realizes a noise-robust speech recognition system based on RBF neural net-work.The hidden layer training of clusteringalgorithm used K-means clustering algorithm and output layer learning used linear least mean square.The adjustment of the entire parameters of whole supervision algorithm is based on grads decline method.It is a kind of supervised learning algorithm and can choose excellent parameters.Experiments show that whole supervision algorithm have higher recognition rates in different SNRs than clustering algorithm.Key words :speech recognition ;RBF neural network ;clustering algorithm ;whole supervision algorithm摘要:针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF 神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF 神经网络的抗噪语音识别系统。
聚类算法的隐含层训练采用K-均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。
实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。
关键词:语音识别;RBF 神经网络;聚类算法;全监督算法文章编号:1002-8331(200722-0028-03文献标识码:A中图分类号:TN912◎学术探讨◎282007,43(22做出响应。
2.2RBF神经网络的映射关系设RBF网络输入维数为N,隐单元数为P,输出维数为M。
(1从输入空间到隐层空间的非线性变换第i个隐单元输出h i =g(‖x-ci‖!i,1≤i≤P(1其中:g(・为隐单元的变换函数(即径向基函数,它是一种局部分布的对中心点径向对称衰减的非负非线性函数,一般取为Gauss函数,即g(x=exp(-x!(2 x为N维输入向量,即x=[x1,x2,…,xN]Tc i =[c1i,c2i,…,c Ni]Tc ki表示第i个隐单元对应的第k个输入分量; !i为第i个隐单元函数的宽度。
(2从隐含层空间到输出层空间的线性合并第j个输出y j =Pi=1#h i w ij,1≤j≤M(3其中:wij为第i个隐单元与第j个输出之间的联接权。
3RBF神经网络聚类算法3.1隐含层训练隐含层的学习用无监督训练来完成。
采用的是K-均值聚类算法,所用的聚类为集中每一样本点到该类中心的距离平方之和,并使之最小化。
其算法如下:(1初始化聚类中心{Cj ,j=1,2,…,N},通常将Cj设为第一次输入的样本。
设置停止门限";(2循环开始;(3将所有样本按最小距离的原则聚类。
即按#j =min‖xi-c j ‖的原则,将xi归为第j个聚类#j中;(4计算各类聚类中心的样本平均Cj=1Mj x i∈$j#x i(i=1,2,…,K(4式中Mj为该样本集的个数;(5计算平均失真与相对失真[1];平均失真为D(n=1mmr=1#mind(X r,C j(5Xr 为训练序列,r=1,2,…,m相对失真为D!(n=D(n-1-D(nD(n(6(6结束判断当D!(n≤",循环结束,反之,转到(2。
完成对样本聚类之后,就可以计算高斯核的归一化参数, 高斯半径为!j2。
该参数表示对每个节点输入数据范围的度量,即!j2=1Mj x i∈$j#(x i-C jT(x i-C j(73.2输出层训练输出层的学习是有导师式,采用的是线性最小二乘法(Least Mean Square,简称LMS。
这种方法不需要迭代计算,收敛速度非常快。
最小二乘法的目的就是要使网络的期望输出与实际输出的均方误差达到最小,即满足‖Y-W#‖2最小,从而寻找wij的估计量w!ij。
其中Y为输出矢量,W为隐层至输出层权值矩阵,Φ为隐层输出矢量。
根据微分法求解可得到式(8W=(ΦTΦ-1Y(8这样上述均方差的值即可达到最小。
一般为了防止矩阵ΦTΦ出现奇异的情况,常将W表达为W=(ΦTΦ+%‖ΦTΦ‖-1ΦT Y(9这里,%一般设成趋近于0的正数,由此可得参数wij的估计值[2]。
4RBF神经网络全监督训练算法全监督算法基本思路是:网络的所有参数调整是一个监督学习的过程,以达到性能指标最小为目的。
RBF神经网络的性能指标为Ei=12(yi-y!i2i≤1,2,…,N(10y!i为对应第i个输入向量的期望输出值,yi为第i个输入向量的实际输出值,N为样本数。
若将所有的待求参数,即RBF 网络的中心C=[c1,c2,…,ch]p×h、宽度"=[!1,!2,…,!h]h×l和连接权值向量W=[w11,…,wij,…,who]h×o构成一个集合,将性能指标作为最优目标函数式(11 minZEi=12(yi-y!i2(11来调整参数,则RBF网络的学习过程可以看作一个求多变量函数的无约束极小值的过程[3]。
因此,整个网络的学习只是一个监督学习的过程。
特别是中心的学习也是一个监督学习的过程,从而避免了常规算法中非监督学习引起隐层节点中心对初始值敏感的问题[4]。
本文采用基于梯度下降的误差纠正算法,具体算法步骤如下:(1初始化:任意指定wi,ci,!i值,预置允许误差,预置学习步长%1,%2,%3;(2循环,直至达到允许误差或指定重复次数。
①计算ej,j=1,2,…,N白静,张雪英,侯雪梅:基于RBF神经网络的抗噪语音识别29 2007,43(22Computer Engineering and Applications 计算机工程与应用1584.6286.4885.1688.7286.8289.3588.3790.8790.5691.26 2085.2187.2385.8989.3288.2390.2689.3791.1292.3792.872585.3689.3586.7990.1189.1691.6789.9692.7892.3392.54 3085.5389.2687.2491.3489.8991.9890.2692.7893.1193.56 Clean 86.2291.3888.5792.5491.1893..0592.1393.7594.1294.21 聚类全监督聚类全监督聚类全监督聚类全监督聚类全监督训练方法词汇量SNR/dB1020304050%表1使用聚类和全监督训练方法的识别率e j =d j -f (x j =d j -Mi=1!w i ・G (x j ,c i(12②计算输出单元的权值的改变量"E (n "w i (n =-1N N j=1!e j exp (-‖x j -c i ‖22!i2(13改变权值w i (n+1=w i (n -"1"E (n "w i (n (14③计算隐单元的中心的改变量"E ( n "c i (n =-w i N !i 2N j=1!e j exp (-‖x j -c i ‖22!i2・(x j -c i (15改变中心c i (n+1=c i (n -"2"E (n "c i (n (16④计算函数宽度的改变量"E (n "!i (n =-w i N !i 3Nj=1!e j exp (-‖x j -c i ‖22!i 2・(‖x j -c i ‖2(17改变宽度!i (n+1=!i (n -"3"E (n "!i (n (18⑤计算误差E=12NNj=1!e2j(195实验方法及结论5.1网络训练与识别(1语音数据实验中,直接把由采样系统得到的语音数据文件作为处理对象,实验所采用的语音样本均为孤立词。