【CN109949824A】基于NDenseNet和高维mfcc特征的城市声音事件分类方法【专利】
基于样本熵与MFCC融合的语音情感识别
l 概 述
语 音情感识别是人机交互和情感计算研 究的重要领域之
一
由于计数 自身匹配值而造成 的偏差 ,弥补了近似熵对微小的
复杂性变化 不灵敏 的缺 陷。样 本熵 定义为数据 向量在 由 m维 增加至 m+ 维时继 续保持其相似性的条件概率 。设原始数据 1 为 ( ,() xN),共 Ⅳ 个点 ,其样本熵计算步骤如下_: 1 2, ( ) …, 5 J () 1 按序号连续顺序组成一组 m维矢量 :
中圈分类号:T312 P9. 4
基 于样 本熵 与 MF C 融合 的语 音情感识 别 C
屠彬彬 ,于凤芹
( 江南大学物联网工程学院,江苏 无锡 2 4 2 ) 1 12
摘
要 :提 出一种基于样本熵与 Me频率倒谱 系数( C ) l MF C融合 的语音情感识别方法 。利用支持向量机分别对样 本熵统计量与 MF C进行 C
。
目前 ,大量研究都是针对提高情感语 音识别正确率 的,
文献[】 1 提取了语音的基频 、短时能量、共振峰及 其统计值等 3 6维韵律特征 ,对生气、高兴、悲伤和惊奇这 4 种情感 的最
优识别率仅 为 6 . 6O %。文献[] 2采用 Me 频率倒谱系数( l l Me — f q ec es a C e cet MF C 及其一阶差分作为情 r u ny C pt l of i s e r i n , C )
C e ii t MF C . a l et p ai ia dMF Caemo ee t u p rVetr c ieS of ce s C )S mpe nr ys tt n C r n( o t sc d l wi S p ot co hn(VM) ep ciey oo ti te rb bli f d h Ma rset l ban h o a it s v t p ie o
一种基于MFCC特征的水下目标分类网络
一种基于MFCC特征的水下目标分类网络作者:徐晓刚罗昕炜来源:《声学与电子工程》2022年第01期摘要水声目标辐射噪声特征提取和识别技术是水声目标识别的重要任务,也是水声信号处理领域的难题。
鉴于梅尔滤波器中提取的听觉特征在语音识别中的广泛应用,文章基于梅尔倒谱系数(Mel Frequency Cepstrum Coefficient ,MFCC)和卷积神经网络(Convolutional Neural Network ,CNN)构建了一个水声信号深度分类网络。
该分类网络通过MFCC特征提取方法逐帧提取舰船辐射噪声信号的梅尔倒谱系数,将其构建特征矩阵输入CNN中进行分类,构建了一个4类舰船辐射噪声样本集,并利用所提出的网络考察了不同维度下MFCC和I LOFAR 特征的分类性能,分析了不同类型特征和不同特征维度输入对网络分类性能的影响,可为水声分类研究相关人员提供参考。
关键词水声信号:梅尔系数;目标分类;CNN;时频分析水下目标的分类识别是水声领域研究的热点问题,对于现代海洋装备目标探测尤为关键,特征向量提取的方法是水声目标分类识别的研究重点。
文献[1]提出了一种基于小波包变换的水下目标辐射噪声特征提取算法,文献[2]提出了一种基于双谱估计的水下目标辐射噪声特征提取算法,文献[3]提出了一种基于波数谱模态能量差特征的目标分类方法。
由于声呐识别不同水下辐射噪声源的原理与人耳语音识别的机理类似,因此,基于听觉特征的水下声目标特征提取方法是研究热点之一,其中提取梅尔倒谱系数进行水下声目标识别是常用的方法之一。
文献[4]介绍了差分梅尔频率倒谱系数的概念和相应的特征提取方法,对水下目标进行了基于MFCC特征提取方法仿真研究和实验分析;文献[5]将MFCC特征应用于船舶和鲸类水下声信号的特征提取中,提取了船舶和鯨类声信号的MFCC特征,通过高斯混合模型对提取的MFCC特征进行训练和识别分类,讨论MFCC维数变化和不同MFCC特征组合对识别分类性能的影响:文献[6-8]也进行了MFCC特征提取相关方面的研究工作,并取得了一定的研究成果。
基于音频特征MFCC的说话人识别
基于音频特征MFCC的说话人识别摘要本设计利用MATLAB实现了一个完整的基于音频特征MFCC的说话人识别系统,包括前期的语音处理,特征提取以及后期的模型训练,测试。
在前期语音处理和特征提取方面,使用了Mel倒谱系数(MFCC)作为特征参数,与线性预测倒谱系数(LPCC)相比,MFCC参数的突出优点是不依赖全极点语音产生模型的假定,考虑了人耳的听觉感知特性,抗噪声和抗频谱失真能力较强,从而提高识别系统的性能。
目前,在模式训练中常用的方法有动态时间规整(DTW)方法,高斯混合模型(GMM)方法,VQ矢量量化模型等。
VQ法与其他方法比较,该模型匹配不依赖参数的时间顺序,它是基于这样一种假设前提的:说话人的语音特征在特征空间中分布在一些特定的范围里,形成了一些特定的聚类中心,因此可以用这些聚类中心的位置作为说话信息的描述,又不会对精度造成太大的影响,比较实用并且相对简单,因此在本设计中可以采用VQ模型。
关键词:说话人识别; MFCC参数;VQ模型AbstractThis design uses MATLAB implements a complete audio features based on MFCC's speaker diarization system, including early speech processing, feature extraction, and the late model training and testing. In the early voice processing and feature extraction, the use of the Mel cepstral coefficients (MFCC) as the characteristic parameters, and compared with linear prediction cepstral coefficients (LPCC), , MFCC parameters are not dependent on the outstanding merits of all-pole speech production model assumes that , taking into account the perceptual characteristics of the human ear, the ablity of anti-noise and anti-spectral distortionAt present is strong, it improves the performance of diarization systems. The mode of training methods commonly used in dynamic time warping (DTW) method, Gaussian mixture model (GMM) method, VQ vector quantization model. VQ method compared with other methods, the model matching does not denpend on the time sequence dependent parameters, which is based on the assumption: the speaker's voice characteristics of the distribution in the feature space in some specific areas, the formation of a specific polymer Class center, so you can position the cluster center to speak of information as described, would not significantly affect the precision, more practical and relatively simple, it can be used in the design of VQ model.Key words: speaker identification; MFCC parameters; VQ model目录第一章绪论• 1.1说话人识别概述在生物学和信息科学高度发展的今天,生物认证技术作为一种便捷、先进的信息安全技术开始在全球电子商务时代崭露头角。
基于MFCC加权动态特征组合的声纹识别技术在地下电缆防护的应用
基于MFCC加权动态特征组合的声纹识别技术在地下电缆防
护的应用
李伟;曾繁洋;王博;陈忠斌
【期刊名称】《电力信息与通信技术》
【年(卷),期】2022(20)5
【摘要】地下电缆在使用过程中,容易受到工程车辆作业破坏,针对这种情况,文章提出将声纹识别技术应用在地下电缆防护中,通过收集环境声音,判断电缆周围是否存在工程车辆作业,及时向有关部门发出预警。
在声纹识别过程中,提出加权动态梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)作为声纹识别的特征参数,由梅尔倒谱系数及其加权的一阶和二阶差分系数合并而成,不仅能够反映音频信号的静态特性,还在很大程度上逼近音频的动态特性,并且与常用的特征参数相比,计算复杂程度更低。
通过实验证明,以加权动态MFCC特征参数作为高斯混合模型–通用背景模型(gaussian mixture modeluniversal background,GMM-UBM)的特征参数的工程车辆识别系统,能够在提高识别率的情况下,大大降低系统的运行时间,以此实现地下电缆防护。
【总页数】7页(P16-22)
【作者】李伟;曾繁洋;王博;陈忠斌
【作者单位】华东交通大学电气与自动化工程学院;中国科学院上海微系统与信息技术研究所;中科伟博(苏州)智能科技有限公司
【正文语种】中文
【中图分类】TM75
【相关文献】
1.基于MFCC与共振峰的声纹识别算法研究
2.基于MFCC和加权动态特征组合的环境音分类
3.声纹识别特征MFCC的提取方法研究
4.基于MFCC特征组合参数的说话人识别研究
5.基于MFCC等组合特征的说话人识别模型
因版权原因,仅展示原文概要,查看原文内容请购买。
基于神经网络的声源定位算法研究
基于神经网络的声源定位算法研究声源定位是指通过分析接收到的声音信号,确定声音的来源方向和位置的技术。
在现实生活中,声源定位在许多领域具有重要的应用,例如无人机导航、追踪系统、语音识别等。
然而,由于环境噪声和信号传播的复杂性,实现准确和快速的声源定位一直是一个具有挑战性的问题。
近年来,神经网络在声源定位领域取得了显著的进展。
神经网络是一种模拟人脑神经系统的计算模型,通过模拟神经元之间的连接和信息传递,可以学习和处理复杂的非线性关系。
基于神经网络的声源定位算法利用神经网络的强大模式识别和学习能力,能够有效地处理复杂的声音信号,并准确地确定声源的位置。
基于神经网络的声源定位算法通常包括两个主要步骤:特征提取和定位。
在特征提取阶段,算法通过分析声音信号的频谱、时域和时频特性等,提取出有用的特征信息。
常用的特征包括梅尔频率倒谱系数(MFCC)、短时能量和过零率等。
然后,这些特征被输入到神经网络中进行处理。
在定位阶段,神经网络通过学习大量的声音数据样本,建立了声源位置和特征之间的映射关系。
当接收到新的声音信号时,神经网络可以根据这些映射关系,预测声源的位置。
为了提高定位的准确性,通常会采用多个神经网络进行集成学习,利用多个神经网络的预测结果进行综合判断。
基于神经网络的声源定位算法具有许多优势。
首先,它能够自动学习和适应不同环境的声音特征,使得算法具有较好的鲁棒性。
其次,神经网络可以处理高维特征数据,能够捕捉到更多的声音信息。
此外,神经网络还可以通过增加网络的深度和宽度,提高算法的表达能力和学习能力。
然而,基于神经网络的声源定位算法也存在一些挑战和问题。
首先,神经网络需要大量的标注数据进行训练,而获取准确的标注数据是一项繁琐且耗时的工作。
其次,神经网络的结构和参数设置对算法的性能有较大影响,需要进行合理的设计和调优。
此外,神经网络的计算复杂度较高,对计算资源要求较大,限制了算法在实时性和实际应用中的推广。
综上所述,基于神经网络的声源定位算法在实现准确和快速的声源定位方面具有巨大潜力。
基于MFCC特征聚类变换的歌曲中歌声的识别
基于MFCC特征聚类变换的歌曲中歌声的识别作者:吕兰兰来源:《电脑知识与技术》2016年第31期摘要:针对直接采用MFCC作为歌曲中歌声识别的特征参数存在数据量大、且所包含的歌手歌唱特征较少的问题,提出一种基于MFCC特征聚类变换的歌曲中歌声的识别方法。
通过对MFCC特征进行GMM聚类变换,以各个高斯分布的均值作为SVM分类器的特征参数,利用GMM数据描述能力强的特点,突出歌手的歌唱特征,降低特征参数的数据量。
实验结果表明,该方法在歌曲中歌声识别上的平均识别率较标准GMM方法略有提高,且数据处理量减少了65.8%。
关键词:歌曲中歌声的识别;MFCC;特征聚类变换;高斯混合模型中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)31-0170-02Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singer’s singing characteristics. Aim to this,an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMM’s great ability of data description, so as to highlight singer’s singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .Key words:singing voice detection;MFCC;feature clustering and transform1 引言歌曲中歌声识别的任务是,在歌曲中定位歌手开始歌唱以及持续的片段[1]。
基于深度神经网络的城市声音分类模型研究
基于深度神经网络的城市声音分类模型研究陈波;俞轶颖【摘要】为充分利用城市生态环境中各种声音包含的信息,提取Mel频率倒谱系数、Mel图谱、频谱质心、色度图谱(Chromagram)和光谱对比度等5种特征,通过深度神经网络模型进行城市环境声音的分类,该模型分类精度达88.6%,优于基于Mel 频率倒谱系数的基本分类方法,并提出一种基于卷积神经网络的声音分类模型来评估连续小卷积核卷积神经网络在对短音频城市环境声音进行分类的潜力,与目前其他同类声音分类方法的结果进行对比.【期刊名称】《浙江工业大学学报》【年(卷),期】2019(047)002【总页数】5页(P199-203)【关键词】城市声音;神经网络;卷积神经网络;分类【作者】陈波;俞轶颖【作者单位】浙江工业大学计算机科学与技术学院,浙江杭州310023;浙江工业大学计算机科学与技术学院,浙江杭州310023【正文语种】中文【中图分类】TP311城市环境声音事件的自动分类有各种应用,包括上下文感知计算[1]、监控[2],或基于内容的多重检索技术,如对城市事件的高亮提取[3]、视频摘要[4](确定重大城市事件)等。
更为重要的是,人们每天都暴露在各种不同的声音中,通过对城市声音和噪音的数据驱动理解,可以改善城市居民生活质量,所以提高环境声音分类的准确性具有十分重要的理论意义及实际应用前景。
虽然在语音、音乐和生物声学等相关领域有大量关于声音分类的研究,但城市环境声音分析工作相对较少。
现有的研究也主要侧重于听觉场景类型(例如街道、公园)[1,5-7]的分类,缺少对汽车喇叭、发动机空转或鸟鸣之类的场景中特定声源的识别。
同时环境声音(不包括音乐或语音的日常音频数据,其结构通常更混乱和多样化)的分类仍然主要基于应用一般分类器:高斯混合模型、支持向量机、隐马尔可夫模型等手动提取特征,如Mel频率倒谱系数。
最近的研究[8-9]详细分析了最常见的方法。
而深度神经网络的学习辨别Spectro-temporal模式能力使其非常适用于环境声音分类。
声纹识别中的声纹特征提取与匹配算法研究
声纹识别中的声纹特征提取与匹配算法研究声纹识别是一种利用人的语音特征进行个体鉴别的生物特征识别技术。
它通过分析人的语音信号,并提取其中的声纹特征,将声纹特征与已知的声纹模型进行匹配,从而实现对个体的识别。
在声纹识别技术中,声纹特征的提取和匹配算法起着关键的作用。
本文将对声纹识别中声纹特征提取与匹配算法的研究进行探讨。
1. 声纹特征提取算法声纹识别的核心任务是从语音信号中提取有效的特征,以实现对个体的识别。
常用的声纹特征提取算法包括基于梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)和高阶倒谱系数(LPCC)的方法。
1.1 基于MFCC的声纹特征提取梅尔频率倒谱系数是一种常用的声音特征提取方法,在声纹识别中得到了广泛应用。
该方法首先将语音信号分帧,并对每一帧进行离散傅立叶变换(DFT)以获取频谱信息,然后利用梅尔滤波器组将频谱转换为梅尔频率谱图。
最后,对梅尔频率谱图进行离散余弦变换(DCT)并取前几个系数作为声纹特征。
1.2 基于LPC的声纹特征提取线性预测编码是一种基于线性滤波的声音特征提取方法。
该方法通过对语音信号进行自回归建模,将语音信号表示为预测残差和滤波器系数的线性组合。
在声纹识别中,LPC算法可以提取语音信号的线性频谱包络,从中提取出能够反映个体身份特征的声纹特征。
1.3 基于LPCC的声纹特征提取高阶倒谱系数是对梅尔频率倒谱系数的改进,引入高阶的梅尔倒谱系数可以更全面地描述语音信号的频谱特性。
LPCC算法在声纹识别中可以提取出更加丰富的声纹特征,具有更好的识别性能。
2. 声纹特征匹配算法声纹特征的提取只是声纹识别过程的一部分,特征提取后需要进行特征匹配,以确定个体身份。
常用的声纹特征匹配算法包括最近邻(NN)算法、高斯混合模型(GMM)算法和支持向量机(SVM)算法。
2.1 最近邻算法最近邻算法是最简单的声纹特征匹配方法之一,它将待识别的声纹特征与已知的声纹模型中的特征进行比较,选择最相似的声纹模型作为识别结果。
【CN109859771A】一种联合优化深层变换特征与聚类过程的声场景聚类方法【专利】
式中, 表示输入第l层的第j批样本的特征, 表示第l层的卷积核,输入特征是第j批
样本中的第i个样本得到特征, 表示第l层的偏置,输入是第j批样本的特征,ψ(·)表示激
活函数,Mj表示第j批样本; 所述池化层采用最大池化方法 所述激励层的激励函数采用整流线性函数; 所述批量标准化层的计算过程如下: 近似白化预处理: 变换重构:
S2、初始化各类及卷积神经网络:将每个样本作为一个初始类,初始化生成一个卷积神 经网络用于提取深层变换特征;
S3、更新卷积神经网络,提取新的深层变换特征:根据类标签及各类样本更新卷积神经 网络参数,并用更新后的卷积神经网络提取各类样本的深层变换特征;
S4、合并最相似的两个类:采用凝聚分层聚类算法将相似度最大的两个类合并在一起, 得到新的类标签和各类样本,类数减一;
代理人 李斌
(51)Int .Cl . G10L 25/24(2013 .01) G10L 25/30(2013 .01) G10L 25/45(2013 .01) G10L 25/51(2013 .01)
(10)申请公布号 CN 109859771 A (43)申请公布日 2019.06.07
( 54 )发明 名称 一种联合优化深层变换特征与聚类过程的
权 利 要 求 书
2/3 页
其中,0≤m<M,f(m)定义如下:
其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数: B-1(b)=700(eb/1125-1) , 因此由线性频谱Xt(k)到对数频谱St(m)的变换为:
【CN109961794A】一种基于模型聚类的分层说话人识别方法【专利】
1) 收 集多个说话人的 语音数 据样本 ,对每个语音数 据样本进行预处理。预处理过程包 括采样和量化、预加重、分帧、加窗以及端点检测;
2
CN 109961794 A
权 利 要 求 书
2/2 页
果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别,最后产生的类别数 目即为初始化聚类初始数目K;
步骤二 、采 用聚 类算法将子集中的 说话人模型进行分类 ,得到K个类 别 ,每个聚 类的 类 代表分别为{K1 ,K2…Kk}。
3
2)根据不同性别的基音频率累积密度函数,选取基音累积密度函数不同性别概率相差 最大的频率点fT作为阈值频率。对预处理后的每个语音数据样本,计算频率为fT处的累积密 度函数值,与阈值进行比较,高于则划分为男性子集,低于则划分为女性子集;
步骤二 、提取每个子集中的 语音数 据样本的 特征参数 ,为每个语音数 据样本建立一个 高斯混合模型 (GMM) ,采用聚类算法将语音训练集中的模型进行基于地区口音的聚类 ;
CN 109961794 A
说 明 书
1/5 页
一种基于模型聚类的分层说话人识别方法
技术领域 [0001] 本发明属于语音识别技术领域,具体涉及一种基于模型聚类的分层说话人识别方 法。
背景技术 [0002] 生物特征识别技术是利用人的固有生理特征来进行身份认证的一项技术,例如常 见的指纹识别、人脸识别等。语音识别作为生物特征识别技术的一种,以语音作为识别特 征 ,不仅具有非接触性 、自 然性等优点 ,而且识别设备成本低。语音识别技术还可以 进行远 程认证,例如语音通过网络或者电话进行传输识别认证。 [0003] 说话人识别是分析语音中包含的说话人信息来识别说话人身份的技术。因其便捷 安全的 优点 ,在各 种安全领域得到快速发展 ,例如声纹 密码、司法鉴定 和军事监控等领域。 传统的说话人识别技术以研究识别系统的正确率以及鲁棒性为重点,但随着说话人识别系 统中 注册人数的 增加 ,我 们需要考虑如何提高说话人识别系统的效率 ,尤其是在某些特定 环境下对说话人身份的实时识别。传统识别方法需要将待识别语音信号与样本库中所有模 型进行一一匹配,随着样本库的模型增多,匹配时耗费的时间变长,从而导致系统的识别速 率慢 ,实时 性难以 得到保证。因此 ,亟需 在复 杂环境下实现一 种有效的 说话人实时 识别方 法。基于此,设计了一种基于模型聚类的分层说话人识别方法。
基于CNN与MFCC的城市场景声音识别
基于CNN与MFCC的城市场景声音识别俞颂华;王汝凉【摘要】城市环境中包含着各种各样的杂音,针对这种复杂的声音识别环境,该文提出一种基于MFCC与CNN的声音识别方法.首先对城市环境声音样本进行梅尔特征提取,取得特征图之后由卷积神经网络进行训练、测试获得CNN特征,最后由SVM分类器识别分类,并将其与常见的音频识别方法对比分析,在识别速度和识别率上均有所优化,实验表明,此方法在复杂环境下能够得到较好的声音识别效果.【期刊名称】《广西师范学院学报(自然科学版)》【年(卷),期】2019(036)001【总页数】7页(P50-56)【关键词】CNN;声音识别;SVM分类器【作者】俞颂华;王汝凉【作者单位】南宁师范大学计算机与信息工程学院,广西南宁 530023;南宁师范大学计算机与信息工程学院,广西南宁 530023【正文语种】中文【中图分类】TP391.411 引言在20世纪60年代,加拿大音乐家谢弗提出了一个声景的概念:声景是指研究人、听觉、声环境与社会之间的相互关系与传统的噪声不同.近年来的声景研究表明,人们通常倾向于接受自然声音,而本能地讨厌机械声音,如装修声、钻头声等.城市场景的识别能够使人了解这些声音的分布,从而能更好地规划、建设环境舒适宜人的城市.最早的场景声音识别文献可以追溯到1997年,麻省理工学院的Sawhney和Maes提出了循环神经网络和KNN方法并对5种环境声音进行分类,最终获得了68%的准确率.近年来Benjamin等人采取结合MFCC的特征提取与GMM和最大后验估计学习特征分布将声音信号转化为低维特征的方法来进行场景声音识别. 然而,目前成熟的方法(如GMM、KNN等)都采用浅层结构模型,其对完全约束问题能够取得较好的效果,但是在城市场景的复杂环境干扰下,浅层结构一般不能取得较好的效果.因此,声音识别方法需要由浅层学习向深度学习进行过渡.卷积神经网络便是深度学习的代表算法之一,其仿造生物的知觉机制构建,能够进行监督学习和非监督学习,其内部能以较小的计算量对格点化特征,诸如图像、音频等,有稳定的效果,并且在复杂环境下也能有较好的识别率.卷积神经网络模型在面对声音信号时,过于复杂的输入会增加不必要的训练时间,而面对一维的声音信号显然需要做出部分改进,因此,本文对声学信号在卷积神经网络的输入做出优化,采用一维信号输入.本文主要使用实验法将卷积神经网络与传统的方法,针对同样的变量做出对比,证实本文方法的可行性.2 MFCC特征提取2.1 预加重预加重其实就是使用一个高通滤波器来对语音信号进行处理,提高其高频部分,使得频谱变得平坦,从而能够在整个频带中使用同样的信噪比来求频谱.本文采用的是固定的一阶系统,传递函数为H(z)=1-μz-1,μ一般取值在0.9至1.0之间,本文采用的数值是0.97.2.2 分帧为了避免连续语音中相邻的两帧变化过大,都会在其之间加入一段重叠区域,一般占一帧的1/3到1/2左右.因此,需要分帧来获取“短时”信号.2.3 加窗在将一段连续语音进行分帧之后,由于截取了部分重叠区域,数帧之间会出现不连贯的现象,因此下一步要进行加窗操作.加窗信号一般表示为Sw(n)=s(n)*w(n).在此公式中s(n)是声音信号w(n)的窗函数.本文中所使用的汉明窗的窗函数如下:不同的a值会产生截然不同的汉明窗,本文中的a取0.46.2.4 特征提取乘上汉明窗之后,还需要对每帧进行快速傅里叶变换以得到频谱上的能量分布,所用的具体公式如下:接着将能量谱通过三角滤波器,使频谱平滑化,然后计算每个滤波器输出的对数能量,最后再将其进行离散余弦变换(DCT)得到MFCC系数.所用的公式如下:其中M是滤波器个数,S(m)代表其输出的对数能量,L代表MFCC的系数阶数.3 卷积神经网络卷积神经网络[16]的产生得益于Rumelhart于1986年提出的BP算法[5].LeCun[6]将BP算法应用至多层神经网络中并最后于1998年提出LeNet-5模型[7],其主要是对手写数字进行分类,与当时的其他神经网络模型一样使用backprop agation算法[8]训练,此模型便是之后的神经网络的雏形.众所周知,卷积神经网络是一种多层前馈神经网络[9],其基本结构包括:输入层、卷积层、池化层、全连接层和输出层.图1为LeCun提出的LetNet的结构模型[10].从中可以看出一般的结构采用卷积层与池化层相互交替的排列顺序,这个过程可以多次重复,主要取决于使用者.图1 LenNet结构模型图3.1 卷积层在卷积层当中存在着许多特征面,特征面由若干个神经元构成,其结构图如图2,其中xn代表输入信号,wn代表输入信号xn与神经元连接的权重值.神经元的输出是其中的b代表偏置值.每一个神经元都通过卷积核与其相邻的其他特征面连接.卷积核是一种权值矩阵. 图2 神经元结构卷积层内主要通过卷积来提取输入层输入的内容的特征值,根据输入内容的复杂程度进行排布,例如如果输入的是一张图片,那么第一层的卷积层提取边框线条,下一层便提取其他的特征,如此操作下去.3.2 池化层池化层紧接着卷积层,与卷积层相同的是,池化层也由若干个特征面组成.不过,与卷积层的特征面有所不同,池化层的特征面是对应于卷积层的特征面的,因此两者之间是一一对应的,从而池化层的特征面是被确定的,它的每个神经元会进行池化操作.池化层的主要作用是二次提取卷积层的输出产物的特征.常见的池化操作主要有最大池化和均值池化两种,最大池化指的是取接受域中最大的值而均值池化则是取平均值.Boureau等人[11]详细地把最大池化和均值池化做了对比,最后得出结论:最大池化特别适用于分离非常稀疏的特征,使用局部区域内所有的采样点去执行池化操作也许不是最优的.为了详解池化的操作这里举一个最大池化的例子,如图3. 图3 池化层具体操作图3中左边为在卷积层完成卷积操作之后的输出矩阵.这个矩阵产生之后紧接着我们要在池化层进行池化操作(也就是对输入矩阵的各个子矩阵进行压缩),如果我们需要2*2的池化就把目标矩阵分割成多个2*2的子矩阵并把它们提取为一个元素从而得到新的矩阵,本例中我们选取的是2*2的池化.首先我们把目标矩阵分成4个2*2的子矩阵,然后采用最大池化的方法对左上角的子矩阵进行池化,因为该子矩阵内最大值为6因此输出为6,对余下的3个子矩阵进行池化操作也是如此进行,直到得出最终结果,完成压缩.3.3 全连接层全连接层通常会被安放在卷积层和池化层之后,其主要功能是将二维图像的特征图作为全连接网络的输入[12].因此,全连接层之中的神经元与上一层的所有神经元都是全连接的.要注意的是,神经网络在每个节点处接收到输入值后传递到下一层时,全连接层里输入和输出之间会具有某种函数关系,这种关系称之为激励函数[13].常见的激励函数包括:线性激励函数、S形激励函数等等.经过研究者们多年的比较、选择,一般在此层采用ReLU函数[14]来提高CNN网络的性能,使其能更好地达到预期效果.4 实验方法4.1 声音特征提取本文采用梅尔频率倒谱系数(MFCC)来进行特征参数的提取.这种方法基于人耳的听觉特性,相较于现今常用的另外两种方法基于声道模型的线性预测倒谱系数(LPCC)和基于听觉模型的感知线性预测系数(PLP)来说,模拟人耳能使系统描述音素更准确.图4 狗叫声的声谱、频谱图图5 人声的声谱、频谱图图6 鸣笛声的声谱、频谱图图4,5分别是人声与狗叫声的声谱与频谱图,不难发现两者的发声主要都集中于低频段.由于人声中截取的是多人声的音频,因此可想而知若是单人声的话两者都存在着低频并且产生的能量稳定的特点.由于公共场合人能够自主控制自己的声音而狗不会,因此由波形图可以发现狗叫声的波动更大.图6是呜笛声,相比于生物的发声,机器的发声更加持久,所产生的能量更加强大.主要算法流程如图7.图7 卷积神经网络算法具体流程4.2 卷积神经网络识别特征提取之后,便要把他们排列成一组特征图作为卷积神经网络的输入.在正常的图像识别中特征图通常是二维结构,这是因为通常所识别的花卉、鸟禽、人脸等图像都是二维结构.而相比起图像来说,声音的特征使其特征图不需要拥有固定的排列方式,因此本文也尝试使用另一种排序结构当作输入并与其对比.由于音频信号的数据远比图像的小,并且相比于图像识别来说,全连接层不需要将二维的特征图转化为一维,只需要将一维特征图合并在一起即可,因此没有设计过于复杂的卷积神经网络结构,采取卷积层、池化层、全连接层均为1层的普通结构,并且最后采用SVM分类器进行分类.5 实验结果本文数据集采用的是Google的AudioSet,本数据集是由Google发行的声音版ImageNet.所有音频均来源于Youtube,每个样本都为单声道“.wav”格式、采样率为44.1Hz、长度为2s的声音片段.包含常见城市声音中的五种:狗叫声、汽车鸣笛声、人声、装修声、乐器声.包括3 297个训练集与5 435个测试集,本文中主要使用了其中的狗叫、鸣笛声与人声3种,各取800个训练集与1 500个测试集.因为在城市之中,任何声音都不可能能够单独、完整地被捕捉到,因此模型的抗噪性也需要验证.本文采用matlab添加的高斯噪音来模拟城市的环境,分别在无噪、10db、20db、30db四种信噪比的情况下进行测试,每种情况验证10次取其平均值作为本环境下的识别效果.5.1 实验结果对比为了验证本文方法的识别性能,将其与传统的高斯混合模型方法(GMM)以及文献[4]中提出的MFCC结合GMM的方法分别在不同信噪比的情况下作出比较,在模型的抗噪能力和识别能力两个方面做出对比.结果如表1所示.表1 各模型不同信噪比下的识别率声音样本信噪比/dbGMMGMM+MFCCMFCC+CNN人声无噪声74.0679.0288.921046.4547.5661.321556.5559.5969.012064.2369.8274.32狗叫声无噪声77.3481.4289.041048.2151.3163.561558.5659.4169.972066.0968.3476.31鸣笛声无噪声78.9281.9589.161048.6550.6765.201559.0461.7670.182070.0171.4377.49可以看出,在三种模型之间,在不同的信噪比下本模型识别率均相较于其他两种模型更高一点,在没有噪声的环境下识别率均优于其他两种模型,并且在各个信噪比的条件下也有出色的识别能力,说明本文的方法能够有效地提高城市声音的识别精度.5.2 一维特征输入与二维特征输入的对比由于本文也采取了一维特征图的输入,因此也在此增加一维与二维特征输入之间的差异.图8是在不同的信噪比且卷积核大小都取30的情况下两种不同的输入所产生的差异.图8 一维特征输入与二维特征输入的对比可以看到,在信噪比为10,15,20dB的情况下,二维特征输入分别比一维特征输入的识别率要高1.84%,1.62%,0.46%.这是因为高斯噪声主要在分布在中低频段,因此,二维的特征分布能够使卷积核通过时间与维度两个方面进行相关信息的提取,所以在这种条件下,二维特征输入相较于一维特征输入能够取得更好的识别效果.当然,前面提到过相较于在全连接层内需要把二维特征图重新构建成一维特征组输入的二维特征输入来说,一维特征输入在全连接层所做的仅仅是将一维的特征输入连接、组合成一组新的特征组,因此一维特征输入能够有更快的收敛速度.这样看来相较于传统的二维特征输入,在声音识别方面一维特征输入也不失为一种好方法.6 结论针对城市环境下各个事件声音的识别,本文提出了一种基于MFCC与卷积神经网络的声音识别的方法.将本方法与传统的高斯混合模型以及近期出现的MFCC与高斯混合模型的方法比较,从抗噪性与识别能力两个方面对这三种模型做出对比.实验证明,卷积神经网络在声音识别方面也存在着优势,同时针对输入特征方面做出了些许优化,证实了对于音频信号一维特征输入能够在保证一定的识别能力下减少迭代次数,从而节省识别时间.参考文献:【相关文献】[1] 麻旻,李祥.一种基于MATLAB实现的男女声识别算法[J].仪表技术,2018(7).[2] 全璐,侯文,李秉臻,等.BP神经网络的枪声识别[J].电声技术,2018(2).[3] 陈秋菊,李应.基于优化正交匹配追踪和深度置信网的声音识别[J].计算机应用,2017,37(2):505-511.[4] Andics A, Mcqueen J M, Petersson K M, et al. Neural mechanisms for voice recognition[J]. Neuroimage, 2010, 52(4):1528-1540.[5] Mcclelland J. Learning internal representations by error propagation[C]//Cambridge: MIT Press, 1986:318-362.[6] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.[7] Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 2014, 1(4):541-551.[8] CHIN Tenglin, CHONG Pingjou, CHENG Jianglin. GA-based reinforcement learning for neural networks[J]. International Journal of Systems Science, 1998, 29(3):233-247.[9] Hinton G,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786):504-507.[10] Simard P, Le Cun, Dender J. Efficient pattern recognition using a new transformation distance[C]//Advances in Neural Information Processing Systems 5. NIPS,1992. [11] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. J Physiol, 1962, 160(1):106-154.[12] Jian W, He J, Kai C, et al. Collaborative filtering and deep learning based recommendation system for cold start items[J]. Expert Systems with Applications, 2017, 69:29-39.[13] Chang L, Deng X M, Zhou M Q, et al. Convolutional neural networks in image understanding[J]. Acta Automatica Sinica, 2016.[14] Girshick R, Donahue J, Darrell T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 38(1):142-158.[15] 史秋莹,郑铁然.基于深度学习的环境声音识别[J].智能计算机与应用,2018(5).[16] 张文涛,韩莹莹,黎恒.基于卷积神经网络的交通声音事件识别方法[J].现代电子技术,2018(14).。
基于MFCC和ResNet的鱼类行为识别
基于MFCC和ResNet的鱼类行为识别胥婧雯;于红;李海清;程思奇;郑国伟;谷立帅;李响;龚德华;邢彬彬;股雷明【期刊名称】《海洋信息技术与应用》【年(卷),期】2022(37)1【摘要】针对在极暗或无光条件下,采用计算机视觉手段进行鱼类行为识别效果不好的问题,本文提出了利用声音信号识别鱼类行为的方法;通过观察和试验发现鱼类的摄食、游泳等行为具有声音差异小、特征学习难等特点,基于上述发现,提出采用具有较强特征表达能力、能区别细微特征的MFCC(Mel-frequency cepstral coefficient,MFCC)特征系数表示鱼类行为声音信号特征&为有效学习不同鱼类行为的细粒度声音特征,采用残差网络(Residual Neural Network,ResNet)进行低维细节特征与高维语义特征融合,以便更好地保证特征完整性、提高识别效果。
为验证所提出方法的有效性,设计了3组对比试验,用大连海洋大学鱼类行为学实验室采集的数据验证了算法的有效性,试验结果表明,鱼类行为识别的正确率、召回率和F1值均达到99%。
研究表明,基于MFCC和ResNet的鱼类行为识别方法可以有效识别鱼类的游泳、摄貪等行为,为鱼类行为识别研究提供了新思路和新方法。
【总页数】7页(P21-27)【作者】胥婧雯;于红;李海清;程思奇;郑国伟;谷立帅;李响;龚德华;邢彬彬;股雷明【作者单位】大连海洋大学信息工程学院;设施渔业教育部重点实验室(大连海洋大学);辽宁省海洋信息技术重点实验室;大连海洋大学水产与生命学院【正文语种】中文【中图分类】P735【相关文献】1.基于ResNet50网络的十种鱼类图像分类识别研究2.基于ResNet-18-KNN的变电站人员电气违规行为识别3.结合图像分割和ResNet18的危险驾驶行为识别4.基于ResNet-LSTM的行人过街行为识别方法5.基于改进ResNet-18的红外图像人体行为识别方法研究因版权原因,仅展示原文概要,查看原文内容请购买。
【CN109935243A】基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910138946.7(22)申请日 2019.02.25(71)申请人 重庆大学地址 400044 重庆市沙坪坝区正街174号(72)发明人 邹东升 史晶 吴戈 唐维 (74)专利代理机构 北京汇泽知识产权代理有限公司 11228代理人 武君(51)Int.Cl.G10L 25/63(2013.01)G10L 17/02(2013.01)G10L 25/45(2013.01)G10L 25/27(2013.01)G10L 25/18(2013.01)G10L 15/04(2013.01)(54)发明名称基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法(57)摘要本发明公开一种基于VTLP(Vocal TractLength Perturbation)数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,主要通过结合VTLP数据扰动算法以及时频域空洞卷积网络解决语音情感识别过程中数据量少且数据不平衡和特征提取不充分的问题,本发明首先通过语音采集设备获取初始语音,然后通过VTLP算法得到不同频谱特征的语音,然后通过傅里叶变换得到有效的频谱图,然后将频谱原图进行多尺度缩放,将频谱输入图经过设计的时频域卷积层,分别从谱图中获取时域和频域的低层次特征,将时域和频域信息进行特征级融合,然后将融合特征送入下一层空洞卷积层,从融合特征中提取句子级细化特征,最后将情感概率值最大的类别输出,根据分类评价方式,生成语音情感分类准确度。
权利要求书3页 说明书6页 附图6页CN 109935243 A 2019.06.25C N 109935243A1.一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:包括以下步骤:S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧加窗以及端点检测算法,优化输入语音的质量,标注情感类别;S2:基于公开的语音数据集,针对每类情感,分别应用VTLP扩充数据集,形成完整数据;S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图,将谱图做不同尺度缩放,作为网络输入;S4:基于S3生成的频谱图,构建时频域特征粗提取网络,提取频谱图的时频域特征,调整网络参数;S5:将S4提取的时频域特征做特征级融合,构建句子级细化特征提取网络,部署空洞卷积;S6:将S5中训练好的网络对语音中的情感进行识别,得出类别概率和识别准确度,完成语音情感的识别。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(22)申请日 2019 .01 .24
(71)申请人 江南大学 地址 214000 江苏省无锡市滨湖区蠡湖大 道1800号
(72)发明人 曹毅 黄子龙 张威 翟明浩 刘晨 李巍 张宏越
7 .根据权利要求6所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其 特征在于:所述扁平化降维处理是在Flatten层通过Flatten()函数将多维数据扁平化为一 维数据;所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作,对网络进行 参数调整和抑制过拟合。
4 .根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其 特征在于:每个所述N阶DenseBlock包括依次连接的j个所述特征图层,每个所述特征图层 中包括连续的 2个卷积层 ,在所述特征图 层中 ,输入的 数据在进入卷积层进行卷积处理之 前 ,都先进行批量标准化处理 和激活函数处理 ;每个所述特征图 层中最后一个卷积层分别 与下一个卷积层通过Concatenate进行合并级联;每个所述N阶DenseBlock中的第一个特征 图层与第二个特征图层之间加入一个dropout层。
(10)申请公布号 CN 109949824 A (43)申请公布日 2019.06.28 G10L 25/30(2013 .01)
权利要求书2页 说明书8页 附图6页
CN 109949824 A
CN 109949824 A
权 利 要 求 书
1/2 页
1 .基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其包括以下步骤: S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列, 所述预处理操作包括:采样与量化、预加重处理、加窗; S2:对所述音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向 量序列; S3:构建声学模型,并对所述声学模型进行训练,得到训练好的声学模型; S4:将步骤S2中输出的所述特征向量序列经过处理后,输入到所述训练好的声学模型 中进行分类识别,得到的识别结果即为声音事件的分类结果; 其特征在于:所述声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构 建的网络模型,即为N阶DenseNet模型;每个所述声学模型内设置多个N阶DenseBlock连接, 每个所述N阶DenseBlock中层与层的连接基于N阶马尔可夫链的相关性连接,当前特征图层 输出与前N个特征图层输入相关;因此,若要建立N阶DenseBlock,必须使DenseBlock中特征 图层个数大于N;当所述N阶DenseNet模型中的每个所述N阶DenseBlock有j个特征图层;设 从第1个所述特征图层到第j个所述特征图层的输入记作[x0 , x1 , x2 , … , xi],从第1个所 述特征图层到第j个所述特征图层的输出记作[H1 , H2 , H3 , … , Hj]; 则当N = 1的时候,Hj的表达公式为:
5 .根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其 特征在于:所述TransitionLayer层包括一个卷积层、一个最大池化层。
6 .根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其 特征在于:经过连续的m个所述N阶DenseBlock结构处理后的所述特征向量序列被输入到全 连接层之前,还需要依次进行扁平化降维处理和抑制过拟合处理。
上式中: i = j-1, N、i、j为正整数; 当N > 1的时候,Hj的表达公式为:
上式中: N > 1, i = j-1, N、i、j为正整数。 2 .根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其 特征在于:步骤S2中的所述高维梅尔频率倒谱系数的提取方案包括: (1)128mfcc + 23mfcc_d + 23mfcc_d_d (2)108mfcc + 33mfcc_d + 33mfcc_d_d (3)128mfcc (4)108mfcc。 3 .根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其 特征在于:输入所述声学模型的所述特征向量序列先依次进行一层卷积操作和一次池化处
2
CN 109949824 A
权 利 要 求 书
2/2 页
理,然后依次输入连续的m个N阶DenseBlock中,每个所述N阶DenseBlock后面分别跟着一个 TransitionLayer层;经过连续的m个所述N阶DenseBlock结构处理后,所述特征向量序列被 输入全连接层进行分类处理 ,最后分类结果经过向量归一化处理 后输出 ;其中m 和N的取值 都为正整数。
(74)专利代理机构 无锡盛阳专利商标事务所 (普通合伙) 32227
代理人 顾吉云 郭金玉
(51)Int .Cl . G10L 25/24(2013 .01) G10L 25/18(2013 .01) G10L 25/45(2013 .01) G10L 15/14(2006 .01)
( 54 )发明 名称 基于N-DenseNet和高维mfcc特征的城市声
音事件分类方法 ( 57 )摘要
本发明提供一种基于N-DenseNet和高维 mfcc特征的城市声音事件分类方法,其在处理音 频数据时能提供更丰富 、更有效的 特征 信息 ,模 型有更强的 泛化能 力 ,分类具有更高的 准 确率 。 其包括 :S1 :采集待处理音频数据 ,对原始音频信 号进行预处理 ,输出音频帧序列 ;S2 :对音频帧序 列进行时域和频域分析,提取高维梅尔频率倒谱 系数 ,输出特征向量序列 ;S3 :构建声学模型 ,并 对声学模型进行 训练 ,得到 训练好的 声学模型 ; S4 :将步骤S2中输出的特征向量序列经过处理 后 ,输入到 训练好的 声学模型中 进行分类识 别 , 得到的识别结果即为声音事件的分类结果;其特 征在于 :声学模型是以 DenseNet模型为基础 ,结 合N阶 马尔可夫模型的 特点构建的网络模型 ,即 为N阶DenseNet模型。