caffe学习笔记8实例基于卷积神经网络的声音识别-薛开宇
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.3.1 Caffe 平台的一般数据输入形式 .................................................................. 22 3.3.2 Caffe 平台的音乐数据输入形式 .................................................................. 22 3.3.3 Caffe 平台的音乐输入数据后续处理 .......................................................... 25 3.4 训练数据 ................................................................................................................... 27 3.4.1 Caffe 平台搭建网络的方法 .......................................................................... 27 3.4.2 本论文需要使用的两种卷积神经网络 ........................................................ 28 3.4.3 使用 Caffe 平台搭建本论文需要使用的两种卷积神经网络 ..................... 30 3.4.4 在 Caffe 平台训练两种卷积神经网络 ......................................................... 32 3.5 结果输出 ................................................................................................................... 33 3.6 本章小结 ................................................................................................................... 34
第三章,主要介绍本篇论文如何实现基于卷积神经网络的声音数据的识别分类。先介 绍所用框架 Caffe 平台及其搭建。然后从数据输入、数据训练、结果输出三个方面具体说 明如何用该平台实现声音数据的分类。
第四章,主要介绍本论文所做实验需要用到的两个数据库,GTZAN 和自己制作的 Jamendo 数据库。先介绍 GTZAN 数据库及其所含音乐类别特色,再详细介绍自己自做的 Jamendo 数据库,说明其数据来源,及数据分布。
本文的结构 第一章,主要是阐明卷积神经网络理论。先介绍神经网络的原理和概念,其很多知识
与 CNN 有关,再介绍深度学习原理和特点,可对属于深度学习的 CNN 有初步认识。最 后详细介绍 CNN 的结构、算法。
第二章,主要介绍声谱图。本文的创新之处主要是使用了声谱图作为音乐的输入。详 细介绍了音乐的声谱图理论,及其可得到的信息。
1.3.1 卷积神经网络的结构 .................................................................................... 11 1.3.2 卷积神经网络的训练算法 ............................................................................ 13 1.4 本章小结 ................................................................................................................... 15
1 卷积神经网络的介绍 ............................................................................................................ 4
1.1 神经网络 ..................................................................................................................... 4 1.1.1 神经网络基本原理 .......................................................................................... 4 1.1.2 神经网络的基本概念介绍 .............................................................................. 4
2 声谱图 .................................................................................................................................. 16
2.1 声谱图的简介 ........................................................................................................... 16 2.2 声谱图中可得到的信息 ........................................................................................... 17 2.3 本章小结 ................................................................................................................... 18
caffe 深度学习笔记实例薛开宇 基于卷积神经网络 CNN 的声音识别
之前在 caffe 刚出来的时候,曾经写过一些 caffe 的学习笔记,感受到了大家的支持。 然而去了国外深造,所以很久没发相关内容。考虑到大家可能需要一些实例去搞 caffe, 因此就把我之前做的一些东西拿出来给大家分享,并附有一些程序和参数的,主要是关 于如何用 caffe 来做声音方面的深度学习,用的方法是自己的奇思妙想,因此比较创新, 和传统声音识别方法不同,由于数据处理和其他论文其实有点不同,所以实际结果可能 没有可比性。如果大家想根据这个做出什么成果的或有什么问题的,微博为神 and 開宇, 欢迎大家交流。
本文的工作有三部分: (1)提出一种新的自动音乐分类系统。该系统先将音乐转化成声谱图,后使用卷积 神经网络进行音乐识别分类。本方法在 Caffe 和 Matlab 平台下搭建,在 ipython notebook 平台中作成果展示。 (2)在 Jamendo 网站上收集 10 类共 1000 首音乐,制作成音乐分类数据库。 (3)在 GTZAN 数据库上进行了七种实验,从而找出最适合该系统的参数并验证系 统的有效性。其中,声谱图实验、微调实验是比较重要的原创实验。 最终,通过在以上实验中得出来的较好参数,使用本文设计的基于 CNN 的音乐分类 系统进行测试,在 GTZAN10 类数据库上达到了 90±1%的识别率。 关键词:卷积神经网络 深度学习 音乐流派分类 声谱图 GTZAN 数据库
1
目
录
摘
要 ............................................................................................................................... I
本文的结构 .................................................................................................................................. 1
3 实现基于卷积神经网络的音乐分类系统 .......................................................................... 19
3.1 Caffe 平台简介 ......................................................................................................... 19 3.2 Caffe 平台的搭建 ..................................................................................................... 20 3.3 数据输入 ................................................................................................................... 22
1.2 深度学习 .................................................................................................................... 9 1.3 卷积神经网络 ........................................................................................................... 10
第五章,主要是对基于 CNN 的音乐分类识系统进行多种测试和分析,从而得出较好 的参数和证明可行性。在数据输入层面进行声谱图测试、样本数测试;在训练层面进行 两种模型的对比测试、结构的节点测试、微调测试以及学习率测试;在输出层面进行结 果综合判断测试。
第六章,主要是总结和展望。总结了基于 CNN 的音乐分类识别系统的一般步骤及其 最终参数并展示了其最终的识别结果。然后介绍了本识别系统的优点和创新点,最后通 过一个例子展示本识别系统。
Baidu Nhomakorabea
摘
要
目前的音乐检索系统用流派、风格、情感等类别标签检索音乐。其中,如果人工标注 音乐这些类别标签,则存在主动性强、费时费力、速度慢的问题,而如果采用传统的自动 标注方式,则存在准确率低的问题。后者准确率低的原因是,其标注时使用的模型不能 很好识别音乐。随着 Hinton 提出深度学习模型后,因其在图像和语音识别领域均取得很 好的成果,在识别领域成为了研究热点。因此,本文旨在研究如何使用深度学习中的卷 积神经网络(Convolutional Neural Networks,CNN)模型,设计出一个准确度高、速度快 的自动音乐分类系统,用作标注音乐的类别标签。
4 实验用的数据库 GTZAN 及自己制作的 Jamendo 数据库 .............................................. 35
4.1 GTZAN 数据库 ........................................................................................................ 35 4.2 GTZAN 的流派简介 ................................................................................................ 35 4.3 自己制作的 Jamendo 数据库................................................................................... 36
第三章,主要介绍本篇论文如何实现基于卷积神经网络的声音数据的识别分类。先介 绍所用框架 Caffe 平台及其搭建。然后从数据输入、数据训练、结果输出三个方面具体说 明如何用该平台实现声音数据的分类。
第四章,主要介绍本论文所做实验需要用到的两个数据库,GTZAN 和自己制作的 Jamendo 数据库。先介绍 GTZAN 数据库及其所含音乐类别特色,再详细介绍自己自做的 Jamendo 数据库,说明其数据来源,及数据分布。
本文的结构 第一章,主要是阐明卷积神经网络理论。先介绍神经网络的原理和概念,其很多知识
与 CNN 有关,再介绍深度学习原理和特点,可对属于深度学习的 CNN 有初步认识。最 后详细介绍 CNN 的结构、算法。
第二章,主要介绍声谱图。本文的创新之处主要是使用了声谱图作为音乐的输入。详 细介绍了音乐的声谱图理论,及其可得到的信息。
1.3.1 卷积神经网络的结构 .................................................................................... 11 1.3.2 卷积神经网络的训练算法 ............................................................................ 13 1.4 本章小结 ................................................................................................................... 15
1 卷积神经网络的介绍 ............................................................................................................ 4
1.1 神经网络 ..................................................................................................................... 4 1.1.1 神经网络基本原理 .......................................................................................... 4 1.1.2 神经网络的基本概念介绍 .............................................................................. 4
2 声谱图 .................................................................................................................................. 16
2.1 声谱图的简介 ........................................................................................................... 16 2.2 声谱图中可得到的信息 ........................................................................................... 17 2.3 本章小结 ................................................................................................................... 18
caffe 深度学习笔记实例薛开宇 基于卷积神经网络 CNN 的声音识别
之前在 caffe 刚出来的时候,曾经写过一些 caffe 的学习笔记,感受到了大家的支持。 然而去了国外深造,所以很久没发相关内容。考虑到大家可能需要一些实例去搞 caffe, 因此就把我之前做的一些东西拿出来给大家分享,并附有一些程序和参数的,主要是关 于如何用 caffe 来做声音方面的深度学习,用的方法是自己的奇思妙想,因此比较创新, 和传统声音识别方法不同,由于数据处理和其他论文其实有点不同,所以实际结果可能 没有可比性。如果大家想根据这个做出什么成果的或有什么问题的,微博为神 and 開宇, 欢迎大家交流。
本文的工作有三部分: (1)提出一种新的自动音乐分类系统。该系统先将音乐转化成声谱图,后使用卷积 神经网络进行音乐识别分类。本方法在 Caffe 和 Matlab 平台下搭建,在 ipython notebook 平台中作成果展示。 (2)在 Jamendo 网站上收集 10 类共 1000 首音乐,制作成音乐分类数据库。 (3)在 GTZAN 数据库上进行了七种实验,从而找出最适合该系统的参数并验证系 统的有效性。其中,声谱图实验、微调实验是比较重要的原创实验。 最终,通过在以上实验中得出来的较好参数,使用本文设计的基于 CNN 的音乐分类 系统进行测试,在 GTZAN10 类数据库上达到了 90±1%的识别率。 关键词:卷积神经网络 深度学习 音乐流派分类 声谱图 GTZAN 数据库
1
目
录
摘
要 ............................................................................................................................... I
本文的结构 .................................................................................................................................. 1
3 实现基于卷积神经网络的音乐分类系统 .......................................................................... 19
3.1 Caffe 平台简介 ......................................................................................................... 19 3.2 Caffe 平台的搭建 ..................................................................................................... 20 3.3 数据输入 ................................................................................................................... 22
1.2 深度学习 .................................................................................................................... 9 1.3 卷积神经网络 ........................................................................................................... 10
第五章,主要是对基于 CNN 的音乐分类识系统进行多种测试和分析,从而得出较好 的参数和证明可行性。在数据输入层面进行声谱图测试、样本数测试;在训练层面进行 两种模型的对比测试、结构的节点测试、微调测试以及学习率测试;在输出层面进行结 果综合判断测试。
第六章,主要是总结和展望。总结了基于 CNN 的音乐分类识别系统的一般步骤及其 最终参数并展示了其最终的识别结果。然后介绍了本识别系统的优点和创新点,最后通 过一个例子展示本识别系统。
Baidu Nhomakorabea
摘
要
目前的音乐检索系统用流派、风格、情感等类别标签检索音乐。其中,如果人工标注 音乐这些类别标签,则存在主动性强、费时费力、速度慢的问题,而如果采用传统的自动 标注方式,则存在准确率低的问题。后者准确率低的原因是,其标注时使用的模型不能 很好识别音乐。随着 Hinton 提出深度学习模型后,因其在图像和语音识别领域均取得很 好的成果,在识别领域成为了研究热点。因此,本文旨在研究如何使用深度学习中的卷 积神经网络(Convolutional Neural Networks,CNN)模型,设计出一个准确度高、速度快 的自动音乐分类系统,用作标注音乐的类别标签。
4 实验用的数据库 GTZAN 及自己制作的 Jamendo 数据库 .............................................. 35
4.1 GTZAN 数据库 ........................................................................................................ 35 4.2 GTZAN 的流派简介 ................................................................................................ 35 4.3 自己制作的 Jamendo 数据库................................................................................... 36