caffe深度学习薛开宇笔记实例_基于卷积神经网络的声音识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文的工作有三部分: (1)提出一种新的自动音乐分类系统。该系统先将音乐转化成声谱图,后使用卷积 神经网络进行音乐识别分类。本方法在 Caffe 和 Matlab 平台下搭建,在 ipython notebook 平台中作成果展示。 (2)在 Jamendo 网站上收集 10 类共 1000 首音乐,制作成音乐分类数据库。 (3)在 GTZAN 数据库上进行了七种实验,从而找出最适合该系统的参数并验证系 统的有效性。其中,声谱图实验、微调实验是比较重要的原创实验。 最终,通过在以上实验中得出来的较好参数,使用本文设计的基于 CNN 的音乐分类 系统进行测试,在 GTZAN10 类数据库上达到了 90±1%的识别率。 关键词:卷积神经网络 深度学习 音乐流派分类 声谱图 GTZAN 数据库
3.3.1 Caffe 平台的一般数据输入形式 .................................................................. 22 3.3.2 Caffe 平台的音乐数据输入形式 .................................................................. 22 3.3.3 Caffe 平台的音乐输入数据后续处理 .......................................................... 25 3.4 训练数据 ................................................................................................................... 27 3.4.1 Caffe 平台搭建网络的方法 .......................................................................... 27 3.4.2 本论文需要使用的两种卷积神经网络 ........................................................ 28 3.4.3 使用 Caffe 平台搭建本论文需要使用的两种卷积神经网络 ..................... 30 3.4.4 在 Caffe 平台训练两种卷积神经网络 ......................................................... 32 3.5 结果输出 ................................................................................................................... 33 3.6 本章小结 ................................................................................................................... 34
4.3.1 Jamendo 数据库简介..................................................................................... 36 4.3.2 Jamendo 网站介绍......................................................................................... 37 4.3.3 Jamendo 数据库的数据及其结构................................................................. 37 4.4 本章小结 ................................................................................................................... 40
第五章,主要是对基于 CNN 的音乐分类识系统进行多种测试和分析,从而得出较好 的参数和证明可行性。在数据输入层面进行声谱图测试、样本数测试;在训练层面进行 两种模型的对比测试、结构的节点测试、微调测试以及学习率测试;在输出层面进行结 果综合判断测试。
第六章,主要是总结和展望。总结了基于 CNN 的音乐分类识别系统的一般步骤及其 最终参数并展示了其最终的识别结果。然后介绍了本识别系统的优点和创新点,最后通 过一个例子展示本识别系统。
4 实验用的数据库 GTZAN 及自己制作的 Jamendo 数据库 .............................................. 35
4.1 GTZAN 数据库 ........................................................................................................ 35 4.2 GTZAN 的流派简介 ................................................................................................ 35 4.3 自己制作的 Jamendo 数据库................................................................................... 36
caffe 深度学习薛开宇笔记实例 基于卷积神经网络 CNN 的声音识别


目前的音乐检索系统用流派、风格、情感等类别标签检索音乐。其中,如果人工标注 音乐这些类别标签,则存在主动性强、费时费力、速度慢的问题,而如果采用传统的自动 标注方式,则存在准确率低的问题。后者准确率低的原因是,其标注时使用的模型不能 很好识别音乐。随着 Hinton 提出深度学习模型后,因其在图像和语音识别领域均取得很 好的成果,在识别领域成为了研究热点。因此,本文旨在研究如何使用深度学习中的卷 积神经网络(Convolutional Neural Networks,CNN)模型,设计出一个准确度高、速度快 的自动音乐分类系统,用作标注音乐的类别标签。
1.3.1 卷积神经网络的结构 .................................................................................... 11 1.3.2 卷积神经网络的训练算法 ............................................................................ 13 1.4 本章小结 ................................................................................................................... 15
1.2 深度学习 .................................................................................................................... 9 1.3 卷积神经网络 ........................................................................................................... 10
第三章,主要介绍本篇论文如何实现基于卷积神经网络的声音数据的识别分类。先介 绍所用框架 Caffe 平台及其搭建。然后从数据输入、数据训练、结果输出三个方面具体说 明如何用该平台实现声音数据的分类。
第四章,主要介绍本论文所做实验需要用到的两个数据库,GTZAN 和自己制作的 Jamendo 数据库。先介绍 GTZAN 数据库及其所含音乐类别特色,再详细介绍自己自做的 Jamendo 数据库,说明其数据来源,及数据分布。
2 声谱图 .................................................................................................................................. 16
2.1 声谱图的简介 ........................................................................................................... 16 2.2 声谱图中可得到的信息 ........................................................................................... 17 2.3 本章小结 ................................................................................................................... 18
1
Fra Baidu bibliotek



要 ............................................................................................................................... I
本文的结构 .................................................................................................................................. 1
本文的结构 第一章,主要是阐明卷积神经网络理论。先介绍神经网络的原理和概念,其很多知识
与 CNN 有关,再介绍深度学习原理和特点,可对属于深度学习的 CNN 有初步认识。最 后详细介绍 CNN 的结构、算法。
第二章,主要介绍声谱图。本文的创新之处主要是使用了声谱图作为音乐的输入。详 细介绍了音乐的声谱图理论,及其可得到的信息。
3 实现基于卷积神经网络的音乐分类系统 .......................................................................... 19
3.1 Caffe 平台简介 ......................................................................................................... 19 3.2 Caffe 平台的搭建 ..................................................................................................... 20 3.3 数据输入 ................................................................................................................... 22
1 卷积神经网络的介绍 ............................................................................................................ 4
1.1 神经网络 ..................................................................................................................... 4 1.1.1 神经网络基本原理 .......................................................................................... 4 1.1.2 神经网络的基本概念介绍 .............................................................................. 4
相关文档
最新文档