基于深度学习的图像目标定位识别研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于深度学习的图像目标定位识别研究
科学技术的发展是推动人类社会进步的主要原因之一,未来社会进一步地朝着科技化、信息化、智能化的方向前进。在信息大爆炸的今天,充分利用这些信息将有助于社会的现代化建设,这其中图像信息是目前人们生活中最常见的信息。
利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。
一般的图像目标定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。在研究课题相关背景和意义之后,本文对上述三个步骤涉及到的技术进行了调研。
深度学习理论由Hinton教授提出之后得到学术界的普遍关注。越来越多的学者尝试用深度学习理论去解决图像识别技术中碰到的问题。
深度学习理论包含诸多的模型,不同的模型各自的应用领域也不相同。这其中卷积神经网络(CNN)模型是最常用于图像处理的模型。
相比较传统的人工神经网络模型,卷积神经网络拥有更多的隐藏层,其特有
的卷积和池化操作对图像地处理有着较高的效率。本文在分析了CNN模型对图像特征的表达特性之后,搭建了一个CNN网络模型,该模型在传统的VGG模型的基础上加以改进,统一了图像分割、目标特征提取和目标分类三个过程,改进后的模型称为N-VGG。
本文的创新点之一是研究学习了基于估计目标网络(RPN)的图像分割技术,
提出了改进策略以提升RPN网络的性能,改进后的图像分割模块称之为IRPN。最终将IRPN网络应用到本课题构建的N-VGG模型中。
同时分析了传统的卷积神经网络模型中应用的激活函数,最终在N-VGG网络
模型中引入了新的激活函数:指数线性单元(ELU)。另外在N-VGG网络模型中引入了空间金字塔池化技术(SPP),以提升模型的识别精度。
最后利用第三方开源工具Caffe构建了N-VGG模型,并构建了一个简易的图像目标定位识别系统。最终通过该系统测试本文构建模型的识别效率。
在测试阶段,还单独训练了一个SVM分类器,以对比SVM分类器和softmax 分类器性能。最后本文对在这个课题学习设计的过程中遇到的问题和学习到的经验、方法做了总结,同时对未来在图像目标定位识别领域可以做的改进工作进行了展望。