基于图像大数据的目标识别算法及在智慧旅游中的应用研究概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

告正文

(一)立项依据与研究内容(4000-8000字):

1.项目的立项依据(研究意义、国内外研究现状及分析,附主要参考文献目录。基础研究需结合科学研究发展趋势来论述科学意义;应用研究需结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。)

图像目标识别是指对图像中的目标物体(如行人、动物、建筑物、食物、车牌等)进行识别,即判断图像中是否存在所要识别的目标物体,如果有则定位目标物体在图像中的位臵。该研究具有广泛的应用背景。应用之一是汽车的辅助驾驶。据统计,全世界每年死于交通事故的人数多达130万人。因此,迫切需要一个能自动对行人进行检测,并及时提醒驾驶员的系统。应用之二就是对公共场所的人流量进行统计。大型商店、博物馆、旅游景点、地铁等公共场所都需要实时的人流量信息。博物馆可以根据实时的人流量信息来控制进入博物馆的人群,商场可以根据一段时间的客流变化情况来调整相应的经营策略。除此以外,图像目标识别在旅游、互联网、医疗等领域都有广泛的应用。

目前,国内外的很多研究机构都开展了图像目标识别的研究。斯坦福大学的李菲菲教授领导的团队创建了一个公开的图像数据集ImageNet[1],该数据集收集了1500万张图片,这些图片总共有22000个类别。从2010年开始,在该数据集上开展了名为ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)的公开评测。ILSVRC从ImageNet中选取了1000个类,每个类有大约1000张图片。所用于训练的图片有120万张,5万张验证图片,15万张测试图片。这1000个类涵盖了各种动物、各种自然场景等,每个类的图片尽可能的覆盖了光照、角度、姿态、遮挡的变化。ILSVRC是国际公认的权威测试比赛,吸引了很多著名的研究机构参与。2011年最好的成绩是74.3%的识别率,由欧洲的xerox研究中心取得[2]。所用的方法是用压缩Fisher矢量对特征进行压缩,并用随机梯度下降的方法来训练线性SVM,所用的特征是著名的SIFT特征[16]和颜色特征。

2012年,多伦多大学的Hinton教授和他的学生用GPU(图像处理单元)训练的卷积神经网络模型,在ILSVRC取得了85%的识别率[3]。和2011年的结果相比,识别率整整提高了10个百分点,这一结果不仅震动了学术界,也震惊了工业界。Google由此启动了著名的Google Brain计划,专门研究深度学习技术。卷积神经网络是由LeCun在1998年提出的模仿人类大脑所具备的高效表达信息的结构[5],并成功应用于美国各个银行的支票上的数字识别。卷积神经网络的基本结构如图1所示,对于一张32x32像素的输入图像,采用6个5x5的模板对

输入图像分别进行卷积,得到6个28x28的特征映射(feature maps),即图中的C1,每一个特征映射内的权值是相同的;然后对这6个特征映射层分别进行下采样,即图中的S2;然后对S2再进行卷积和下采样(对应于图中的C3和S4);然后对S4做两次全连接(对应于图中的

图1. 卷积神经网络的基本结构,图片来源于[5]

C5和F6);最后的输出层采用的是高斯连接的方式。卷积神经网络中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解,并且能够自动的从图像中抽取出丰富的相关特性,被认为是第一个真正成功的采用多层次网络结构的具有鲁棒性的深度学习方法。

近几年,针对卷积神经网络的学习结构上出现了一些改进,其中最具代表的是多伦多大学的Krizhevsky等人在2012年提出的8层卷积神经网络结构[3],如图2所示,该结构的输入是224 x224的RGB图像,共有5个卷积层和5个Max pooling层,然后是两个全连接层,最后是一个softmax输出层。和图1所示的基本结构相比,图2的结构多了3个卷积层和3个采用Max pooling方式的下采样层,这个结构更适合于像素比较大的图像,而且层次越深,学习出来的语义信息就越丰富。进一步,为了避免过拟合,图2中的两个全连接层还加入了Dropout技术[7],为了加快训练速度,全连接层的激励函数改为了ReLUs函数[8],而不是传统的tanh函数和sigmoid函数,同时还在ReLUs激励函数的基础上,增加了局部响应归一化操作,加强了模型的泛化能力。

图2所示的结构是目前在图像识别领域应用最多的卷积神经网络结构,在此基础上,香港中文大学的Yi Sun等人提出在第一个全连接层部分,要同时和卷积层及采样层做全连接,而不是只和采样层做全连接,这样做的目的是为了避免信息的丢失[9]。Yi Sun等人把这个改进的结构成功应用于人脸识别,并取得了非常好的效果。2014年,Google公司的Christian

图2. 八层结构的卷积神经网络,图片来源于[3]

等人对卷积神经网络做了比较大的改进,引入了Inception模块,一个Inception模块由多个卷积层和Max pooling层组成,整个网络结构中有9个Inception模块,再加上常规的卷积层、采样层、全连接层和softmax输出层,总共有22层[4]。这个网络结构在ILSVRC 2014比赛中取得了93.4%的识别率,比排名第二的牛津大学的VGG团队[13]高了1个百分点,比ILSVRC 2013的最好结果更是提高了4.5个百分点。识别性能上又有了进一步的飞跃。值得注意的是,在ILSVRC 2014上,几乎所有的参赛队伍都采用了基于卷积神经网络的识别方法,只是在细节的处理上有所不同。

不管卷积神经网络的结构如何变化,其思想都是把特征提取和分类器进行有机的整合,通过随机梯度下降的方式进行反向传播,不断的对卷积模板参数和全连接层的参数进行优化,使得最终学习到的特征和分类器接近最优。而传统的方法中,特征提取和分类器是分离的,特征提取是一个无监督的过程,这样提取的特征和训练的分类器通常是次优化的。卷积神经网络的缺点是要学习的参数比较多,并且需要反复迭代,从而导致学习的过程很费时。因此,尽管卷积神经网络在1998年就已被提出,但在之后的10多年间,并未引起学术界的重视。在2012年前,主流的分类器仍然是以支撑向量机[6]为代表的这一类学习速度相对较快的机器学习框架。近几年,由于GPU的出现,使得在一台电脑上实现大规模并行计算成为可能,大大缩短了卷积神经网络的训练时间[3],再加上其优异的识别性能,逐渐成为图像识别领域的主流算法。Google的相似图片搜索引擎的核心算法即是卷积神经网络。Facebook也聘请了卷积神经网络的发明人LeCun作为该公司人工智能实验室的主任。许多著名的大学,如牛津大学、伯克利大学、东京大学等都开展了对卷积神经网络的研究。

近两年,针对卷积神经网络的研究在我国也受到了重视,开展相关研究工作的课题组包括中科院自动化所谭铁牛老师课题组、中科院计算所山世光老师课题组、华南理工大学林俊斌老师课题组、哈尔滨工业大学苏统华老师课题组、香港中文大学汤晓欧老师课题组等等。百度公司在2012年成立了深度学习研究院,聘请了包括余凯和吴恩达在内的世界知名的科学

相关文档
最新文档