公安部第三研究所
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
公安部第三研究所
基于GPU的ImageNet 大规模图像分类背景
对于中等规模的城市,其每天都会产生百万级的视频图像数据。如何有效及时的处理这些数据对公安应用有很大的意义。ImageNet图像库作为目前最大的公开数据库,为我们验证算法能否应用在公安大数据中,提供了一个合理而又有公信力的评测标准。
目前,在ImageNet图像库上进行的图像处理算法竞赛已经持续4年。对于验证今年来的研究热点,如深度学习和词袋模型等都起到了举足轻重的作用。
我所提供了两套算法来解决ImageNet的图像分类问题。方案一提取不同类别图像的特征,如SIFT,GIST等。之后通过高斯混合模型来表征不同图像的聚类中心。然后将图像表示为聚类中心的直方图。并将此直方图映射到高维来提高分类效率。最后,使用映射后的高维特征来训练得到不同类别的分类器。此算法得到了很好地分类效果。方案二使用深度学习方法,通过深层神经网络来学习得到能够有效表征不同类别的图像特征。实验发现通过深层网络学习得到的特征泛化能力很强。在图像处理领域有很大的应用潜力。
挑战
ImageNet图像库以数据量大为其主要特点。以2013年为例,其包括120万的训练图像集,5万的验证图像集和10万的测试图像集。ImageNet图像库共有1000类图像,每类约1300幅图像。其对于常规的图像处理算法都是巨大的挑战。以训练词袋模型为例,其主要表现为以下两方面:
1) 图像集大,加载后需要的内存大。由于采用稠密采样方
式,每幅图像需要计算约10K个SIFT特征,整个训练
集需要计算约1.2×〖10〗^10个SIFT特征,约需要
5.7TB。同时,每幅图像需要用52万维的特征表示,训
练集约产生2TB的数据。
2) 图像集大,计算时间长。不采用任何加速方式,计算
1.2×〖10〗^10约需要20天。同时,使用上述所有
SIFT特征计算高斯混合模型也无法在有效的时间内完
成。在计算图像的高维图像表征时,120万图像约需要5个月完成。
3) 由于算法的计算时间过长,导致算法开发周期加长。在模
型研发过程中,每次调试试验计算周期很长,动辄要数
周,对工程开发人员造成巨大的困难。
从算法层面来讲,如何从海量的图像数据中提取能够有效表征不同图像类别的信息而不被噪声淹没是算法的关键。从工程角度来讲,如何在合理的时间和成本上解决上述分类问题是其关键。
同时,在公安应用中,每天获得的数据都是以TB来计量。如果以上述时间来衡量,现有的图像处理算法基本无法在实际中应用。
解决方案与意义
通过在配有 NVIDIA® Tesla® GPU 的服务器集群,把任务分发到各个计算节点上,通过并行的方式来提高整体计算速度。Telsa K10系列显卡强于单精度浮点运算,而这非常适合图像处理的需求。通过将整个算法的核心模块改写为GPU程序,ImageNet训练集处理的时间可以由原来的数月缩减到数天内完成。
以高斯混合模型为例,用完整训练集进行训练(1.2×〖10〗^10SIFT点),迭代一次约要4个小时,采用GPU加速后,迭代一次仅需要约10分钟,算法提升约20倍。这大大的缩
短了算法的运算时间。这为解决公安应用中大数据的处理提供了一条合理的解决方案。
中等规模的城市每天都会产生百万级的视频图像。这些数据的存储都是以TB为单位进行计量的。在公安应用中,这些数据都必须在产生的同时进行处理。否则,会对存储造成巨大的压力。
通过使用GPU集群,将数据进行在线处理,只存储“大数据”中的有效信息。不仅可以有效地缓解存储的压力,同时为进行深层次的数据挖掘提供了可能。
© 2012 NVIDIA 公司版权所有。保留所有权利。 NVIDIA 、NVIDIA 徽标、NVIDIA Tesla 以及 CUDA 均为 NVIDIA 公司的商标和/或注册商标。
所有公司和产品名称均为相应所有者的商标或注册商标。
#