趋势前瞻丨基于“深度学习”的人群密度视频分析与其他技术的比较

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频分析概念起步于2005年左右，当时通常基于录像机（DVR）或者视频编码器进行视频分析，典型的问题是视频分析需消耗的计算资源较多而芯片处理能力有限，另外图像清晰度有限，导致实际应用效果较差。

典型视频分析模式包括入侵、丢包、拌线、滞留、逆行、计数等功能，项目实际遇到的困惑是系统配置难度大、精确度不高、误报率较高、抗干扰性差、没有自学习能力。

在厂商大力推广部分客户尝试部署之后，发现理想很丰满、现实很残酷，不具备实战性。

虽然早期视频分析实用性不强、发展受阻，但是所有厂商、用户及集成商还是持有一致的观点，认为视频分析是大势所趋，因为随着视频监控规模急速扩张，由系统或机器自动分析识别是必然，只是受制于芯片的处理能力及算法制约，还达不到实战的要求，需要在系统架构、部署方式、算法优化方面进行提升。

如今云计算、大数据及深度学习为视频分析技术带来新的发展契机，云计算及大数据解决的是基础运算层面问题，而深度学习解决的是智能视频的灵魂问题。

深度学习的意义在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

深度学习技术投入安防监控使用后已对视频分析领域产生了巨大影响，本文从“深度学习在人群密度检测应用”角度，进行分析探讨。

人群密度分析检测的背景：
从平安城市的安全防范到城市的交通疏导，商场的客流统计到顾客偏好分析等，本质都离不开人群活动规律的监控、检测和分析，因此建立自动、实时、智能化的人群分析系统对于建设平安城市，智慧城市有着极为重要的现实意义。

随着平安城市的建设，大量的视频监控设备已经广泛应用于车站、路口、广场、银行和超市等公共场所，如果能利用已经采集到的视频信息，对关键场所中的人群行为进行有效的监测与分析，不仅能为人群分析系统提供可复用的基础资源，还能直观呈现出可视化证据。

基于视频监控的人群分析系统有着天然的优势，因此对视频图像进行实时分析，利用目标检测、跟踪和识别等技术，统计人群的数量、密度以及运动规律等特征指标来记录和分析人群行为，日益成为了智能视频监控领域的研究热点。

系统运用深度学习、图像处理算法、大数据分析和数据挖掘等技术，对监控视频中的人和人群的特征行为进行分析，可及时地发现过密、聚集、混乱、滞留、逆行等异常事件。

人群密度分析检测的应用模式：
人群密度与计数
系统对视频进行实时分析，检测出画面中人群的区域，并对其进行人群分割，将人体、人群和背景进行分割，识别出人体和人群，从而可以统
计场景中的实时人数。

同时根据人群和人体之间的关系，估计各区域的人群密度，得到整个场景的人群密度分布图。

滞留区域分析
滞留分析主要用于识别场景中有人长时滞留的区域，在展现层用不同颜色标记。

以下图为例，红色区域表示有滞留时间较长，蓝色表示滞留时
间较短。

滞留的等级和标准及显示的颜色可以根据实际需求和要求进行调整，也可对到达何种级别进行报警等进行灵活设置。

混乱程度分析
此功能主要分析场景中群体运动的一致性，预先给出一个混乱程度的定义。

对于混乱程度高的场景，进行报警。

如下图中，左图人群滞留时间长，基本无运动，因此混乱程度低；右图区域颜色为蓝色，说明运动频繁。

事实上场景中很多人在奔跑，因此混乱程度高。

此事可能伴随有事件发生，当予以警示。

群体轨迹分析
此功能主要是分析在视频中，静止的人群对常用的行进路线的影响情况。

当出现有人群的滞留严重影响了正常的行进路线时，系统会进行报警，告知工作人员；便于对该区域的人群进行疏导，避免出现更大范围的人群滞留。

人群密度分析检测的典型案例：
公共交通行业：结合时空分析人流的运动方向和人群滞留情况，可以更加准确的把握客流高峰时间段和高峰区域。

可为交通建设部门提供参考意见，如在流量相对更大的出入口增加安保人员，增设售票窗口、询问台等，确保公共场合治安有序、稳定。

商场超市行业：客流量是购物中心、大型商场、连锁店、机场、展览馆、会展中心等公共场所在管理和决策方面不可缺少的数据。

随着商业竞争加剧，商业模式逐步由传统坐商向极具主动性的行商转变，对日常客流特征进行分析显得尤为重要。

基于深度学习技术的人群密度检测
将深度学习的先进理念与算法研究成果，应用于视频的人群分析应用领域当中，是系统的发展趋势。

深度学习是机器学习研究中的一个新的领域，其概念源于人工神经网络的研究。

深度学习提出的动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

包含多隐层的神经网络就是一种深度学习结构。

深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

通俗地讲，深度学习没有像传统机器学习那样自己框定边界，而是直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。

在训练的时候从来不会告诉机器说：‘这是一个人。

’系统其实是在通过大量的学习后是自己发明或者领悟了“人”的概念。

目前深度学习技术在声音、图像、文本等机器学习研究领域已经取得巨大的突破。

人群密度分析技术发展趋势：
基于深度学习的人群分析技术，不再采用人为定义特征的方式去判断目标是否为“人”。

通过使用大量数据训练模型，计算机可以自行学习并抽象出人群的概念，并有效提取出针对人群分析有效的特征。

这种针对人
群整体的分析方法有效克服了传统的基于人的个体分析方法所无法解决的大规模复杂场景的适应性问题。

云从科技基于深度学习的人群分析系统可支持超过300人的大场景监控，对感兴趣区域人数统计精确度达到95%以上；可适应各类场景，相对于传统技术，具有更强的抗环境干扰能力；能有效突破光照突变、背景复杂、人体部分遮挡，应用场景单一等传统技术的难点；处理速度快，基于GPU计算，可达到实时分析的效果。

基于深度学习与传统技术对比：
大数据和深度学习为智能视频分析技术提供了前进的方向，除了本文提及的“密度检测”，深度学习还有很多其他应用场景，只要涉及到视频目标检测、目标识别的地方，理论上都可以应用深度学习来解决。

在安防领域，深度学习技术将与视频分析应用碰撞出更多的火花，实现真正的“智能”。