数字智能视频技术发展与应用创新
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国安全防范产品行业协会专家委员会技术组
公安部第一研究所中盾公司
资料来源:中国安防行业网
一、数字智能视频技术发展
视频监控技术经历了模拟技术和模数混合技术的发展。由于大规模视频联网、资源整合和信息共享的需要,以及多业务管理和统一联动的要求,视频数字化、网络化和智能化成为视频监控技术发展的必然趋势。
(一)智能视频技术简介
智能视频源自计算机视觉技术,计算机视觉技术是人工智能研究的分支之一,它能够在图像及图像描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容。运用智能视频分析技术,当发现存在符合某种规则的行为(如定向运动、越界、游荡、遗留等)发生时,自动向监控系统发出提示信号,采取某种对应措施(如声光报警器报警)或通知监控人员进行人工干预。让相关工作人员把时间和精力集中放在重要事务的处理上。
(二)智能视频技术的主要算法
智能视频技术可以实现对移动目标的实时检测、识别、分类以及多目标跟踪等功能。目前,智能视频技术的主要算法分为以下六类:目标检测、目标跟踪、目标识别、行为分析、数据融合和基于内容的视频检索。
(1)目标检测
目标检测(Object Detection)是按一定时间间隔从视频图像中抽取像素,采用软件技术来分析数字化的像素,将运动物体从视频序列中分割出来。运动目标检测技术是智能化分析的基础。常用的目标检测技术可以分为三类\[1\]:背景减除法(Background Subtraction)、时间差分法(Temporal Difference)和光流法(Optic Flow)。
1)背景减除法
背景减除法利用当前图像与背景图像的差分检测运动区域。背景减除法能够提供相对来说比较完全的运动目标特征数据,但对于动态场景的变化,如光线照射情况、摄像机抖动和外来无关事件的干扰特别敏感。
背景减除法假设视频场景中有一个背景,而背景和前景并未给出严格定义,背景在实际使用中是变化
的,所以背景建模是背景减除法中非常关键的一步。常用的背景建模方法有时间平均法、自适应更新法、高斯模型等。
2)时间差分法
时间差分法充分利用了视频图像的时域特征,利用相邻帧图像的相减来提取出前景移动目标的信息。该方法对于动态环境具有较强的自适应性,不对场景做任何假设,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。当运动目标停止时,一般时间差分法便失效。
3)光流法
光流法通过比较连续帧为每个图像中的像素赋予一个运动矢量从而分割出运动物体。光流法能够在摄像机运动的情况下检测出独立的运动目标,然而光流法运算复杂度高并且对噪声很敏感,所以在没有专门硬件支持下很难用于实时视频流检测中。
(2)目标跟踪
一旦目标被检测出来,接下来的任务是对检测出的目标进行跟踪。目标跟踪(Object Tracking)算法根据不同的分类标准,有着以下两种分类方法:根据目标跟踪与目标检测的时间关系分类和根据目标跟踪的策略分类。
1)根据目标跟踪与目标检测的时间关系分类
根据目标跟踪与目标检测的时间关系可以分为三类:
一是先检测后跟踪(Detect before Track),先检测每帧图像上的目标,然后将前后两帧图像上目标进行匹配,从而达到跟踪的目的。这种方法可以借助很多图像处理和数据处理的现有技术,但是检测过程没有充分利用跟踪过程提供的信息。
二是先跟踪后检测(Track before Detect),先对目标下一帧所在的位置及其状态进行预测或假设,然后根据检测结果来矫正预测值。这一思路面临的难点是事先要知道目标的运动特性和规律。
三是边检测边跟踪(Track while Detect),图像序列中目标的检测和跟踪相结合,检测要利用跟踪来提供处理的对象区域,跟踪要利用检测来提供目标状态的观察数据。
2)根据目标跟踪的策略分类
根据目标跟踪的策略来分,通常可分为3D方法和2D方法。相对3D方法而言,2D方法速度较快,但对于遮挡问题难以处理。
基于运动估计的跟踪是最常用的方法之一。精确有效的目标运动预测可以大大提高目标跟踪的精度和实时计算的效率,预测通常采用卡尔曼滤波(Kalman Filter)、Blob运算、扩展卡尔曼滤波(Extended Kalman Filter)和粒子滤波(Particle Filter)等技术。
(3)目标识别
目标识别(Object Recognize)利用物体速度、形状、尺寸等信息进行判别,区分人、交通工具和其他对象。在图像数据中增加音频信息可以实现说话人跟踪、环境声音识别以用于事件识别。目标识别常用于人脸识别和车辆识别。
1)人脸识别
基于视频的人脸识别是根据已学习的人脸数据库和用户输入的年龄、种族、性别、表情等限定信息从视频中识别人物的技术。相对静止图像,基于视频的人脸识别能提供丰富的时域信息,易于自动分割出人脸,并能从多幅图像中选择较为有效的人脸进行识别;其难点在于视频中的人脸往往较模糊,并且分辨率较低。
视频人脸识别通常分为四个步骤:人脸检测、人脸跟踪、特征提取和比对。人脸检测指在动态的场景与复杂的背景中判断是否存在面像,并分离出这种面像。人脸跟踪指对被检测到的面貌进行动态目标跟踪。常用方法有基于模型的方法、基于运动与模型相结合的方法、肤色模型法等。
人脸特征提取方法归纳起来分为三类:第一类是基于边缘、直线和曲线的基本方法,第二类是基于特征模板的方法,第三类是考虑各种特征之间几何关系的结构匹配法。单一基于局部特征的提取方法在处理闭眼、眼镜和张嘴等情景时遇到困难,相比而言,基于整体特征统计的方法对于图像亮度和特征形变的鲁棒性更强。目前大多都是基于整体统计特征的提取方法,如活动形状模型(Active Shape Model, ASM)、弹性外观模型(Flexible Appearance Model,FAM)、活动外观模型(Active Appearance Model,AAM)等。
人脸比对是将抽取出的人脸特征与面像库中的特征进行比对,并找出最佳的匹配对象。人脸比对常用的算法有贝叶斯分离器、支持向量机(SVM)和神经网络分类器(NNC)等。
2)车辆识别
车辆识别主要分为车牌照识别、车型识别和车辆颜色识别等,应用最广泛和技术较成熟的是车牌照识别。车牌照识别是指从视频中提取车辆的牌号。车牌照识别的步骤分别为:车牌定位、车牌字符分割、车牌字符特征提取和车牌字符识别。
车牌定位是指从车牌图像中找到车牌区域并把其分离出来。字符分割是将汉字、英文字母和数字字符从牌照中提取出来。常用的字符分割技术有基于模板匹配的字符分割算法、基于小波分析和变换的分割技术、基于遗传算法的图像分割技术、利用Hough变换和先验知识的车牌字符分割算法等。车牌特征提取的基本任务是从众多特征中找出最有效的特征,常用的方法有逐像素特征提取法、骨架特征提取法、垂直水平方向数据统计特征提取法、特征点提取法和基于统计特征的提取法。车牌字符识别可以使用贝叶斯分离器、支持向量机(SVM)和神经网络分类器(NNC)等算法。
(4)行为分析
行为分析(Behavior Analysis)是在目标检测、跟踪和识别的基础上,对其行为进行更高层次的语义分析。现有的行为分析技术根据分析的细节程度和对分析结果的判别要求可以分为三类。作为一个极端,第一类使用了大量的细节,并往往使用已经建立好的数据进行分析而较少使用目标的时域信息。基于人脸、