行为识别国内外现状
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.原始视频的特征提取
(1)光流场
光流场是空间运动物体在观测成像面上像素运动的瞬时速度。它利用图像序列中的像素强度数据的时域变化和相关性来研究图像的灰度在时间上的变化与场景巾物体结构及其运动的关系。光流法通常假设相邻帧的图像差异非常小,从而获取对真实运动场的近似估计【31。它不用预知任何先验知识,即能提供有关运动速度及图像中运动区域的简洁描述,适用于摄像机运动的情形。但光流法易受噪声及光照变化的影响,且计算较为复杂,很难用于实时的视频监控系统。
(2)点轨迹
目标的运动轨迹也可以作为特征,从而大致推断出目标运动所属的行为类别。但图像平面上的轨迹对平移、旋转和缩放等变换比较敏感,因此在大多情形下,此特征显得不够可靠。常用的替代特征表达有轨迹速度、时空曲率等【4,51。运动轨迹的获取比较依赖于精确的跟踪算法。从原始视频中提取点轨迹特征同样容易受到噪声、遮挡及混乱背景等的影响。(3)人体形状表达
在摄像机固定的情形下,假设背景已知,通过背景剪除法可以很容易得到运动人体形状。基于全局、边界及骨架等的描绘子都可以用来表达人体形状。全局方法16,71如剪影、矩等是在整体形状区域内计算描绘子,而边界方法仅考虑形状轮廓【8l,骨架i方法则是用一组lD 骨架曲线代表一个复杂的人体形状,比如中轴变换[91等。
(4)滤波器响应
空时滤波器响应是一个广义上的分类。Zhang等【lo】存时间轴上计算高斯导数,将滤波器响应较高的区域作为运动区域。LaptevI¨1利用一组空时高斯导数滤波器将Harris角点检测扩展应用于三维的视频数据从而检测出空时兴趣点。这类方法大都基于简单的卷积操作,运算快速而简便。当视频分辨率较低的情形下,提取光流或剪影特征较为困难,利用滤波器响应特性可以从视频数据中提取有效的底层特征。
2.低层特征的描述与识别
我们将低层特征的描述与识别方法分为三类①:非参数方法、空时体方法和参数时序法,分别对现有方法进行归类,并作一个简短的综述。
2.1非参数方法
(1)模板匹配法
这类方法需要对每种行为的特征建立相应的模板,将获取的特征数据与模板相匹配,通过计算两者之间的相似度进行识别。Polana和Nelson[4刀将整个序列分解为多个周期行为,利用二维网格特征识别各种行为。Bobick和Davis[391将图像序列转换为运动能量图像(膨酣)和运动历史图像(朋m)模板,MEI反映运动覆盖的范围及强度,而MHI反映运动在时间上的变化情况。Weinland等【拍】提出运动历史体积(MHV)模板,从多个视角重建目标并将其投影到圆柱坐标系,提取Fourier变换特征以描述行为。Wang和Suter[451也将整个行为过程融合为基于轮廓的平均运动形状(MMS)和基于运动前景的平均运动能量(彳^扭)两个模板。模板匹配法计算复杂度低、实现简单,但它本身无法描述动态系统,也不能完全反映数据在空问上的分布属性,具有一定的局限性。而且不同行为之间执行速率的不同、噪声、光照等因素都会影响模板匹配的准确性。
(2)目标建模法
行为可以通过建立人体动态表观模型进行描述。常见的人体模型有棍图模型【109]、2D模型例及3D模型51。3D人体建模是最常用的人体结构表征方法,通过跟踪人体模型中主要
关节点的坐标、关节之间的角度、关节点运动的速度及角速度可以分析人体各种行为。3D 模型包含深度信息,因此它能够有效解决自遮挡和自碰撞问题。行为本身也可以看成是一个3D空时目标,如Mahmood等【1刁在联合X.Y-T空间将整个行为表示为圆柱体模型。Yalmaz 和Shahll31将跟踪获得的人体2D轮廓堆叠成联合X.Y-T空间中的目标,这种表达同时刻画了人体表观及动态运动特性。从X.Y玎空问的表达中提取的各种几何特征,如峰、凹点、谷及脊等,可以作为目标表面的捕述,但它需要建立序列帧点与点之间的对应关系。Gorelick 等【6】采用背景剪除后的二值剪影替代人体轮廓,构造出X.Y-T空间一上的空时目标,虽然它不需要建立序列l;!!ji之间轮廓点之间的对应关系,但仅适用于摄像机固定的情形。(3)流形学习法
行为识别中所处理的视频数据处于三维空间,若将序列中每帧图像转换为向量并按时序排列构成矩阵处理,将会遭遇“维数灾难”,同时也会引起小样本问题。而流形学习方法假设数据均匀采样J:高维欧氏空间中的低维流彤,从高维采样数据中恢复低维流形结构,并求出相应的嵌入映射,以实现降维。它可分为线性方法及非线性方法。线性流形学习假设数据位于线性空问,包括PCA、ICA等方法。但在实际情形下,数据并非位于线性空间,需要从大量样本中学习流形的内部几何结构。非线性流形学习方法大体分为两类,一类基于全局方法,如等距映射(届∞纠尸),计算每一个数据点与其他数据点关系而建立全连接图。另一类方法基于局部,即考虑每个数据点与它邻域内的点的关系,定义图中的边及其权重,如拉普拉斯特征映射。一些非线性方法的线性近似,如Lppt48,108l,加入类别信息的流形方法如LSTDE[491,可以直接求得投影矩阵用于解决新样本的低维嵌入问题。流形学习方法可用于行为分析中原始数据的降维,采用NN/kNN、SVM及Boosting等方法对低维空间中的特征数据进行分类可以识别不同行为。
2.2空时体方法
(1)空时滤波法
视频数据可以看成由每帧图像按时序构成的空时体,具有三维空时结构的滤波器可以用来描述视频数据的空时特性,进而提取行为特征。Chomat和Crowley/¨1从视频中分割出不同的空时体,用方向和空间上的不同尺度及时问上的单一尺度构成的Gabor滤波器组在每个像素点上计算局部表观模型,通过每帧中单个像素点概率空间的平均值对行为进行识别。为了适应不同的执行速率,Manor等f”】在时间上的不同尺度得到空时梯度表示的归一化局部直方图,并使用卡方距离度量它与存储模板之间的相似度。滤波器方法虽然实现简单,但在实际应用中,滤波器的合适带宽并非先验已知,需要不同空间和时间尺度上的滤波器组获取其动态行为,且每个滤波器产生的响应与输入体的维数相同,因此这种方法必须付出较高的计算代价。
(2)基于部分的方法
视频数据可以看成是局部的集合,其中每个子部分都包含着明显的运动模式。Laptev[111将Harris角点检测器扩展到空时表示形式,在不同级别的尺度上计算空时梯度,由每个点及其邻域内的梯度信息产生空时二阶矩的估计,从而提取局部特征。Dollar等fl 61在训练数据中的空时兴趣点上提取空时梯度,采用K均值聚类方法获取特征原型,对视频体进行建模。Niebles掣"1从包含空时兴趣点的子体积中提取特征并聚类乍成Bag.of-Words模型,采用SVMs识别各种行为。不同的行为可能包含相似的空时子部分,而子部分之间的几何关系却各不相同。但以上这些方法都不能对局部的全局几何进行建模,在不同行为之间可能造成歧义性。Boiman等f18】和Wong掣1叨将全局几何引入到基于部分的视频体表示,将其看成是各子部分的星群。当子部分数目较多时,这种方法的计算量也会相应地增大。Song等1201采用三角化的方法逼近星群之问的连接关系,从而解决计算花费偏高的问题。Niebles和Li[2”提出一个层级模型,其中较高的层级是各部分的星群,星群中的各部分则由低层