基于多特征时空关系融合的人类行为识别方法与相关技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本技术公开了一种基于多特征时空关系融合的人类行为识别方法,具体步骤包括:通过光流直方图和运动边界直方图对视频抽取的密集轨迹特征进行表示,然后用KMEANS算法构建两种特征对应质心之间的时空二部图,采用K路二部图分割技术将时空二部图分割,采用基于条件概率的表示方法得到两种特征融合后的视频级编码,最后训练分类器并进行识别,通过上述方式,本技术一种基于多特征时空关系融合的人类行为识别方法,该方法通过计算每个视频中特征之间的时空距离,从而构建两种特征对应质心之间的时空二部图,采用K路二部图分割技术对时空二部图进行分割,将具有强时空关系的质心融合,更好的挖掘了不同特征的有效信息,提升了识别准确率。

权利要求书

1.一种基于多特征时空关系融合的人类行为识别方法,其特征在于,具体步骤包括:

步骤1:对视频进行密集轨迹特征抽取,并以光流直方图和运动边界直方图两种方法对抽取的轨迹特征进行表示,得到两种特征表示;

步骤2:用KMEANS算法构建两种特征对应质心之间的时空二部图;

步骤3:采用K路二部图分割技术将步骤2中的时空二部图分割为具有强时空关系的质心和具有弱时空关系的质心,将分割后具有强时空关系的质心融合起来,将具有弱时空关系的质心分开;

步骤4:计算具有强时空关系的质心之间的时空距离矩阵,并采用基于条件概率的表示方法对距离矩阵进行压缩,得到两种特征融合后的视频级编码;

步骤5:训练分类器并进行识别。

2.根据权利要求1所述的一种基于多特征时空关系融合的人类行为识别方法,其特征在于:所述步骤2中KMEANS算法将所述步骤1中得到的两种特征进行聚类,从而得到若干个质心,通过计算每个视频中任意两个特征对应时空坐标之间的L1距离来衡量两个特征之间的时空关系,利用两种特征之间的时空关系计算其质心之间的时空关系,并得到两种特征对应质心之间的时空二部图。

3.根据权利要求1所述的一种基于多特征时空关系融合的人类行为识别方法,其特征在于:所述的步骤4中所述条件概率表示方法首先对质心之间的

距离向量进行离散化,然后以条件概率描述任意两个融合后质心之间的时空距离分布信息。

说明书

一种基于多特征时空关系融合的人类行为识别方法

技术领域

本技术涉及计算机视觉领域,尤其是涉及一种基于多特征时空关系融合的人类行为识别方法。

背景技术

随着计算机科学的发展,视频开始成为人们生活的一部分,如何让计算机“理解”视频中的人类行为,对基于内容的视频检索、智能监控、人机交互

和虚拟现实等领域都具有重要作用。

一般而言,一个经典的人类行为识别框架主要包括三个步骤:特征抽取、视频编码以及分类器的训练和识别,此外,对于采用多种特征的情况,还

包括一个可选的多特征前期融合或后期融合步骤,其中的视频编码是决定识别准确率的关键步骤。

目前,被广泛使用和改进的编码方法之一是词袋(BagofWords,简称BoW)方法,经典的BoW方法首先对特征进行聚类,接着把视频表示成特征出

现在每一个质心中的频次直方图向量,虽然BoW编码已经在很多文献中显示了很好的泛化能力和健壮性,但该方法也有很多缺点:比如费时的特征

聚类过程,KMEANS算法的有监督参数k以及质心之间时空关系信息的丢失。

为了消除KMEANS算法的参数k依赖经验确定的问

题,“LiuJ,ShahM.Learninghumanactionsviainformationmaximization[C].ComputerVisionandPatternRecognition,2008.CVPR2008.IEEEConferenceon.IEEE,2008:1-

8.”使用互信息最大化聚类算法无监督的确定最合适的质心数量,该算法首先用一个较大的k进行KMEANS聚类,以减少由于KMEANS聚类造成的信

息丢失,之后通过互信息最大化聚类算法在尽可能少的丢失信息的前提下减少质心数量,以此提高后续步骤的计算速度。

为了解决时空关系信息丢失的问题,许多研究者们提出了基于BoW的扩展方法,按照所保留信息的不同,这些方法被分为两类:保留绝对时空信息

的BoW表示和保留相对时空信息的BoW表示。前者通常需要对视频的时空体进行全局分割,这使得计算得到的视频编码与特征的绝对时空坐标相

关,缺乏平移不变性。

“LaptevI,MarszalekM,SchmidC,etal.Learningrealistichumanactionsfrommovies[C].ComputerVisionandPatternRecognition,2008.CVPR2008.IEEEConferenceon.IEEE,2008:1 8.”把视频的时空体积分割成预定义的时空网格,之后分别在每个网格中计算BoW并把所有网格的BoW向量串联起来作为最终的视频编码。然而,为

了确定最佳的网格组合,该方法需要用交叉验证进行贪心搜索,而这个步骤是非常费时的,此外,通过串联不同网格的BoW得到的超长向量进一步

增加了计算复杂度。“SunJ,WuX,YanS,etal.Hierarchicalspatio-

temporalcontextmodelingforactionrecognition[C].ComputerVisionandPatternRecognition,2009.CVPR2009.IEEEConferenceon.IEEE,2009:2004-2011.”以一种层

级的方式获取三层时空上下文信息。而后者,即保留相对时空信息的方法,通常是利用BoW质心或特征之间的相对时空距离进行视频编码。“KovashkaA,GraumanK.Learningahierarchyofdiscriminativespace-

timeneighborhoodfeaturesforhumanactionrecognition[C].ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:2046-2053.”首先用原特征点周围的点构造新特征,之后结合新特征所属质心信息和新特征方向信息构造视频编码。由于需要构造多层级的质心,该方法的计算复杂度相对较高。“WangJ,ChenZ,WuY.Actionrecognitionwithmultiscalespatio-

temporalcontexts[C].ComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceon.IEEE,2011:3185-3192.”通过在原特征的多个时空尺度中获取特征之间的时空上下文交互信息进行视频编码。。

技术内容

本技术主要解决的技术问题是提供一种基于多特征时空关系融合的人类行为识别方法,该方法对两种特征对应质心之间的时空关系信息进行显式编码,能够更好的挖掘不同特征的有效信息进行人类行为识别。

为解决上述技术问题,本技术采用的一个技术方案是:一种基于多特征时空关系融合的人类行为识别方法,具体步骤包括:

步骤1:对视频进行密集轨迹特征抽取,并以光流直方图和运动边界直方图两种方法对抽取的轨迹特征进行表示,得到两种特征表示;

步骤2:用KMEANS算法构建两种特征对应质心之间的时空二部图;

步骤3:采用K路二部图分割技术将步骤2中的时空二部图分割为具有强时空关系的质心和具有弱时空关系的质心,将分割后具有强时空关系的质心融合起来,将具有弱时空关系的质心分开;

步骤4:计算具有强时空关系的质心之间的时空距离矩阵,并采用基于条件概率的表示方法对距离矩阵进行压缩,得到两种特征融合后的视频级编码;

步骤5:训练分类器并进行识别。

在本技术一个较佳实施例中,所述步骤2中KMEANS算法将所述步骤1中得到的两种特征进行聚类,从而得到若干个质心,通过计算每个视频中任意两个特征对应时空坐标之间的L1距离来衡量两个特征之间的时空关系,利用两种特征之间的时空关系计算其质心之间的时空关系,并得到两种特征对应质心之间的时空二部图。

相关文档
最新文档