基于流形和CRF的行为识别
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、STIP特征向量
通过抽取每一个特征点周围 的小时空领域,计算描述符。 这些提取的小块分成3x3x2的 网格,计算每一个网格的梯 度直方图和光流直方图,每一 个STIP有162维的描述符。
Baidu Nhomakorabea
2、用LPP降维
我们实验用的10维和30维。
3、HCRF分类器
Table 1: Results for 10 hidden states
特征包方法及其变体
作为最大似然学习过程的一部分,它们都要学习码字词典,每一个兴趣点 在这些码字上分配了一个概率分布。 最大的缺点就是在KTH数据库上训练时间和测试时间需要30到60个小时。
其它的一些方法:试图找到这些数据潜在的几何约束。
a. [Wang and suter ,2007]提出用LPP降维,学习了一种移动剪影序列 的形状流形,描述这个行为的时空特征。 为了匹配嵌入的行为轨迹,中值豪斯多夫距离或归一化的时空相 关用于相似性度量。然后在一个最邻近的结构里就获得了行为分类。 b. [lui er al.,2010] 提出用积流形进行行为分类。 他们把视频作为张量,用模型化的高阶单一值分解(HOSVD)分解 它,他们识别每一个因式分解的空间作为格拉斯曼流形。因此,一个 张量映射到一个在积流形里的点并且计算测地线距离为了张量分类。
在很多算法中,特征向量的维度起了重要作用,通常,维 度影响这些算法的整个性能。 解决方法:学习一个低维流形,然后将特征向量投射到这个几
何空间中。
相关工作
一、特征包方法 步骤:
1、 • 在视频的时空金字塔中选择或检测一套兴趣点; 2、 • 计算每一个兴趣点的描述符,捕获时空的领域特征; • 用从训练例子中得到的大量的描述符学习一个码字词典。 对于给定的行为视频,特征兴趣点的描述符被投射到这 3、 个学到的词典中,然后计算这码字的直方图,获得特征 包描述; 4、 • 用这些标记的训练视频的直方图学习一个分类器。
Table 2: Results for 20 hidden states
Class Boxing Handclapping Handwaving Jogging Running Walking Precision 0.754838709677 0.840277777778 0.809523809524 0.588888888889 0.736842105263 0.833333333333 Recall 0.818181818182 0.840277777778 0.708333333333 0.736111111111 0.583333333333 0.833333333333
本文用的方法
这个算法包括学习和测试两部分:
学习:
首先计算每一个视频中的时空兴趣点及其描述符; 然后用从所有视频中获得的特征描述符学习一个流形(用一种线性降维的技术),特征 向量投射到这个学到的低维空间中; 最后这些低维度的特征向量被用来学习一个分类器。
测试
首先计算输入视频的时空兴趣点及其描述符; 然后把它投射到学习到的流形里进行降维; 最后用判别分类器对降维的向量进行分类。
我们希望的是:算法能够通过内部的类变量一般化,并且 它应该能够区别不同的行为不同的类。行为识别进一步的 目标就是在测试视频中动态地分类一个动作。
在这个项目里,我们用时空兴趣点进行局部行为描述。 [Banerjee and Nevatia,2011] 提出了一种判别式分类器CR F(在时空兴趣点特征上提出的),有很好的准确性但是 训练和测试消耗大。
算法的细节
一 、时空兴趣点
Laptev将二维图像中的Harris 角点检测技术扩展到三维 时空领域中,从视频中检测出丰富的代表 时空事件的兴趣点。
用梯度和光流的分布描述这些兴趣点:建立以 兴趣点为中心的时空立方体并抽取光流直方图和 梯度直方图的联合特征HOG/HOF 对运动进行表 征。
二、STIP描述符
基于流形和CRF的行为识别
本文用到的方法:
几何流形
一种降维技术:保局投影(LPP)
HCRF
这算法在KTH数据集上进行评估,相比其它用HCRF分 类器的算法节省了训练和测试时间。
2
背景:
由于人类动作的复杂性和多样性,找到一种能在不同的数 据库上都运行很好的可靠的行为分类技术仍然是很困难的 。这些数据库通常相当具有挑战性是由于视角、外观、动 作和光线等的多样性。
Class Boxing Handclapping Handwaving Jogging Running Walking Precision 0.756097560976 0.852112676056 0.895161290323 0.532894736842 0.655405405405 0.834586466165 Recall 0.867132867133 0.840277777778 0.770833333333 0.5625 0.673611111111 0.770833333333
三、HCRF
把投射到低维空间的这些特征用作训练的例子,学习一 种判别式是分类器(HCRF)。
性能评估
训练和测试数据集:KTH和UCF-50 六类动作:Biking,Diving,Playing Tabla ,Playing Golf,Horse Riding,Jumping Jack
结果
HoG-HoF特征描述符是一些非常高维度空间里的点。这些高维的数据 通常遭受维度问题的困扰并且是训练和测试过程的瓶颈之一。
更重要的是,通常这个高维的数据依赖一个低维的流形,因此,它可 以通过学习这个潜在的流形,降为一个低维的数据。 我们提出在这些描述符上用这个保局投射(LPP)的方法获得低维描 述。 不像PCA降维是把这些数据投射到一个方差最大的子空间里,LPP 试图找到一个子空间,这个子空间要尽可能的保留数据的局部信息。 这个保局的质量在检索应用中是相当有用的。LPP是线性的,更快更 实用。
结论
在30维的数据上训练的HCRF的性能比投射 到10维数据上的性能要好。 最终效果:在不损失太多精确度的条件下 ,训练和测试时间得到了改善。
通过抽取每一个特征点周围 的小时空领域,计算描述符。 这些提取的小块分成3x3x2的 网格,计算每一个网格的梯 度直方图和光流直方图,每一 个STIP有162维的描述符。
Baidu Nhomakorabea
2、用LPP降维
我们实验用的10维和30维。
3、HCRF分类器
Table 1: Results for 10 hidden states
特征包方法及其变体
作为最大似然学习过程的一部分,它们都要学习码字词典,每一个兴趣点 在这些码字上分配了一个概率分布。 最大的缺点就是在KTH数据库上训练时间和测试时间需要30到60个小时。
其它的一些方法:试图找到这些数据潜在的几何约束。
a. [Wang and suter ,2007]提出用LPP降维,学习了一种移动剪影序列 的形状流形,描述这个行为的时空特征。 为了匹配嵌入的行为轨迹,中值豪斯多夫距离或归一化的时空相 关用于相似性度量。然后在一个最邻近的结构里就获得了行为分类。 b. [lui er al.,2010] 提出用积流形进行行为分类。 他们把视频作为张量,用模型化的高阶单一值分解(HOSVD)分解 它,他们识别每一个因式分解的空间作为格拉斯曼流形。因此,一个 张量映射到一个在积流形里的点并且计算测地线距离为了张量分类。
在很多算法中,特征向量的维度起了重要作用,通常,维 度影响这些算法的整个性能。 解决方法:学习一个低维流形,然后将特征向量投射到这个几
何空间中。
相关工作
一、特征包方法 步骤:
1、 • 在视频的时空金字塔中选择或检测一套兴趣点; 2、 • 计算每一个兴趣点的描述符,捕获时空的领域特征; • 用从训练例子中得到的大量的描述符学习一个码字词典。 对于给定的行为视频,特征兴趣点的描述符被投射到这 3、 个学到的词典中,然后计算这码字的直方图,获得特征 包描述; 4、 • 用这些标记的训练视频的直方图学习一个分类器。
Table 2: Results for 20 hidden states
Class Boxing Handclapping Handwaving Jogging Running Walking Precision 0.754838709677 0.840277777778 0.809523809524 0.588888888889 0.736842105263 0.833333333333 Recall 0.818181818182 0.840277777778 0.708333333333 0.736111111111 0.583333333333 0.833333333333
本文用的方法
这个算法包括学习和测试两部分:
学习:
首先计算每一个视频中的时空兴趣点及其描述符; 然后用从所有视频中获得的特征描述符学习一个流形(用一种线性降维的技术),特征 向量投射到这个学到的低维空间中; 最后这些低维度的特征向量被用来学习一个分类器。
测试
首先计算输入视频的时空兴趣点及其描述符; 然后把它投射到学习到的流形里进行降维; 最后用判别分类器对降维的向量进行分类。
我们希望的是:算法能够通过内部的类变量一般化,并且 它应该能够区别不同的行为不同的类。行为识别进一步的 目标就是在测试视频中动态地分类一个动作。
在这个项目里,我们用时空兴趣点进行局部行为描述。 [Banerjee and Nevatia,2011] 提出了一种判别式分类器CR F(在时空兴趣点特征上提出的),有很好的准确性但是 训练和测试消耗大。
算法的细节
一 、时空兴趣点
Laptev将二维图像中的Harris 角点检测技术扩展到三维 时空领域中,从视频中检测出丰富的代表 时空事件的兴趣点。
用梯度和光流的分布描述这些兴趣点:建立以 兴趣点为中心的时空立方体并抽取光流直方图和 梯度直方图的联合特征HOG/HOF 对运动进行表 征。
二、STIP描述符
基于流形和CRF的行为识别
本文用到的方法:
几何流形
一种降维技术:保局投影(LPP)
HCRF
这算法在KTH数据集上进行评估,相比其它用HCRF分 类器的算法节省了训练和测试时间。
2
背景:
由于人类动作的复杂性和多样性,找到一种能在不同的数 据库上都运行很好的可靠的行为分类技术仍然是很困难的 。这些数据库通常相当具有挑战性是由于视角、外观、动 作和光线等的多样性。
Class Boxing Handclapping Handwaving Jogging Running Walking Precision 0.756097560976 0.852112676056 0.895161290323 0.532894736842 0.655405405405 0.834586466165 Recall 0.867132867133 0.840277777778 0.770833333333 0.5625 0.673611111111 0.770833333333
三、HCRF
把投射到低维空间的这些特征用作训练的例子,学习一 种判别式是分类器(HCRF)。
性能评估
训练和测试数据集:KTH和UCF-50 六类动作:Biking,Diving,Playing Tabla ,Playing Golf,Horse Riding,Jumping Jack
结果
HoG-HoF特征描述符是一些非常高维度空间里的点。这些高维的数据 通常遭受维度问题的困扰并且是训练和测试过程的瓶颈之一。
更重要的是,通常这个高维的数据依赖一个低维的流形,因此,它可 以通过学习这个潜在的流形,降为一个低维的数据。 我们提出在这些描述符上用这个保局投射(LPP)的方法获得低维描 述。 不像PCA降维是把这些数据投射到一个方差最大的子空间里,LPP 试图找到一个子空间,这个子空间要尽可能的保留数据的局部信息。 这个保局的质量在检索应用中是相当有用的。LPP是线性的,更快更 实用。
结论
在30维的数据上训练的HCRF的性能比投射 到10维数据上的性能要好。 最终效果:在不损失太多精确度的条件下 ,训练和测试时间得到了改善。