实时动作识别方法研究_王松
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
看,人体前面的形状;侧面投影图反映的是从左向右看, 人体左面的形状;水平投影图反映的是从上向下看,人 体上面的形状。如图 2 所示。从图中可以看出,尽管深 度相机较好地解决了复杂背景的问题,但是采集的深度 数据仍然包含有数量不少的噪声。
(a)正面投影图 (b)侧面投影图 (c)水平投影图 图 2 站立姿态的投影效果
人体动作深度视频是一组深度图像序列,包含了大
量的时空特征。根据深度视频对人体动作进行识别,不
仅需要考虑 t 时刻的人体形状信息,还需要考虑人体运
动 的 累 积 效 应 。 因 此 ,对 于 包 含 N 帧 的 深 度 视 频 ,
DMM 的计算公式如式(1)所示。
∑| | N
DMMv =
mapiv
-
map
2D Gabor 函数定义为:
g( x, y, σ, θ)
=
1 2πσ2
éæ ∙expêê-çç
ëè
x'2 2σ2
+
y'2 2σ2
öù ÷÷úú øû
∙exp
éëêj
πx' σ
ù
ú
û
(2)
使用该函数作为尺度空间分解的核函数,利用其方
向选择性和多通道特性捕捉频域变化剧烈的特征点。
其中,σ 为尺度因子,θ 为方向,并且:
信 息 ,可 以 很 容 易 地 从 复 杂 背 景 中 分 割 出 所 需 要 的 对 象。利用文献[1]的方法,可以快速精确地从 Kinect 提供 的深度图像中估计关节点的 3D 空间位置。相对于传统 的 RGB 视频,从深度视频中分割出人体可以简化动作 识别的过程。此外,深度信息能够实时获得,并且具有 视角无关性。
Abstract: Concerning the high time complexity and low recognition rate of action recognition algorithm in traditional RGB video, this paper proposes an action recognition approach based on depth image. Firstly, each depth frame in a depth video sequence is projected onto three orthogonal Cartesian planes. Secondly, the Gabor feature is extracted from the projected maps in three projective views. Lastly, the features are used to train extreme learning machine classifiers that are used to classify actions. Experiments on public dataset MSR Action 3D show the method achieves average recognition rate 97.80%, 99.10% and 88.35% respectively on different three group experiments. The elapsed time of recognizing single depth video is less than 1 second. The results show the proposed method can effectively identify the human motion in depth image sequence and satisfy the real-time requirement of the depth image sequence. Key words: depth image; projection; Gabor feature; extreme learning machine; action recognition
收稿日期:2016-07-08 修回日期:2016-09-20 文章编号:1002-8331(2017)03-0028-04
王 松,党建武,王阳萍,等:实时动作识别方法研究
2017,53(3) 29
关键问题,一是动作特征的表示,二是恰当的动作识别 模型。
针 对 上 述 问 题 ,文 献 [6] 将 深 度 图 像 的 轮 廓 映 射 到 三个正交平面上,然后对每个平面沿着映射轮廓的边缘 等距离采样,使用获取的三维点集(词袋模型)来描述静 态手势,进而通过建立动作图谱模型[7]显式地对动态动 作进行建模。文献[8]使用相关关节位置差作为人体特 征表达。在训练阶段,使用流形学习对高维空间下的训 练集进行降维,得到低维空间下的动作模型。在测试阶 段 ,用 最 近 邻 插 值 方 法 将 测 试 样 本 映 射 到 低 维 流 形 空 间,然后使用改进的 Hausdorff 距离对低维空间的测试 样本和训练样本集的相似度进行度量,从而得到动作分 类。文献[9]假设人体动作为三维刚体的空间运动,由 于三维刚体的空间位姿可以用特殊欧几里德群 SE(3) 来表示,因此将人体动作建模为李群 SE(3) × … ×SE(3) 上的曲线。最后融合动态时间规整算法、Fourier 时域金 字塔和线性 SVM 对动作曲线进行分类。文献[6,8-9]三 种方法都需要进行大量的计算,时间复杂度高。
作 者 简 介 :王 松(1978—),男 ,博 士 研 究 生 ,讲 师 ,研 究 领 域 为 计 算 机 视 觉 、机 器 学 习 ,E- mail:wangsong@mail.lzjtu.cn;党 建 武 (1963—),男,博士,教授,博导,研究领域为智能信息处理;王阳萍(1972—),男,博士,教授,研究领域为医学图像处 理;杜晓刚(1985—),男,博士研究生,讲师,研究领域为医学图像处理。
28 2017,53(3)
Computer Engineering and Applications 计算机工程与应用
实时动作识别方法研究
王 松,党建武,王阳萍,杜晓刚
WANG Song, DANG Jianwu, WANG Yangping, DU Xiaogang
兰州交通大学 电子与信息工程学院,兰州 730070 School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China
摘 要:针对传统 RGB 视频中动作识别算法时间复杂度高而识别准确率低的问题,提出一种基于深度图像的动作识 别方法。该方法首先对深度图像在三投影面系中进行投影,然后对三个投影图分别提取 Gabor 特征,最后使用这些 特征训练极限学习机分类器,从而完成动作分类。在公开数据集 MSR Action3D 上进行了实验验证,该方法在三组 实验上的平均准确率分别为 97.80%、99.10%和 88.35%,识别单个深度视频的用时小于 1 s。实验结果表明,该方法能 够对深度图像序列中的人体动作进行有效识别,并基本满足深度序列识别的实时性要求。 关键词:深度图像 ;投影 ;Gabor 特征 ;极限学习机 ;动作识别 文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.1607-0113
深度序列 投影
侧面投影图 特征提取
侧面投影 特征表示
水平投影图
水平投影 特征表示
融合特征 训练
测试序列
动作分类模型
动作分类结果
图 1 动作识别方法框架
2.1 深度数据运动投影
深度图像用于捕捉对象的三维结构和形状信息。 在机械制图时,为了表达立体的几何形状及特点,用多 面正投影图作为物体的描述方法。多面正投影图能完 整地表达物体各个方位的形状和大小。深度图像投影 (Depth Motion Maps,DMM)[10]正是受此启发,将深度 图像投影到三投影面系中,得到三个投影,即正面投影、 水平投影和侧面投影。正面投影图反映的是从前向后
波器组 g(x,y,σs,θn) 。图 3 为 5 层尺度和 8 个方向的 2D Gabor 滤波器组示意图。可以看出,2D Gabor 滤波器组 具有显著的方向和频率选择特性。
éëêêêêêêêêhhh(((www111··∙⋮xxxn12
+ +
+ቤተ መጻሕፍቲ ባይዱ
e1) e1)
e1)
h(w2·x1 + e2) h(w2·x2 + e2)
WANG Song, DANG Jianwu, WANG Yangping, et al. Research on real-time action recognition approach. Computer Engineering and Applications, 2017, 53(3):28-31.
隐层前馈神经网络学习算法[15-16]。它不同于传统的神经
1 引言
人体动作识别是计算机视觉领域中非常活跃的一 个研究方向,该研究有极为广泛的应用场景,从视频监 控到基于内容的视频检索、视频分类等。
传统的 RGB 视频包含有丰富的颜色、边缘等信息, 但是由于复杂背景、可变光照、遮挡、视角变化等因素的 存在,动作识别算法的准确率不高。近年来,随着微软 Kinect 等深度相机的推出,对动作识别中存在的问题有 一定程度的解决。Kinect 传感器同时包含了彩色 RGB 摄像头和红外摄像头。通过 Kinect 传感器提供的深度
2.2 特征提取
Gabor 滤波器具有良好的方向和频率选择特性,能 在 空 域 和 频 域 同 时 达 到 最 优 的 联 合 分 辨 率 ,尤 其 是 2D Gabor 可很好地模拟哺乳动物视觉皮层细胞的感 受野特性。同时,Kamarainen[11]等也从理论上证明了其 具有良好的平移、旋转和尺度不变特性。由于这些优良 的特性,使得 Gabor 特征在很多方面得到了广泛的应 用 。 [12-14] 因此,本文使用 Gabor 滤波器从 DMMv 中提取 特征。
x' = x cos θ + y sin θ
y' = -x sin θ + y cos θ
为模拟方向和尺度不同的简单细胞,将不同尺度 σs 和朝向 θn 的 2D Gabor 滤波器构成一组多尺度带通滤
30 2017,53(3)
Computer Engineering and Applications 计算机工程与应用
⋮
h(w2∙xn + e2)
⋯ ⋯
⋯
h(wL∙x1 h(wL∙x2
⋮
h(wL∙xn
+ +
+
eeeLLL)))ùûúúúúúúúú(5)
由 Moore-Penrose 广义逆定理,通过奇异值分解求
得 H†,则
β = H†Y
图 3 5 个尺度和 8 个方向的 Gabor 滤波器组
2.3 动作分类
近来研究表明,极限学习机(ELM)是一种高效的单
2 方法
本文提出一种建立在深度数据运动投影基础上的 动作识别方法,该方法直接对深度数据在三投影面系中 投影,然后对投影图提取 Gabor 特征,最后使用监督学 习 的 方 法 训 练 极 限 学 习 机 动 作 模 型 ,从 而 实 现 动 作 分 类。方法框架如图 1 所示。
正面投影图
正面投影 特征表示
面向传统 RGB 视频的人体动作识别已研究得较为 深入,综述性的文献参考[2-5]。本文的讨论主要围绕面 向深度序列的人体动作识别展开,应用场景设定在人机 交互过程中的动作识别。人体动作识别需要解决两个
基金项目:国家自然科学基金(No.61162016,No.61562057);甘肃省国际科技合作项目(No.144WCGA162);甘肃省自然科学基金 (No.145RJZA080);兰州交通大学校青年基金项目(No.2013009,No.2013005)。
iv
1
(1)
i=2
式中,i 表示帧的索引;v ∈ { f,s,t} ,f,s,t 分别表示
正面投影面、侧面投影面、水平投影面;mapiv 表示第 i 帧深度图像在投影面 v 下的投影。对深度动作视频分 别计算 DMMf 、DMMs 和 DMMt 即可得到人体动作在 三投影面系下的形状和人体运动的累积信息。