自然的人体动作识别

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

自然的人体动作识别

黄飞跃徐光祐

清华大学计算机科学与技术系，普适计算教育部重点实验室，北京，100084

摘要：人体动作识别是计算机视觉的一个重要研究课题。目前大多数动作识别的研究都

假设是在特定受限的场景下，即特定的视角、位置、对象、背景和光照条件下工作。其中，

尤以要求特定的视角和位置对实际应用的限制最为严重。本文致力于研究能处理视角和位

置变化并可用于非特定对象的人体动作识别方法。我们把它称为自然的人体动作识别方法。

为此我们提出了"包容形状"的人体表示，这种表示不受视角、位置的变化影响，充分利用了

两个正交摄像机拍摄的轮廓信息以去除由人的身体旋转引起的影响。利用包容形状，我们

取得了非特定人、任意视角下的自然人体动作识别较好的实验结果。同时我们也介绍了该

识别方法在实际智能家居——老人看护系统中的应用。

关键词：自然动作识别；包容形状

1．引言

人体动作识别是计算机视觉里一个活跃的研究方向，有不少综述，力图把以前的相关研究方法进行总结和分类，比如[1], [2], [3], [4]。至今为止，关于动作识别的大多数研究工作都是在特定受限的场景下展开，比如特定的视角、动作人、背景和光照。在这之中，尤以视角和位置的限制最为突出。我们认为要实现自然场景下的动作识别，就必须消除应用条件中的这些限制。为此，我们在这篇论文中，重点研究了动作识别中与视角和位置无关的体态表示，以实现非特定人、任意视角下的自然人体动作识别。

现阶段已经开展了不少视角无关的动作识别研究工作，比如Cen Rao [5]，Vasu Parameswaran[6]。但是还有很多问题亟待解决，大多数的方法依赖鲁棒的语义特征点检测或者是点对应，而这些是比较难实现的。

在本文中，我们提出使用了一种“包容形状”的体态表示。在仿射摄像机投影模型的假设下，这种表示对于视角和位置的变化具有不敏感性，同时不需要依靠任何较难提取并且对误差很敏感的语义点检测和点对应。利用这种表示，我们开发了自己的动作识别系统并且把它部署到实际应用：智能家居—老人看护系统中。实验结果表明我们的系统对于非特定人、任意视角和位置下的自然动作有着很理想的识别能力。

资助项目：国家自然科学基金资助项目（60673189，60433030）

联系作者：黄飞跃， Email：hfy01@

2．自然的动作识别

在人体动作识别中，人体姿态(简称为体态)表示一直是基本而关键的问题。自然的人体动作识别要求体态表示具有良好的视角和位置不变特性。视角和位置的变换可以分成两个部分，平移和旋转。在动作识别中，大多数体态表示都已经有了平移不变特性，所以我们只需要考虑旋转不变量。旋转量可以拆分为绕着三个垂直方向轴旋转的分量。通常，对人体动作而言，如果只有绕着竖直方向轴旋转分量(称之为偏转)的话，我们把会这些体态归为同一个分类中；而如果还存在另外两种旋转分量的话，我们会把它们归为不同的分类中。例如，一个人直立站着和躺在地面上，这时候存在其余两种方向的旋转分量，那我们会把它们看成是两种不同的体态。当一个人仅仅是站立着把他的身体旋转到另一个朝向的话，我们可以认为他的体态还是同一种的。所以，在大多数动作识别中，我们只需要考虑视角绕着竖直方向轴旋转情况下(称之为偏转)的不变量。

2.1 “包容形状”的表示

为了获得视角绕着竖直方向轴旋转情况下的不变量表示，我们采用了如图1的双摄像机配置方案。这两个摄像机的成像平面都和竖直轴Y 平行，它们的光轴是正交的。在人体动作识别的实际应用场景之中，由于人体的深度变化相对于人体到摄像机的距离通常很小，我们可以采用仿射摄像机模型。现考虑人体的一个水平截面，在这个截面上的所有点到像平面1上的投影都在直线l 上，而在这个截面上的所有点到像平面2上的投影都在直线l’上。直线l 是点p’的外极线，而直线l’则是点p 的外极线。为了发掘人体仅做偏转时的不变量，我们只需要分析人体二维水平截面在旋转时的变化即可。

如图2，假设有一个二维截面 “S ”，它在原始的二维坐标系UV 中的投影线段是AB 和BC ，那么“S ”在矩形ABCD 里面。在另外一个旋转了某个角度θ的坐标系U’V’图1 双摄像机配置方案图

2 二维水平截面旋转分析

中，它的投影在线段EF 和FG 中。这里，我们定义原始投影线段的长度为x 和y ，而新的投影线段的长度则是x’和y’。我们可以得到如下的关系式：

θθsin cos 'y x x +≤ θθsin cos 'x y y +≤

公式 (1)

让我们来定义“r ”： 22y x r +=.

公式 (2) 那么

r xy y x xy y x y x r 222sin 2''222222'≤++≤++≤+=θ 公式 (3)

取 r 0 是所有旋转对应的各个“r ”中的最小值，那么在任何的旋转下，相应的“r ”值都会满足如下取值区间：

002r r r ≤≤ 公式 (4)

和原始投影值x’ 与x 或者 y’ 与 y 的无限的比值范围区间相比较，这是一个相当小的取值区间，也就是说我们找到了一种视角不敏感的人体表示。对于每一个水平截平面，我们利用公式（2）来计算一个“r ”值。这样，对于每一帧静态的人体体态，我们可以得到一个“r ” 值的向量。由于r 比轮廓投影x 和y 值都大，可以看成这个向量把人体的轮廓包围在内部，我们把这个“r ”值向量称作为“包容形状”（“Envelop Shape ”）。我们给出一些在不同视角下合成人体模型的包容形状图。如图3是两种体态围绕着竖直轴旋转了八个不同角度时的情况。每种体态前两行是两个正交摄像机拍摄的轮廓图像，而第三行则是包容形状图。从图中，我们可以看到在视角变化时，包容形状的变化很小。

图3 不同视角下和包容形状

虽然我们提出这两个摄像机的摆放按照图1，需要保证成像平面和竖直轴平行同时光轴正交。但是，实际上并不需要严格的摄像机标定。摄像机的摆放大致满足要求即可。正如我们前面提出的，这种表示仅仅是视角不敏感，它的取值是被限制在一个较小的范围内变化。我们将在下一节中展示我们的实验。我们的视频数据都是利用两个大致摆放