微软Kinect三维测量及人体姿势识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《精密测试理论与技术B》
综合设计
题目微软Kinect三维测量及人体姿势识别
班级测控一班
姓名王一霖
学号3012210020
指导教师孙长库
微软Kinect三维测量及人体姿势识别
王一霖
(精仪学院,测控一班,3012210020)
摘要:微软的kinect技术已经问世数年,由于它对空间的额测量比较准确,围绕它可以进行有效的三维测量和姿势识别。本文详细分析介绍了kinect的三维人体跟踪算法、深度识别算法、人体姿势识别算法,通过分析Kinect 获取的深度图信息来对人体轮廓进行区分判定,提取前景目标区域以及计算目标区域的深度直方图。通过对深度直方图进行分析去除背景区域部分,根据获取的深度直方图求取跟踪图像的深度反向投影; 最后结合Camshift 算法确定当前选取目标区域的尺寸和中心位置来进行对人体的实时跟踪。还利用kinect进行了导轨直线度的设计测量,并分析了测量不确定度。
关键词:kinect;深度信息;Camshift算法;反向投影
1.引言
姿势识别是机器视觉领域的研究热点.被广泛应用在人机交互、行为分析、多媒体应用和运动科学等领域。姿势识别主要有两种方法。第一种是利用可穿戴传感器,比如戴在身体上的加速度计或装在衣服上的张力传感器。可穿戴传感器具有精确直接的特点,但会对肢体运动造成束缚,会给用户带来额外的负担。第二种是利用视觉捕捉技术,例如视频或者静态图像,通过对视觉数据的处理来判断用户的动作。基于视觉捕捉技术在特征表达方面,起初是采用人体轮廓作为姿势特征表达。但是轮廓特征从整体角度描述姿势,忽略了身体各部位的细节,不能精确地表示丰富多彩的人体姿势。有研究采用基于身体部位的姿势表达,即把人体轮廓分成若干个身体部位,例如颈部、躯干和腿。[1]由于这些姿势特征都是从二维彩色图像中抽取而来.需要处理人体定位、肢体被遮挡、不同光照条件等问题。近年来,Kinect等深度传感器不仅提供彩色图像数据,而且提供了三维深度图像信息。三维深度图像记录了物体与体感器之间的距离,使得获取的信息更加丰富。利用Kinect的实时骨骼跟踪技术和支持向量机(support vector machine SVM)识别4种姿势(站,躺,坐和弯腰)。本文采用Camshift自适应飘移算法和深度图像处理对人体进行跟踪,采用逻辑回归算法对54种姿势进行识别研究,设计开发实时的人体姿势识别系统,并应用kinect对导轨直线度进行测量,并分析不确定度。[2]
2. 跟踪算法
2.1 人体跟踪算法
为了对人体进行持续有效有效的姿势识别,必须使用良好有效的算法对人体进行跟踪。我采用了连续自适应均值偏移算法(Cambridge算法),该算法是以颜色直方图为目标模型的跟踪算法,可以有效地解决人体目标变形的问题,在简单背景环境中能取得较好的跟踪效果,但在复杂背景中不能解决大面积同色干扰等问题。在此基础上可以利用Kinect 传感器获取深度图信息,根据获取的深度信息结合Camshift 算法来进行对人体的实时跟踪。该算法通过分析Kinect 获取的深度图信息来对人体轮廓进行区分判定,提取前景目标区域以及计算目标区域的深度直方图,再对深度直方图进行分析去除背景区域部分; 根据获取的深度直方图求取跟踪图像的深度反向投影并结合Camshift 算法确定当前选取目标区域的尺寸和中心位置对人体实时跟踪。提高了人体跟踪的稳定性及鲁棒性。
具体算法如下[3]:
(1)读取第1 帧视频图像,提取出其中的Cb、Cr 颜色分量
(2)通过手动选择确定初始目标及其区域,并以此区域初始化搜索窗口,提取目标的颜色直方图
(3)保持搜索窗中心不变适当扩大搜索区域,计算目标颜色概率直方图,转换为颜色概率投影图
(4)在概率投影图上利用Camshift 算法,计算出搜索窗新的质心位置,然后移动搜索窗的中心到新计算的质心位置。Camshift 算法寻找新质心方法为先计算跟踪窗口内的质心(X c,Y c),其中零阶矩和一阶矩为
M00=∑∑I c(x,y)
y
x ,M10=∑∑xI c(x,y)
y
x
, (2.1)
M01=∑∑yI c(x,y)
y
x
(2.2)2.2 深度图像获取
利用可见光图像的单目识别常常遭遇光照变化、阴影、物体遮挡以及环境变化等因素的干扰。利用深度图像进行模式识别可以很好地克服以上可见光图像模式识别常遇到的困难深度图像中像素的灰度值仅与视场窗口平面到物体表面的距离有关。因此,深度图像首先具有空间颜色无关性,不会遇到光照、阴影等因素的影响。其次,深度图像的灰度值与图像的横、纵坐标组合在一起,在一定的空间范围内,可以用来表示物体在3D空间中的坐标,因此可以等效成在3D 空间中进行模式识别。再者,如果利用图像深度信息进行模式识别,就相当于单目3D 空间模式识别,可以克服遮挡或重叠问题。更重要的是,深度图摄像机的成像原理可以很好地保证相机标定的鲁棒性,适应各种环境变化,使之容易自调节重新标定且不需要测量标定物。这样,系统研发可以更多关注识别算法本身,而不会过分依赖于标定等前端工作的准确性,极大地简化了实际应用系统的复杂程
度。
假设图像深度值的变化方向( 即摄像机拍摄方向) 与所需要描述的三维场景的视场方向Z 方向相同的话,那么就能够很容易地描述整个三维场景。因此,深度图像也称为距离图像。与彩色图像相比,深度图像能直接反映物体表面的三维特征,且不受光照、阴影和色度等因素的影响。在局部空间范围内和不需要颜色域信息时,深度图像可以代替双目成像[1]。
根据深度图像的定义,如图2-1,可以得到深度图如下2个性质:
1) 颜色无关性。该性质表明深度图像与彩色图像不同,不会有光照、阴影、以及环境变化的干扰;
2) 灰度值变化方向与视场Z 方向相同。该性质表明,利用深度图像可以在一定范围内重建3D空间区域,并且可以在一定程度上解决物体遮挡或同一物体各部分重叠的问题。利用特性,即使2个物体有遮挡部分,物体前后关系在深度图中产生的距离差别,即灰度值的分层性,也可以用某个阈值将遮挡物体或者同一物体的不同部分分割开来,这是可见光图像无法做到的。
图2-1 真实图片(左)与深度图片(右)
获取深度图像的光编码成像系统如图2-2所示,组成成像系统的三个核心元件包括: 激光发射器,不均匀透明介质,CMOS 感光器件。其中,激光发射器与CMOS 感光器件成一定角度对准目标场景,而不均匀透明介质放置于激光发射器镜头前。激光发射器透过不均匀介质发射激光,在场景中形成激光散斑。CMOS 感光元件可以拍摄散斑图像[5]。