Kinect学习笔记 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Kinect骨骼追踪功能
如下图所示，其中十字架代表被像素被分的类别，而圆圈表示公式计算出的偏移像素。若偏移像素是背景，d1(x)深度值将会是正无穷大。
a.两个具有较大响应的特征
b.两个具有较小响应值的特征
Kinect骨骼追踪功能
接着训练一个决策树分类器。决策树森林即众多决策树的集合，每棵树用一组预先标签的身体部位的深度图像来训练，决策树被修改更新，知道决策树为特定的身体部位上的测试集的图像给出了正确的分类。用100w幅图像训练3颗树，利用GPU加速，在1000个核的集群去分析。根据微软实验，大概耗时一天。这些训练过的分类器指定每一个像素在每一个身体部分的可能性。
四只耳朵：四元线性麦克风阵列
• 声音从4个麦克风采集，内置数字信号处理器DSP等组件，同时过滤背景噪声，可定位声源方向。
Kinect基本功能
彩色图像
红外图像
深度图像
Kinect基本功能
人体索引
人体骨骼
语音识别
Kinect基本功能
彩色数据: • 1920 x 1080 • 30 or 15 fps（帧/秒） • 彩色图像有多种格式可以选择，如： Rgba，Yuv，Yuy2等红外（IR）数据： • 512 x 424 • 30 fps（帧/秒） • 每个像素16-bit 深度数据： • 测量范围：0.5-4.5米 • 每一个像素为16-bit，该数据表示从深度（红外）摄像头到该物体的距离，单位毫米。人体索引： • Kinect用一个字节表示当前深度坐标下该像素的人体编号。目前最大支持6人。 • 每像素数据值 • 0 - 5：表示被跟踪的人体索引编号 • -1（0xFF）：未发现人体骨骼追踪 • 测量范围： 0.5-4.5 米 • 帧数据是一个人体25个关节点的集合，每个帧都包含关节的3D位置和方向 • 最多支持6个人体 • 30 fps（帧/秒） • 可以识别其中两个人体的手势 • 人体跟踪的三种状态：Not tracked、 Inferred、Tracked
Kinect应用场景
计算机应用、游戏 ——各种各样的体感游戏机器人视觉与控制、3D建模 ——室内三维场景重建物联网智能化领域、医疗 ——医疗康复领域中的“智能化运动分析和训练系统” 教育领域 ——基于Kinect for Windows的幼儿教育解决方案
Kinect骨骼追踪功能
生成3D深度图像将人体从背景中分离确定身体的部位生成骨架系统
Kinect骨骼追踪功能
Kinect会对分离后景深图像利用机器学习进行评估，来判别人体的不同部位。
在识别人体的各部位之前，微软是通过开发的一个人工智能（被称为 Exemplar （模型）系统），数以 TB 计的数据输入到集群系统训练模型，左图就是用来训练和测试 Exemplar 的数据之一。
Kinect骨骼追踪功能
接着为每一个身体部位挑选最大几率的区域。因此，如果“手臂” 分类器是最大的几率，这个区域则被分配到“手臂”类别。最后一个阶段是计算分类器建议的关节位置（节点）相对位置作为特别的身体部位，如图所示。
Kinect骨骼追踪功能
只要有大字形的物体，Kinect 都会努力去追踪，如图所示。当然，这个物体也必须是接近人体的大小比例，尺寸小的玩具是无法识别的。
Kinect学习笔记
Gong 2017.3.6
目录
1. 2. 3. 4. 5. Kinect简介 Kinect硬件构成 Kinect基本功能 Kinect应用场景 Kinect骨骼追踪功能
Kinect简介
Kinect是一种3D体感摄影机,具有即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能。微软于2014年10月发布了公共版的第二代 Kinect for Windows 感应器及其软件开发工具包（SDK 2.0）
Kinect简介
第二代Kinect for Windows传感器的特性包括： • 1080P高清视频 • 更宽阔的视野 • 骨骼追踪的改进 • 新的主动式红外检测 • 改进的麦克风（零点平衡） • 识别6人、25个骨骼点 • 拇指追踪、手指末端追踪、打开和收缩的手势
Kinect硬件构成
彩色感应镜头深度感应镜头红外线投影机
在Kinect前放一个没有体温的塑料人体模特，或者一件挂着衬衣的衣架，Kinect会认为那是一个静止的人。红外传感器所能捕捉的只是一个人体轮廓。
Kinect骨骼追踪功能
模型匹配：生成骨架系统
在上阶段输出结果的基础之上，根据追踪到的关节点来生成一幅骨架系统。 Kinect 会评估 Exemplar 输出的每一个可能的像素来确定关节点。通过这种方式Kinect能够基于充分的信息最准确地评估人体实际所处位置。另外模型匹配阶段还做了一些附加输出滤Biblioteka Baidu镜来平滑输出以及处理闭塞关节等特殊事件。
麦克风阵列
Kinect硬件构成
三只眼睛：彩色感应镜头、深度感应镜头、红外线投影机
• 彩色感应镜头：用于拍摄视角范围内的彩色视频图像。 • 红外线投影机：主动投射近红外光谱，照射到粗糙物体、或是穿透毛玻璃后，光谱发生扭曲，会形成随机的反射斑点（称为散斑），进而能被深度感应镜头读取。 • 深度感应镜头：分析红外光谱，创建可视范围内的人体、物体的深度图像。
Kinect骨骼追踪功能
训练分类器的分类方法，提出的是一种含有许多深度特征的分类器，来识别物体，该特征虽然简单却包含必要的信息，来确定身体的部位，其公式如下：
其中x是像素值，d1(x)是像素值在图像I中的深度值，参数θ =(u，v)，u和v是一对偏移向量，1/d1(x)是偏移正规化，用来处理人体尺寸的缩放，这是一个非常简单的特征，也就是简化目标像素u和v值这两个像素深度偏移的不同。很显然，这些特征测量与像素周围的区域的3D外形相关，这足以说明手臂和腿之间的区别。
Kinect骨骼追踪功能
深度图像的生成原理：
采用PrimeSence公司Light Coding技术，利用连续光 (近红外线)对测量空间进行编码，经感应器读取编码的光线，交由晶片运算进行解码。
特点：
Kinect骨骼跟踪不受周围光照的影响，主要是因为红外信息，产生3D深度图像。
Kinect骨骼追踪功能
Kinect采用分隔策略将人体从复杂的背景中区分出来，在这个阶段，为每个跟踪的人在深度图像中创建分割遮罩（分割遮罩为了排除人体以外背景图像，采取的图像分割的方法），如图这是一个将背景图像（比如椅子和宠物等）剔除后的景深图像。在后面的处理流程中仅仅转送人体图像即可，以减轻体感计算量。