Kinect学习笔记

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Kinect骨骼追踪功能
如下图所示,其中十字架代表被像素被分的类别, 而圆圈表示公式计算出的偏移像素。若偏移像素 是背景,d1(x)深度值将会是正无穷大。
a.两个具有较大响应的特征
b.两个具有较小响应值的特征
Kinect骨骼追踪功能
接着训练一个决策树分类器。决策树森林即众多决策树的集合,每棵树用 一组预先标签的身体部位的深度图像来训练,决策树被修改更新,知道决 策树为特定的身体部位上的测试集的图像给出了正确的分类。用100w幅 图像训练3颗树,利用GPU加速,在1000个核的集群去分析。根据微软实 验,大概耗时一天。这些训练过的分类器指定每一个像素在每一个身体部 分的可能性。
四只耳朵:四元线性麦克风阵列
• 声音从4个麦克风采集,内置数字信号处理器DSP等组件,同时过滤 背景噪声,可定位声源方向。
Kinect基本功能
彩色图像
红外图像
深度图像
Kinect基本功能
人体索引
人体骨骼
语音识别
Kinect基本功能
彩色数据: • 1920 x 1080 • 30 or 15 fps(帧/秒) • 彩色图像有多种格式可以选择,如: Rgba,Yuv,Yuy2等 红外(IR)数据: • 512 x 424 • 30 fps(帧/秒) • 每个像素16-bit 深度数据: • 测量范围:0.5-4.5米 • 每一个像素为16-bit,该数据表示 从深度(红外)摄像头到该物体的 距离,单位毫米。 人体索引: • Kinect用一个字节表示当前深度坐标下 该像素的人体编号。目前最大支持6人。 • 每像素数据值 • 0 - 5:表示被跟踪的人体索引编号 • -1(0xFF):未发现人体 骨骼追踪 • 测量范围: 0.5-4.5 米 • 帧数据是一个人体25个关节点的集合, 每个帧都包含关节的3D位置和方向 • 最多支持6个人体 • 30 fps(帧/秒) • 可以识别其中两个人体的手势 • 人体跟踪的三种状态:Not tracked、 Inferred、Tracked
Kinect应用场景
计算机应用、游戏 ——各种各样的体感游戏 机器人视觉与控制、3D建模 ——室内三维场景重建 物联网智能化领域 、医疗 ——医疗康复领域中的“智能化运动分析和训练系统” 教育领域 ——基于Kinect for Windows的幼儿教育解决方案
Kinect骨骼追踪功能
生成3D深度图像 将人体从背景中分离 确定身体的部位 生成骨架系统
Kinect骨骼追踪功能
Kinect会对分离后景深图像利用机器学习 进行评估,来判别人体的不同部位。
在识别人体的各部位之前, 微软是通过开发的一个 人 工智能 (被称为 Exemplar (模型)系统),数以 TB 计的数据输入到集群系统 训练模型,左图就是用来 训练和测试 Exemplar 的数 据之一。
Kinect骨骼追踪功能
接着为每一个身体部位挑选最大几率的区域。因此,如果“手臂” 分类器是最大的几率,这个区域则被分配到“手臂”类别。最后一 个阶段是计算分类器建议的关节位置(节点)相对位置作为特别的 身体部位,如图所示。
Kinect骨骼追踪功能
只要有大字形的物体,Kinect 都会努力去追踪,如图所示。当然, 这个物体也必须是接近人体的大小 比例,尺寸小的玩具是无法识别的。
Kinect学习笔记
Gong 2017.3.6
目录
1. 2. 3. 4. 5. Kinect简介 Kinect硬件构成 Kinect基本功能 Kinect应用场景 Kinect骨骼追踪功能
Kinect简介
Kinect是一种3D体感摄影机,具有 即时动态捕捉、影像辨识、麦克风输入、 语音辨识、社群互动等功能。 微软于2014年10月发布了公共版 的第二代 Kinect for Windows 感应器 及其软件开发工具包(SDK 2.0)
Kinect简介
第二代Kinect for Windows传感器的特性包括: • 1080P高清视频 • 更宽阔的视野 • 骨骼追踪的改进 • 新的主动式红外检测 • 改进的麦克风(零点平衡) • 识别6人、25个骨骼点 • 拇指追踪、手指末端追踪、打开和收缩的手势
Kinect硬件构成
彩色感应镜头 深度感应镜头 红外线投影机
在Kinect前放一个没有体温的塑料 人体模特,或者一件挂着衬衣的衣 架,Kinect会认为那是一个静止的 人。红外传感器所能捕捉的只是一 个人体轮廓。
Kinect骨骼追踪功能
模型匹配:生成骨架系统
在上阶段输出结果的基础之上,根据 追踪到的关节点来生成一幅骨架系统。 Kinect 会评估 Exemplar 输出的每一 个可能的像素来确定关节点。通过这 种方式Kinect能够基于充分的信息最 准确地评估人体实际所处位置。另外 模型匹配阶段还做了一些附加输出滤Biblioteka Baidu镜来平滑输出以及处理闭塞关节等特 殊事件。
麦克风阵列
Kinect硬件构成
三只眼睛:彩色感应镜头、深度感应镜头、红外线投影机
• 彩色感应镜头:用于拍摄视角范围内的彩色视频图像。 • 红外线投影机:主动投射近红外光谱,照射到粗糙物体、或是穿透 毛玻璃后,光谱发生扭曲,会形成随机的反射斑点(称为散斑), 进而能被深度感应镜头读取。 • 深度感应镜头:分析红外光谱,创建可视范围内的人体、物体的深 度图像。
Kinect骨骼追踪功能
训练分类器的分类方法,提出的是一种含有许多深度 特征的分类器,来识别物体,该特征虽然简单却包含 必要的信息,来确定身体的部位,其公式如下:
其中x是像素值,d1(x)是像素值在图像I中的深度值,参数θ =(u,v),u和v是 一对偏移向量,1/d1(x)是偏移正规化,用来处理人体尺寸的缩放,这是一个 非常简单的特征,也就是简化目标像素u和v值这两个像素深度偏移的不同。 很显然,这些特征测量与像素周围的区域的3D外形相关,这足以说明手臂和 腿之间的区别。
Kinect骨骼追踪功能
深度图像的生成原理:
采用PrimeSence公司Light Coding技术,利用连续光 (近红外线)对测量空间进行编码,经感应器读取编码的 光线,交由晶片运算进行解码。
特点:
Kinect骨骼跟踪不受周围光照的影响,主要是因为红外 信息,产生3D深度图像。
Kinect骨骼追踪功能
Kinect采用分隔策略将人体从复杂 的背景中区分出来,在这个阶段, 为每个跟踪的人在深度图像中创建 分割遮罩(分割遮罩为了排除人体 以外背景图像,采取的图像分割的 方法),如图这是一个将背景图像 (比如椅子和宠物等)剔除后的景 深图像。在后面的处理流程中仅仅 转送人体图像即可,以减轻体感计 算量。
相关文档
最新文档