深度图像报告
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
深度图像的研究现状
深度摄像机按照成像原理划分主要有飞行时间法(TOF)、结构光 (Structured Light)、三维激光扫描(Laser Scanner)等几种,主要应用于 机器人,互动游戏等领域。 利用深度图像进行模式识别是近年来兴起的一种方法。原因是即便 上述三种深度图摄像机价格越来越便宜,并且在工业上得到广泛应用, 但是对于研究领域还是非常昂贵。 以色列的一家公司 PrimeSense 于 2010 年 4 月推出为微软 Xbox 专用的三维测量技术的外部设备 Kinect,成本较低,应用 Kinect 设备,
实的人类行为的识别。
12类人类日常行为,包括:打电话,擦地,进入房间,走出 房间,去睡觉,起床,吃饭,喝水,坐下,站起来,脱掉夹克,
穿上夹克。还有一个类,叫做背景行为,它包括不同形式的随机
行为 。
2、MSR Daily Activity 3D dataset ——Mining Actionlet Ensemble for Action Recognition with Depth Cameras 包括16种行为:drink, eat, read book, call cellphone, write on a paper, use laptop, use vacuum cleaner, cheer up, sit still, toss paper, play game, lie down on sofa, walk, play guitar, stand up, sit down。如果可能的话, 每个行为都有两种姿势: “sitting on sofa” and “standing”.总共有320个行为样本
Object Dataset
这个数据集分成51类包括300个日常用品,这个数据集中 的物体被组织成categories and instances(例如:the class dog contains images from many different dogs ),并且每 个物体都从多角度拍摄,使用WordNet hyponym/hypernym关系
Baidu Nhomakorabea
kinect的工作模式主要是识别人体及相关的动作, 而识别人 体的最主要核心就是骨架。通过骨骼的追踪, kinect 把人体的动
作扫描到计算机上, 并做相关的模拟及操作。
Kinect技术及工作原理主要包括三个方面, kinect传感器、 深度识别技术和人体骨骼追踪技术。
利用深度图像所做研究
• 人体识别 1. 人体的检测与跟踪 2. 手势识别 3. 姿势识别 4. 人体部位识别 5. 人脸识别、性别识别
1、 RGBD-HuDaAct——RGBD-HuDaAct: A Color-Depth Video Database For Human Daily Activity Recognition(未下载到) 公开的人类行为数据库,包括同步的color-depth video streams ,用于人类日常行为的识别,这个数据集的目标是对真
4. A Large-Scale Hierarchical Multi-View RGB-D Object Dataset
5. Going into depth: Evaluating 2D and 3D cues for object classification on a new, large-scale object dataset 6. Learning to segment humans using the Kinect 7. 3D with Kinect 8. RGBD-HuDaAct: A Color-Depth Video Database For Human Daily Activity Recognition 9. Learning shape models for monocular human pose estimation from the Microsoft Xbox Kinect 10. Real Time Hand Pose Estimation using Depth Sensors 11. Towards Robust Cross-User Hand Tracking and Shape Recognition
十个不同的人做3次,每秒15帧,一共402个动作样本23797帧。
近期所看论文列表 1. Mining Actionlet Ensemble for Action Recognition with Depth Cameras 2. People Detection in RGB-D Data 3. Mining Actionlet Ensemble for Action Recognition with Depth Cameras
物体分类方法:Depth HOG和SVM
3.
RGB-D People Dataset ——People Detection in
RGB-D Data
这个数据集包括了3000多个在大学走廊的画面,绝大
多数数据包括直立行走的人和站立的人,从不同的角度看,
并且有不同程度的遮挡。
• Depth
Action Dataset
projected to the RGB images as
深度图如下两个性质 :
• 颜色无关性(与彩色图像相比,深度图像不会有光照、阴影、以及 环境变化的干扰) • 灰度值变化方向与相机所拍摄的视场方向z 方向相同(利用深度图 像可以在一定范围内重建 3D 空间区域,并且可以从一定程度上解决 物体遮挡或同一物体各部分重叠的问题)。根据深度,可以很容易地 把前景和背景分开,这使得识别的难度大大降低。
主要内容
• 深度图像(Depth Map)和Kinect介绍 • 利用深度图所做的研究
• 可用数据集和论文
深度图像
深度图像也称为距离图像,是指从观察视角看去,图像所 包含信息与场景中物体表面距离相关的一种图像或一种图像通 道。在深度图像中像素点的灰度值对应于场景中点的深度值。 Kinect returns “inverse depth” A 3D point XIR
3、MSR-Action3D Dataset——Mining Actionlet Ensemble for Action
Recognition with Depth Cameras 包括20种行为:high arm wave, horizontal arm wave,hammer, hand catch, forward punch, high throw, draw x,draw tick, draw circle, hand clap, two hand wave, sideboxing, bend, forward kick, side kick, jogging, tennis swing, tennis serve, golf swing, pick up & throw。每个动作都由
6. 日常行为与事件识别
• 一般物体识别 1. 物体检测 2. 物体分类 3. 物体识别
可用数据集
• RGB-D Dataset(分为一般物体和人)
1. RGB-D Object Dataset (家居中日常用品,小物件为 主)—— A Large-Scale Hierarchical Multi-View RGB-D
将物体组织成一个分层的类结构。
2. B3DO: Berkeley 3-D Object Dataset(家居中日常用品,
大家具,小物件为主)—— A Category-Level 3-D Object
Dataset: Putting the Kinect to Work
数据集包括了很多类,每个类也包括了许多不同的 实例,这个数据集不是在一个可控的转台上拍摄的而是 在自然环境下拍摄的,在真实的房间和办公室,不同的 光照和角度。更具有实用性。
极大地激发了研究者们的兴趣,特别是计算视觉和模式识别的研究者们。
Kinect
kinect有三个摄像头, 中间是 RGB彩色摄像头, 两边是红外线发射 器和CMOS摄像机, 分别用于发射红 外线和接受数据 。 其工作过程是通过CMOS红外传 感器来感知摄像头前面的环境, 使用 黑白光谱的方式来判断前面对应的物 品与传感器的物理距离, 收集摄像头 视野里的每一点, 然后每30MS整合出 一幅深度图像, 并且用3D的效果模 型显示出来