面向人机交互的三维人体姿态估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言
基于人体姿态估计的人机交互技术一般由人体 检测和姿态估计两步组成。 人体检测的目的是判断视频图像中是否有人体 存在并定位人体所在的区域。姿态估计则要在 检测得到的人体区域上确定人体的各个部分的 状态以及关节的空间连接关系。
文献综述
运动人体的行为识别和理解是计算机视觉中的高层处理过程,同时 也是运动人体视频分析的终极目标。 人体运动的处理单元大致可分为三种级别:动作(movement)、活 动(activity)和行为(behavior)。其中,动作是人体运动中的基元,例 如跳跃和投掷都是运动的基本单元,很显然,动作识别不依核于序列 上下文或者运动相关的先验信息;活动是由一系列动作构成的运动 单元,例如篮球跳投由跳跃一伸展一投掷等一组动作构成,可以看出, 对活动的识别需考虑序列上下文的统计信息;行为则是尺度级别更高 的动作单元,涉及人与人或者人与环境之间的交互过程,例如篮球比 赛的盖帽有别于其他的起跳拦截,是因为它特指进攻球员投篮后防守 队员在空中将球打掉的动作,带有交互目的,因而行为识别需要融合 丰富的先验知识并对人体运动做有语义的辨识。
单目三维姿态估计
算法共由三部分组成: 1)判别式的人体部位三维姿态估计; 2)人体运动学约束的整体三维姿态合成: 3)生成式的整体三维姿态优化。
单目三维姿态估计
在第一阶段的判别式人体部位姿态估计中,这里采用的 是贝叶斯匹配法。将训练数据按照人体部位姿态聚类, 并对每一类别建立图像特征与人体姿态的对应。对于新 的观测,通过贝叶斯匹配法识别当前人体部位的姿态所 属类别。在第二阶段的整体姿态合成中,这里使用人体 运动的内在约束,通过人体运动学公式对三维姿态进行 合成。在第三阶段的生成式整体三维姿态优化中,这里 在人体姿态局部空间上建立高斯模型,并通过基于贝叶 斯EM算法求解最优姿态。
人机交互领域的研究者将计算机视觉领域的研 究成果视为多模态人机交互技术的突破口之一; 而计算机视觉领域的研究者则一直将人机交互 作为一个重要应用背景。利用计算机视觉技术 进行人机交互具有广阔的应用前景,并且取得了 一定的进展。但由于图像质量和硬件的计算能 力、存储资源等限制,基于视觉技术的人机交互 技术的普及还面临诸多困难。
文献综述
当处理对象为视频序列时,时域信息的引入将问题转变为动态过程。 时域信息的用法有多种: l)通过训练动态模型获得时域特征,加强估计模型; 2)通过简单的一阶或二阶时域低通滤波,使估计模型在时域平滑; 3)通过前帧模型估计作为初始条件,加速当前帧估计模型的速度。
单目三维姿态估计
在混合模型里使用人体姿态估计的层次结 构:先将整体姿态划分为几个部位姿态,化 繁为简,经过判别模型估计各部位的三维 姿态;将部位姿态合成为整体姿态,由简 入繁;最后通过生成模型优化三维姿态的 估计。
实验验证
数学概念介绍
贝叶斯网络
贝叶斯网络是一种概率网络。它是基于概率推理的图形化网络 ,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概 率推理的数学模型,所谓概率推理就是通过一些变量的信息来获 取其他的概率信息的过程,基于概率推理的贝叶斯网络是为了解 决不定性和不完整性问题而提出来的,它对于解决复杂设备不确 定性和关联性引起的鼓掌有很大的优势,在多个领域中获得广泛 的应用
文献综述
单目视频的人体姿态估计是指仅使用单个设备捕捉人体运动视频, 并对其中的运动人体姿态进行估计。设人体姿态为x,视频图像观 测为Z,人体姿态估计算法即从z推理得到X。然而,这两者的处理 都存在难度:人体姿态x通常为高维空间,而图像观测z的计算也往 往带有偏差。 在单目情况下,由于观测维度太少,人体的遮挡和自遮挡问题突 出。虽然对人而言估计单目视频中的人体姿态轻而易举,对计算机 而言,z→x则是一个严重的问题。z→ X,从计算机视觉角度来看 是一个静态(Static)问题。
最新研究成果
单目视频的三维人体姿态估计是计算机视觉研究中最具挑战性课 题之一。随着家用视预捕捉设备的普及,基于单目视频三维人体姿 态估计的人机交互系统引起了学术界和工业界的广泛关注。目前脑 神经科学、计算机视觉、机器学习以及人机交互等领域发展迅速, 单目视频的三维人体姿态估计研究及其在人机交互中的应用也面临 着新的发展机遇。
矢量量化
矢量量化是将若干个标量数据组构成一个矢量,然后在矢量空间 给以整体量化,从而压缩了数据而不缺失多少信息。基于其优良的 率失真特性,已经广泛的应用在信号和图像处理领域,例如模式识 别,语音和图像压缩编码
ຫໍສະໝຸດ Baidu
数学概念介绍
聚类算法
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种 统计分析方法。聚类分析是由若干模式组成的,通常,模式是一 个度量的向量,或者是多维空间中的一个点。聚类分析以相似性 为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间 具有更多的相似性
文献综述
文献综述
在图1展示的人机交互技术关系图中,视觉分析既是人类信息处理 模块(H1)的重要工具,也是机器输入设备模块(Cl)所需的必要技术。 面向交互的视觉技术主要包括生物特征识别、唇读、视线跟踪、人 脸表情识别、手势识别与合成、人体行为理解;涉及视觉技术的设 备则有数码相机、摄像头、监控摄像机、网络摄像机、红外摄像机 和摄像机网络等。 在智能交互环境下,人通过非语言方式(包括手势、姿态、注视、 表情等)同机器交流,达到人机交互自然和谐。总而言之,面向智能 交互的人体运动视频分析必须同时具备模型准确、鲁棒、实时以及 自动初始化四个要素,方能成为实用的智能交互核心技术。
单目三维姿态估计
1)可将人体姿态全局空间划分为多个子空间, 每个类别对应一个子空间。类别内所有样 例均相似,故对应的子空间可通过高斯模 型表征,从而将复杂的高维非线性问题化 简为多个低维的线性问题.这种特性,使得 贝叶斯匹配成为可能. 2)可提高判别模型的识别速度。识别时,算 法可先对每个类别先行判断,进而判断类 中样例,有效降低匹配运算量
最新研究成果
针对人体姿态估计,介绍了判别模型和生成模型相结合的三维人 体姿态估计数学模型。通过判别模型确定目标姿态的子空间,进而 通过生成模型求解目标姿态,充分发挥了判别式模型和生成式模型 各自的优势。通过使用该判别一生成混合模型。在判别模型中,采 用基于样例聚类的贝叶斯匹配法则,有效定位问题的局部空间。同 时,提出了使用贝叶斯期望一最大化(EM)算法进行局部空间上三维 人体姿态最优化。该算法通过多次迭代可有效的精细化姿态估计, 提高最终所得三维人体姿态的准确度。并且,通过实验,介绍了这 样一个面向人机交互的三维人体姿态估计的实际的实验,让大家更 加清楚明白。
单目三维姿态估计
判别模型和生成模型是统计学习模型的两种类别。判别模型是一 类有监督的学习方法,需要训练数据集中的状态值x有对应的观 侧值z;而生成模型则是无监督的,只需给一定数量的状态值x即 可用于模型训练。 判别模型的使用困难在于数据往往不够充分,尤其在观测具有噪 声时更加难以处理。相反的,生成模型的训练只需状态数据来估 计模型参数或采样,数据准备工作简单,一旦模型与所估问题匹 配,能够准确表述所有状态。生成模型由于很难获得描述问题的 准确模型,尤其是在高维空间内,参数估计或采样都是难以驾驭 的问题。
文献综述
目前用到最多的也是无重建的行为识别技术。作为一种人体 运动分析技术,无重建的行为识别技术面临两方面的问题:观测和 状态的表达以及从观测变量到状态变量的推理模型.相对于运动 人体检测和姿态估计,人体行为识别除了需要利用静态图像特征, 还必须充分使用各种人体行为内在固有的动态运动特征,因而算 法多着重空间和时域信息的表达与融合。
最新研究成果
美国康奈尔大学个人机器人实验室开发出一款机器人,能学习预测人类行为, 以便进一步在人类需要时伸出援助之手——更准确地说,是滚过来伸出援助之爪 。 这款新机器人用一个微软Kinect3D 摄像机和一个3D 视频数据库,紧密跟随盯 着“主人”,能识别出它所看到的行为,“思考”该环境中各种目标物的可能用 途是什么,并确定那些用途怎样才能与主人的行为相匹配。然后,它会生成一系 列的可能性——比如吃东西、喝饮料、做清洁、收拾物品等——最后选择最有可 能的一项。随着行为的持续,机器人也在不断更新和改善它的预测。 “我们总结提炼了人类行为的一般规则。”康奈尔大学计算机科学教授阿苏托 什· 塞克森纳解释说,“喝咖啡是一项‘大活动’,但它包含了许多小部分。” 机器人为这些小部分建立了一个“词汇表”,能将它们以不同方式组合在一起, 从而识别出多种“大活动”。 在测试中,当机器人预测未来1 秒钟要发生的事时,准确率达到82%;预测3 秒钟的事准确率为71%;而预测未来10 秒的准确率为57%。 “即使人类是可预测的,他们也只能预测一部分时间。”塞克森纳说,目前他 们的机器人几乎还是硬编码反应,但应该有一种机器人学习怎样反应的方式。未 来将会解决机器人怎样计划自己行为的问题。
LOGO
C
l
i
c
k
t
o
a
d
d
y
o
u
r
t
e
x
t
Research on Human Pose Estimation for HCI Application
面向人机交互的三维人体姿态估计
Contents
1 2 3 4
引言 文献综述 单目三维姿态估计 实验讲解
5
6
数学概念介绍
世界最新研究成果
7
结论
引言
自组织映射算法
自组织映射算法是聚类分析中广泛使用的一种无监督学习的神经网 络算法。他通过自组织方式用大量的训练样本数据来调整网络的权 值。U矩阵是对自组织映射的可视化表示
数学概念介绍
高斯混合模型
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化 事物,将一个事物分解为若干的基于高斯概率密度函数(正态分 布曲线)形成的模型。 高斯混合模型已经广泛应用于鲁棒的复杂场景背景建模,特别是 在有微小重复运动的场合,如摇动的树叶、灌木丛、旋转的风扇、 海面波涛、雨雪天气、光线反射等。基于像素的高斯混合模型对 多峰分布背景进行建模很有效,能适应背景的变化(如光线渐变), 并能基本满足实际应用中对算法的实时性要求
LOGO