基于单目视觉的手势识别系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

杜 威 李 华


在交互式图形学和虚拟现实的应用领域中 用户界面变得越来越重 人们希望计算机视觉在人机交 用于 该系统仅用一个摄像机来实现 进而提高了系统的稳 符 本文描述一个实时的基于视觉的手势识别系统 与以前的工作不同 避免了多目视觉的特征匹配问题
要 由于视觉是人类从外界获取信息的主要器官 互技术中发挥重要的作用 替代鼠标与计算机进行交互 多个手势的识别与跟踪 合人体感官的用户界面 关键词
同 Reach rule
图 7 足球场上的虚拟漫游 用 Point 手势控制裁判的运动 运动方向为手指所指的方向 右图
4 总 结
本文描述了一个基于视觉的手势识别系统 可以替代鼠标用作输入设备 通过限制用 一个皮肤 户的手在平面上运动 该系统仅使用一个摄像机完成跟踪和识别多个手势的任务
颜色滤波器负责提取手势区域 为提高系统的鲁棒性 整体统计特征和基于轮廓的局部特征 被提取 一个有限状态自动机实现对手势特征的分类 经过实验证明 该系统不但快速稳定 而且与用户无关 是一种有前途的交互方式 参 考 文 献
engineeringgraphics20002000no3基于单目视觉的手势识别系统在交互式图形学和虚拟现实的应用领域中用户界面变得越来越重由于视觉是人类从外界获取信息的主要器官人们希望计算机视觉在人机交技术中发挥重要的作用本文描述一个实时的基于视觉的手势识别系统用于替代鼠标与计算机进行交互与以前的工作不同该系统仅用一个摄像机来实现多个手势的识别与跟踪避免了多目视觉的特征匹配问题进而提高了系统的稳定性和识别速度进一步的实验证明基于视觉的交互系统是一种自然舒适合人体感官的用户界面关键词人机交互用户界面计算机视觉手势识别与跟踪跟踪和识别在空间中移动的手势是一种高效的人机交互方式计算机视觉使这种技术成为可能与鼠标相比手势不但提供了更加丰富的空间信息而且自然舒适符合用户的交互习惯本文描述一个基于视觉的手势识别系统与以前的工作不同该系统仅使用一个摄像机实现了手势识别和跟踪避免了多摄像机的匹配问题个计算机游戏和虚拟现实的漫游导航中取代鼠标该系统已作为输入设备应用到一系统的总体概括系统的流程图如图分割过程特征提取过程识别过程系统流程图它由三个部分作成本文于2000月收到本文得到国家重点科技攻关课题的资助第一作者1974年生博士研究生主要研究领域为虚拟现实基于图像的绘制和计算机视觉识别出的手势命令在特征空间中表示的手势特征分割的rgb空间中表示的视频图像分割过程该过程负责从输入图像中提取手势区域主要使用一个皮肤颜色过滤分割过程输出一个二值图像其中属于手势的像素赋值为特征提取过程该过程从手势图像中提取两类特征一类是整体统计特征cog和主轴方向另一类是基于轮廓的局部特征包括指尖和指根整体特征和局部特征构成一个特征向量用于识别和跟踪手势手势识别过程该过程将手势特征转换为手势命令系统使用有限状态自动机fsm完成对手势的聚类该系统使用一个ccd摄像机捕捉图像摄像机被置与桌面的上方图像的空间分辨率320240颜色分辨率为24在奔腾iii500mhz的机器上运行该系统具有较高的识别速度和正确率具体细节在下面的章节中予以介绍基于视觉的手势识别和跟踪21基于颜色的分割分割是一个逐步求精的过程分为两个步骤首先用当前图像减去背景图像得到差分图像只有被运动物体选择合适的阈值将大于阈值的像素置为目标区域的候选像素由于阴影的产生和光照的改变上面的分割结果非常粗糙需要进一步求精系统使用从候选像素中提取手势区域这种方法假设人的皮肤颜色在某个颜色间中聚集在紧致
定性和识别速度 进一步的实验证明
基于视觉的交互系统是一种自然舒适
人机交互 用户界面 计算机视觉 手势识别与跟踪
0 引 言
跟踪和识别在空间中移动的手势是一种高效的人机交互方式 为可能 与鼠标相比 手势不但提供了更加丰富的空间信息 避免了多摄像机的匹配问题 互习惯 本文描述一个基于视觉的手势识别系统 像机实现了手势识别和跟踪 个计算机游戏和虚拟现实的漫游导航中 取代鼠标 计算机视觉使这种技术成 符合用户的交 该系统仅使用一个摄 而且自然舒适
Reach Null Null
Ground
Point Ground
Point
Ground
Reach
Reach
Test
Point
Click
图 5 用来识别手势的有限状态自动机 FSM
FSM 从 Start 状态开始 如果提取的手势特征符合 Ground 规则 则 当前状态将相应地跳到 Ground
Reach 规则或 Point 规
方向可由指尖点和轮廓线上指尖点前后的一段边界点用线性平均的方法求得 游的效果
图 7 给出漫
(a) Rock rule
同 Ground rule (b) Scissors rule number(Tip) =2 and number(Root)=1 图 6 表示石头 剪子和布的三种手势
(c) Paper rule
(a) 指尖和指根被标识为实心方 块 重心被标识为加号
(b) 显示了等效矩形 矩形中心为图像的 重心 图 3 提取出的手势特征 和主轴方向 矩形的长轴方向
2.3
用 FSM 识别手势 根据应用程序的特点 为每个应用程序定义不同的手势 手势应该即容易识别 又符合 Reach Click 和 Ground 类似 Segen 的
Reach 和 Point 状态 这意味着 Ground Reach 或 Point 那么当前状态将变换到 Test 如果下一个手势也是
手势被发现 如果当前状态为 Ground 或 Reach 它们将无条件地跳回 Start 状态 如果当前 状态为 Point 同时一个 Ground 手势被发现 符合 Ground 规则 状态 以检验该手势真地是 Ground 还是在两个 Point 之间的 Click
一个皮肤颜色过滤器 从候选像素中提取手势区域 空间中聚集在紧致的区域内 在文献[2]中已被证明
这种方法假设人的皮肤颜色在某个颜色 系统将输入图像从 RGB 颜色空间变 R,G,B 从 RGB 空间到归一化 RGB
为保证皮肤颜色不受光照条件和颜色深浅的影响 换到归一化的 RGB 颜色空间 对于一个给定的像素 空间的变换为 r= R/(R+G+B+1) 和 g =G/(R+G+B+1) 高斯分布被用作皮肤颜色的分布模型 映射为概率图像
2000 年 工 程 图 学 学 报 2000 第 3 期 JOURNAL OF ENGINEERING GRAPHICS No.3
基于单目视觉的手势识别系统
中国科学院计算技术研究所CAD开放实验室
Ground 说明该手势为 Ground 类 状态也转到 Ground 否则 如果下一个手势是 Point 当 前状态变换到 Click 状态 表示一个 Click 手势被发现 该自动机将持续运行直到发现空手势 在输入图像中没有手势 这样 用 FSM 可以很容易地识别四种基本手势类
4 应用实例
为检验手势识别系统的效果 笔者将该系统作为交互工具应用到两个应用程序中 石头剪子布 包括 一个计算机控制的游戏和虚拟场景中的漫游 下面详细介绍这两个应用 第一个应用是一个流行的交互式游戏 用户与一个智能代理进行游戏 这个 从 因为只有石头 剪子和布三种手势 如图 6 所示 第二个应用是足球场上的虚拟漫游 他的视角观看到比赛进行的情况 所以很容易用上面的方法进行识别
皮肤颜色过滤器将归一化 RGB 空间的候选像素 r,g
其灰度值表示像素属于皮肤的可能性 如果候选像素的颜色值为
该像素属于皮肤的概率被定义为一个二维高斯函数 1 T 1 P ( X ) = exp{ − × d ( X ,U ,Ó )} d ( X , U ,Ó ) = ( X − U ) Ó − ( X − U ) 2 其中 X为归一化的 RGB颜色值 g
(c) 被固定的阀值处理 过的差分二值图像
(d) 经过肤色滤波和中值 滤波的最终分割结果
图 2 分割过程的处理结果
2.2
手势特征提取 由于手的厚度很小 相对与长度和宽度 该系统限制用户的手平行于图像平面运动 一类是基于统计量的特征 包括重心 COG
这样 很容易从二值图像中提取两类特征
主轴方向和等效矩形的边长 该类特征提供了图像的整体信息 对噪声不敏感 另一类特征是基于轮廓线的局部特征 包括指尖和指根等拐点 为提取这类特征 首先 将分割区域的边界按顺序表示成一个像素位置序列 C C ={ Pi = ( xi , yi ) | i=1, n } 然后计算 每一点处的 k 曲率 k 曲率在文献[7] 中被首先引入 第 i 点处的 k 曲率被定义为向量 Pi −k Pi 和 Pi Pi+ k 之间的夹角 其中 k 为预先设定的常数 那些 k 曲率达到局部极值的边界点被标识 为 特征点 其中 k 曲率小于 180 的特征点为指尖 否则为指根 局部特征指尖和指根对噪声十分敏感 所以系统提取整体统计特征来增强系统的鲁棒 性 两类特征组成一个特征向量 V={ COG , è , L , W , Tip, Root} 其中 COG 为重心 è 为主 轴方向 L 和 W 为等效矩形的长和宽 Tip 为指尖坐标集合 Root 为指根坐标集合 该特征 向量提供了手势识别所需的全部信息 如图 3 所示
Point rule Reach rule Ground rule
用 Ground 规则不能区分 Click 类和 Ground 类 因为 Click 只是两个 Point 之间的一个
136
工 程 图 学 学 报 2000 年
Ground 手势 系统使用有限状态自动机 FSM 来识别 Click 手势 状态及其变换
图 5 显示了该 FSM 的
(a) Point
(b) Reach
(c) Ground
(d) click
图 4 四种基本手势类
Stop
No hand Ground Null
Start
Undefined gesture Point
与以前的工作不同
该系统已作为输入设备应用到一
1 系统的总体概括
系统的流程图如图 1 所示在 RGB 空间中 表示的视频图像
分割的 二值手势图像
在特征空间中表 示的手势特征
识别出的 手势命令
分割过程
特征提取过程
识别过程
图 1 系统流程图
它由三个部分作成
本文于 2000 年 5 月收到 本文得到国家重点科技攻关课题的资助 第一作者 杜 威 1974 年生 博士研究生 主要研究领域为虚拟现实 基于图像的绘制和计算机视觉
用户的交互习惯 四种基本手势类被定义为 Point 工作
[3]
如图 4 所示 手势图像根据提取的特征向量被初步分配到某个类中 分配规则如下 number(Tip)=1 and distance(Tip, COG)> d 0 L*W> Tarea or number(Tip) number(Tip)=0 4
型只需建立一次 而且在广泛的光照条件下保持不变
其中概率大于阈值的像素被置为 1 其它
为 0 图 2 给出分割过程的处理结果
第 3 期 杜 威等 基于单目视觉的手势识别系统 135
(a) 背景图像
(b) 输入图像
游戏是手势识别系统最成功的应用 可以达到实时的效果和接近 100% 的识别率 该应用程序模拟一个在足球场上奔跑的裁判员 用户用 Point 手势控制裁判沿着手指的方向运动 手指的
第 3 期 杜 威等 基于单目视觉的手势识别系统 137
1 Francis K H Quek. Comparison of five color models in skin pixel classification. Vision Interfaces and Systems Laboratory Technical Report 1994. Electrical Engineering and Computer Science Department. The University of Illinois at Chicago 2 Benjamin D Zarit. Skin detection in video images. The master thesis, 1999. Vision Interfaces and Systems Laboratory. Electrical Engineering and Computer Science Department. The University of Illinois at Chicago 3 Jakub Segen, Senthil Kumar. Human-computer interaction using gesture recognition and 3D hand tracking. Proceedings of ICIP’98, Chicago 1998, 3:188~192 4 Akira Utsumi, Tsutomu Miyasato, Fumio Kishino, Ryohei Nakatsu. Hand gesture recognition system using multiple cameras, Proceedings of ICPR’96, August, 1996, 1: 667~671
别速度和正确率 具体细节在下面的章节中予以介绍
2 基于视觉的手势识别和跟踪
2.1 基于颜色的分割 分割是一个逐步求精的过程 值的像素置为目标区域的候选像素 由于阴影的产生和光照的改变
[1]
分为两个步骤
首先 用当前图像减去背景图像得到差分 选择合适的阈值 将大于阈 需要进一步求精 系统使用
图像 只有被运动物体 手 覆盖的像素具有明显大于 0 的值 上面的分割结果非常粗糙
134
工 程 图 学 学 报 2000 年
1 2
分割过程
该过程负责从输入图像中提取手势区域 主要使用一个皮肤颜色过滤 该过程从手势图像中提取两类特征 一类是整体统计特征 另一类是基于轮廓的局部特征 包括指尖和指根 如重
r
U 为高斯分布的均值
U r U g
σr 为协方差矩阵 0
2
0 σ2 g
参数 (U r , U g , σr , σ g ) 可以从训练图像集中获得 色滤波后的结果作进一步处理 再选择一个合适的阈值 概率图像被二值化
实验表明 对于固定的摄像机皮肤颜色模 为减少噪声 可以用中值滤波器对肤
器 分割过程输出一个二值图像 其中属于手势的像素赋值为 1 其它为 0 特征提取过程 心 COG 和主轴方向 3 手势识别过程 整体特征和局部
特征构成一个特征向量 用于识别和跟踪手势 该过程将手势特征转换为手势命令 系统使用有限状态自动机 图像的空间分辨率 FSM 完成对手势的聚类 该系统使用一个 CCD 摄像机捕捉图像 为 320 摄像机被置与桌面的上方 240 颜色分辨率为 24 位 在奔腾 III500MHz 的机器上运行 该系统具有较高的识
相关文档
最新文档