基于立体视觉的非穿戴指势识别
Real-Time Human Pose Recognition in Parts from Single Depth Images中文翻译
Real-Time Human Pose Recognition in Parts from Single Depth Images 基于单深度特征图像的实时人体姿态识别摘要:我们提出了一种能够迅速精确地预测人体关节3D位置的新方法,这种方法仅需要单幅深度图像,无需使用时间信息。
我们采用了一种实物识别方案,并设计了一种人体组成中间模型,这种模型能够把高难度的姿势统计问题转化为更简单的像素分类问题。
我们大量、多种多样的训练数据库允许分类器能够估计出身体部位而不受姿势、身体形状和着装等的影响。
最后,我们提出了一种基于人体多个关节的3D检测可信方案,该方案通过重新投影分类结果并建立本地模型。
系统在消费者硬件上以200帧每秒的速度工作。
无论是合成的抑或真实的测试设置,我们的评价体系中多个训练参数都表明极高的精度。
在与相关研究的比较中我们达到了极高的精度要求,并且改进了整个人体骨架相邻匹配的精确度。
1.简介强大的交互式人体跟踪应用有游戏、人机交互、安全、远程呈现甚至健康监护。
随着实时深度相机的出现,这项任务被大大地简化[16,19,44,37,28,13]。
然而,即便是当前最好的系统仍然存在局限性。
尤其是在Kinect发布之前,并没有一款互动式的消费级别的硬件能够处理大范围的人体形状和尺寸[21]。
也有一些系统能够通过追踪一帧帧图案来达到高速度,但是快速初始化的努力却不够强大。
在本论文中,我们集中于姿势识别的研究:通过对单幅深度图像的检测识别出每个骨骼关节的3D位置。
我们对每帧图像的初始化和恢复的集中研究是为了补充一些合适的追踪算法。
[7,39,16,42,13]。
这些将来有可能合并暂停与运动的连贯性。
该算法目前是Kinect游戏平台的核心组成部分。
如图一所示,受最近把实体划分成多个部分进行实物识别的研究方法的影响[12,43],我们的方法可以划分为两个关键性的设计目标:计算效率与鲁棒性。
一幅输入的深度图像被分割成身体紧密概率的标记部分,同时每一部分被定义为在空间上相近的感兴趣的骨骼关节。
基于人体图像生成的姿态无关人物识别
收稿日期:2024-01-10基金项目:国家重点研发计划(2022YFC2405600);国家自然科学基金(62276139,U2001211)引用格式:刘云,夏贵羽,孙玉宝,等.基于人体图像生成的姿态无关人物识别[J].测控技术,2024,43(4):61-67.LIUY,XIAGY,SUNYB,etal.Pose IndependentPersonIdentificationBasedonHumanBodyImageGeneration[J].Measure ment&ControlTechnology,2024,43(4):61-67.基于人体图像生成的姿态无关人物识别刘 云1,2,夏贵羽1,2,孙玉宝3,刘 佳1,2(1.南京信息工程大学自动化学院,江苏南京 210044;2.江苏省大气环境与装备技术协同创新中心,江苏南京 210044;3.南京信息工程大学计算机学院,江苏南京 210044)摘要:人物识别技术能够使机器人具备对用户身份识别的能力,从而有效提高机器人的智能交互水平。
人物识别面临的主要挑战之一是姿态的变化对人物身份特征提取的影响。
针对该问题,提出基于人体图像生成的姿态无关人物识别方法,通过生成与库中目标人物相同姿态的人体图像,消除姿态变化对人物外观特征造成的影响。
该方法首先利用人体分割图将人体区域与背景分离,尽量降低复杂多变的背景对人物外观特征的干扰;然后在目标姿态的引导下生成与目标图像姿态一致的人物图像;最后设计了一个特征融合模块将源图像和生成图像的身份特征进行融合,提取姿态无关的鲁棒身份特征用于人物识别。
此外,为更好地区分不同的人物,在训练中生成相同姿态的负样本,对约束模型学习更为细粒的可鉴别性身份特征。
人物识别和人体图像生成的实验结果验证了该方法的有效性。
关键词:人物识别;人体图像生成;特征融合;姿态无关中图分类号:TP391 文献标志码:A 文章编号:1000-8829(2024)04-0061-07doi:10.19708/j.ckjs.2024.04.009Pose IndependentPersonIdentificationBasedonHumanBodyImageGenerationLIUYun1牞2牞XIAGuiyu1牞2 牞SUNYubao3牞LIUJia1牞2牗1.SchoolofAutomation牞NanjingUniversityofInformationScience&Technology牞Nanjing210044牞China牷2.JiangsuProvinceCollaborativeInnovationCenterofAtmosphericEnvironmentandEquipmentTechnology牞Nanjing210044牞China牷3.SchoolofComputerScience牞NanjingUniversityofInformationScienceandTechnology牞Nanjing210044牞China牘Abstract牶Personidentificationtechnologyenablestherobotstohavetheabilitytorecognizetheidentitiesofusers牞whicheffectivelyimprovestheintelligentinteractionlevelofrobots.Oneofthemainchallengesofpersonidentificationistheinfluenceoftheposechangesonpersonfeatureextraction.Inordertosolvethisproblem牞apose independentpersonidentificationmethodbasedonhumonbodyimagegenerationisproposed牞whichaimstoeliminatetheinfluenceofposechangeonthepersonappearancefeaturesbygeneratingthehumanbodyimageswiththesameposesasthetargetpersonsinthedataset.Firstly牞themethodusesthehumanbodyseg mentationmaptoseparatethehumanbodyregionsfromthebackgroundtominimizetheinterferenceofthecomplexandchangeablebackgroundonthehumanbodyappearancefeatures.Then牞ahumanbodyimagewiththesameposeasthetargetimageisgeneratedundertheguidanceofthetargetpose.Finally牞afeaturefusionmoduleisdesignedtofusetheidentityfeaturesofthesourceandgeneratedimagetoextractpose independentrobustidentityfeaturesforpersonidentification.Inaddition牞tobetterdistinguishdifferentpersons牞negativesampleswiththesameposearegeneratedinthetrainingprocesstoconstrainthemodeltolearnmorefinegraineddiscriminativeidentityfeatures.Experimentalresultsonpersonidentificationandhumanbodyimagegenerationdemonstratetheeffectivenessofthemethod.Keywords牶personidentification牷humanbodyimagegeneration牷featurefusion牷pose independent对场景中的用户身份进行识别和确认,能够有效提高机器人交互的智能水平,场景识别如图1所示。
基于多模态的手势识别技术研究
基于多模态的手势识别技术研究随着科技的不断发展,手势识别技术成为了近年来备受关注的领域。
手势识别技术是指通过计算机视觉、语音处理和传感器技术等,将人类手势动作转换成特定的指令或操作。
手势识别技术有着广泛的应用,如视频游戏、智能家居、体感交互等。
然而,单一模态的手势识别技术面临着一些挑战,如识别精度、环境干扰等,因此多模态手势识别技术成为了研究的热点。
本文将探讨基于多模态的手势识别技术的研究现状和未来发展方向。
一、多模态手势识别技术的研究现状1. 超声波传感器超声波传感器是一种非接触式的手势识别技术,其原理是利用超声波传感器发射超声波,接收回波并计算出目标的位置、距离、速度等信息。
超声波传感器可以准确地识别手部的位置和动作,适用于安保监控、手势控制等领域。
2. 摄像头摄像头是一种基于计算机视觉的手势识别技术,其原理是通过摄像头拍摄手势动作,运用图像处理算法来提取手势特征。
摄像头手势识别技术具有较好的识别精度和稳定性,适用于手势交互、虚拟现实、视频游戏等领域。
3. 陀螺仪陀螺仪是一种基于惯性传感器的手势识别技术,其原理是通过测量手部的旋转姿态和运动,识别手势动作。
陀螺仪具有较快的响应速度和较高的精度,适用于移动设备、智能手表等领域。
4. 语音识别语音识别是一种基于声音传感器的手势识别技术,其原理是通过声音传感器捕捉人的声音,并将其转换成文字或操作指令。
语音识别技术可以减少人机交互的物理接触,适用于智能家居、办公场景等领域。
二、多模态手势识别技术的未来发展方向1. 多传感器融合多传感器融合是指将不同的传感器技术进行融合,达到更高的识别精度和更丰富的手势控制。
如结合摄像头和陀螺仪,可以准确地识别手部的位置、姿态和运动轨迹,从而实现更加自然的手势控制。
2. 深度学习技术深度学习技术是一种基于人工神经网络的机器学习方法,具有较强的数据处理和模式识别能力。
将深度学习技术应用到手势识别领域,可以让计算机更加智能地识别并理解手势动作,从而提高手势识别的精度和鲁棒性。
基于机器人视觉的3D物体识别研究
基于机器人视觉的3D物体识别研究[1. 引言]随着机器人技术的发展,机器人视觉在现代工业和服务领域中扮演着重要角色。
特别是对于机器人能够准确地识别和理解三维物体的能力,为其在环境感知和交互中提供了关键的先决条件。
因此,基于机器人视觉的3D物体识别研究成为了当前机器人领域的热点之一。
本文将从机器人视觉的基本原理出发,深入探讨基于机器人视觉的3D物体识别研究的相关技术和方法。
[2. 机器人视觉的基本原理]机器人视觉是指机器人通过图像或视频传感器获取环境信息,并利用算法和技术进行图像处理、分析和识别。
三维物体识别是机器人视觉的一项关键能力,它需要机器人能够从二维图像或点云数据中重建物体的三维结构并进行识别。
[3. 三维物体建模与重建技术]在实现三维物体识别之前,首先需要对物体进行三维建模和重建。
三维重建技术包括了多视图立体匹配算法、结构光扫描和激光雷达扫描等。
这些技术能够通过获取多个视角的图像或通过激光扫描等手段,从而使机器人能够建立物体的三维模型。
[4. 物体识别算法与方法]物体识别是基于机器人视觉的三维物体识别研究中的关键环节。
传统的物体识别方法包括了特征提取、特征匹配和分类器训练等步骤。
但随着深度学习技术的兴起,基于深度学习的物体识别方法逐渐成为主流。
其中,卷积神经网络(CNN)是最常用的深度学习模型之一,通过网络的层层堆叠和训练来实现物体的分类和识别。
[5. 系统集成与应用场景]基于机器人视觉的3D物体识别研究不仅限于实验室环境,还可以应用于各种实际场景。
例如,在工业领域中,机器人可以通过识别和定位工件来实现自动化生产;在服务领域中,机器人可以通过识别和理解人类行为来提供更加智能化的服务。
系统集成是将三维物体识别技术应用于机器人系统的重要步骤,它需要综合考虑传感器、算法和硬件等多个方面的因素。
[6. 挑战与展望]虽然基于机器人视觉的3D物体识别已经取得了重要的进展,但仍然面临着一些挑战。
例如,在复杂环境下的物体识别、实时性要求高的应用场景等都需要更加高效和准确的算法和技术。
VR设备中常见的五大动作捕捉及空间定位技术对比
VR设备中常见的五大动作捕捉及空间定位技术对比在目前的消费级VR设备中,除了三大(HTC vive、Oculus rift、PS VR)头显外,大部分的VR头显都不具备配套的体感交互(需要第三方设备),而正因为缺少了体感交互,使得这些设备未能构成完善的虚拟现实体验。
支持体感交互的VR设备能有效降低晕动症的发生,并大大提高沉浸感,其中最关键就是可以让你的身体跟虚拟世界中的各种场景互动。
在体感交互技术中又可以细分出各种类别及产品,比如:体感座椅、跑步机、体感衣服、空间定位技术、动作捕捉技术等。
下面主要来聊聊关于VR目前市面上常见的动作捕捉及空间定位技术。
1.激光定位技术基本原理就是在空间内安装数个可发射激光的装置,对空间发射横竖两个方向扫射的激光,被定位的物体上放置了多个激光感应接收器,通过计算两束光线到达定位物体的角度差,从而得到物体的三维坐标,物体在移动时三维坐标也会跟着变化,便得到了动作信息,完成动作的捕捉。
代表:HTC Vive - Lighthouse定位技术HTC Vive的Lighthouse定位技术就是靠激光和光敏传感器来确定运动物体的位置,通过在空间对角线上安装两个高大概2米的灯塔,灯塔每秒能发出6次激光束,内有两个扫描模块,分别在水平和垂直方向轮流对空间发射激光扫描定位空间。
HTC Vive的头显和两个手柄上安装有多达70个的光敏传感器,其通过计算接收激光的时间来得到传感器位置相对于激光发射器的准确位置,利用头显和手柄上不同位置的多个光敏传感器从而得出头显/手柄的位置及方向。
优缺点激光定位技术的优势在于相对其他定位技术来说成本较低,定位精度高,不会因为遮挡而无法定位,宽容度高,也避免了复杂的程序运算,所以反应速度极快,几乎无延迟,同时可支持多个目标定位,可移动范围广。
不足的是,其利用机械方式来控制激光扫描,稳定性和耐用性较差,比如在使用HTC Vive 时,如果灯塔抖动严重,可能会导致无法定位,随着使用时间的加长,机械结构磨损,也会导致定位失灵等故障。
基于手势识别的3D人机交互系统
基于手势识别的3D人机交互系统作者:陈敬宇徐金罗容张乐乐姜哲来源:《现代信息科技》2023年第22期收稿日期:2023-04-04DOI:10.19850/ki.2096-4706.2023.22.019摘要:随着计算机视觉技术的发展,人与计算机的信息交互也是必不可少的一部分。
因新冠病毒的传播,“隔空”操作的方式得到多元化发展。
该系统通过单目摄像头捕捉手部位置信息,基于MediaPipe框架构建手部模型并完成手势识别功能,达到“隔空”操控鼠标的效果,此外为展示更真实,该系统基于Unity软件实现实时的手部3D效果展示。
该系统手势识别效率较高,达到了良好的性能及视觉效果。
关键词:MediaPipe;虚拟鼠标;Unity3D;手势识别中图分类号:TP391.4;TP311 文献标识码:A 文章编号:2096-4706(2023)22-0088-043D Human-computer Interaction System Based on Gesture RecognitionCHEN Jingyu, XU Jin, LUO Rong, ZHANG Lele, JIANG Zhe(College of Computer and Information Engineering,Xinjiang Agriculture University,Urumqi 830052, China)Abstract: With the development of computer vision technology, the information interaction between human and computer is also an indispensable part. Due to the spread of COVID-19 virus,the “empty space” operation has bee n diversified. The system captures the hand position information through a monocular camera, uses the MediaPipe framework to build the hand model and complete the gesture recognition function,so as to achieve the effect of controlling the mouse from “empt y space”. In order to display more realistically, the system realizes real-time hand 3D effect display based on Unity software. The system has high efficiency of gesture recognition and achieves good performance and visual effect.Keywords: MediaPipe; virtual mouse; Unity3D; gesture recognition0 引言随着计算机视觉技术的迅速发展,人机交互的方式越来越丰富,其应用也更深入生活。
手势识别技术综述
手势识别技术综述作者单位:河北工业大学计算机科学与软件学院内容摘要:手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。
一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。
但是这其中手势占大多数。
本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。
Abstract:Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future.1.定义说到手势识别,首先要对手势识别中的手势有一个清晰的认知。
《2024年基于三维姿态估计的虚拟角色运动控制方法》范文
《基于三维姿态估计的虚拟角色运动控制方法》篇一一、引言随着虚拟现实(VR)和增强现实(AR)技术的不断发展,人们对于三维(3D)视觉效果的期待愈发提升。
三维姿态估计是其中一项重要的技术,其在动画制作、运动控制等领域均有广泛应用。
本文将详细探讨基于三维姿态估计的虚拟角色运动控制方法,分析其技术原理、实现流程及实际应用。
二、三维姿态估计技术概述三维姿态估计是计算机视觉领域的一项重要技术,其核心思想是通过捕捉和分析图像或视频中的人体运动信息,实现人体姿态的三维重建。
该技术广泛应用于人体运动分析、虚拟角色动画制作、运动控制等领域。
三、基于三维姿态估计的虚拟角色运动控制方法1. 技术原理基于三维姿态估计的虚拟角色运动控制方法,主要通过捕捉真实人物的运动信息,将其转化为虚拟角色的运动。
具体而言,通过摄像头捕捉真实人物的三维姿态信息,利用算法对姿态信息进行识别、分析和处理,然后将处理后的信息映射到虚拟角色上,实现虚拟角色的运动控制。
2. 实现流程(1)数据采集:通过摄像头等设备捕捉真实人物的运动信息。
(2)姿态估计:利用算法对采集到的数据进行处理,识别出人体的关键点信息,进而实现三维姿态估计。
(3)映射转换:将处理后的姿态信息映射到虚拟角色上,实现虚拟角色的运动控制。
(4)实时渲染:通过计算机图形学技术,将虚拟角色的运动效果实时呈现在屏幕上。
四、实际应用及案例分析1. 动画制作:在动画制作过程中,通过基于三维姿态估计的虚拟角色运动控制方法,可以实现真实人物的动态捕捉和映射,使得动画角色的动作更加自然、逼真。
例如,在电影《阿凡达》中,通过该技术实现了角色动作与真实演员动作的高度吻合。
2. 运动控制:在虚拟现实和增强现实应用中,通过该技术可以实现虚拟角色的实时互动和控制。
例如,在体育训练中,可以通过该技术实时捕捉运动员的动作信息,为运动员提供精确的动作分析和训练指导。
五、优势与挑战1. 优势:基于三维姿态估计的虚拟角色运动控制方法具有实时性高、准确性好、灵活性强等优势。
对于手势识别的部分研究
对于手势识别的部分研究1 手势识别的理论及研究历史在计算机科学中,手势识别[1]是一个通过数学算法识别人类手势的话题。
手势识别可以来自身体各个部位的运动,但通常指面部和手的运动。
用户可以使用简单的手势来控制设备或与设备交互,这样计算机就可以理解人类的行为。
其核心技术是手势分割、手势分析和手势识别。
如文献[2]所言,手势识别是计算机科学和语言技术的一门学科。
它的目的是通过数学算法识别人类的手势。
手势可以源自任何身体运动或状态,但通常来自面部或手。
用户可以使用简单的手势来控制设备或与设备交互,而无需触摸设备。
姿势、步态和人类行为的识别也是手势识别技术的主题。
因此,手势识别可以被视为计算机理解人类语言的一种方式,从而在机器和人之间建立了比原始文本用户界面甚至GUI(图形用户界面)更丰富的桥梁[3]。
最初的手势识别主要使用机器设备直接检测手和手臂每个关节的角度和空间位置[4]。
这些设备中的大多数通过有线技术将计算机系统与用户连接起来,从而用户的手势信息可以毫无错误地传输到识别系统。
他们的典型设备,如数据手套等。
后来,光学标记法取代了数据手套,将光学标记放在人手上。
人手位置和手指的变化可以通过红外线传输到系统屏幕。
这种方法也可以提供良好的结果,但仍然需要更复杂的设备。
文献[5]提供了当今的一种普遍研究方案,从他的介绍我们可以很清楚的发现,虽然外部设备的干预提高了手势识别的准确性和稳定性,但它掩盖了手势的自然表达。
因此,基于视觉的手势识别应运而生。
视觉手势识别是指通过计算机视觉技术对视频捕获设备捕获的包含手势的图像序列进行处理,然后对手势进行识别。
2 手势识别的应用当今世界随着人机交互技术的快速发展,手势识别技术也迎来了一波高潮[6]。
近年来,手势识别在消费电子展、数码展、家电展、甚至汽车展上或多或少都能看到,除此之外手势识别在医疗,学习,智能领域也有着充分的应用[7-8]。
这些方式的手势识别普遍原理是使用各种传感器,如红外、相机等来捕捉和建模手的形状,以形成模型信息的序列框架,然后将这些信息序列转换为机器可以识别的相应指令,如打开、切换菜单、移动等,以完成控制。
《2024年基于视觉的人体动作识别综述》范文
《基于视觉的人体动作识别综述》篇一一、引言随着计算机视觉技术的飞速发展,基于视觉的人体动作识别已成为人工智能领域的研究热点。
人体动作识别技术能够有效地解析和解读人类行为,对于智能监控、人机交互、医疗康复、虚拟现实等领域具有广泛的应用前景。
本文旨在全面综述基于视觉的人体动作识别技术的研究现状、方法及挑战,以期为相关研究提供参考。
二、人体动作识别的基本概念及研究意义人体动作识别是指通过计算机视觉技术,对视频或图像中的人体动作进行识别、分析和理解的过程。
该技术可以广泛应用于智能监控、人机交互、医疗康复、虚拟现实、体育分析等领域,对于提高人类生活质量和推动社会发展具有重要意义。
三、基于视觉的人体动作识别方法基于视觉的人体动作识别方法主要包括以下几种:1. 传统方法:包括基于模板匹配的方法、基于特征提取的方法等。
这些方法需要手动设计特征,适用于特定场景的动作识别。
2. 深度学习方法:随着深度学习技术的发展,基于深度学习的人体动作识别方法逐渐成为主流。
该方法可以通过学习大量数据自动提取特征,提高动作识别的准确性和鲁棒性。
3. 基于三维人体姿态的方法:通过估计人体关节的三维位置信息,进一步识别和理解人体动作。
该方法对于复杂动作的识别具有较好的效果。
4. 基于视频序列的方法:通过对视频序列中的人体运动轨迹进行分析,实现人体动作的识别和理解。
该方法可以有效地处理动态场景中的动作识别问题。
四、人体动作识别的挑战与难点尽管人体动作识别技术取得了显著的进展,但仍面临以下挑战与难点:1. 光照和视角变化:不同光照和视角条件下的人体动作识别仍存在较大难度。
2. 背景干扰和噪声:复杂背景下的动作识别易受噪声干扰,影响识别准确率。
3. 实时性和计算效率:在实时系统中,如何保证人体动作识别的准确性和计算效率是一个重要的问题。
4. 人体姿态估计的准确性:准确的姿态估计是动作识别的关键,但目前在复杂场景下的人体姿态估计仍存在挑战。
五、基于视觉的人体动作识别的应用领域基于视觉的人体动作识别的应用领域广泛,包括但不限于:1. 智能监控:通过监控视频中的人体动作识别,实现异常行为检测和安全防范。
基于智能手机的人体姿态识别与跟踪技术研究
基于智能手机的人体姿态识别与跟踪技术研究人体姿态识别与跟踪技术是计算机视觉领域中的一个重要研究方向。
随着智能手机的普及和性能的不断提高,基于智能手机的人体姿态识别与跟踪技术也越来越受到关注。
本文将对这一技术进行深入探讨,旨在研究如何利用智能手机来实现高效准确的人体姿态识别与跟踪。
人体姿态识别与跟踪技术广泛应用于许多领域,如健身、体育、医疗等。
它可以对人体的姿态、动作进行监测和分析,从而实现人体运动的实时评估和指导。
传统的基于摄像头的人体姿态识别与跟踪技术需要专门的设备和场景,而基于智能手机的技术则具有更高的灵活性和便携性。
首先,基于智能手机的人体姿态识别与跟踪技术需要解决的关键问题之一是姿态估计。
姿态估计是指利用图像或视频数据,推断出人体的关节角度和位置信息。
通过利用智能手机的摄像头,可以获取人体在不同角度下的图像数据,并使用计算机视觉算法对图像进行处理,从而得到人体的姿态信息。
目前,常用的姿态估计算法包括基于模板匹配的方法、基于统计模型的方法和基于深度学习的方法。
其中,基于深度学习的方法由于其较强的特征提取和表达能力,逐渐成为姿态估计领域的主流方法。
这些方法通过使用深度神经网络来学习人体的姿态特征,进而进行姿态估计。
其次,基于智能手机的人体姿态识别与跟踪技术还要解决的一个关键问题是姿态跟踪。
姿态跟踪是指在连续的图像序列中追踪和更新人体的姿态信息。
智能手机的高帧率摄像头可以提供连续的图像序列,为姿态跟踪提供了基础数据。
姿态跟踪可以基于传统的目标跟踪算法或者基于深度学习的方法实现。
传统的目标跟踪算法通常基于目标的运动和外观信息进行跟踪,但对于复杂的人体姿态跟踪来说,容易受到光照变化、遮挡等因素的干扰。
因此,基于深度学习的方法在姿态跟踪中表现出了更好的鲁棒性和准确性。
此外,基于智能手机的人体姿态识别与跟踪技术还需要解决实时性和效率的问题。
由于智能手机的计算资源和内存容量有限,传统的复杂算法可能无法满足实时性要求。
微软Kinect三维测量及人体姿势识别
《精密测试理论与技术B》综合设计题目微软Kinect三维测量及人体姿势识别班级测控一班姓名王一霖学号3012210020指导教师孙长库微软Kinect三维测量及人体姿势识别王一霖(精仪学院,测控一班,3012210020)摘要:微软的kinect技术已经问世数年,由于它对空间的额测量比较准确,围绕它可以进行有效的三维测量和姿势识别。
本文详细分析介绍了kinect的三维人体跟踪算法、深度识别算法、人体姿势识别算法,通过分析Kinect 获取的深度图信息来对人体轮廓进行区分判定,提取前景目标区域以及计算目标区域的深度直方图。
通过对深度直方图进行分析去除背景区域部分,根据获取的深度直方图求取跟踪图像的深度反向投影; 最后结合Camshift 算法确定当前选取目标区域的尺寸和中心位置来进行对人体的实时跟踪。
还利用kinect进行了导轨直线度的设计测量,并分析了测量不确定度。
关键词:kinect;深度信息;Camshift算法;反向投影1.引言姿势识别是机器视觉领域的研究热点.被广泛应用在人机交互、行为分析、多媒体应用和运动科学等领域。
姿势识别主要有两种方法。
第一种是利用可穿戴传感器,比如戴在身体上的加速度计或装在衣服上的张力传感器。
可穿戴传感器具有精确直接的特点,但会对肢体运动造成束缚,会给用户带来额外的负担。
第二种是利用视觉捕捉技术,例如视频或者静态图像,通过对视觉数据的处理来判断用户的动作。
基于视觉捕捉技术在特征表达方面,起初是采用人体轮廓作为姿势特征表达。
但是轮廓特征从整体角度描述姿势,忽略了身体各部位的细节,不能精确地表示丰富多彩的人体姿势。
有研究采用基于身体部位的姿势表达,即把人体轮廓分成若干个身体部位,例如颈部、躯干和腿。
[1]由于这些姿势特征都是从二维彩色图像中抽取而来.需要处理人体定位、肢体被遮挡、不同光照条件等问题。
近年来,Kinect等深度传感器不仅提供彩色图像数据,而且提供了三维深度图像信息。
基于深度学习的人体姿态检测与识别研究
基于深度学习的人体姿态检测与识别研究近年来,深度学习技术在计算机视觉领域的应用越来越广泛。
人体姿态检测与识别是计算机视觉领域中的一个重要问题,它涉及到人体动作分析、人机交互、医疗诊断等方面。
深度学习技术的出现为人体姿态检测与识别带来了新的机会。
一、人体姿态检测与识别的意义人体姿态检测与识别是指通过计算机视觉技术对姿态进行感知和理解,得到关于人体姿态的信息,例如人体关节角度、骨架结构、运动轨迹等。
它可以广泛应用于人机交互、虚拟现实、医疗诊断、智能安防等领域。
在人机交互领域,人体姿态检测与识别可以用于姿势控制、手势识别、面部表情识别等,实现更加自然和智能的用户交互方式。
在虚拟现实领域,人体姿态检测与识别可以用于实现更加逼真和自然的人体动作捕捉,提高虚拟人物的表现力和交互性。
在医疗诊断领域,人体姿态检测与识别可以用于评估运动功能障碍、康复训练、疾病诊断等,为医疗工作者提供更加及时和准确的诊断信息。
在智能安防领域,人体姿态检测与识别可以用于监控场景分析、异常检测等,提高安全防范能力。
二、人体姿态检测与识别的研究现状传统的人体姿态检测与识别方法主要基于手工设计的特征和分类器,如HOG、SURF、SIFT等。
但由于人体姿态的变化和复杂性,这些方法在实际应用中往往存在不足。
近年来,随着深度学习技术的发展,越来越多的研究者开始探索基于深度学习的人体姿态检测与识别方法。
基于深度学习的人体姿态检测与识别方法主要包括基于单张图像的检测方法和基于序列图像的跟踪方法两种。
基于单张图像的检测方法主要基于卷积神经网络(CNN)和循环神经网络(RNN),通过对单张图像进行分类或回归来得到姿态信息。
而基于序列图像的跟踪方法则主要基于关键点跟踪算法,通过对连续图像序列中人体关键点的跟踪来实现人体姿态的识别。
近年来,基于单张图像的检测方法取得了一系列的突破性进展。
尤其是2014年发表的一篇名为“DeepPose”的论文,提出了使用CNN进行人体姿态估计的方法,其准确率远高于以前的方法,标志着基于深度学习的人体姿态检测与识别进入了一个新的时代。
盲人眼镜设计方案
盲人眼镜设计方案盲人眼镜设计方案随着科技的进步和社会的发展,为了给盲人提供更好的生活条件和更大的自主性,盲人眼镜成为了一个迫切需要解决的问题。
盲人眼镜的设计方案应该以帮助盲人行走和识别周围环境为核心,同时还要考虑到舒适度和可穿戴性,下面是一个设计方案的详细描述:1. 视觉辅助装置:盲人眼镜应该配备一个高分辨率的摄像头和计算机视觉算法,用于实时捕捉并分析周围环境的图像。
这样,盲人就可以通过听觉或触觉接收到图像的信息,并更好地识别出人、物和障碍物等。
2. 立体声导航系统:盲人眼镜应该配备一个立体声导航系统,利用语音导航指引盲人行走。
该系统应能够实时检测和识别出盲人所在的位置,并为盲人提供准确的导航指令,例如:“向前走10米,右转,再向前,并注意右侧的障碍物”。
3. 防碰撞和障碍物感知:盲人眼镜应该配备防碰撞和障碍物感知系统,通过超声波或红外线等技术,实时检测周围的障碍物,并通过震动或声音等方式提醒盲人注意避让。
该系统的设计需要考虑到灵敏度和准确度,以确保及时发现并避免潜在的危险。
4. 舒适度和可穿戴性:盲人眼镜的设计应该注重舒适度和可穿戴性,以便盲人长时间佩戴并使用。
材料应选择透气性好、轻便舒适的材质,而结构应该符合人体工程学原理,以减轻眼镜对盲人头部的压力和负担。
5. 智能控制系统:盲人眼镜应该配备智能控制系统,包括语音控制和手势识别等功能,以方便盲人进行眼镜的操作和控制。
通过简单的指令或手势,盲人可以实现调整声音、切换模式和拍摄照片等操作。
6. 长时间续航电池:盲人眼镜应该配备一块高容量的可充电电池,以确保眼镜可以长时间使用。
为了增加电池的续航时间,设计方案还可以加入省电模式和智能充电功能,以提高电池的使用效率。
总之,盲人眼镜的设计方案需要充分考虑到盲人的需要和实际情况,尽可能提供更多的辅助功能和便利性。
这样,盲人就能够更好地适应和融入社会,提高他们的生活质量和自主性。
《2024年基于Kinect的手势识别与机器人控制技术研究》范文
《基于Kinect的手势识别与机器人控制技术研究》篇一一、引言随着人工智能技术的快速发展,人机交互技术已经成为人们日常生活中不可或缺的一部分。
其中,基于Kinect的手势识别与机器人控制技术以其高效、自然的人机交互方式,逐渐受到广泛关注。
本文旨在探讨基于Kinect的手势识别技术及其在机器人控制领域的应用,以期为相关研究提供参考。
二、Kinect技术概述Kinect是微软公司开发的一款体感摄像头,能够捕捉人体动作、姿态、手势等信息,并将其转化为计算机可识别的数据。
Kinect技术具有高精度、实时性、非接触性等特点,为手势识别与机器人控制提供了可能。
三、手势识别技术研究1. 数据采集与预处理通过Kinect设备采集人体动作数据,对数据进行去噪、平滑等预处理操作,以提高手势识别的准确性。
2. 特征提取与分类根据预处理后的数据,提取出手势的特征信息,如关节点位置、运动轨迹等。
利用机器学习算法对特征进行分类,实现手势的识别与分类。
3. 算法优化与改进针对不同场景和需求,对手势识别算法进行优化与改进,如基于深度学习的手势识别算法、基于概率统计的手势识别算法等,提高识别的准确性和实时性。
四、机器人控制技术研究1. 机器人控制系统设计根据应用场景和需求,设计合适的机器人控制系统。
控制系统应包括硬件设备、传感器、执行器等,实现机器人的运动控制、姿态调整等功能。
2. 手势与机器人动作映射关系建立将手势识别结果与机器人动作进行映射关系建立,实现手势对机器人动作的直接控制。
例如,通过挥手、指向等手势控制机器人的运动方向、速度等。
3. 机器人行为规划与决策在机器人控制过程中,需要根据实际情况进行行为规划与决策。
例如,在遇到障碍物时,机器人应能够自主规划路径,避免碰撞;在完成某项任务时,根据任务需求进行动作规划与执行。
五、应用场景分析基于Kinect的手势识别与机器人控制技术在多个领域具有广泛应用。
如:在教育领域,可用于辅助教学、学生互动等;在医疗康复领域,可用于帮助患者进行康复训练、辅助医生进行手术操作等;在娱乐领域,可用于游戏控制、虚拟现实等。
基于深度学习技术的手部动作识别研究
基于深度学习技术的手部动作识别研究Introduction近年来,随着深度学习技术的迅猛发展,越来越多的领域开始应用这一技术。
其中,手部动作识别技术已经成为深度学习技术在计算机视觉领域应用的热门研究方向之一。
手部动作识别技术的应用范围广泛,包括手势控制,体感游戏,虚拟现实等领域。
本文主要介绍基于深度学习技术的手部动作识别研究。
文章分为四个章节:首先,介绍手部动作识别技术及其应用场景;接着,分析深度学习技术在手部动作识别中的应用;然后,介绍基于深度学习技术的手部动作识别算法;最后,讨论当前算法存在的问题及未来研究方向。
Hand Gesture Recognition Technology and its Application手部动作识别技术指的是通过计算机视觉技术,对人体手部运动轨迹、手部姿态等信息进行分析和识别的技术。
手部动作识别技术的应用场景有很多,例如,手势控制、虚拟现实、体感游戏等。
手势控制是手部动作识别技术应用最为广泛的场景之一。
手势控制可以应用于智能家居控制、电视遥控器等领域。
当人们在家中坐在沙发上,可以通过手势控制来控制家中的空调、电视等家电设备。
而在电视遥控器领域,通过手势控制可以实现更加智能化和人性化的控制体验。
另外,虚拟现实也是手部动作识别技术应用的一个重要场景。
虚拟现实技术可以带给人们更加丰富、多样的沉浸式体验,而手部动作识别技术可以增强虚拟现实体验的真实感,让人们更加自然地和虚拟世界进行互动。
最后,体感游戏也是手部动作识别技术的重要应用场景之一。
体感游戏可以通过手部动作识别技术来增加游戏的参与感和互动感,提高游戏的趣味性和娱乐性。
Application of Deep Learning in Hand Gesture Recognition深度学习技术是近年来计算机视觉领域研究的热门技术之一。
相较于传统的机器学习算法,深度学习技术在计算机视觉领域中具有更加出色的表现。
深度学习技术在手部动作识别技术中的应用主要包括以下三个方面:一、特征提取深度学习技术可以通过卷积神经网络(CNN)进行特征提取。
非接触式三维数字化检测研究现状及关键技术探讨
非接触式三维数字化检测技术研究现状与关键技术问题探讨(广东工业大学机电工程学院广州510006)摘要:本文首先分析和对比接触式与非接触式三维数字化检测技术的优缺点,指出非接触式三维数字化检测技术是未来三维检测的发展方向。
然后,简要介绍国内外非接触式三维数字化检测技术的研究现状,着重介绍非接触式三维数字化检测尤其是视觉检测方法,并深入探讨其存在的关键技术问题。
最后,总结全文。
关键词:非接触式检测研究现状视觉检测关键技术A state-of-the-art review of Non-contact 3-D DigitalDetection and Inquiry of the Key Technology ProblemMEI Qing YIN Sihua LIU Zhou LIU Zeyu YUAN Wenqiang(School of Electromechanical Engineering,Guangdong University of Technology, Guangzhou, 510006)Abstract:Firstly this paper makes an analasis and a comparison of the faults and adv- antages of contact and non-contact 3-D digital detection technology,points out that the non-contact 3-D digital detection technology is the development trent of future 3-D detection.Then we give a brief introduction of the art state of non-contact 3-D digital detection in domestic and overseas,place emphasis on the method for non-contact3-D digital detection particularly for optical detection ,and make a deep inquiry into its existing key technical issues.Finally the main points of this paper are summarized. Key words: non-contact detection art state optical detection key technique0 前言在现代制造业中,存在着大量的检测任务,如表面质量与缺陷检测、尺寸检测以及三维轮廓检测等[1]。
基于多模态数据的人体姿势识别与跟踪系统设计
基于多模态数据的人体姿势识别与跟踪系统设计摘要:近年来,随着人工智能的快速发展,人体姿势识别与跟踪已经成为计算机视觉领域的研究热点之一。
本文提出了一种基于多模态数据的人体姿势识别与跟踪系统设计,该系统通过利用多种传感器的数据信息进行姿势识别和跟踪,实现对人体姿势的准确检测和实时追踪。
1. 引言人体姿势识别与跟踪系统在人机交互、健康监测、虚拟现实等领域具有广泛应用。
传统的人体姿势识别与跟踪方法主要基于单一传感器数据,如RGB相机或深度相机,这些方法存在着识别准确度不高、无法应对光线变化等问题。
因此,本研究提出将多种传感器数据进行融合,提高姿势识别与跟踪的准确性和稳定性。
2. 系统设计2.1 数据采集本系统使用RGB相机、深度相机和惯性传感器进行数据采集。
RGB相机和深度相机可以提供2D和3D的图像信息,而惯性传感器则可以提供姿势运动的角速度、线加速度等数据。
2.2 数据预处理在数据采集后,需要对数据进行预处理,包括去噪、校准和对齐等步骤。
去噪可以减少采集的图像中的噪声干扰,校准可以调整相机和传感器之间的误差,对齐可以将2D和3D数据对应起来。
2.3 特征提取特征提取是对数据进行分析和处理的重要步骤。
本系统中,可以提取RGB图像中的人体关键点位置信息,同时可以通过深度图像获取人体的3D关键点位置。
惯性传感器可以提供人体姿势运动的角速度、线加速度等数据。
通过提取这些特征,可以得到人体姿势的描述。
2.4 姿势识别与跟踪算法本系统采用深度学习算法来进行姿势识别与跟踪。
可以使用卷积神经网络(CNN)来实现对RGB图像中人体关键点的定位,使用3D卷积网络来对深度图像中的人体关键点进行定位。
同时,可以使用循环神经网络(RNN)来对惯性传感器的数据进行处理,实现人体姿势的跟踪和预测。
3. 系统实现本系统可以通过计算机集群来实现高效的运算。
通过并行计算,可以提高姿势识别与跟踪的速度和精度。
同时,可以利用图形处理器(GPU)来加速深度学习算法的训练和推断过程。
AI技术在人体姿态识别中的应用与创新
AI技术在人体姿态识别中的应用与创新一、引言人体姿态识别是指通过计算机视觉和机器学习等技术,来准确地识别和分析人体的姿势动作。
随着人工智能(AI)技术的快速发展,人体姿态识别已经实现了巨大的突破。
本文将探讨AI技术在人体姿态识别中的应用与创新,以及其对社会生活、医疗健康等领域带来的影响。
二、AI技术在人体姿态识别中的应用2.1 运动分析运动分析是人体姿态识别应用广泛的领域之一。
通过使用AI算法进行关节点检测和跟踪,可以精确地捕捉到运动员的各个关节位置和骨骼结构变化,在训练过程中提供细致入微的指导。
例如,在游泳项目中,采用基于深度学习和神经网络的人体姿态识别系统可以实时监测游泳者的身体轮廓、手部动作等,帮助教练员进行针对性训练和改进。
2.2 健康管理AI技术在人体姿态识别中的应用还可以扩展到健康管理领域。
例如,智能手环或智能服装可以通过内嵌的传感器和AI算法来监测人体的姿态、行走步伐、坐姿等习惯和动作,并根据数据生成相应的报告和建议,提醒用户是否需要调整或改变不良姿势,以改善身体健康。
2.3 安防监控人体姿态识别技术对于安防监控系统也具有重要的意义。
通过在公共场所部署高精度摄像头及其配套的AI算法,可以实时准确地检测到异常行为和危险动作。
例如,在机场、火车站等交通枢纽,利用人体姿态识别技术可以判断乘客是否携带危险物品,并及时采取相应措施保障公共安全。
三、AI技术在人体姿态识别中的创新3.1 多因素融合随着深度学习等AI技术的广泛应用,研究者们开始将多个因素融合起来进行更精确的人体姿态识别。
除了通过摄像头采集图像信息外,还可以结合其他传感器数据,如惯性测量单元(IMU)等,来提高姿态识别的准确性和稳定性。
这种多模态、多因素融合的创新将进一步推动人体姿态识别技术的发展。
3.2 无监督学习传统的人体姿态识别方法通常需要大量标记好的训练数据进行监督学习,但这种方式耗时费力且成本较高。
近年来,研究者们开始尝试使用无监督学习方法,通过自动生成标签或利用未标记数据进行训练。
显控系统智能化应用技术浅析
显控系统智能化应用技术浅析摘要:随着武器装备的集成度和小型化越来越高,各类电子信息设备、打击设备集成在一辆战车上,导致作战信息多元冗杂。
本文针对未来作战系统智能化和信息多元化趋势,结合虚拟现实、科学计算可视化及多媒体技术的发展现状,以装备显控系统智能化应用为背景,对显控系统的技术发展进行了分析和展望。
关键词:显控系统显示技术人机交互引言智能化是信息时代战斗力生成模式转变的总体方向与趋势,未来战争将在多信息充斥的多维空间中作战。
随着显示技术、人机交互技术等技术的应用日趋广泛,未来基于信息战的作战系统要求显控系统不仅具有“友好的人机界面”,并具有“灵活的交互功能”,以满足指挥控制智能化管理与指挥处置的需求,实现指挥控制系统一体化、网络化、智能化发展。
1 显示技术应用浅析显示技术从二维到三维的发展是科技进化的必然趋势。
三维显示技术在各个领域均有广泛应用,全球范围内的主要国家均已经将三维显示技术作为信息产业方面的战略性和基础性产业。
1.1 二维显示技术在二维显示技术发展中,普遍使用的是传统的单屏或双屏显控系统,采用加固式计算机+加固式显示器的应用模式,一般支持VGA、DVI、HDMI、SDI等多种视频信号源的输入。
二维显示技术受限于显示器的尺寸和分辨率,其显示效果有一定的局限性,传统的二维平面图像缺少第三维的深度信息,与真实的三维世界差异明显,在作战使用的背景下使得指挥员获取的信息缺乏立体直观的感受。
1.2 三维显示技术随着装备的应用需求不断提升,用3D显示代替2D显示是技术发展的必然趋势。
目前,3D显示技术可以分为两类:助视3D显示技术和裸眼3D显示技术。
3D眼镜、虚似现实眼镜、增强现实眼镜等这些都是助视3D显示技术的代表产物。
裸眼3D显示技术是3D显示技术的重要发展方向,可为用户呈现具有不同侧面信息与深度信息的3D显示内容,并且观察者无需佩戴助视设备。
从目前实际应用情况来看,在传统领域或大场景的指控系统领域用户还是倾向使用较为可靠的二维显示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第26卷第12期2009年12月控制理论与应用Control Theory&ApplicationsV ol.26No.12Dec.2009基于立体视觉的非穿戴指势识别管业鹏(上海大学通信与信息工程学院,上海200072;新型显示技术及应用集成教育部重点实验室,上海200072)摘要:基于彩色图像中红、绿、蓝3分量强度在阴影区域存在差异,根据小波变换在时域和空域均具有优异的局部化特征,结合背景差分,进行小波多尺度变换,提取视频指势对象,所提方法不需场景学习与训练、手工校正及先验假设等信息,可克服动态场景变化、阴影、噪声干扰等影响,具有强的鲁棒性.基于人类生物结构特征,采用不易遮挡和不受人脸朝向、姿态、光照变化等影响的头顶特征代替人眼特征,保证了人机交互活动的自由性和自然性,且提高了人机交互的时效性.融合手指尖特征和手臂中心轴线及其外极线的多几何约束策略,采用求解反对应方法,确保手指特征匹配对应的正确性.通过实验验证,证实了上述方法有效、可行,可应用于实时、非穿戴的自然指势视觉3维人机交互中.关键词:指势识别;人机交互;非穿戴;多尺度小波变换中图分类号:TP391文献标识码:AStereo vision-based recognition of nonwearable pointing gestureGUAN Ye-peng(School of Communication and Information Engineering,Shanghai University,Shanghai200072,China;Key Laboratory of Advanced Displays and System Application,Ministry of Education,Shanghai200072,China)Abstract:Based on the differences between the color intensities of R,G and B components on a color image in shadow regions,we develop a novel approach to the pointing object segmentation across a clutter background.Because the wavelet transformation is with outstanding local characteristics both in temporal and spatialfields,we suggest extracting the video pointing objects based on the combination of background subtraction with the wavelet multi-scale transformation.The proposed algorithm does not require the information which is necessary for existing methods in literature,such as scene learning and training,manual calibration and a priori hypothesis.It is also robust to dynamic scene variation,shadow and noise disturbance.Based on the biological structure characteristics,we employ the position of the human head-top instead of that of the human eyes in the pointing object segmentation.This is because that the human head-top is not easily occluded by other parts of the body,and is free from the effects of the facial orientation,posture and illumination variation.This provides theflexibility and casualness for the human-computer interaction(HCI),and ensures a high speed for the interaction.For the correct matching offinger tip characteristics,we present a stereo matching strategy based on the geometric constraints among the pointing armfinger tip,the central axis of the pointing arm and the corresponding epipolar line.A reverse matching criterion is employed to ensure the validity of the processed matching.Experiment results indicate that the developed approach is efficient for the recognition of theflexible and casual nonwearable pointing in the human-computer interaction.Key words:pointing gesture recognition;HCI;nonwearable;multi-scale wavelet transformation文章编号:1000−8152(2009)12−1345−061引言(Introduction)随着计算机技术的迅猛发展,研究符合人类自然交流习惯的新颖人机交互技术异常活跃,且人机交互技术已从以计算机为中心逐步转移到以人为中心,而多媒体用户界面则大大丰富了计算机信息的表现形式,使用户可以交替或同时利用多个感觉通道.然而,多媒体用户界面的人机交互形式,仍迫使用户使用常规的输入设备(如键盘、鼠标器和触摸屏等)进行输入,成为当今人机交互的瓶颈.虚拟现实作为一种新型人机交互形式,可实现和谐的、以人为中心的人机界面.在虚拟现实中,若以人手直接作为计算机输入设备,则可充分利用人类的日常技能,且不需特别训练或学习,人机间的通信将不再需要中间媒介.在以人手作为自然交互的工具领域中,手势识别研究活跃[1∼3].但手势不仅受骨胳肌肉驱动,且涉及人类思维活动,导致它具有多样性、多义性.相收稿日期:2008−10−11;收修改稿日期:2009−04−03.基金项目:国家自然科学基金资助项目(60872117);上海市科委重大资助项目(08DZ1205002).1346控制理论与应用第26卷对手势的多样性和多义性,指势(pointing gesture)容易解释[4].指势是人们日常生活中用手指对空间感兴趣目标的反映,是人类语系发展和个体发生学的重要先驱,可揭示人类社会智力[5],是一种理想的自然人机交互模式[6].指势识别分为穿戴式和非穿戴式两类[4,6].前者基于数据头盔、数据手套和身体标记等,这类方法可获得较准确的用户位置和用户行动,但该类方法为侵入式,用户需专门训练,操作不便;后者基于非接触传感器(如摄像机).在日常生活中,人类习惯并大量使用非精确的信息交流,允许使用模糊的表达手段,以避免不必要的认识负荷,提高交互活动的自然性和高效性.且在人类信息的获取中,80%以上来自于视觉,因此,非穿戴的指势视觉识别方法倍受青睐,日益成为研究热点[5,6].2目前非穿戴指势视觉识别方法(Non-wearable pointing vision recognition meth-ods at present)Colombo等人[6]提出非侵入式指势视觉识别方法,该法基于肤色检测手和头部区域,采用匹配手指尖与头部重心,确定用户指向的空间目标,为避免人眼定位困难,采用头部重心作为人眼位置.该法除受光照条件影响外,还受指势对象服色和发色对手指与头部区域提取以及投影模式选择等因素影响. Cipolla等人[7]基于用户指势为“手枪”模式,基于无校正立体视觉,采用约束性透视变换方法,确定立体图像对中的食指,并以立体图像对中的食指延长方向,确定所指目标位置.所提方法要求设置标记,以求解透视变换参数,且标记点与用户手臂应位于摄像机的视野中.该方法受用户手势、标记点设置以及立体匹配等因素影响.Nickel等人[8]基于隐马尔柯夫模型,采用立体匹配策略结合磁力镜,进行指势识别.Malerczyk[9]基于检测、匹配双目摄像机获取的手指尖,以手指尖的交线作为指势方位,实现博物馆人机交互.除要求两摄像机正交或近正交放置外,还要求用户站立于指定地点(如设置的鞋印位置),且用户为成人.Starner等人[10]实现了基于指势识别的人机交互感知工作台,为便于目标检测,要求用于人机交互的感知工作台光照条件可控,用户手臂不能超出工作台面或同时存在多个用户交互或遮挡等. Vira等人[11]基于指势视觉识别方法进行外科医生手术时,要求医生手持具有明显色彩标志的指示器或磁力棒,通过检测、立体匹配指示器或磁力棒上的色彩标记,确定指向目标的空间位置.Yamamoto等人[12]通过安装于天花板四角的摄像机,捕获人体和人脸,通过视频对象分割和人体朝向与视线之间夹角的计算,确定所指空间目标.所提方法除要求用户指势方向一定范围内无遮挡或障碍外,还要求用户站定于某范围内,且用户为成人.Sugi等人[13]提出了基于指势识别的留意工作台定位所指目标方法.在所提的方法中,除要求用户佩带颜色手套外,还要求光源可控、稳定.Cernekova等人[14]采用单目摄像机,基于SVM分类识别的方法确定所指空间目标,在所提方法中,要求在地板上设置明显标记以规定用户活动范围.经上述分析知:上述方法在获取指势对象信息时,均采用了增加限制方法,如基于肤色、光源条件可控、用户对象单一或其它条件;同时,上述方法在确定指势空间目标时,条件苛刻,如要求指势对象为成人,用户须站立于指定位置或限制摄像机位置.上述条件与要求,极大地限制了人机交互活动的普适性和自然性.针对上述不足,论文提出了一种新颖的非穿戴指势视觉识别方法.与现有指势视觉识别方法相比,论文主要贡献体现在:1)基于RGB色彩信息与多尺度小波时/空域融合,提取视频指势对象,克服环境条件约束,适应复杂背景下人机交互的普适性和自然性.2)采用安置于头顶上方的立体摄像机取代需严格定位的摄像机,捕获视频指势对象,降低指势对象互遮挡,扩大用户交互活动范围,满足用户交互活动的自由性和自然性要求.3)采用不易遮挡的头顶特征取代人眼特征,降低指势特征提取难度,提高指势人机交互的时效性.4)基于指势手臂及其外极线的多几何约束关系及其反对应求解方法,提高指势手指特征立体匹配的正确性和快捷性.通过实验对比,验证了文中所提方法有效、可行.3前景指势对象提取(Foreground pointing objects extraction)背景差法是目前运动分割中常用方法.一种简单的背景模型是时间平均图像,但该法对于动态场景的变化较敏感.利用图像序列中2个或3个相邻帧,基于像素的时间差分法,是提取运动目标区域的另一种常用方法[15].该法对于动态环境具有较强的自适应性,但一般不能完整提取出运动目标相关特征,在运动实体内部也容易产生空洞现象.虽然光流法能在背景运动存在的情况下,也能检测出独立的运动目标,但要求物体边缘与背景之间有明显的速度差,且需要一定的后处理工作,才能完整地检测出运动物体;另外,基于光流法检测运动目标时,计算复杂、抗干扰能力差.而快速准确的运动目标分割却又十分重要,因在后处理过程中可仅考虑图像中对应于运动区域的像素,大大简化工作计算量.但由于第12期管业鹏:基于立体视觉的非穿戴指势识别1347动态环境变化,如光照变化、运动目标阴影等,给准确有效的运动目标分割带来了困难.其中,阴影可能与被检测的运动目标相连或分离、扭曲目标形状或被误认为场景中一个完全错误的假目标[16,17].针对上述问题,根据多尺度小波变换在时域和空域均具有优异的局部化特征,结合背景差分,利用小波多尺度特性,对差分图像进行小波多尺度变换,提取视频指势对象.2维图像f (x ,y )在尺度2j 及方向k 下的小波变换为[18,19]:W k 2j f (x,y )=f ∗ψk 2j (x,y ),k =1,2.(1)则在x ,y 方向上的小波ψk 2j ,可通过如下微分求取ψ12j (x,y )=∂θ(x,y )∂x ,ψ22j (x,y )=∂θ(x,y )∂y.(2)其中θ(x ,y )为滤波尺度函数.在不同尺度经θ(x ,y )滤波后的2维小波为:∇2j f (x,y )=122j ∇f ∗θ2j (x,y ).(3)则不同尺度下的局部梯度幅值为:M 2j f (x,y )=(W 12j f (x,y ))2+(W 22j f (x,y ))2.(4)若某点(x ,y )在尺度2j 上的梯度幅值M 2j f 位于梯度相位A 2j f 上,则该点为多尺度边缘点,其中,A 2j f (x,y )≡arctan[W 22j f (x,y )W 12j f (x,y )].(5)通过不同尺度下的边缘点求取,即可获取不同尺度2j 下的局部梯度集:P 2j (f )={p 2j ,i =(x i ,y i );∇2j f (x i ,y i ))}.(6)对于J 层2维动态小波变换,下列集合称之为图像f (x ,y )的多尺度边缘ρ(I )={S 2J f (x,y ),[P 2j (f )]1 j J }.(7)其中S 2J f (x,y )为f (x ,y )在2J 尺度下的低通滤波算子.如图1为基于小波多尺度变换提取的某视频指势对象结果.原始图像初始分割结果最终分割结果图1频指势对象分割结果Fig.1Video pointing object segmentation results由于动态环境变化、噪声等因素影响,造成阴影也被视为前景,以及指势对象分割存在孔洞等(见图1中图).为克服上述不利影响,由阴影特性分析知:在RGB 彩色空间中,由于R,G,B 3色波长不同,导致它们在阴影区域内强度变化存在差异,为消除阴影影响,将满足下式的各点视为阴影,并从提取的前景区域中剔除.∆I R >∆I G >∆I B ,(8)∆I i =I f i −I b i ,i =R,G,B.(9)其中:I f i 代表R,G,B 前景光强度,I b i 代表背景中R,G,B 光强度.同时,结合数学形态学对随机噪声进行压制.图1右图为经上述处理后所得结果.4指势视觉识别(Pointing vision recognition )基于指势进行人机交互时,指势空间目标由指势手指尖与人眼视线的连线同目标所在平面的交点确定[6,20].可见:基于指势视觉进行指势目标识别,需确定指势人眼及其手指尖的3维位置.人眼特征的提取,受到人脸朝向、姿态及光照变化、遮挡等因素影响,造成人眼特征提取困难[21,22].但基于人类生物结构特征知:人类站立或坐立时,人眼位于头顶下某范围,且头顶特征不易遮挡,不受人脸朝向、姿态及光照变化等因素影响,易于提取.因此,可基于头顶特征代替人眼特征[20].实验证实:基于头顶特征代替人眼特征是可行的.采用头顶特征代替人眼特征,不仅保证了人机交互活动的自由性和自然性,且大大提高了人机交互的时效性.手指尖由于在前景对象分割图像中特征明显,因此,易于提取.但由于存在场景变化、噪声干扰等因素影响,造成指尖特征提取错误,因此,直接基于立体图像对中的手指尖特征进行3维重建将存在歧义性.为有效确定手指尖的3维坐标,基于指势手指特征点、指势手臂中心轴线及其外极线等多几何约束关系,确定立体图像对上的手指尖对应匹配.4.1手指区域分割(Segmentation of pointing armregion )基于前景指势对象分割结果,提取手指区域,根据手指在图像中的空间位置关系,采用自适应且大小为1×N/2的矩形结构元素对目标区域水平分割,其中,N 为提取的指势目标区域水平方向最大连续域宽度.采用上述方法,对图1右图进行手指区域分割,所得结果如图2.1348控制理论与应用第26卷图2指势手指区域分割Fig.2Pointing arm region segmentation4.2手指特征点与手臂轴线(Fingertip featurepoints and pointing arm axis line)基于手指区域分割结果和手指在图像空间中的位置关系,手指尖2维图像位置为:x top=arg min(f(x,min y)),(10)y top=arg(f(x top,y)).(11)式中f(x,y)为手指区域分割图像.在手指区域分割过程中,由于存在手指区域分割不完整或前景/背景复杂,造成手指区域定位“过头”或缺损.为保证手臂中心轴线正确,基于手指分割区域,确定手指区域重心,结合手指尖位置,确定手臂中心轴线.4.33维重建与指势识别(3D reconstruction andpointing recognition)基于指尖特征点、指势手臂中心轴线及其外极线融合等多几何约束,重建3维指势手指尖.在立体视觉系统中,设由双目摄像机获取的左、右图像分别为P1,P2,则在图像P1中的指尖点p1必位于P2图像中由p1与两摄像机相对几何位置决定的极线上,其数学描述为:u T2F u1=0.(12)式中:F为基础矩阵,由左、右摄像机对应的投影矩阵确定;u1,u2为同名对应点的图像齐次坐标.设双目左、右摄像机已标定,且在视频序列左、右图像中的手指尖、手臂区域重心位置已确定,分别为(x itop,y i top),(x i g,y i g)(i=1,2),则可得手臂中心轴线方程为:y=(x−x itop )(y ig−y itop)/(x ig−x itop)+y itop.(13)联立方程(11),(12),可由已知左(或右)图像手指尖特征,确定其在另一图像中的对应点.为消除上述求解过程中出现的歧义性,基于反对应求解方法,即将求解对应点与已知参考点之间的欧氏距离小于某阈值T,作为求解的对应点为正确匹配对应点判据.基于确定的立体图像对的对应手指尖点、对应头顶特征点和摄像机投影矩阵,采用最小二乘法确定它们的3维坐标.基于上述3维坐标,确定指势视线,并进而确定指势空间目标,实现指势视觉识别.5实验结果与分析(Experimental results and analysis)采用如下实验装置(图3),验证文中所提方法的有效性.图3实验装置示意图Fig.3Experimental setup map在上述实验装置中,利用安置于头顶上方的双目摄像机捕获指势视觉对象,通过视频对象分割方法提取指势对象及其相关特征,基于所提方法进行指势识别,确定所指空间目标.通过计算机发送触发命令,显示反馈所指目标结果.基于上述前景视频对象分割方法,提取不同复杂背景条件下的指势对象的部分实验结果,如图4.原始图像指势对象分割二值图图4不同背景条件下指势对象分割结果.Fig.4Pointing object segmentation results in different background circumstances.图4中的两幅原始图像,背景均复杂多变,其中,左上图中的背景主要受到镜面反射光、走廊前方透射光、白炽灯光等光照变化影响,而左下图中的背景则受到工作中的台灯、日光灯及计算机荧光屏等光源变化影响,并在不同区域间存在阴影.由图4的指势对象分割结果知,文中所提方法,有效地从上述复杂的背景图像中提取出了指势对象.为进一步验证文中所提方法在视频对象分割的第12期管业鹏:基于立体视觉的非穿戴指势识别1349有效性,采用具有复杂背景且存在较严重阴影、来自MPEG--4测试系列的Hall Monitor进行视频对象提取,部分实验结果如图5.图5基于Hall Monitor视频对象分割结果Fig.5Results segmented of Hall Monitor video sequence其中,图5左图为原始图像,右图为对象提取结果.为反映分割结果与实际视频对象是否一致,右图采用高亮灰度象素附加于当前图像方法,突现分割结果.由右图可见,采用文中所提方法有效地提取了视频对象.上述结果定性地表明文中方法分割视频对象有效、可行,为进一步定量评估所提方法有效,论文基于ROC曲线分析方法[23∼25]与文献[26,27]所提方法,就上述视频测试系列进行了视频对象分割对比,结果如图6.图6不同分割方法ROC曲线图Fig.6ROC curve of different methods经视频分割实验对比,由图6知:文中所提方法明显优于其它两方法,从而进一步验证了文中方法在视频对象分割时具有强的鲁棒性.为了验证指势视觉识别的有效性,由年龄为20岁∼65岁之间的36名学生和教师,手指放置于摄像机前方3.5m至12m的12块标志牌(大小: 120mm×200mm),其中,36名志愿者使用各自指势习惯,采用左、右手分别指向前方12块目标,共得到864个指势集(12块目标×36用户×2手),分别采用文中所提方法与文献[6,14]中方法对比,其指势识别结果如表1.由表1见,不同对象手指前方不同目标时,文中所提方法的识别结果较文献[6,14]方法理想,表明文中所提指势识别方法可行、有效.在运行时间上,使用PⅣ1.5G512M RAM计算机,在VC++6.0环境下,采用DH--CG400图像采集卡进行图像采集(每帧图像大小:320×240pixels),系统处理速度平均为350ms,基本满足人机交互实时要求.由于立体匹配存在歧义且其本身问题的复杂性,至今该问题尚未得到很好解决,导致指势3维信息不准确,从而影响指势识别,因此,为提高指势识别结果,需融合多个摄像机并从中选择具有最佳视角摄像机,利用多几何约束关系并基于最佳视角单目摄像机重建指势3维信息.表1不同方法指势视觉识别结果Table1Pointing recognition results of differentmethods位置/mm识别率/(%)目标X Y Z文献[6]文献[14]文中方法1−1250125350097.494.597.120125350097.395.696.931250125350097.494.696.84−1250125600094.292.496.050125600094.692.795.961250125600093.891.896.07−1250125850092.690.295.380125850092.490.694.891250125850092.790.795.710−12501251200090.089.694.01101251200090.689.293.41212501251200090.289.692.96结论(Conclusions)基于彩色图像中红、绿、蓝3分量光强度在阴影区域存在差异,根据小波变换在时域和空域均具有优异的局部化特征,结合背景差分,利用小波多尺度特性进行小波多尺度变换,提取视频指势对象,可有效提取不同复杂背景条件下的视频指势对象.基于人类生物结构特征,采用不受人脸朝向、姿态、光照变化等影响,以及不易遮挡的头顶特征代替人眼特征,不仅保证了人机交互活动的自由性和自然性,且大大提高了人机交互的时效性.为克服指示手指特征匹配歧义性,融合手指指尖特征点、指示手指手臂中心轴线及其外极线的多几何约束的立体匹配策略,采用求解反对应方法,确保了手指特征匹配对应的正确性.通过实验验证,证实了上述方法的有效性,可应用于实时、非穿戴的自然指势视觉3维人机交互中.参考文献(References):[1]徐光祐,陶霖密,史元春,等.普适计算模式下的人机交互[J].计算机学报,2007,30(7):1041–1053.(XU Guangyou,TAO Linmi,SHI Yuanchun,et al.Human com-puter interaction for ubiquitous/pervasive computing mode[J].Chi-1350控制理论与应用第26卷nese Journal of Computers,2007,30(7):1041–1053.)[2]HONGMO J,DAIJIN K.Hand gesture recognition to understand mu-sical conducting action[C]//Proceedings of16th IEEE International Symposium on Robot and Human Interactive Communication.New York:IEEE Press,2007:163–168.[3]V AFADAR M,BEHRAD A.Human hand gesture recognition usingspatio-temporal volumes for human-computer interaction[C]//Pro-ceedings of International Symposium on Telecommunications.New York:IEEE Press,2008:713–718.[4]JOJIC N,BRUMITT B,MEYERS B,et al.Detection and estima-tion of pointing gestures in dense disparity maps[C]//Proceedings of 4th IEEE International Conference on Automatic Face and Gesture Recognition.Washington DC:IEEE Computer Society Press,2000: 468–475.[5]ENFIELD N J,KITA S,DE RUITER J P.Primary and secondarypragmatic functions of pointing gestures[J].Journal of Pragmatics, 2007,39(10):1722–1741.[6]COLOMBO C,BIMBO A D,V ALLI A.Visual capture and under-standing of hand pointing actions in3-D environment[J].IEEE Trans-actions on Systems,Man and Cybernetics-Part B:Cybernetics,2003, 33(4):677–686.[7]CIPOLLA R,HOLLINGHURST N J.Human-robot interface bypointing with uncalibrated stereo vision[J].Image and Vision Com-puting,1996,14(3):171–178.[8]NICKEL K,STIEFELHAGEN R.Visual recognition of pointing ges-tures for human-robot interaction[J].Image and Vision Computing, 2007,25(12):1875–1884.[9]MALERCZYK C.Interactive museum exhibit using pointing ges-ture recognition[C]//Proceedings of12th International Conference in Central Europe on Computer Graphics,Visualization and Com-puter Vision.Plzen,Czech Republic:UNION Agency-Science Press, 2004:165–172.[10]STARNER T,LEIBE B,MINNEN D.The perceptive workbench:computer-vision-based gesture tracking,object tracking and3D re-construction for augmented desks[J].Machine Vision and Applica-tions,2003,14(1):59–71.[11]VIRA N,VIRA S.Surgeon’s magic wand:a screen pointing inter-active method[C]//Proceedings of IEEE International Conference on Bioinformatics and Computational Biology.New York:IEEE Press, 2006:222–228.[12]YAMAMOTO Y,YODA I,SAKAUE K.Arm-pointing gesture in-terface using surrounded stereo cameras system[C]//Proceedings of 17th International Conference on Pattern Recognition.Washington DC:IEEE Computer Society Press,2004,4:965–970.[13]SUGI M,NIKAIDO M,TAMURA Y.Development of gesture-basedinterface for deskwork support system[C]//Proceedings of IEEE/RJS International Conference on Intelligent Robots and Systems.New York:IEEE Press,2006:5171–5176.[14]CERNEKOV A Z,NIKOLAIDIS N,PITAS I.Single camera point-ing gesture recognition using spatial features and support vector ma-chines[C]//Proceedings of15th European Signal Processing Confer-ence.Washington DC:IEEE Computer Society Press,2007:130–134.[15]WREN C,AZABAYEJANI A,DARRELL T,et al.Pfinder:real-timetracking of the human body[J].IEEE Transactions on Pattern Analy-sis and Machine Intelligence,1997,19(7):780–785.[16]PRATI A,MIKIC I,TRIVEDI M M,et al.Detecting moving shad-ows:formulation,algorithms and evaluation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(7):918–924.[17]管业鹏,顾伟康.二维场景阴影区域的自动鲁棒分割[J].电子学报,2006,34(4):624–627.(GUAN Yepeng,GU Weikang.Automatic and robust shadow seg-mentation from two-dimensional scenes[J].Acta Electronica Sinica, 2006,34(4):624–627.)[18]GUAN Y P.Wavelet multi-scale transform based foreground segmen-tation and shadow elimination[J].The Open Signal Processing Jour-nal,2008,1(6):1–6.[19]MALLAT S,ZHONG S.Characterization of signals from multiscaleedges[J].IEEE Transactions on Pattern Analysis and Machine Intel-ligence,1992,14(7):710–732.[20]GUAN Y P,ZHENG M.Real-time3D pointing gesture recognitionfor natural HCI[C]//Proceedings of7th World Congress on Intelli-gent Control and Automation.New York:IEEE Press,2008:2433–2436.[21]GUAN Y P.Robust eye detection from facial image based on multi-cue facial information[C]//Proceedings of IEEE International Con-ference on Control and Automation,Washington DC:IEEE Computer Society Press,2007:1775–1778.[22]WANG P,JI Q.Multi-view face and eye detection using discrimi-nant features[J].Computer Vision and Image Understanding,2007, 105(2):99–111.[23]BAKER S G.The central role of receiver operating characteris-tic(ROC)curves in evaluating tests for the early detection of cancer[J].Journal of the National Cancer Institute,2003,95(7):511–515. [24]FAWCETT T.An introduction to ROC analysis[J].Pattern Recogni-tion Letters,2006,27(8):861–874.[25]KEREKES J.Receiver operating characteristic curve confidence in-tervals and regions[J].IEEE Geosciences Remote Sensing Letters, 2008,5(2):251–255.[26]HOWE N,DESCHAMPS A.Better foreground segmentation throughgraph cuts[C]//Proceedings of International Conference on Compu-tational Intelligence and Multimedia Applications.New York:IEEE Press,2007:267–271.[27]ZIVKOVIC Z,V AN DER HEIJDEN F.Efficient adaptive density es-timation per image pixel for the task of background subtraction[J].Pattern Recognition Letters,2006,27(7):773–780.作者简介:管业鹏(1967—),男,博士,教授,上海市曙光学者,主要研究方向为计算机视觉、模式识别等,E-mail:ypguan@.。