步态识别方法的分类及各类方法的比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
步态识别方法的分类及各类方法的比较
程汝珍1,2
1河海大学计算机及信息工程学院,江苏南京(210098)
2水文水资源与水利工程科学国家重点实验室,江苏南京(210098)
E-mail:chengruzhen@
摘要:步态识别是生物特征识别技术中的一个新兴领域,它旨在根据个体的行走方式识别身份。
步态识别主要是针对含有人的运动图像序列进行分析处理,所涉及到的几项关键技术包括:视频处理、图像处理、模式识别。
步态识别分析可以划分为特征抽取、特征处理和识别分类三个阶段。
在最近的文献中已经有许多研究尝试,提出了许多步态识别的具体方法。
但国内外尚无将步态识别技术分类,本文提出了步态识别的六类分类法,且初步比较了每类方法的适用范围和优缺点,使读者较为全面了解步态识别技术现状。
关键词:步态识别;分类;适用范围;优缺点;比较
中图分类号:TP391.4
1.引言
步态识别是生物特征识别技术中的一个新兴领域,它旨在根据个体的行走方式识别身份[1]。
根据早期的医学研究[2]人的步态有24个不同的分量,在考虑所有的步态运动分量的情况下步态是唯一的。
精神物理学[3]中的研究结果显示即使通过受损的步态信息人们也能够识别出身份,这表明在步态信号中存在身份信息。
步态识别主要是针对含有人的运动图像序列进行分析处理,所涉及到的几项关键技术包括:视频处理、图像处理、模式识别[4]。
步态识别分析可以划分为特征抽取、特征处理和识别分类三个阶段[5]。
步态识别部分
图1 步态自动识别系统框图
Fig1 the framework of gait automatic recognition system
步态识别系统的一般框架如图所示[6]。
监控摄像机首先捕捉监控领域来人的行走视频,然后送入计算机进行检测和跟踪,提取人的步态特征,最后结合已经存储的步态模式进行身份识别。
若发现该人是罪犯或嫌疑人,系统将自动发出警告。
图2 步态识别的一般框架
Fig2 the general framework of gait recognition
步态识别比已有的诸如指纹、视网膜扫描和面像识别等生物识别方法有显著的优势[7]:对图像分辨率要求不高;步态可以通过远距离的摄像机捕获,因此和其他生物测量方法相比,步态是唯一不受距离影响的生物特征;此外,步态还具有非接触性、难以伪装、受环境影响小等特征[5],不要求人停下来被扫描或拍照,对像在机场和城市交通干道等区域中诸如人、车辆等快速移动的研究对象步态识别技术尤其重要。
而且,当别的生物识别技术识别不清时步态仍然可用,在智能监控系统的实际应用中,要获得解析度足够高的人脸或者虹膜信息,要实现非接触式的远距离身份识别是很困难的;而步态信息此时仍是可感知的[1]。
然而,与指纹或虹膜不同,人的步态是高度改变的,它的唯一性是有限的[5]。
由于人的行走姿势受各种因素的影响,在不同环境条件下行走姿势有或多或少的变化,因此步态识别的计算较复杂,识别的准确度还不够高,目前准确性远低于第一代身份识别技术。
在生命力学、人体运动学、心理物理学和物理医学研究领域[8],研究者对人走路的形态进行大量有益的尝试性工作,应用领域包括:步态病理学检测、受伤人员的康复、运动成绩的提高和基于人类工程学的运动器械及办公设备的设计。
步态识别技术的未来应用不可能仅限于生物特征方面[9],还可用于医学推断[10],法医推断(犯罪分析现场),甚至可能用于动画片和电影行业。
也可应用于诊断抑郁症和谎话检测。
在诸如监视、访问控制,雷达系统[9]和聪明的界面,城市场景或自动驾驶中的驾驶支持等的许多应用领域,未来步态识别技术的需求仍不断增长[11]。
尽管步态识别是一个新的研究领域, 近年来也已涌现出一些尝试性的研究[12]。
最早识别行人的方法也许是由Niyogi 与Adelso 提出的[13]。
Cunado 等[14]将大腿建模为链接的钟摆,并从其倾斜角度信号的频率分量中获取步态特征。
Little 与Boyd[15]从光流图像中获取频率和相位特征来识别个人。
Murase 与Sakai[16]提出了一种时空相关匹配的方法用于区别不同的步态, Huang 等[17]通过增加正则分析扩展了他们的工作。
近来,Shutler等[18]提出了一种基于时间矩的统计步态识别算法;Hayfron- Acquach[19]使用广义对称性算子进行步态识别;Johnson 与Bobick[20]在步态中使用了静态身体参数; Yam 等[21]尝试利用跑步行为进行人的识别。
马里兰大学的C.BenAbdelkader 等用步态序列自相似图( SSP) 来提取步态特性[22],南安普顿大学的J.P.Foster 等提出采用区域度量的方法解决识别步态问题[23], 麻省理工学院的L.Lee 等用轮廓各部分的矩特征来分析步态[24], 而CMU 的Robert T. Collins 等则直接利用身体轮廓信息识别步态[25], 代表性的是英国的南安普敦大学所做的工作[26]。
中科院自动所是国内最早开始步态识别研究的, 并提出了一种简单有效的自步态识别算法, 而且拥有相对较低的计算代价[27]。
在最近的文献中已经有许多研究尝试,提出了许多步态识别的具体方法。
大多数关于步态识别的论文中仅仅讨论步态识别的某种具体的方法,为了使读者对当前步态识别研究有个全面的了解,为了给步态识别勾勒出一幅整体的图画,有必要将这些方法进行分类。
但国内外尚无将步态识别技术分类,本文提出了步态识别的六类分类法,且初步比较了每类方法的适用范围和优缺点,使读者较为全面了解步态识别技术现状。
2步态识别方法的分类
下面我们将系统地勾勒出已经提出的步态识别方法的分类法,并且为每种分类法给出了一些例子,分析了各类方法的优缺点。
在这篇论文中我们总共提出了步态识别方法的六种分类法,这些分类方法只是从不同角度进行划分,国内外提出的某种具体步态识别方法可能同时属于几个类型。
2.1 基于SFM的方法与基于运动的方法
基于SFM(丛运动推断出结构)的方法试图通过跟踪特定的点集复原人的结构,从而识别身体的运动或动作。
然而,因为在三维中跟踪身体部位很长时间仍然是计算机视觉的挑战,而且重建结构是算法很复杂,基于SFM的方法的有效性仍然有限。
基于运动的识别方法表示了身体的运动模式,没有考虑它的底层结构,这类方法由于没有重建结构,算法复杂度较低。
可细分为两类主要方法:一种将人的运动表示成姿态/外形的序列(也就是离散数),即状态-空间方法;另一种表示了由人的运动连续性产生的时空分布特征,即时空方法。
(1)状态-空间方法将步态看成由一系列的身体姿态组成,且通过考虑与那些静止姿态有关的观测值的时间变量来识别步态[28]。
[8]提供了一个运用艾真空间图像来区分不同的步态的模板匹配方法。
他们用主要部件分析(PCA)将运动的人的二维轮廓描述进低维的特征空间。
在这个空间中单个人的步态被表示成(轮廓的)一个簇,通过确定是否所有输入的轮廓都属于这个簇进行步态识别。
为识别而降低的特征空间称为艾真空间,然后在艾真空间中使用一些监督模式分类技术(在这个例子中是k-最近邻居规则)。
[29]使用了一种相似的技术,用一种结合了艾真空间转换(EST)和正则空间转换(CST)的统计学方法,对空间模板的特征抽出进行规范分析,从而用步态识别人。
(2)时空方法表示了由运动的连续性产生的时空分布特征[28]。
通过对图片中运动的人观测得到的整个三维时空(XYT)的数据集来表现动作或运动的特征。
例如这个数据集可以由人的灰度模式图像片断,光学流图片或二维轮廓组成。
因此这个数据集就被处理成“大”向量,典型地,通过将这个向量描述成低维的特征向量且运用这个空间中的标准模式分类技术而对运动进行识别。
可能最早的识别行走的人的方法是Niyogi和Adelson[13]提出的,他们利用曲线匹配“蛇”来抽取行人的步态时空模式从而识别不同的行人。
Little和Boyd[15]使用行人的光学流信息中得到的频率和间隔特征,从而用步态来识别人。
最近,Shutler等[18]将时间的时刻引入统计学步态识别方法,Chiraz Ben Abdelkadery等[8]用运动的人的图片自相似情形来识别单个人的步态。
最近的某些四维模型的方法[14]也含有时间维,这些也是时空方法。
2.2基于整体/基于序列/基于外观/无模型的方法与基于特征/基于模型的方法
现在的步态识别方法可以分成两个主要的类:基于整体/基于序列/基于外观/无模型(这几个词虽然在某些文献中也提到过,但这几个词一直都没有同时出现在同一篇文献中,导致
读者可能以为它们是不同的类别,但细细分析后就会发现其实它们的含义是相同的)的方法与基于特征/基于模型(这两个词含义也相同,原因同上)的方法。
因为模型匹配涉及图片所以很难,大多数方法都属于第一类。
2.2.1 基于整体/基于序列/基于外观/无模型的方法
这些方法通过从行人的图片序列中产生的时空模式的分析表示步态,没有结构复原。
它又可细分为很多类方法,比较有代表性的几类方法介绍如下。
(1)基于运动的形状分析
例如,[15]描述了含有一组从高密度的光学流分布的动差中获得的运动特征的形状。
[30]选择侧面影像的外部轮廓作为他们的特征向量。
[28]提供了一个基于Procrustes形状分析方法的自动步态识别算法。
Procrustes形状分析意指两个形状相似性的分析。
) (2)对称分析
例如,[19]描述了基于分析人运动的对称的自动步态识别的方法,这种方法利用了综合平衡算子。
这个算子不依赖形状的边界,也不依赖总体形状,而是由它们的对称的性质找出特征的位置。
)
(3)密集光学流
密度光学流技术用光学流的相关状态形成特征向量从而创建签名[19],将光学流作为分离手段的运动检测[11,15,17]。
基本观点是检测有给定形状或共同特征的斑点(像有相似的光学流值的颜色一样)和在后续帧中跟踪它们的运动。
)
(4)图片自相似
Jonah McBride等[31]将步态自相似作为一种识别方法。
这种方法通过直接比较图片完全抛弃了分段。
每张图片通过差别的简单计算与别的图片比较。
简单的图片差别可以提供关节运动中有意义的自相似的表示。
Chiraz BenAbdelkade等[8]使用艾真空间中步态的自相似。
他们主张走路的人的二维动态被译成由人的图片序列的成对的图片相似点组成的二维图。
通过序列中的每个图片对计算相似性图。
(5)结合规范分析和艾真空间[11]
Ping S. Huang等[32]提出了一种统计学方法,这种方法为得到空间模板特征转换将艾真空间转换(EST)和正则空间转换(CST)结合起来,结果显示空间模板、水平流模板和水平垂直流模板比步态识别垂直流模板更好。
(6)Cyclograms分析法
YingLiang Ma等[33]提出了一种用Cyclogram进行步态识别和验证的统计学方法。
用图片减法和边缘检测及大腿和下肢旋转角抽取身体轮廓。
Cyclogram是作为大腿角与膝盖角的比较而产生的,用非均匀B样条曲线匹配。
无模型的方法的优势是这类方法不关联对象,它是整体的方法,因此检测人步态的方法不需修改也可以用于动物等的步态[7]。
在不精确的背景分离和速度变化等情况下,基于外观的方法做得很好。
然而,这些方法不能适应衣服[34]和照明的强烈改变[26]。
用这类方法抽取的特征包含形状信息,这是应该在步态识别中避免的。
然而,基于模型的方法可能获得强健的特征抽出[26]。
2.2.2基于特征/基于模型的方法
使用边界、线、边缘或光学流的基于模型的方法依赖特征抽出过程的可靠性[32]。
为了复原步态力学的特征,这类方法使用人的形状(结构)或运动模型,例如步幅尺度和关节角
度运动学。
我们将分三个部分介绍基于模型的方法:二维模型,三维模型,四维模型。
(1) 在二维模型中,两个步态的比较是通过一系列二维特征向量实现的,例如二维棍状模型[13]、互联的钟摆模型[14]、两步五链两足人类运动模型[26]。
(2)在三维模型中,两个步态的比较是通过三维时空特征向量(XYT)的计算进行的。
Raquel Urtasun等[34]提出了一种步态分析方法,这种方法依赖三维时间运动模型与同步视频序列的匹配。
这些模型使我们不仅可以跟踪还可以复原运动参数,可以用来识别人和描述他们的类型特征。
这类方法闭塞且对运动方向的变化不敏感。
Yu Ohara等[35]提出了使用无定向的图片传感器和分析时空量的三维频率特性的方法。
行走是个复杂的动态活动。
好的步态识别的人的模型应该是简单却广泛到足以获取多数步行者的动态,而且在跟踪序列中适应不同的人[2]。
诸如三维变换模型的复杂的人模型,在进行有效的人的跟踪时并不实用。
(3)四维模型由于极其复杂,研究得极少。
这类方法可以进一步细分成两类:第一类含有人的结构的三个维和时间维[20],例如,Amos Y等[15]是靠走路活动中在从多个视角的静态身体参数的复原来识别人,其中用到了时间维;第二类含四个特征维,例如:Chiraz Ben Abdelkader等[36]提供了一种在单眼低分辨率视频中通过估计人的身高和步态的一步参数自动识别人的方法,其中一步参数(步长和节奏)是身高、体重和性别的函数。
基于模型的方法与别的方法相比有几个优势[33]。
第一,基于模型的方法可以为走和跑提供一致的模型,不需参数选择[13,37]。
第二,他们提供大腿角和膝盖角的精确抽出。
第三,这些方法在小实验数据库上已经获得良好的结果[17],有助于理解步态的本质和描述。
模型也可以更好地处理闭塞和噪声,提供直接从模型参数获得步态签名的能力。
最后,他们也有利于减少需要表示的维度[7]。
由于必要的复杂的匹配和搜索产生的代价很高,实现基于模型的方法的缺点是计算代价。
前述基于模型的方法所建立的典型模型事实上并不完善,因为完整的步态模型应该涉及到步态产生机制所有主要环节,这势必导致待定参数的急剧增加,尽管这是局限性,不过随着计算机硬件运算和存储能力的迅猛提高,结合基因遗传等寻优搜索算法,这一设想具备可实现性,尤其在非实时应用中,多数算法实现中可以获得有效的改进,这有助于减少计算代价。
2.3基于HMM的方法与模板匹配方法
(1)模板匹配方法
从直觉上看, 通过步态来识别人依赖研究对象的侧影的变化方式。
依据这一个假设, [32]在通过步态识别人时使用了空间模板和三种类型的时间模板。
首先,每个原始步态序列分别转换成四种模板序列,在这个过程中,从每个原始序列中抽取出空间模板和三种类型的时间模板。
第二步,受训模板训练后再通过EST和CST投影到个体标准空间中;第三步,投影后,测试模板就可在标准空间中识别出来。
关于模板的详细讨论见[32]
用步态识别人涉及不同的人执行同一任务且模板匹配方法适合这样的问题[30]。
[8]就是模板匹配方法。
模板匹配方法易受噪声和运动期间的变量的影响。
(2)基于HMM的方法
对于人类的活动或行为识别,大多数研究都是用基于HMM(隐含马尔可夫模型)的方法,HMM的方法与模板匹配方法相对。
从一个姿态到另一个姿态有一个马尔可夫依赖[38]。
步态循环可以看成双随机过程,在这个双随机过程中隐含过程用姿态的变换表示,可观察到的是特定姿态时产生的图片。
隐含
马尔可夫模型(HMM)最适合描述这样的情况。
基于HMM的方法健壮性较强。
关于HMM 的详细的讨论和它们的应用见[39]。
在[40]中,离散的HMM用于识别乒乓球的不同击打。
但是与不同活动的轨迹相比,不同人执行同一动作的特征轨迹倾向于相互之间有很大的相似性。
由于数据库中的噪声和结构上相似的人,前述的动作识别方法如果直接用到人的步态识别中几乎必然失败。
为了提高算法健壮性,[11, 13,26, 30,38, 41]都用连续的基于HMM的方法。
2.4单人跟踪方法与人群(或称多人)跟踪方法
多数步态识别方法是为单人跟踪设计的,算法复杂性相对较低。
实时分离和跟踪多人很具有挑战性,却是视频监视中重要的问题。
人群(或称多人)跟踪方法算法复杂性很高,研究得也极少,它们不仅可用于多人跟踪,当然也可用于单人跟踪,甚至能区分人和车等不同类型的实体。
[42]提出一种用多台相机视频监视系统进行实时多人跟踪的方法。
他们的视频监视系统可以自动监测运动物体,将运动物体分成语义类,例如车和人;用Kalman过滤器保持对每个人的跟踪,为每个被跟踪的人指定唯一的标记;依靠这种方法,人们可以随意进入和离开现场。
诸如轮廓合并的反常的事件可以被很好的处理,当一群人分开时独立的人可以被正确地跟踪。
[43]设计了一个表示所有步行者的外观的分离模型,他们称这个模型为步行者多人模型。
他们选择用能代表人群的训练集的平均的轮廓表示所有步行者的轮廓。
男性和女性步行者的轮廓外观有一些姿态上的不同,因此训练序列需要含有相等数量的男性和女性。
2.5 视角不变的方法与任意视角的方法
在人与相机平行地行走时获得图片的情况下(即平面像),步态识别算法效果最好,这时的视角就是侧面视角(被称为正则视角)。
然而,“从任意视角点识别人”对智能环境的知觉界面、隐蔽安全防卫和访问控制等不同的任务都是一项重要的任务。
因此开发怎样可以在简单然而精确地从别的任意视角产生侧面视角的方法是重要的[44]。
有两种任意视角步态识别的方法。
(1)第一种也是最普遍的解决这个问题的办法涉及估计人的三维模型[17,18],这种方法可以产生必需的正则视角。
这个问题要求解决从运动中求出结构(SFM)或者立体结构重建的问题,众所周知这很困难。
(2)第二种是利用已存在的基于外观的数据,综合行人的正则视角,从而可以识别不同视角下的步态。
整个过程是在二维中进行的,然而三维结构隐含地起了作用。
这类方法不需要复原三维模型,较简单。
这又可细分为两类方法
I)虚拟正则视角
Shakhnarovich等[45]从一组单眼相机照片计算了基于图片的可见的船体,然后将这个船体用于提出的跟踪和识别。
II)跨角度的映射函数
Bobick和Johnson [46]中,两组活动特定的静态和一步参数是从不同的人中抽取的。
计算了每组参数混合的预期值,用于指导在不同获得图片的条件下的参数的选择(即户内与户外,侧面视角与某个特定视角,等)。
跨角度的映射函数用来说明观察方向的变化。
一步参数组(这比静态参数组小)能表明对观察方向的较大弹性,用这样的小参数组的表示在大数据库
中可能获得高识别率。
[30, 36, 44,45,47]表明如果人离相机足够远,用单相机从别的任意视角综合得到正则视角是可能的。
2.6 按该方法能否识别异常行走模式分类
多数步态识别方法是为有规律的走路模式设计的。
[48]提供了在运动规律和约束水平低时识别人走路运动的一种方法,用统计学距离的增加的生物机制特征分类规则确定未知的运动是否维持正常的行走模式,他们定义了“运动类型”,它由动态规律性和任意约束作为参数:运动类型=动态规律性+约束。
3 步态识别技术的局限性和发展趋势
与别的广泛应用的诸如面像和指纹等生物特征技术相比,步态识别还处在婴儿期。
这是因为存在的方法通常是在一些简化的假设下提出的,假设行人运动方向与固定的相机正面平行且背景相对比较简单。
而且因为缺乏大小合适的通用步态数据库,性能估计通常也是在小数据库上进行。
未来的工作重点在于创建具有一定规模的评估数据库、提高系统的评估方法、按照科学的方法观察影响性能的关键因素、开发潜在的人体模型的静态参数特征以及关节角度的动态特征等[5]。
1)建立更准确反映人体运动的模型[6]
前述基于模型的方法所建立的典型模型事实上并不完善,因为完整的步态模型应该涉及到步态产生机制所有主要环节。
其中,小腿和脚踝应该是两个重要的环节。
因此,所建立的模型应该包含体现小腿的移动和脚裸的旋转的特征方程组,这势必导致待定参数的急剧增加。
不过随着计算机硬件运算和存储能力的迅猛提高,结合基因遗传等寻优搜索算法,这一设想具备可实现性。
2) 步态特征与其他生物特征识别相结合[6]
最为普遍的识别方法就是利用单一、复杂的算法来处理各种可能的情况。
事实上,单一的方法处理图像中所发生的各类情况(姿势变化、光照变化、背景或者运动噪音干扰、表情变化等)是非常不容易的。
模式识别的理论表明:依据不同样本初始条件和判别准则建立起来的不同分类器,针对其研究分类对象各有优缺点,某种分类器可能仅仅对于某种特殊的情况处理要优于其他类型分类器,而且不同分类器误判所产生的错误分类并不重合。
因此,针对同一研究对象,采用依据不同准则建立的多种分类器,再依据数据融合理论,对各分类器的输出结果进行组合,从而形成融合判决,可以实质上提高系统的整体性能。
3) 建立三维人体模型[6]
使用多摄像机多角度监视,实现立体空间的步态识别不论基于模型或是基于统计特征,前述步态识别分析方法都基于二维的模型或统计特征。
步态作为人所具有的生物特征,准确的描述原本应该在三维空间中进行,显然在成像投影过程中损失了大量的有效信息。
因此,通过对人体运动所涉及的各个环境进行3维建模,结合多视角、多侧面监视投影,其识别的精确性将得到较大幅度的提高。
4) 建立大范围的步态特征数据库[6]
当前步态数据库的建立受到客观条件的约束,一般局限于几个至几十个人,这样算法的适应性和实用性都会受到影响。
建立大范围的步态特征数据库,是基于步态特征的生物识别技术能够顺利应用于机场、广场、重要政府部门等人流量大的场合的必备条件。
此外,对于步态识别算法的评估、验证显而易见也会起重要作用,也是算法实用化的前提。