行为识别总结

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

常见的分类方法有：

（1）模板匹配方法（2）状态空间方法（3）词袋模型（4）文法技术法
（1）模板匹配方法（Template Matching）

模板匹配方法首先从给定的序列图像中抽取相关特征，接着将图像序列转换为一组静态形式模板，再接着通过测试序列的模板与事先存储着的代表“正确”行为的模板匹配来获得识别结果。
（2）基于运动特征的分类（Motion Based Classification）
人体的运动有时呈现出一定的周期性，同时也是非刚体运动。基于运动特征的分类通常使用人体运动的周期性，有效地区别出人与其他物体。
人的运动跟踪
（1）基于模型的跟踪（Model Based Tracking）（2）基于区域的跟踪（RegionBasedTracking）（3）基于活动轮廓的跟踪（Active Contour Based Tracking）（4）基于特征的跟踪（Feature Based Tracking）

光流法的基本原理是:给图像中的每一个像素点赋予一个速度矢量，形成一个图像运动场，在运动的一个特定时刻，图像上的一点对应三维物体上的某一点，这种对应关系可由投影关系得到，根据各个像素点的速度矢量特征，可以对图像进行动态分析。光流可以反映出运动目标的速度的大小和方向。
运动目标分类

运动目标分类是指区分出场景中的人和其他运动物体，目标分类的目的就是正确地从检测到的运动区域中将人体的运动区域提取出来。
（2）状态空间方法

状态空间法又称为基于概率网络的方法，把每一种静态姿势定义为一种状态, 这些状态通过概率联系起来,由静态姿势所组成的任何运动序列可以看成是这些不同状态之间的一次遍历过程。
（3）词袋模型

对特征向量进行聚类，将每一类特征看做--个 “词”，构成词袋模型中的词库。
（4）文法技术法

时空特征也可以分为全局时空特征和局部时空特征两大类。全局时空特征将人体区域当做一个整体进行描述，而局部时空特征则首先描述行为视频中的若干个子部分，然后通过组合各于部分来实现对行为的整体描述。
典型的全局吋空特征

运动历史图像Motion History Image(MHI) 运动能量图像Motion Energy Image(MEI)。每个MHI和MEI都由连续若干帧的人体轮廓图像构成。其中MEI描述行为在-段时间内的空间分布信息，MHI则描述行为在一段时间内的时间先后顺序。

人体行为检测识别的研究内容与基本流程包括运动目标检测（运动目标分割）、运动目标分类、运动目标跟踪以及人体行为识别与理解
运动目标检测方法
目的是从序列图像中将变化区域从背景图像中提取出来。目前比较常用的检测算法主要有：（1）时间差分法（Temporal Difference）（2）背景减除法（Background Subtraction）（3）光流法（Optical Flow）
人体行为识别总结

图像预处理运动目标检测运动目标分类运动目标跟踪行为识别与理解
图像预处理

噪声可以理解为“妨碍人们感觉器官对所接受的信息理解的因素”，例如一幅黑白图像，其亮度分布函数为F(x，y)，那么对其干扰作用的亮度分布R(X，y)便称为图像噪声。
改善图像质量的方法大致有两类:
人体轮廓
（4）基于特征的跟踪（Feature Based Tracking）

基于特征匹配的目标跟踪方法包括特征提取和特征匹配两部分。特征提取是指在图像处理过程中提取运动目标的一些特征，比如纹理、颜色和形状等。特征匹配是指将当前帧中提取出的特征和上一帧的特征按照某种规则进行比较，满足规则要求的两个特征形成匹配。
（2）背景减除法（Background Subtraction）

这种方法一般以摄像头固定为前提，利用当前图像与背景图像的差分来检测运动目标。

与时间差分法相比，基于背景减除法的运动目标检测方法可以提取出更为完整的目标图像，但在实际应用中所采集到的背景图像随着时间的推移，会对光照和外部条件造成的场景变化比较敏感，会出现许多伪运动目标点，影响到目标检测的结果
行为识别与理解

人体行为识别与理解是指对人体行为进行分析和识别，这是一个模式识别问题。这种技术从视频序列中抽取相关的视觉信息，用合适的方法进行表达，然后将抽取的序列与事先的模板序列的参考行为进行匹配，然后进行行为分类，并解释这些视觉信息，实现人的行为的识别理解
行为分类技术

分类问题就是将测试序列与训练后的行为模式进行匹配，关键问题是如何从训练样本中获取行为模式以及如何度量测试序列与行为模式之间的相似性。

一类是不考虑图像降质的原因，只将图像中感兴趣的部分加以处理或突出有用的图像特征，因此改善后的图像并不一定去逼近原图像。这一类图像改善方法称为图像增强，主要目的是提高图像的可懂度。另一类方法是针对图像降质的原因，设法补偿降质因素，处理后的图像尽可能的逼近原始的图像，这类方法称作是图像恢复或图像复原技术。

时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为，集合了形状和运动特征两者的优点。时空特征不仅包含人动作姿态的空间信息(人体躯干和肢体的位置、方向等)，而且还包含运动的动态信息(人体的全局运动和肢体的相对运动)。时空特征是含有时域信息的运动特征。它把视频中目标的运动看做是一个按时间组成的图像序列。也可以认为是一个 3 维特征，只是其中一维是时间。
典型的局部时空特征

时空兴趣点是一种典型的局部时空特征。
模型的学习和行为识别

个人理解：对人体行为样本进行训练然后与视频中的行为匹配进行识别。（例如：学习敬礼姿势，然后记住，入库，最后识别与之相似的姿势）
支持向量机(SVM)

一种由统计学习理论发展起来的新型机器学习算法。
Βιβλιοθήκη Baidu

兴趣点：个人理解：运动比较明显的地方聚类：个人理解：人物分开，人是一类，物是一类，或者人的某种状态是一类另一种状态是一类。鲁棒性：个人理解：健壮性，比如一台计算机文件出现错误，鲁棒性好的计算机不死机，鲁棒性差的就会死机。码本：个人理解：应该和词袋相似
（3）光流法（Optical Flow）

当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜 (即图像平面)，好像一种光的“流”，故称之为光流。当场景中有独立的运动目标时，通过光流分析可以确定运动目标的数目、运动速度、目标距离和目标的表面结构。
目标分类主要方法有：
（1）基于形状信息的分类（Shape Based Classification）（2）基于运动特征的分类（Motion Based Classification）
（1）基于形状信息的分类（Shape Based Classification）

基于形状信息的分类是对所检测出来的运动目标，根据它们的形状轮廓信息来进行分类。该方法采用区域的宽高比、投影特性、轮廓变化、直方图、面积信息等特征作为物体分类的依据。

还有一些文献我就不一一黏贴了，复制给你们，把文献摘要看看，对哪个感兴趣了就深究。

文法技术法是指将行为的过程和结构通过人工定义或机器学习的语法来表示，而所谓语法就是用于表达行为过程或结构规律的一系列规则。
特征的表示

A) 特征描述子。特征描述子一般用来描述一个运动点所在区域内部的特征信息。 B) 特征词袋表示。特征词袋（Bag of Word）是将物体的特征作为一系列无序的单词集合以及关于这些单词的无关文法。特征词袋表示方法在文字语言理解和检索方向有着深入的应用。
kim检测算法

时间差分法对于动态环境有很好的适应性，但不能完整的提取目标的所有相关点;背景减除法能够较完整的提取目标点，却又对光照和外部条件造成的动态场景变化过于敏感。

为了解决上述两种问题，kim提出的一种运动检测方法，在利用连续两帧图像差的同时又加入了背景图像差，将两者结合起来，比较精确地提取了二值运动模板。
基于时空单词的两人交互行为识别方法

这篇论文主要将时空兴趣点划分给不同的人并在兴趣点样本空间聚类生成时空码本，通过投票得到单人的原子行为时空单词，采用条件随机场模型建模单人原子行为,在两人交互行为的语义建模过程中,人工建立表示领域知识 (domain knowledge)的一阶逻辑知识库,并训练马尔可夫逻辑网用以两人交互行为的推理.

（1）时间差分法（Temporal Difference）

时间差分法又可以称为帧间差分法、帧差法。帧差法用相邻两帧或三帧的像素差分值来提取图像中的运动区域，如果差的绝对值小于某一阀值，则认为此像素点属于背景；反之，则属于前景。

当摄像头与场景静止时，图像具有相同的背景。因此将同一背景不同时刻两幅图像进行比较，可以反映出一个运动物体在此背景下运动的结果，
（1）基于模型的跟踪（Model Based Tracking）

基于模型的跟踪能够较为容易地解决遮挡问题。缺点是运动分析的精度取决于模型的精度，模型太过精细维数较高，运算也比较复杂，另外，在图像分辨率低的情况下，模型参数的估计比较困难。
（2）基于区域的跟踪（RegionBasedTracking）

运动熵：表示了打斗目标运动的混乱特性图像平滑：抑制或消除噪声，改善图像质量。这个过程就称为图像的平滑过程。
行为识别论文总结

基于打斗过程中运动能量特征的打斗行为识别研究少数人打斗行为的三个特征，即被检测目标的运动速度、运动的混乱程度以及多个目标之间的距离。当目标的运动越剧烈、运动混乱程度越大、多个目标之间的距离越小时，发生打斗的几率越大。打架行为的能量值非常大，且变化极不规律，当动作非常剧烈时达到极大值

实质上和上面的差不多，只是采取的方法不同，本文采用时空单词分别用于单人原子行为，然后在交互训练，最后通过马尔科夫网络进行推理识别。
基于空间分布特征的人体动作动态建模识别

提出基于空间分布特征的人体动作动态建模识别研究方法．先提取光流表现的运动特征和轮廓表现的表面特征，再利用光流和轮廓帧内的分布描述空间结构，建立自回归滑动平均动态模型获取动作动态特性( 时间结构) ，最后结构融合两种特征建模后取得的模型参数特征识别人体动作．
基于光流的人体行为识别

本文针对教室内学生的站立和坐下的视频，提出了基于光流的人体行为识别算法。首先获取当前帧的活动点集，从而得到活动区域。根据保存帧的信息统计向上光流和向下光流，结合当前人的状态，判断出人的动作。最后进行人的状态的更新。在整个视频处理过程中，该算法重复以上过程，维持了站立人的状态跟踪。（仅采用光流法一种方法一般只能识别较为简单的行为，如果对较为复杂的行为识别一般用光流法和其他方法结合。）

基于区域的跟踪是对运动对象相应区域进行跟踪，它将人体划分为不同的小块区域，通过跟踪小区域来完成人的跟踪。
（3）基于活动轮廓的跟踪（Active Contour Based Tracking）

活动轮廓是图像范围内的曲线或表面，基于活动轮廓的跟踪是利用曲线或表面来表达运动目标，并且此轮廓可以自动更新，以便实现对目标的连续跟踪。