基于张量和多尺度特征的多视角人体行为识别解读
一种基于多尺度形态学的人体姿势识别方法
( . 北 大 学 电子 信 息 工 程 学 院 , 北 石 家 庄 0 10 ;. 定 市 市政 公 用事 业 建 设 集 团路 灯 管 理 处 , 北 保 定 0 1 0 ) 1河 河 7022保 河 7 0 0
化 为 参 数 化 形 状 空 间 中人 体 二 维 轮 廓 的 最 优 化 匹配 问题 。 由 于 形 状 相 似 性 在 多 尺 度 形 态 学 空 间 中存 在 因 果 性 , 采 用 形 在
一
证 。 最 简 单 的方 法 如 时 问 域 的 差 分 , 照 度 变 化 、 动 以 及 对 振 背 景 的 变 化 极 为 敏 感 , 后 的 改 进 方 法 如 长 期 曝 光 法 也 不 随
能从 根 本 上 克 服 这 些 困 难 。 光 流 方 法 在 理 论 上 很 完 整 , 但 对 于 人 体 运 动 的 非 刚 性 特 性 , 基 本 上 是 不 成 立 的 , 便 应 它 即 用 前 面 提 出 的 基 于 形 态 特 征 的 分 割 方 法 , 不 能 避 免 特 殊 也 情 况 下 较 大 错 误 的 发 生 。所 以我 们 认 为 , 势 识 别 方 法 的 姿 鲁棒性 主要体现在其 对 不 准确 的分 割 结果 的 鲁棒 性上 , 而 我 们 的工 作也 从 克 服 分 割 结 果 的 缺 陷 人 手 。 虽 然 人类 识 别 姿 势 的 原 理 尚 不 明 了 , 有 理 由认 为 这 但 种 能 力 很 大 程 度 上 来 自形 态 信 息 , 可 以 从 我 们 能 够 识 别 这 残 缺 不 全 的 人 体 轮 廓 的姿 势 这 一 点 得 到 证 实 。 由 于 人 体 模 型 的 自由 度 很 高 , 们 需 要 一 种 有 效 得 方 法 来 解 决 一 般 最 我 优 化 方 法 所 存 在 的 局 部 最 优 问 题 。 基 于 形 态 滤 波 在 处 理 形 mao 1 9 ] t ,9 2 来进 行 , 且 相对 简 单 。图 1给 出 了这 个 问题 并 态 问 题 上 的 特 殊 能 力 , 应 当 是 一 种 合 适 的 工 具 。这 里 , 它 基 的一般解决方 案 。 于 形 状 相 似 性 在 形 态 尺 度 空 间 的 因 果 性 , 们 提 出 提 出 一 我 r Ia e ec ] a SPaca mgSq n e. u a l mge 种 2维 多 类 形 态 模 型 来 对 人 体 姿 势 进 行 描 述 , 把 姿 势 识 并 鎏 图 别 问题 转 化 为 对 分 割 得 到 的 人 体 轮 廓 在 模 型 空 间 上 的 相 似 p P a S ece 性最优 匹配问题 。在 大形 态 尺度 上 , 值点 数 目将 大 为减 极 少 , 其 中 的 全 局 最 大 值 点 至 少 是 小 尺 度 上 的 一 个 非 常 好 而 镬 圈密霾 的估 计 , 且 不 同 的 模 型 参 数 将 在 不 同 的 尺 度 上 得 到 不 同 而 的体 现 , 而 能 够 有 效 地 降 低 问 题 的 自 由 度 复 杂 性 。 通 过 从 采 用 恰 当的 最 优 化 方 法 , 合 K l n滤 波 器 来 对 人 体 运 动 结 ama 进 行 估 计 , 种 方 法 应 当 具 有 较 好 的 鲁 棒 性 和 可 靠 性 。 同 这 时 , 于 形 态 滤 波 是 非 常 易 于 并 行 化 的 , 过 采 用 适 当 的并 由 通 图 1 行 为识 别 的 一 般 框 架 行 平 台 , 种 方 法 的实 时 性 也 能 得 到 保 证 。 这 前 面 已 经 详 细 讨 论 了 运 动 分 割 问 题 , 章 我 们 将 主 要 本 2 人体 的 多类轮 廓建模 讨 论 第 二 个 问 题 , 姿 势 的参 数 化 识 别 问 题 。 即 . 图 2是视 觉监 控任 务 中一个 典 型 的视频 序列 , 以及 对 对 人 体 的 运 动 分 割 是 姿 势 识 别 的 基 础 。 就 目前 所 提 出 它 进 行 运 动 分 割 和 形 态 补 偿 后 得 到 的 人 体 轮 廓 。 为 了对 这 的各 种 姿 势 识 别 方 法 而 言 , 都 是 基 于 形 体 或 结 构 的 局 部 大 传 特 征 ( C L A) 连 接 、 架 、 率 如 [ o r 1 9 ] 种 粗 糙 的轮 廓 进 行 建 模 , 统 的 骨 架 模 型 基 本 上 是 行 不 通 P A、 D 如 骨 曲 R h, 94 、 的 。- r,9 2 也 曾经讨论过 这个 问题 , 的模 型是三 维 Mar 18 ] 他
基于多模态特征学习的人体行为识别方法
基于多模态特征学习的人体行为识别方法①周雪雪, 雷景生, 卓佳宁(上海电力大学 计算机科学与技术学院, 上海 200090)通讯作者: 周雪雪摘 要: 由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作, 本文提出基于多模态特征学习的人体行为识别算法. 首先采用两条通道分别提取行为视频的RGB 特征和3D 骨骼特征, 第1条通道C3DP-LA 网络由两部分组成: (1) 包含时空金字塔池化(Spatial Temporal Pyramid Pooling, STPP)的改进3D CNN; (2) 基于时空注意力机制的LSTM, 第2条通道为时空图卷积网络(ST-GCN), 然后, 本文将提取到的两种特征融合使其优势互补, 最后用Softmax 分类器对融合特征进行分类, 并在公开数据集UCF101和NTU RGB + D 上验证. 实验表明, 本文提出的方法与现有行为识别算法相比具有较高的识别准确度.关键词: 行为识别; 改进3D CNN; 时空注意力; 时空图卷积网络; 特征融合引用格式: 周雪雪,雷景生,卓佳宁.基于多模态特征学习的人体行为识别方法.计算机系统应用,2021,30(4):146–152. /1003-3254/7875.htmlHuman Action Recognition Algorithm Based on Multi-Modal Features LearningZHOU Xue-Xue, LEI Jing-Sheng, ZHUO Jia-Ning(College of Computer and Science, Shanghai University of Electric Power, Shanghai 200090, China)Abstract : Since the features obtained from a single action mode fail to accurately express complex human actions, this study proposes a recognition algorithm for human actions based on multi-modal feature learning. First, two channels extract the RGB and 3D skeletal features from the action video. The first channel, i.e., the C3DP-LA network, consists of an improved 3D CNN with Spatial Temporal Pyramid Pooling (STPP) and LSTM based on spatial-temporal attention.The second channel is the Spatial-Temporal Graph Convolutional Network (ST-GCN). Then the two extracted features are fused and classified by Softmax. Furthermore, the proposed algorithm is verified on the public data sets UCF101 and NTU RGB+D. The results show that this algorithm has higher recognition accuracy than its counterparts.Key words : action recognition; improved 3D CNN; Spatial-Temporal Attention (ST-Att); Spatial-Temporal Graph Convolutional Network (ST-GCN); feature fusion近年来, 随着计算机视觉技术的不断发展, 人体行为识别逐渐成为一个重要的研究领域, 在视频监控、医疗看护、游戏应用与人机交互等方面有着广泛的应用[1]. 目前, 人类行为主要可以基于RGB 视频[2,3], 深度图[4,5]和3D 骨架[6,7]等3种模态的特征进行识别.尽管基于每种特征的识别技术发展迅速并取得了很多成果, 当前仍然存在以下几个问题: (1)现有的人体识别算法大多是基于单一模态特征进行识别的.(2)基于RGB 视频的行为识别容易受到遮挡、环境变化或阴影的干扰; 深度图中颜色和纹理的缺失容易导致相关模型识别率较低; 3D 骨架由于角度、姿势以及关节点数有限等原因, 容易导致动作被错检或漏检.计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2021,30(4):146−152 [doi: 10.15888/ki.csa.007875] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家自然科学基金(61672337)Foundation item: National Natural Science Foundation of China (61672337)收稿时间: 2020-08-25; 修改时间: 2020-09-15; 采用时间: 2020-09-25; csa 在线出版时间: 2021-03-30146(3)视频中存在大量与行为识别无关的画面, 这些信息会降低算法的准确度. 针对以上情况, 本文融合RGB 视频和3D骨架两种行为信息的特征, 充分利用两者的优势, 同时引用注意力机制来研究行为识别.对于RGB视频行为特征, 前人提出了一些经典的识别模型. Tran等[8]采用3D卷积和3D池化构建了三维卷积神经网络(3D CNN), 它可以同时提取视频行为的外观和运动特征, 而且结构简单, 运行速度较大多行为识别算法更快, 并在UCF101等公开数据集上取得了不错的效果. 然而, 3D CNN也存在一定的技术缺陷: (1)网络的训练及测试均要求输入尺寸和比例固定的视频帧. 当输入任意大小的视频时, 3D CNN会对其进行裁剪或缩放以产生固定大小的输入样本, 而这种操作会导致信息丢失或扭曲, 从而影响特征的提取, 如图1所示. (2)网络每次只能接收7帧输入. 3D CNN将连续的视频分割成多个长度为7帧的片段, 降低了动作识别的连续性, 具有一定的局限.(a) 裁剪(b) 缩放图1 将视频帧裁剪或缩放后导致关键信息丢失如今, He等[9]提出的空间金字塔池化网络(SPP-net)已经成功解决了深度神经网络中输入数据维度固定的问题, 并在目标分类、目标检测等领域取得了良好的效果. 本文将空间金字塔池化扩展为时空金字塔池化(STPP), 并将其应用在3D CNN中, 使得任意尺寸的视频都可以直接输入网络, 并产生固定大小的输出.此外, LSTM因其对长短时特征的记忆功能而被广泛应用于视频识别中, 由于3D CNN不能充分提取长时序的时间特征, 本文采用添加时空注意力机制[10]的LSTM来进一步获取长时序视频帧的时间信息, 并自适应地分配不同注意力的权重, 感知关键帧信息, 最终得到更为完整的动态行为.基于骨架的行为识别方面, 本文采用Yan等[11]提出的时空图卷积网络提取骨骼特征. 在骨骼序列上构建时空图, 通过对其应用多层时空图卷积操作, 逐渐在图像上生成高级的骨骼特征. 最后, 本文将第1层通道C3DP-LA提取到的RGB视频特征和第2层通道ST-GCN提取到的骨骼特征进行早期融合, 充分学习不同类型特征的优点, 并用标准的Softmax分类器完成动作识别.本文的贡献: (1)考虑到单一模态的特征各有不足,本文提出一种双流行为识别框架, 先分别提取两种不同类型的特征, 再将其融合, 利用两者的互补性综合表征人体行为. (2)为了能够处理任意大小和长度的RGB 视频, 本文在3D CNN中接入时空金字塔池化, 然后连接LSTM学习时间特征. (3)为了增强关键特征, 提高算法精度, 本文在LSTM模块加入时空注意力机制.(4)本文的方法在NTU RGB+D数据集上优于现有的一些算法, 在基于单一特征和融合特征两类识别方法中表现出良好的识别效果.1 相关工作人体行为识别是计算机视觉领域中的一个热门研究课题. 目前, 针对动作识别的研究大多是基于单一模态开展的, 例如, Simonyan等[12]提出的首个双流卷积网络框架, 采用两个分支CNN分别对RGB视频的静态帧图像和动态光流进行特征提取, 以获得空间和时间信息, 最后用SVM将两种信息进行融合分类, 完成动作的识别. Chen等[13]提出基于深度图的行为识别算法DMMs, 利用深度图投影之间的绝对差形成一个DMM, 然后应用带有距离加权的正则协同分类器识别动作. Lee等[14]提出基于骨架进行动作识别的时间滑动LSTM (TS-LSTM)网络, 依靠多个LSTM的集合捕获人体行为的短期、中期和长期运动特性, 有效地学习时间和空间特征, 增加对动态时间变化的鲁棒性. 这些方法可以正确识别一些动作, 但单一模态的特征难以准确、全面地表达复杂的人体动作. 为了解决这一问题, 一些研究者尝试将不同模态的特征融合起来, 利用其互补性达到更好的识别效果.Chaaraoui等[15]提出一种二维形状的人体姿态估计与骨骼特征相结合的方法, 通过将有效的2D轮廓和3D骨骼特征融合获取具有较高鉴别价值的视觉特征, 同时利用轮廓提供的额外判别数据, 提高人体行为识别误差的鲁棒性. Sanchez-Riera等[16]针对手势识别和通用对象识别, 将RGB特征与深度特征融合起来,并评估早期和晚期融合两种方案, 结果表明, 两种特征的早期融合相比于晚期融合和单一特征具有更有效的行为表达能力. Li等[17]提出了多特征稀疏融合模型,2021 年 第 30 卷 第 4 期计算机系统应用147分别从骨架和深度数据中提取人体部位的多个特征,并利用稀疏正则化技术自动识别关键部分的特征结构,由此学习到的加权特征对于多任务分类更具鉴别性.Chen 等[18]基于深度相机和惯性体传感器, 分别提取人体行为的深度图像特征和RGB 视频特征, 并评估特征级融合和决策级融合两种识别框架.上述多特征融合模型由于从所选模态中提取的时间或空间特征不够显著, 识别准确度仍然有所欠缺. 考虑到深度图像色彩、纹理等重要信息的缺失可能导致模型混淆分类, 本文从RGB 视频和3D 骨骼两种模态中提取特征, 将其融合, 利用两种特征的优势进行动作分类.2 算法框架本文基于多模态特征融合的行为识别算法框架如图2所示. 模型在行为特征的提取阶段主要包含两层:C3DP-LA 网络和ST-GCN 网络, 其中C3DP-LA 网络由改进3D CNN 和包含时空注意力机制的LSTM 模型组成. 输入一段视频, 我们可以得到行为样本的RGB 视频序列和3D 骨骼序列. 在C3DP-LA 网络中, 添加时空金字塔池化的3D CNN 可以自动处理任意尺寸大小的RGB 视频帧序列, 快速卷积得到初步的时空特征,紧接着的LSTM 模块凭借其记忆功能将当前甚至更早时刻的信息传递给下一刻使用, 进一步提取时间特征,同时采用时空注意力机制增强关键信息, 得到最终的RGB 视频特征. ST-GCN 网络通过在骨骼序列上构建时空图并对其应用多层时空图卷积操作, 生成更高级的骨骼特征. 最后, 将提取到的两种模态特征融合, 采用标准的Softmax 对融合特征向量做出动作分类预测.下面详细介绍了算法中的每个模块.视频骨骼序列输入特征提取ST-GCN Softmax ···行为识别融合动作类别骨骼特征R G B 特征LSTM +ST-AttentionF C 7C o v n 6C o v n 4C o v n 2C o v n 1P o o l 3S T P P改进 3D CNNRGB 序列图2 基于多模态特征学习的人体行为识别模型2.1 改进3D CNN 结构3D 卷积网络与2D 卷积网络相比, 可以同时捕捉目标的外观和运动信息, 具有更好的行为识别性能, 且其结构比目前许多行为识别模型都简单, 具有较快的运行速度. 该模型将多个连续帧堆叠形成立方体, 每帧中生成多个通道信息, 采用不同的核对连续帧的每一个通道做3D 卷积, 这样得到的特征图连接到了多个邻近帧, 从而在提取空间信息的同时获得时间信息. 最终将所有通道上的信息结合计算得到多种类型的特征.x y x y 3D CNN 结构包括1个硬线层、3个卷积层和2个下采样层, 网络以尺寸为60×40的连续7帧图像作为输入. 硬线层从每帧图像中提取灰度、横坐标梯度、纵坐标梯度、光流、光流这5个通道信息, 生成33个特征图; C2卷积层采用两种不同的3D 核对上一层输出的5个通道信息分别进行卷积操作, C4卷积层则采用3种不同的卷积核分别对特征图进行卷积操作, 从而得到更多的、兼具空间和时间两种维度的特征图; 降采样层S3和S5分别采用大小为2×2和3×3的滑动窗口对上一层得到的每个特征图进行下采样,保持特征图数量不变的同时减少空间上的分辨率; 最后一个卷积层C6对每个特征图采用7×4的2D 核进行卷积操作, 得到128个特征图, 即输入帧中动作信息的128D 特征向量, 并送入全连接层做动作识别.然而, 3D CNN 中全连接层的长度大小是事先定义好的, 这就要求网络的训练及测试都需要输入尺寸和比例固定的视频帧. 当输入任意大小的视频时, 3D计算机系统应用2021 年 第 30 卷 第 4 期148CNN 会对帧图像进行裁剪或缩放以产生固定大小的输入样本, 而这样操作很可能会导致重要信息丢失、扭曲, 从而影响特征的提取. 为了对任意尺寸的视频帧做更全面的处理, 本文用时空金字塔池化层替换掉3D CNN 中最后一个池化层, 来接收大小不同的输入并将其转化为固定长度的特征向量, 同时提取更多不同时间角度的特征.T ×W ×H W P (p t ,p s )p t p s ⌊T /p t ⌋×⌊W /p s ⌋×⌊H /p s ⌋p s =4,2,1p t =1由于卷积层可以接收任意大小的输入, 并随之产生不同大小的输出. 给定一段任意尺寸的RGB 视频序列作为3D CNN 的输入, 经过前期的3D 卷积和普通下采样后, 假设最后一个卷积层的特征映射尺寸为, 其中T 为池化立方体的时间, H 和是帧的高度和宽度. 不同于3D CNN 中使用的常规滑动窗口池化, STPP 在给定池化层产生的特征数量后, 会动态地调节滑动窗口的大小. 具体来说, 我们将表示为时空池化级, 其中是时间池化级, 是空间池化级,因此, 每个池化立方体的大小为.当且 时, 大小不同的卷积输出就可转化为维度固定的特征向量, 输入全连接层. 其中, 每个时空池化立方体均对响应值采用最大池化. 这样, 配置了STPP 的改进3D CNN 就可以适应任意尺寸或比例的视频帧, 并支持对帧尺度的任意缩放.2.2 基于时空注意力机制的LSTM 模型不同视频的长度不一定相同, 视频中每个动作的时间长度也是不一样的, 因为任何动作的发生都是一个动态的过程, 单纯的一帧视频图像或者连续几帧形成的片段常常不能在时间上表达出完整的动作. 然而,3D CNN 只能接受长度固定(7帧)的视频输入, 这导致任意长度视频的行为识别精度变低. 为了更充分地提取动作的连续特征, 本文在改进3D CNN 后连接LSTM 模型进一步识别人体行为.LSTM 对输入或输出的长度没有固定限制, 这有利于捕捉任意长度数据的动作特征; 且作为循环神经网络的变体, 它不仅解决了RNN 梯度爆炸的问题, 还对长期时间依赖关系具有很好的建模能力. LSTM 模块连接在改进3D CNN 的全连接层后, 根据其特定的学习机制, 可以通过内部的门控单元对输入的数据选择性遗忘、记忆或更新, 获得可变长度的连续动作序列特征之间的关系. 此外, 由于时空注意力机制(Spatial-Temporal Attention, ST-Att)可以同时捕捉行为特征的空间相关性和动态时间相关性, 本文在LSTM 模型中加入ST-Att, 以筛选出权重较大的值, 增强关键特征,获得更复杂的时空线索. 其单元结构如图3所示.x tx ti tc tf t h th to tx t输入门遗忘门输出门^ST-AttCell图3 包含时空注意力机制的LSTM 模型i t f t o t i t f t o t c t 、ˆht 、h t c t ˆh t h t x t 在基本的LSTM 单元中, 、、 分别代表3个门: 输入门, 遗忘门和输出门. 根据传入信息选择性地更新细胞状态; 负责对细胞状态中的信息选择性记忆或遗忘; 控制的输出会对其他神经元产生一定的影响. 、、则分别代表记忆细胞状态、LSTM 原始单元的输出和添加注意力后的输出. 代表行为视频经过改进3D CNN 后得到的一系列特征, 具体计算公式如下:σ(·)tanh(·)⊙W i j b j ˆht −1g t f att (·)f att (ˆht )ˆh t 其中, 表示取值范围为(0, 1)的Sigmoid 非线性激活函数, 表示取值范围为(−1, 1)的tangent 非线性激活函, 表示哈达玛积, 表示对应的权重矩阵,代表偏差, 表示隐藏状态, 表示记忆调制状态,表示能够自适应感知关键帧特征的注意力机制.为了在加强关键帧信息的情况下不丢失非聚焦信息,最终以与的和作为输出, 保持时空特征的完整性.2.3 时空图卷积网络骨架序列能够有效地代表人体行为的动态, 目前,我们已经可以通过Kinect 和先进的人体姿态估计算法获得完整的3D 骨架序列. 为了得到更加丰富的行为特征, 进一步提高动作识别精度, 本文采用ST-GCN 作为基于骨架识别动作的通道模型. ST-GCN 是由图卷积网络扩展的时空图模型, 是用于行为识别的骨骼序列2021 年 第 30 卷 第 4 期计算机系统应用149通用表示, 它不仅拥有很强的表达能力和很高的性能,而且易于在不同环境中推广.N G =(V ,E )V ={v ti |t =1,···,T ;i =1,···,N }t i F (v ti )首先, 对于具有T 帧和个节点的骨架序列, 构造表示该信息的时空图, 图中的节点集表示骨骼序列中所有关节点,每个节点都对应人体该处的关节, 其中第帧的第个节点的特征向量由该节点的坐标向量和估计置信度组成. 这个图结构包括两种边: 一种是根据人体结构,将每帧中的节点自然连接起来的空间边; 另一种是将连续两帧中相同关节点连接起来的时间边. 然后, 以构造的骨架图中关节点的坐标向量作为ST-GCN 的输入, 对其应用多层时空图卷积操作, 图卷积后各关节的输出特征是由采样函数定义的邻域内关节特征的加权和, 最终得到人体行为视频的3D 骨架特征图.2.4 特征融合对于行为识别, RGB 视频模态具有丰富的颜色和纹理信息, 3D 骨骼模态不容易受到光照、遮挡、衣着等不利因素的影响, 本文考虑到特征融合的互补性优势, 提出基于上述两种模态特征的人体行为识别方法.根据融合发生的时间, 特征融合通常可分为: 早期融合、晚期融合和双向融合. 早期融合是指在进行识别之前将多种不同的特征融合, 其优势在于特征融合模块是独立于后期其他模型的. 因此, 本文采用早期融合策略, 将RGB 视频和3D 骨骼这两种类型的特征归一化后拼接起来, 生成新的混合特征向量, 并应用Softmax 分类器对得到的融合特征进行动作分类. 融合后的特征可以使RGB 视频与3D 骨骼模态相辅相成, 优势互补, 从而传达重要的行为信息.3 实验3.1 数据集和评价标准本文实验所用到的数据集为UCF101[19]和NTU RGB+D [20]. UCF101包含13 320个视频, 视频主要来源于YouTube 等网站, 空间分辨率为320×240. 该数据集共101个行为类别, 主要分为人和物体交互、只有肢体动作、人与人交互、玩音乐器材、各类运动五大类.本文选取9320个视频用于训练, 剩下的4000个视频用于测试. NTU RGB+D 包含56 880个视频样本, 视频由3个Microsoft Kinect v2相机同时记录在不同水平视图下40个人的行为. 该数据集共有60个动作类别, 每个样本都包括RGB 视频、深度图序列、3D 骨架数据和红外视频4种形式, RGB 视频的分辨率为1920×1080, 深度图和红外视频均为512×424, 3D 骨架数据包含每帧25个主要身体关节的三维位置. 本文选用40 880个视频作为训练集, 剩下16 000个视频作为测试集.算法的评价标准为行为识别的准确率, 准确率取每个类别准确率的平均值.3.2 训练细节本文实验选择Linux 操作系统和PyTorch 深度学习框架. 首先, UCF101数据集与NTU RGB+D 数据集相比明显较小, 为了提高模型的泛化能力, 并且防止在UCF101上训练时出现过拟合现象, 本文对该数据集的视频做数据增广处理, 将样本扩充为原来的5倍. 其次,为了减少视频长度对训练精度的影响, 统一将每个视频插值化处理为32帧. 由于本文在3D CNN 中添加的STPP 可以接受任意尺寸的输入, 因此不需要对两个数据集中视频的分辨率大小进行调整. 最后, 在特征融合阶段, 通过实验对比两种特征各占的权重, 选用1:1.2作为RGB 特征和骨骼特征的权重.训练时, 参考随机梯度下降算法中的参数, 将批处理大小设为128, 动量设为0.9. 将初始学习率设置为0.001, 经过15 000次迭代后缩小0.1, 最大迭代次数为25 000次.3.3 实验结果与分析本文的关键点主要在于: (1)在3D CNN 中添加STPP; (2)在提取RGB 视频特征的通道加入包含时空注意力机制的LSTM; (3)将RGB 特征与骨骼特征融合. 下面分别评估前两个模块对识别性能的影响, 并将最终识别模型与现有的流行方法做对比分析. 本文选用UCF101数据集, 添加各模块后的识别性能如表1.3.3.1 RGB 通道的模块分析(1)添加STPP 的效果带有STPP 的改进3D CNN 支持不同尺寸的视频输入而原始3D CNN 不能, 因此, 本文在UCF101数据集上用多尺寸视频训练该模块, 用固定尺寸的视频训练3D CNN. 由表1可知, 多尺寸训练的改进3D CNN 比单尺寸训练的原始3D CNN 效果要好, 识别精度提升了2.4%, 这是因为多尺寸训练可以防止网络陷入过拟合.(2)添加基于时空注意力的LSTM 的效果由表1给出的在UCF101数据集上LSTM 和时空注意力机制对视频行为的识别效果, 改进3D CNN 连计算机系统应用2021 年 第 30 卷 第 4 期150接LSTM模型后的识别准确度有所提升; 进一步添加了时空注意力机制后, 性能优化更加明显, 准确度提高了4.5%, 这是因为时空注意力机制可以有效地增强关键特征, 筛选出更复杂的时空信息, 从而提高模型的表达能力.表1 添加模块对识别性能的影响算法识别精度(%)3D CNN82.3改进3D CNN84.7改进3D CNN+LSTM85.4改进3D CNN+LSTM+ST-Att89.23.3.2 方法对比将C3DP-LA和ST-GCN两个特征提取网络进行早期融合形成最终的识别模型, 为了评估模型性能, 本文将其与目前主流的深度学习算法进行比较.(1) UCF101数据集上的结果对比表2给出了本文算法中RGB特征提取模型与双流卷积网络(Two Stream), 3D卷积网络(3D CNN), 递归混合密度网络(RMDN)[21], 时空注意力模型(STA-CNN)[10]的行为识别效果, 可以看出, 本文RGB通道模型的识别准确率优于其他算法, 表现出更好的性能.表2 不同行为识别算法在UCF101数据集上的准确率(%)算法名称准确率Two Stream[12]88.03D CNN[8]82.3RMDN[21]82.8STA-CNN[10]86.0本文算法(仅RGB通道)89.2(2) NTU RGB+D数据集上的结果对比表3给出了本文最终识别模型与一些算法在交叉主体(Cross-Subject, CS)和交叉视图(Cross-View, CV)两个评估协议上的识别效果. 对比算法分为两类: 一类是基于单一模态(如RGB或骨骼)进行识别的模型, 包括姿态估计图的演化模型(Pose Estimation Maps)[3], 关节轨迹图模型(JTM)[7], 本文用到的时空图卷积网络(ST-GCN)和基于空间推理和时间堆栈学习的网络(SR-TSL)[22]; 另一类是基于多种模态识别的模型, 包括手势识别网络(STA-Hands)[23], 基于姿态的注意力模型(Pose-based Attention)[24]和深度聚合网络(DAN)[25].由表3可以看出, 本文提出的方法在NTU RGB+D数据集上取得了88.7%和92.8%的识别准确率, 不仅优于单一模态的识别方法, 与其他多种模态融合的方法相比也表现出更好的性能, 证明了本文算法对人体行为识别的有效性.表3 不同行为识别算法在NTU RGB+D数据集上的准确率(%)算法名称模态CS CV Pose Estimation Maps[3]RGB78.884.2 JTM[7]骨骼73.475.2ST-GCN[11]骨骼81.588.3SR-TSL[22]骨骼84.892.4STA-Hands[23]RGB+骨骼82.588.6 Pose-based Attention[24]RGB+骨骼84.890.6 DAN[25]RGB+深度图86.489.1本文算法RGB+骨骼88.792.84 结论与展望针对单一行为模态的特征难以充分表达复杂的人体动作, 导致行为识别准确度不高的问题, 本文提出基于多模态特征学习的行为识别算法, 分别学习视频的RGB特征和骨骼特征, 然后将两者融合, 利用融合特征的互补性优势, 达到提高行为识别率的目的. 通过在UCF101和NTU RGB+D两个公开的行为识别数据集上进行实验, 证明了本文方法与目前多种行为识别算法相比有着较高的识别准确率, 能够更有效地识别人体动作. 今后的研究将考虑到更多现实环境的因素, 提高算法实际应用时的在线识别精度和速度.参考文献Aggarwal JK, Ryoo MS. Human activity analysis: A review.ACM Computing Surveys, 2011, 43(3): 16. [doi: 10.1145/ 1922649.1922653]1Yeung S, Russakovsky O, Mori G, et al. End-to-end learning of action detection from frame glimpses in videos.Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. 2016.2678–2687.2Liu MY, Yuan JS. Recognizing human actions as the evolution of pose estimation maps. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UT, USA. 2018.1159–1168.3Weng JW, Weng CQ, Yuan JS, et al. Discriminative spatio-temporal pattern discovery for 3D action recognition. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(4): 1077–1089. [doi: 10.1109/TCSVT.2018.28181 51]4Shotton J, Fitzgibbon A, Cook M, et al. Real-time human 52021 年 第 30 卷 第 4 期计算机系统应用151pose recognition in parts from single depth images.Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI,USA. 2011. 1297–1304.Vemulapalli R, Arrate F, Chellappa R. Human action recognition by representing 3D skeletons as points in a lie group. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA. 2014.588–595. [doi: 10.1109/CVPR.2014.82]6Wang PC, Li ZY, Hou YH, et al . Action recognition based on joint trajectory maps using convolutional neural networks.Proceedings of the 24th ACM International Conference on Multimedia Conference. Amsterdam, the Netherlands. 2016.102–106.7Tran D, Bourdev L, Fergus R, et al . Learning spatiotemporal features with 3D convolutional networks. Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile. 2015. 4489–4497.8He KM, Zhang XY, Ren SQ, et al . Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015, 37(9): 1904–1916. [doi: 10.1109/TPAMI.2015.2389824]9Meng LL, Zhao B, Chang B, et al . Interpretable spatio-temporal attention for video action recognition. arXiv:1810.04511, 2018.10Yan SJ, Xiong YJ, Lin DH, et al . Spatial temporal graph convolutional networks for skeleton-based action recognition. Proceedings of the 32nd AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th Innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18). New Orleans, LA, USA. 2018.7444–7452.11Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, QC, Canada. 2014. 568–576.12Chen C, Liu K, Kehtarnavaz N. Real-time human action recognition based on depth motion maps. Journal of Real-time Image Processing, 2016, 12(1): 155–163. [doi: 10.1007/s11554-013-0370-1]13Lee I, Kim D, Kang S, et al . Ensemble deep learning for skeleton-based action recognition using temporal sliding LSTM networks. Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy.2017. 1012–1020.14Chaaraoui AA, Padilla-López JR, Flórez-Revuelta F. Fusion of skeletal and silhouette-based features for human action15recognition with RGB-D devices. Proceedings of IEEE International Conference on Computer Vision Workshops.Sydney, NSW, Australia. 2013. 91–97. [doi: 10.1109/ICCVW.2013.19]Sanchez-Riera J, Hua KL, Hsiao YS, et al . A comparative study of data fusion for RGB-D based visual recognition.Pattern Recognition Letters, 2016, 73: 1–6. [doi: 10.1016/j.patrec.2015.12.006]16Li M, Leung H, Shum HPH. Human action recognition via skeletal and depth based feature fusion. Proceedings of the 9th International Conference on Motion in Games.Burlingame, CA, USA. 2016. 123–132. [doi: 10.1145/2994258.2994268]17Chen C, Jafari R, Kehtarnavaz N. Improving human action recognition using fusion of depth camera and inertial sensors.IEEE Transactions on Human-Machine Systems, 2015,45(1): 51–61. [doi: 10.1109/THMS.2014.2362520]18Soomro K, Zamir AR, Shah M. UCF101: A dataset of 101human actions classes from videos in the wild. arXiv:1212.0402, 2012.19Shahroudy A, Liu J, Ng TT, et al . NTU RGB+D: A large scale dataset for 3D human activity analysis. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA. 2016. 1010–1019.20Bazzani L, Larochelle H, Torresani L. Recurrent mixture density network for spatiotemporal visual attention. arXiv:1603.08199, 2016.21Si CY, Jing Y, Wang W, et al . Skeleton-based action recognition with spatial reasoning and temporal stack learning. Proceedings of the 15th European Conference on Computer Vision. Munich, Germany. 2019. 106–121.22Baradel F, Wolf C, Mille J. Human action recognition: Pose-based attention draws focus to hands. Proceedings of 2017IEEE International Conference on Computer Vision Workshops (ICCVW). Venice, Italy. 2017. 604–613. [doi:10.1109/ICCVW.2017.77]23Baradel F, Wolf C, Mille J. Human activity recognition with pose-driven attention to RGB. Proceedings of the 29th British Machine Vision Conference (BMVC). Newcastle,UK. 2018. 1–14.24Wang PC, Li WQ, Wan J, et al . Cooperative training of deep aggregation networks for RGB-D action recognition.Proceedings of 32nd AAAI Conference on Artificial Intelligence(AAAI-18), the 30th Innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18). New Orleans, LA, USA. 2018.7404–7411.25计算机系统应用2021 年 第 30 卷 第 4 期152。
基于深度学习的人体动作识别方法
帧图像,然后对随时间变化的图像进行分类,所以在图片 识别领域的深度学习方法,也被应用在视频序列中人体动 作识别的研究中5。但人体动作识别的动作识别模式具有 不可预测性和多样性,所以在进行识别研究时需要结合多 方面综合技术,随着实际应用中并发数据量的增多,给识 别带来了一定的难度为了提高人体动作识别的识别 率,本文构建一种基于卷积神经网络模型和递归神经网络 模型的改进模型,并利用稠密光流函数提取视频前后帧图 像的光流数据,对特定场景下视频中的人体动作进 行识别。
0引言
在基于计算机视觉领域的人体动作识别研究中,Karpathy等也利用深度卷积神经网络以视频中连续的RGB视 频帧为直接输入对人体动作进行识别;Shuwang Ji等⑶提 出利用视频数据中时间维度信息,利用3D卷积神经网络对 人体动作进行识别;Jeff等⑷利用融合卷积层和长时递归 层的长时递归卷积网络(long-term recurrent convolutional, LRCN)提出了用于人体动作识别的网络模型。
Human motion reJognition method based on deep learning
SHEN Xi-ting12, YU Sheng12, DONG Yao12+ , DONG Yong-feng1& , ZHANG Ze-wti12
(1. School of Artificial Intelligence, Hebei University of Technology , Tianjin 300401, China; 2. Hebei Provincial Key Laboratory of Big Data Computing , Hebei University of Technology , Tianjin 300401 , China)
计算机视觉中的人体姿态估计与行为识别
计算机视觉中的人体姿态估计与行为识别计算机视觉中的人体姿态估计和行为识别是两个重要的研究领域,它们可以在许多实际应用中发挥重要作用。
本文将分别介绍人体姿态估计和行为识别的基本原理、方法和应用。
一、人体姿态估计人体姿态估计是指从图像或视频中准确地估计人体的姿态信息,包括关节角度、关节位置和身体姿势等。
它在人机交互、动作捕捉、人体分析等领域有广泛的应用。
1.基本原理人体姿态估计的基本原理是基于计算机视觉和机器学习的方法,通过从图像或视频中检测和跟踪人体关键点,然后根据这些关键点来估计人体的姿态。
关键点通常对应于人体的关节位置,如肩、肘、手腕、膝盖等。
2.方法人体姿态估计的方法主要包括基于部件的方法和端到端的方法。
基于部件的方法将人体分解为多个部件,然后分别估计每个部件的姿态,最后组合得到完整的姿态。
端到端的方法直接从输入图像或视频中直接输出人体的姿态,不需要中间步骤。
常用的具体方法包括基于深度学习的姿态估计方法,如卷积神经网络(CNN)、循环神经网络(RNN)等。
这些方法可以处理不同视角、光照条件和人体遮挡等复杂情况。
3.应用人体姿态估计在许多领域中有广泛的应用,包括人机交互、虚拟现实、动作捕捉等。
在人机交互中,通过人体姿态估计可以实现手势识别、人脸表情识别等功能;在虚拟现实中,可以实现人体动作的实时捕捉和重建;在动作捕捉中,可以用于电影、游戏等。
二、行为识别行为识别是指从图像或视频中识别和分析人类的特定行为,如行走、跑步、打球等。
它在视频监控、行为分析、智能交通等领域有着广泛的应用。
1.基本原理行为识别的基本原理是通过分析人体的动作信息来识别其进行的行为。
行为可以通过人体关键点的运动轨迹、速度、加速度等特征来表示和识别。
2.方法行为识别的方法主要包括基于特征提取和模型识别的方法。
特征提取阶段将从图像或视频中提取人体动作的特征表示,如形状、运动等。
模型识别阶段使用机器学习或深度学习的方法将特征与预定义的行为模型进行匹配,从而进行行为识别。
一种复杂背景下多尺度多视角的人体检测方法
第33卷第8期2016年8月计算机应用与软件Computer Applications and SoftwareVol.33 No.8Aug.2016一种复杂背景下多尺度多视角的人体检测方法杨颖黄晓峰(广东农工商职业技术学院计算机系广东广州510507)摘要针对复杂背景下的人体检测技术所面临的噪声干扰、背景复杂、相互遮挡等问题,设计一种多X度多视角人体检测算法。
针对传统的梯度方向直方图目标特征提取方法特征维数大、有遮挡时检测率低等缺陷,分别使用扩展多X度方向特征和经W TA hash编码的多X度梯度方向直方图特征提取,并使用弱分类器和贪婪算法进行特征选择以获得图像的粗特征和精特征。
然后使用 线性平移合成多视角样本,使用多层级联的A d ab o o st算法和支持向量机作为分类器进行人体目标检测,结合复杂背景处理、特征重 装等方法提高检测精度。
使用IN R IA公共测试集的实验结果表明,该算法可精确检测出复杂背景下相互遮挡情况下多视角、多姿 态的人体目标,与传统的人体检测算法相比,具有更高的检测效率和检测精度。
关键词 复杂背景人体检测扩展多X度方向多X度梯度方向直方图多视角分类器中图分类号TP391 文献标识码 A D0I : 10. 3969/j. issn. 1000-386x. 2016.08. 073A MULTI-SCALE AND MULTI-VIEW HUMAN BODY DETECTION METHODUNDER COMPLEX BACKGROUNDYang Ying Huang Xiaofeng{Department of Computer, Guangdong AIB Polytechnic, Guangzhou 510507, Guangdong, China)Abstract Aim ing at the problem s such as noise interface, com plex background and m utual occlusion encountered by hum an body detection technology under com plex background, we designed a m ulti-scale and m ulti-view body detection algorithm. According to the shortcom ings of traditional object feature extraction m ethod of orientated gradient histogram including high feature-dim ension and low detection rate while being occluded, in extraction we em ployed the extended m ulti-scale orientation feature and the m ulti-scale histogram of orientated gradient coded by W TA hash separately, and used weak classifier and greedy algorithm to select features so as to obtain the coarse features and fine features of the im age. A fter that we then used linear shift to synthesise the m ulti-view sam ples. The m ulti-level cascade A daboost algorithm and support vector m achine were used as the classifiers to detect body objects, and the detection accuracy was im proved in com bination with complex background processing and characteristics reinstalling. Experim ental results on IN RIA public test set showed that the algorithm can m ake accurate detection on hum an body objects with m ulti-view and m ulti-pose under the conditions of com plex background and m utual occlusion. Com pared with traditional hum an body detection algorithm, it has higher detection efficiency and accuracy.Keywords Com plex background H um an body detection E xtended m ulti-scale orientation M ulti-scale histogram s of oriented gradients M ulti-view classifier〇引言本文立足于提高基于H O G的人体检测方法的性能,并增强 存在遮挡情况下的检测率,提出了一种基于多尺度方向直方图 的特征提取方法提取图像的粗特征和精特征。
基于张量局部和全局信息的人脸识别算法
基于张量局部和全局信息的人脸识别算法
温浩;孙蕾
【期刊名称】《西安电子科技大学学报(自然科学版)》
【年(卷),期】2010(037)003
【摘要】现有的基于张量子空间的流形学习算法能够很好地利用图像的空间几何结构,但对流形的局部和全局信忠利用得不够充分,为此提出了一种新的张量子空间学习算法:基于局部和全局信息的张量子空间投影.新算法充分利用人脸图像数据的局部流形结构(即类内非线性流形结构)和人脸图像数据的全局信息,使数据在投影空间中的类间分离度最大,通过迭代和投影得到最优张量子空间.在标准人脸数据库上的实验表明,新算法识别率高于张量线性判别分析(TLDA)、张量临界Fisher分析(TMFA)、张量局部判别投影(TLDP)、张量子空间(TSA)算法.
【总页数】7页(P429-435)
【作者】温浩;孙蕾
【作者单位】西安电子科技大学,综合业务网理论及关键技术国家重点实验室,陕西,西安,710071;西安电子科技大学,经济管理学院,陕西,西安,710071
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种基于局部社团和全局信息的链路预测算法 [J], 杨旭华;凌非
2.基于全局和局部信息的目标跟踪算法 [J], 周明珠;周治平;孙子文
3.基于局部和全局信息的改进聚类算法 [J], 许小龙;王士同;梅向东
4.基于局部和全局的特征提取算法及在人脸识别中的应用 [J], 张国印;楼宋江;程慧杰;王庆军
5.基于局部与全局信息的自动文摘算法 [J], 王萌;王晓荣;李春贵;唐培和
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多视角自步学习的人体动作识别方法
基于多视角自步学习的人体动作识别方法刘莹莹;邱崧;孙力;周梅;徐伟【期刊名称】《计算机工程》【年(卷),期】2018(044)002【摘要】自步学习的动作识别方法采用课程学习的思路,忽略了不同视角动作特征对课程的影响,对多分类的人体两维视频复杂动作识别无法取得满意效果.针对上述问题,提出一种多视角自步学习算法.选取5个视角并提取Trajectory、HOG、HOF、MBHx和MBHy作为各自视角下的特征信息,利用自步学习算法学习得出对应视角下的动作分类课程,使用线性规划增强方法将不同视角下的课程进行融合,得出更适合解决多类复杂动作识别问题的综合课程.实验结果表明,相比单一视角自步学习方法和多视角支持向量机方法,该方法提高了多类复杂动作识别的效率和准确率,具有更高的可操作性和更广泛的应用前景.【总页数】7页(P257-263)【作者】刘莹莹;邱崧;孙力;周梅;徐伟【作者单位】华东师范大学信息科学技术学院上海市多维度信息处理重点实验室,上海200241;华东师范大学信息科学技术学院上海市多维度信息处理重点实验室,上海200241;华东师范大学信息科学技术学院上海市多维度信息处理重点实验室,上海200241;华东师范大学信息科学技术学院上海市多维度信息处理重点实验室,上海200241;上海交通大学图像处理与模式识别研究所,上海200240【正文语种】中文【中图分类】TP391【相关文献】1.基于深度学习的实时人体动作识别监控方法 [J], 刘安祺;张帅;常馨芳;陈炳坤2.基于深度学习的人体动作识别方法 [J], 沈西挺; 于晟; 董瑶; 董永峰; 张泽伟3.基于深度学习的人体动作识别方法 [J], 李玉鹏; 刘婷婷; 张良4.基于双重局部保持的不完整多视角嵌入学习方法 [J], 刘彦雯;张金鑫;张宏杰;经玲5.基于改进深度学习方法的人体动作识别综述 [J], 朱相华;智敏因版权原因,仅展示原文概要,查看原文内容请购买。
基于张量脸的多姿态人脸识别算法
基于张量脸的多姿态人脸识别算法
姜珊;王羽;田春娜
【期刊名称】《科学技术与工程》
【年(卷),期】2009(009)015
【摘要】提出了一种新的多姿态人脸识别算法,在原有的张量脸算法(TensorFaces)基础上结合了流形学习方法和统计学聚类的方法,首先将训练图库中不同姿态的人脸图像通过保局映射投影(LPP)的姿态聚类特性投影到二维空间上,然后将待测图库中的未知姿态人脸图像投影到该二维空间并找到其最近邻的两个姿态,根据两个最近邻姿态库作为训练库修正张量脸识别算法的判别系数.实验结果表明,该算法的识别率优于原有的张量脸算法.
【总页数】5页(P4381-4385)
【作者】姜珊;王羽;田春娜
【作者单位】中国石油大学(北京)机电学院,昌平,102249,西安电子科技大学,西安,710071;中国石油大学(北京)机电学院,昌平,102249;西安电子科技大学,西
安,710071;中国石油大学(北京)机电学院,昌平,102249;西安电子科技大学,西
安,710071
【正文语种】中文
【中图分类】TP391.42
【相关文献】
1.基于正投影视图的多姿态人脸识别算法 [J], 武芒;王燕;刘志镜;李夏忠
2.基于多姿态人脸的关键点定位算法及识别算法 [J], 白利敏;贾明兴
3.基于稀疏编码和机器学习的多姿态人脸识别算法 [J], 赵玉兰;苑全德;孟祥萍
4.基于神经网络学习的多姿态人脸图像识别算法 [J], 陆兴华; 王凌丰; 曾世豪; 陈家坚
5.基于正交视图的多姿态人脸识别算法 [J], 刘志镜;夏勇;李夏忠
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多模态深度学习的人体姿态识别技术研究
基于多模态深度学习的人体姿态识别技术研究在当今社会,人体姿态识别技术已经成为机器学习领域的热点之一。
人体姿态识别技术广泛应用于虚拟现实、医疗辅助等领域。
然而,由于巨大的数据量和复杂的姿势变化,传统的人体姿态识别方法已经无法满足实际需求。
因此,基于多模态深度学习的人体姿势识别技术成为目前的研究热点。
多模态深度学习指的是利用多种数据源进行深度学习,如图像、视频、语音、加速度计和陀螺仪。
这种方法可以充分利用多种数据来源进行综合学习,提高识别准确率。
首先,该技术的主要应用领域之一是虚拟现实。
在虚拟现实中,人类对身体的感知去掉了,适当地加入物理感的交互,可以帮助使用者更好地融入虚拟环境。
通过多模态深度学习提取的多种数据,可以显著提高虚拟现实交互的自然度和真实感。
例如,在体感游戏中,球员的姿势和动作可以被识别并在游戏中反映出来,使用户的体验更加真实。
其次,该技术还可以用于医疗辅助领域。
通过多模态深度学习,可以准确识别和监测患者的姿态和运动,如步态分析等。
这可以帮助医生更好地诊断和治疗疾病。
例如,对于脊柱畸形患者,可以利用多模态深度学习技术监测其脊柱特征和姿势,帮助医生更好地制定个性化治疗方案。
此外,多模态深度学习还可以用于智能家居等领域。
智能家居系统可以通过多种数据源(例如,体感器、摄像头)提取多种数据,如用户的姿势、面部表情、语音和手势等,为用户提供更加个性化的服务。
总之,基于多模态深度学习的人体姿势识别技术具有广泛的应用前景。
尽管这项技术仍有许多挑战和问题,如多模态数据的处理、模型的调节和参数的优化等,但多模态深度学习已经成为该领域实现性能提升的必要手段。
随着技术的不断发展,将会有更多重要的应用场景。
人体动作识别与行为分析算法综述研究
人体动作识别与行为分析算法综述研究人体动作识别与行为分析是计算机视觉和机器学习领域的重要研究方向,其旨在自动识别和理解人体的动作与行为。
这一领域的研究具有广泛的应用前景,如人机交互、智能监控、虚拟现实等。
本文将综述人体动作识别与行为分析算法的研究进展、挑战与应用。
一、引言随着计算机视觉和机器学习的快速发展,人体动作识别与行为分析研究得到了广泛关注。
人体动作识别旨在从视频序列或者传感器输入中提取关键的身体动作信息,而行为分析则是对这些动作的语义解释和分类。
这两者相互依赖,共同构成了人类行为理解的重要内容。
二、人体动作识别算法研究人体动作识别算法的研究主要包括以下几个方面:1. 视频特征提取视频特征提取是人体动作识别的关键步骤,常用的特征包括外观特征、运动特征和空间-时域特征。
外观特征基于人体的外观特点,如颜色、纹理等进行描述;运动特征则是基于人体运动的模式进行描述;空间-时域特征一般使用视频序列进行描述,并结合了前两者的信息。
常用的视频特征提取算法有HOG、HOF、MBH等。
2. 动作表示与建模动作表示与建模是将视频序列映射到一个低维的向量空间中,常用的方法包括基于距离度量的方法(如DTW、OT、LCS等)、基于状态模型的方法(如HMM、CRF等)和基于深度学习的方法。
其中,深度学习方法凭借其强大的特征学习和表示能力,在人体动作识别中取得了很大的成功。
3. 动作识别与分类动作识别与分类是对动作进行分类或者识别的过程,常用的方法包括支持向量机(SVM)、最近邻算法(KNN)和深度学习算法(如卷积神经网络、循环神经网络等)。
这些方法能够通过学习训练数据集中的动作模式,从而对新的测试数据进行分类或者识别。
三、人体行为分析算法研究人体行为分析算法研究是对人体动作进行进一步的语义解释和分类,其目标是理解人类的行为动机和意图。
人体行为分析算法的研究主要包括以下几个方面:1. 行为表示与建模行为表示与建模是将人体动作映射到一个高级的语义空间中,以实现更细粒度的行为分析和理解。
基于多时间尺度的深度学习行为识别研究
间流 CNN 捕捉视频时序结构信息和空间流 CNN 捕捉图像外观
信息,为每个短片段先分别生成一个只针对短片段的时间流
CNN 和空间流 CNN 预测,然后采用一个聚合函数分别对各个
短片段的时间流 CNN 和空间流 CNN 预测进行聚合,最后将时
间流和空间流的聚合结果的加权输出作为整个视频的预测结
果。
图 3 多尺度滑动窗口示意图
通讯作者:刘大铭(1969-),男,宁夏银川,硕士,教授,研究方向为控制理论与控制工程。
- 94 - 科学技术创新 2020.14
3 实验设计
高网络的识别效率。在 Slow Fusion[6]中,作者还第一次提出采用
多时间尺度特征提取的原理如图 3 所示。
不同分辨率的识别框架去提高识别率,其中低分辨率的特征采
的中心思路是利用多时间尺度来进行行为识别。
关键词:多时间尺度;卷积神经网络;深度学习;行为识别
中图分类号:TP391.41,TP183
文献标识码:A
文章编号:2096-4390(2020)14-0093-02
1 研究背景
现在的行为识别大多以卷积神经网络为基础网络,但是卷
积神经网络在行为识别有两个问题。第一,卷积神经网络只能
和经过处理的视频一样,若视频长度为 M 秒,采样 M 个视 用 context stream 来提取,高分辨率的特征用 fovea stream 来学
频片段{T1,T2,…,TM},将每个片段 TM 作用于时间分割网络,就 习。由表 2 可知,该网络实现了 65.4%的识别效率。
可以得到每个行为类别的预测结果 F(TM)。选择滑动窗口的长
为识别在内的视频域任务的发展。虽然卷积神经网络在行为识别方面得到了不错的成绩,但是就目前来看,卷积神经网络的深度
《2024年基于深度学习的人体行为识别算法综述》范文
《基于深度学习的人体行为识别算法综述》篇一一、引言随着深度学习技术的飞速发展,人体行为识别已成为计算机视觉领域的研究热点。
人体行为识别技术广泛应用于智能监控、人机交互、医疗康复、体育训练等多个领域。
本文旨在综述基于深度学习的人体行为识别算法的研究现状、主要方法及挑战,以期为相关研究提供参考。
二、人体行为识别的研究背景与意义人体行为识别是指通过计算机视觉技术,自动识别并分析人体在特定场景下的行为。
该技术在智能监控、人机交互等领域具有广泛的应用前景。
例如,在智能监控中,人体行为识别可用于安全防范、异常行为检测等;在人机交互中,该技术可用于实现自然、直观的人机交互方式。
因此,人体行为识别的研究具有重要的理论价值和应用意义。
三、基于深度学习的人体行为识别算法概述基于深度学习的人体行为识别算法主要利用深度神经网络提取人体行为的特征,进而实现行为的识别与分类。
以下是几种主要的算法:1. 基于卷积神经网络(CNN)的算法:该类算法通过构建多层卷积网络,自动学习并提取人体行为的特征。
其中,三维卷积神经网络(3D-CNN)在处理视频数据时表现出较好的性能。
2. 基于循环神经网络(RNN)的算法:该类算法适用于处理序列数据,可有效地捕捉人体行为的时序信息。
其中,长短时记忆网络(LSTM)在处理长序列数据时具有较好的性能。
3. 基于深度自编码器(DAE)的算法:该类算法通过构建深度自编码器,实现人体行为的重构与识别。
其中,变分自编码器(VAE)在生成人体行为数据方面具有较好的性能。
四、人体行为识别的关键技术与方法人体行为识别的关键技术与方法主要包括特征提取、行为建模、分类与识别等。
其中,特征提取是关键的一环,它直接影响到行为的识别准确率。
基于深度学习的特征提取方法可以自动学习并提取人体行为的特征,具有较高的准确率和鲁棒性。
此外,行为建模也是人体行为识别的关键技术之一,它可以通过构建精确的行为模型来提高识别的准确率。
分类与识别则是将提取的特征输入到分类器中进行分类与识别,常用的分类器包括支持向量机(SVM)、softmax等。
建立于多姿态特征融合的人体行为识别
在 多姿 态特 征融 合 的人体 行为 识别 系统 中,姿态 及特 征检测分为姿态特征检测 、状态 』 变化率检 测及位置检 测三个 部分。通过各种姿 人 1 体 姿 态 数 据 库 l 态定义评价及人体姿态 视频 帧前后对 比,实现 各种检测 ,对人体动作进行判 、识别 。 2 . 4 人体行为识别系统的动作识别 人体 的 日常动作可 以分为走 、 坐下 、 站起 、 建 立于 多特 征融 合 的人体 行为 识别 算法 站立、躺 下、起来 、摔倒 ,将这些 日常动作作 示 意 图 为集合 A 。 由于人的不 同动作是 由不 同姿态 组 成的 ,具有一定 的规律性 ,根据姿态特征 、姿 2 . 1人体行 为识别 系统 中的人体检测 态变化率特征 、位置变化特征对人体动作进行 人 体动 作 的识别 ,需要 将运 动 或静止 中 检测 , 其中p ( t ) 为在 t 时间姿态 , p ( t 一 1 ) 为在 t 一 1 的人体检测 并分 割出来 ,然而 ,由于人体所在 时间姿态 ,具体如下图 : 环境 、衣服颜色等 外在条 件较为复杂 ,加上人 体姿态具备不确定性 ,为此 ,想要实现从静态 图像 中检测 出人体 是十分 困难 的。本文提出建 立于多特征融合基 础的人体行 为识别系统采取 的检测方法是在于视频 帧中进 行人体 目标动作 的提 取、检测。在检测运动 目标 时采取背景 减 除法 可以有效检测 出室 内环境 中存在 的运动 目 标。 背景减 除法实现 的关键在于建立 背景模 型, 在本 文中 ,使用 G MM 背景模型 ,在进行复杂 目 标 运动形式处理过程 中出现 了较多 的问题 , 其 中主要 体现为将暂停运动 目标作为背景一部 建 立于 多姿 态特 征融 合的 人体 行为 识别 分 ,提取运 动 目标不完整 ;背景模型处理缓慢 系统 的动作识别 图,引入 姿态 最少持续帧数阀 等 。根据 人的认 识过程 ,可 以将 目标识别与运 门模型 ,将无意义 或未 定义动 作进行过滤 ,根 动分割结 果作用于背景更新上 ,对区域背景更 据 阀门模型确定动 作判 断底线 ,当连续帧数大 新作 出限制 , 避免人 的局部运动引起错误检测 , 于 阀值 时对动作进 行判 断,反之,则视为无意 提高动作识 别系统 的准确性 。 义 或未定义 动作 。根据这 种方法 ,提高动作识 2 . 2 人体行为识别 系统 中的运动状态表征及检
基于多尺度张量类标子空间的人脸识别算法
5 结 束 语
本 研 究 扩 展 多 尺 度 Ga b o r 变换, 通 过 使 用 多 尺 度 Ga b o r 小 波 变换 把 人 脸 分解 到 多 个 尺度 , 分 别 表 征 人 脸 各个 部位特 征 , 这 些 特 征 可 以组 成 人 脸 的 完 整 特 征 。为 了 不 破 坏 这 些 特 征 的 空 间 结 构 和 相 关 性 , 将 其 组 建 成 张量 子空 间 , 形 成多 尺度 张量子 空 间 , 基 于 多 线 性 主 成 分 分 析 算 法 j , 提 出 多 线 性 主 成 分 类 标 算 法 应 用 于
W S CG , 2 0 0 3, 1 1 ( 1 ) : 1 2 6 — 1 3 4 .
[ 4 ] C a n d e s E, R o mb e r g J . Qu a n t i t a t i v e r o b u s t u n c e r t a i n t y p r i n c i p l e s a n d o p t i ma l l y s p a r s e d e c o mp o s i t i o n s E J ] . F o u n d a t i o n s o f
Vi d e o Te c h n o l o g y , 2 0 0 4 , 1 4 ( 1 ) : 4 - 2 0 .
[ 2 ] We i c k e r t J . C o h e r e n c e e n h a n c i n g d i f f u s i o n f i l t e r i n g [ J ] . I n t e r n a t i o n a l J o u r n a l o f C o mp u t e r V i s i o n , 1 9 9 9 , 3 1 ( 2 3 ) : 1 1 1 一 l 2 7 . [ 3 ] Ab a s o l o M , P e r a l e s F . Wa v e l e t a n a l y s i s f o r a n e w m u l t i — r e s o l u t i o n mo d e l f o r l a r g e - s c a l e t e x t u r e d t e r r a i n s [ J ] . J o u r n a l o f
基于深度学习的多模态人体行为识别技术研究
基于深度学习的多模态人体行为识别技术研究在人工智能领域中,多模态人体行为识别技术是一项关键性的研究领域。
通过深度学习模型的引入,多模态人体行为识别技术正在取得令人鼓舞的进展。
本文将探讨基于深度学习的多模态人体行为识别技术的研究进展、应用领域以及挑战。
首先,我们需要明确什么是多模态人体行为识别。
在现实生活中,我们通过多个感官(如视觉、听觉、触觉等)来感知和理解他人的行为。
多模态人体行为识别技术旨在通过结合多种感知方式,如视频、声音、动作等,来准确地识别和理解人体的行为。
深度学习技术在多模态人体行为识别中的应用已经取得了显著的性能提升。
深度学习模型具有较强的表达能力和特征提取能力,能够从原始数据中学习到更高级别的抽象特征。
这一特性使得深度学习模型在多模态数据融合和行为识别方面具有优势。
在多模态人体行为识别中,最常用的深度学习模型之一是卷积神经网络(Convolutional Neural Network,CNN)。
卷积神经网络在图像处理方面具有卓越的性能,可以自动学习和提取图像特征。
通过将卷积神经网络与其他感知模态数据进行融合,可以更准确地识别人体行为。
另一个被广泛应用于多模态人体行为识别的深度学习模型是循环神经网络(Recurrent Neural Network,RNN)。
循环神经网络具有记忆能力,可以处理时序数据,如音频和视频。
通过利用循环神经网络的时间依赖性,可以更好地建模和识别人体的动作序列。
近年来,深度学习模型的不断发展使得多模态人体行为识别在许多应用领域取得了突破。
其中一个应用领域是安防监控。
通过多模态人体行为识别技术,可以实时监测并识别可疑行为,从而提高安全性和防范犯罪。
另外,多模态人体行为识别还可以应用于智能家居、健康监测等领域,为人们的生活带来便利和舒适。
然而,多模态人体行为识别技术仍面临一些挑战。
首先,多模态数据的采集和融合是一个复杂的问题。
不同感知模态的数据可能存在不同的时间和空间维度,如何有效地融合这些数据仍是一个待解决的问题。
人脸识别中的多尺度特征融合方法
人脸识别中的多尺度特征融合方法是一种重要的技术手段,它能够有效地提高人脸识别的准确性和鲁棒性。
本文将介绍多尺度特征融合方法的基本原理、优势和应用场景,并结合实例进行详细阐述。
多尺度特征融合方法的核心思想是将不同尺度的特征信息进行融合,以获得更丰富的信息,从而提高识别准确率。
这种方法主要利用了人脸图像中不同尺度的特征差异,如细节、轮廓等。
通过将不同尺度的特征进行融合,可以更好地捕捉到人脸图像中的细节信息,从而提高识别准确率。
多尺度特征融合方法相较于单一尺度特征提取方法具有显著优势。
首先,它能够提高识别的鲁棒性,减少光照、姿态、表情等因素对识别结果的影响。
其次,多尺度特征融合方法能够提高识别的准确性,通过融合不同尺度的特征信息,能够更全面地描述人脸图像的特征,从而提高识别准确率。
最后,多尺度特征融合方法能够降低计算复杂度,提高了识别速度,从而提高了用户体验。
多尺度特征融合方法在人脸识别中的应用场景非常广泛。
在视频监控、社交网络、安全支付等领域,人脸识别技术都有着广泛的应用。
多尺度特征融合方法在这些场景中都具有重要的应用价值。
例如,在视频监控中,多尺度特征融合方法可以有效地处理动态人脸图像,提高识别的准确性和实时性。
在社交网络中,多尺度特征融合方法可以更好地捕捉人脸图像中的细节信息,提高人脸识别的鲁棒性。
实例说明:某公司在进行人脸识别系统开发时,采用了多尺度特征融合方法。
通过对不同尺度的特征进行提取和融合,该系统成功地应对了光照变化、姿态改变、面部遮挡等多种挑战,提高了识别的准确性和鲁棒性。
在实际应用中,该系统得到了用户的高度认可,提高了用户体验和业务效率。
综上所述,多尺度特征融合方法在人脸识别中具有重要应用价值。
它能够提高识别的鲁棒性和准确性,降低计算复杂度,提高识别速度,从而为各种应用场景提供更好的支持。
未来,随着人工智能技术的不断发展,多尺度特征融合方法在人脸识别领域的应用前景将更加广阔。
视频监控系统中的人体行为分析与识别研究
视频监控系统中的人体行为分析与识别研究人体行为分析与识别是视频监控系统中的重要研究方向之一。
随着技术的发展,视频监控系统已经成为现代社会中不可或缺的安全保障手段之一。
而人体行为分析与识别技术的应用则进一步提升了视频监控系统的效能和智能化水平。
人体行为分析与识别是指通过对视频监控中的人体进行分析和识别,解读人体行为的意图和动作。
早期的视频监控系统往往只能提供简单的实时监控功能,而对人体行为的理解能力相对较弱。
然而,随着计算机视觉和机器学习的快速发展,人体行为分析与识别技术得到了巨大的进步。
人体行为分析与识别的研究内容包括人体姿态识别、行为动作识别和行为意图推测等方面。
人体姿态识别是指通过分析人体的关节位置和运动轨迹,推测出人体的姿态信息,如站立、行走、跑步等。
行为动作识别则着重于对人体常见动作的分类和识别,如打拳、跳舞、举手等。
行为意图推测则是在分析人体行为的基础上,通过对行为背后的意图进行推理,譬如判断出人体行为是否具有威胁性或异常行为。
在人体行为分析与识别技术中,计算机视觉和机器学习起着至关重要的作用。
通过对视频监控画面的处理和分析,可以提取出人体的关键特征信息,如人体轮廓、关节位置、运动轨迹等。
而机器学习算法则能够从大量的样本中学习到人体行为的模式,并能够进行准确的分类和识别。
在实际应用中,人体行为分析与识别技术广泛应用于安防领域和智能交通领域。
在安防领域,人体行为分析与识别技术可以实时监测视频画面中的人体行为,发现和预警异常行为,如盗窃、打架、携带危险物品等。
这为防范各类安全风险提供了极大的帮助。
在智能交通领域,人体行为分析与识别技术可以用于交通流量统计、违规检测和交通管制等方面。
通过对人体行为的监测和分析,可以提升交通管理的效率和安全水平。
尽管人体行为分析与识别技术在视频监控系统中的应用前景广阔,但仍然面临一些技术挑战和难题。
首先,视频监控系统中的画质和角度可能会影响人体行为的识别结果,特别是在光照不足或移动速度较快的情况下。
基于张量奇异值分解的人脸识别方法
基于张量奇异值分解的人脸识别方法计雨含;王晓东;姚宇【期刊名称】《计算机应用》【年(卷),期】2015(000)0z1【摘要】By using an approach based on Tensor Singular Value Decomposition ( TSVD) in the extraction and expression of human face features in the process of face recognition, the precedent algorithms, such as the PCA ( Principal Component Analysis) which has excessive dependence on the condition of face pictures, are improved. The SVD method deals with three-dimensional linear data model, which can avoid the decrease of precision caused by the variation of picture conditions when dealing method deals with two-dimensional linear data model, and provides a relatively stable result despite the change of conditions. In addition, by using QR decomposition of matrix to reduce the complexity of calculation without jeopardizing the accuracy, the algorithm is optimized efficiently. Four groups of experiments based on Matlab are conducted, and the results are analyzed in comparison with those from the PCA method, which verifies the outstanding correctness and stability of the proposed algorithm under varying conditions. Meanwhile, experiments on the optimized algorithm show a remarkable improvement of efficiency compared to the basic algorithm, especially when the data amount gets larger.%在人脸识别领域应用张量奇异值分解( TSVD)来进行人脸特征的表示和提取,克服了过去的提取方法,如主成分分析法( PCA)等过于依赖拍摄条件的缺点。
基于多尺度注意力机制的人体行为识别方法研究
基于多尺度注意力机制的人体行为识别方法研究基于多尺度注意力机制的人体行为识别方法研究摘要:人体行为识别是计算机视觉和模式识别领域的一个重要研究方向。
为了提高人体行为识别的准确性和效率,本文提出了一种基于多尺度注意力机制的人体行为识别方法。
该方法通过在不同尺度上提取关键特征,并引入注意力机制进行特征的加权和选择,以实现对不同行为的准确识别。
实验结果表明,本文提出的方法在识别准确率和鲁棒性方面均取得了较好的表现。
1. 引言随着计算机视觉和模式识别技术的不断进步,人体行为识别已成为一个备受研究关注的热点领域。
人体行为识别技术的广泛应用于监控系统、智能交通、医疗健康等领域,对社会生活以及个体安全起着重要作用。
2. 相关研究目前,人体行为识别方法主要有基于深度学习的方法、基于传统机器学习算法的方法和基于图像处理技术的方法等。
然而,这些方法在面对不同尺度和复杂场景下仍存在一定的挑战。
3. 多尺度注意力机制为了解决上述问题,本文提出了基于多尺度注意力机制的人体行为识别方法。
该方法首先通过卷积神经网络(CNN)对输入的视频帧进行特征提取,得到不同尺度上的特征图。
接着,引入多尺度注意力机制,以便在不同尺度上进行特征的加权和选择。
最后,通过损失函数优化所得到的特征,以实现对不同行为的准确识别。
4. 实验与结果本文通过实验验证了所提出方法的有效性。
选取UCF-101数据集进行训练和测试,结果表明,本文方法在识别准确率和鲁棒性方面均优于其他常见的人体行为识别方法。
5. 结论本文提出的基于多尺度注意力机制的人体行为识别方法在处理多尺度特征和复杂场景时表现出较好的性能。
通过引入注意力机制,该方法能够准确捕捉到关键的特征信息,并获得更高的识别准确率。
未来,我们将进一步改进该方法,以适应更多场景下的人体行为识别任务。
总结:本文提出了一种基于多尺度注意力机制的人体行为识别方法,并通过实验验证了该方法的有效性。
该方法通过在不同尺度上提取关键特征,并引入注意力机制进行特征的加权和选择,以实现对不同行为的准确识别。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于张量和多尺度特征的多视角人体行为识别
智能视觉监控系统能够从视频图像中分辩、识别出关键目标物体,并能对目标物体的行为进行识别理解,从而提高视频监控系统的智能化水平。
随着网络技术和信息技术的高速发展,智能监控技术在模式识别领域受到越来越多的关注,成为近年来热门的研究课题之一。
本文对人体行为识别的一些理论问题进行了一定的研究和试验,提出了一种基于张量和多尺度特征的多视角行为识别方法。
本文主要的研究内容如下:1.对运动目标进行前景检测,采用背景差分的方法,经过形态学去噪、填补空洞等后处理得到较好的二值图像。
2.提出了一种人体骨架建模的方法,通过对人体骨架进行链码遍历以及计算曲率值定位各个关键点,建立的模型用作行为识别的输入特征。
3.提取出多尺度特征,包括速度、轮廓宽度、骨架模型的关键点坐标等信息,能够更准确地描述了人在各个运动尺度上的速度与精度,同时通过降低维数节省了运行时间,大大提高了执行效率。
4.定义了连续帧张量,其特征空间由连续帧图像构成,从而包含了更多的运动信息,更好地描述了行为特性。
5.分别在多视角以及不同执行人的前提下,与聚类识别方法进行了比较分析,从识别率以及执行效率方面比较不同方法的优越性。
同主题文章
[1].
李妍婷,罗予频,唐光荣. 单目视频中的多视角行为识别方法' [J]. 计算机应用. 2006.(07)
[2].
每言. “行为识别”反垃圾' [J]. 微电脑世界. 2004.(13)
[3].
刘相滨,向坚持,王胜春. 人行为识别与理解研究探讨' [J]. 计算机与现代化. 2004.(12)
[4].
赵智敏,肖胜双. 电视台的CIS设计' [J]. 中国有线电视. 2002.(16)
[5].
胡长勃,冯涛,马颂德,卢汉清. 基于主元分析法的行为识别' [J]. 中国图象图形学报. 2000.(10)
[6].
张三元,孙守迁,蒋方炎,潘云鹤. 数字化仿真人体模型的设计方法' [J]. 系统仿真学报. 2000.(01)
[7].
王运武,陈琳. 多视角下的教育信息化透视' [J]. 开放教育研究. 2008.(03)
[8].
李道魁. 如何运用CIS提升期刊形象' [J]. 河南大学学报(社会科学版). 2001.(06)
[9].
冯波,赵春晖,杨涛,张洪才,程咏梅. 基于光流特征与序列比对的实时行为识别' [J]. 计算机应用研究. 2007.(03)
[10].
张天丹. 行为识别与反垃圾邮件技术研究' [J]. 吉林省教育学院学报(学科版). 2008.(05)
【关键词相关文档搜索】:计算机应用技术; 前景检测; 骨架模型; 人体行为识别; 多尺度特征; 连续帧张量; 多视角
【作者相关信息搜索】:吉林大学;计算机应用技术;周春光;贾程程;。