基于Copula贝叶斯分类器与改进YOLOv5网络的手势识别研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Copula贝叶斯分类器与改进YOLOv5
网络的手势识别研究
袁帅 吕佳琪
(沈阳建筑大学 辽宁沈阳 110168)
摘要:手势识别是通过识别人类手势并结合相关算法实现对手势语义分类的一项议题,在智能建筑、机器控制、新型人机交互、辅助驾驶等领域应用十分广泛,因此,手势识别具有重要研究意义。

该文提出在YOLOv5目标检测网络引入注意力机制,以解决YOLOv5目标检测网络特征差异不敏感问题;此外,利用Copula模型改进朴素贝叶斯分类器,以解决图片分类精度缺失问题。

实验结果表明:该文提出的Attention-YOLOv5检测网络比原网络在准确率和召回率上都有显著提升,基于Copula理论改进的贝叶斯分类器在准确率上显著高于朴素贝叶斯分类器。

关键词:目标检测 手势识别 YOLOv5网络 Copula贝叶斯分类器 深度学习
中图分类号:TP18文献标识码:A 文章编号:1672-3791(2023)20-0026-04
Research on Gesture Recognition Based on the Copula Bayes Classifier and the Improved YOLOv5 Network
YUAN Shuai LYU Jiaqi
(Shenyang Jianzhu University, Shenyang, Liaoning Province, 110168 China)
Abstract:Gesture recognition is an issue of achieve the semantic classification of gestures by recognizing human gestures and combining relevant algorithms, which is widely used in the field such as intelligent buildings, machine control, new human-computer interaction and assisted driving, so gesture recognition has important research sig‐nificance. This paper proposes to introduce an attention mechanism into the YOLOV5 target detection network to solve the problem of insensitive feature differences in the YOLOV5 target detection network. In addition, this paper uses the Copula model to improve a naive Bayes classifier to solve the problem of missing image classification accu‐racy. Experimental results show that the proposed Attention-YOLOv5 detection network in this paper has signifi‐cantly improved the accuracy and recall rate compared to the original network, and that the improved Bayes classi‐
fier based on the Copula theory has significantly higher accuracy rate than the naive Bayes classifier.
Key Words: Target detection; Gesture recognition; YOLOv5 network; Copula Bayes classifier; Deep learning
在过去的几十年里,传统人机交互技术所使用的键盘、鼠标或者可触摸屏幕在机器控制方面已有非常广泛的应用,但是新出现的手势识别技术更加符合人体的使用习惯,因此对手势识别技术的研究具有重要
DOI:10.16661/ki.1672-3791.2303-5042-2992
作者简介: 袁帅(1978—),男,博士,教授,研究方向为深度学习、图像识别。

吕佳琪(1998—),女,硕士在读,研究方向为手势识别。

意义和潜在应用价值。

除此之外,手势是人类普遍使用的交流方式之一,同时又是聋哑人的主要交流方式,因此,手势识别方面的研究将可能给人机交互和人与人之间的交互方式带来重大变革[1]。

手势识别技术因其特有的优势已在许多领域获得广泛应用,例如:(1)在人机交互领域,以手势特征作为控制信号的方式相较于传统以按键触屏进行控制的方式来说更加富有交互体验;(2)在智能家居领域,用户可通过手势实现对智能设备相应功能的控制,从而使控制过程更加自然简单;(3)在身体语言分析领域中,通过手势识别可以更加准确地识别和理解人们的意图和情感,进而为人们提供更好的交互体验。

除此之外,手势识别在智能驾驶、网络直播、安防监控等领域也有广泛的应用。

YOLOv5(You Only Look Once version 5)是一种用于目标检测的深度学习算法,由美国加州大学伯克利分校的研究人员Alexey Bochkovskiy和团队开发,核心思想是将输入的图像分为一个个小的方格,对每个方格同时预测出目标的位置、类别和置信度等信息。

YOLOv5在目标检测领域广受欢迎,但仍存在对手势特征不敏感问题。

针对目标检测网络对手势特征不敏感和传统的朴素贝叶斯分类器的分类精度缺失问题,本文提出了一种新型改进YOLOv5网络和Copula贝叶斯分类器手势识别算法。

该算法包含预处理、手势检测和手势分类3个主要步骤,预处理主要有图片统一大小、转化成灰度图、图片归一化3个部分;手势检测利用改进YO‐LOv5网络训练出的检测模型实现;手势分类采用了Copula贝叶斯分类器手势识别算法。

实验结果表明:本文提出的算法通过改进现有框架,进一步提高了手势识别分类精度和速度,具有一定实际价值。

1 相关工作
1.1 YOLOv5网络
YOLOv5目标检测网络包含一系列网络模型,包括YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x、YOLOv5x+ TTA等不同版本。

总体上说,YOLOv5是YOLOv4的改进加强版,通过对细节进一步优化,从而具有更好的检测精度和速度。

YOLOv5网络结构[2]主要包含输入端、Backbone、Neck和输出端4个部分。

其中,输入端的拼接方式采用随机缩放、排布、缩减,可以提高对小目标检测精度;Backbone部分采用了Focus结构,且包含切片操作;Neck部分采用CSPNet中的CSP2结构,增强了特征融合能力;输出端采用了Bounding box损失函数和nms加权方式,可对多目标进行筛选和非极大值抑制。

1.2 卷积注意力机制模块
卷积注意力机制模块[3, 4](Convolutional Block At‐tention Module,CBAM)的基本思想是在卷积神经网络中引入注意力机制,以便在处理输入数据时更好地捕捉其重要的特征。

CBAM 模块依次从通道和空间两个不同的维度推算注意力图,然后将得到的注意力图与输入特征图相乘,以此进行自适应特征细化。

作为一个轻量级模块,CBAM可以很方便地集成到卷积神经网络中实现端到端训练。

此外,CBAM还具有参数少、速度快和效果好等特点,含有CBAM的特征层可以捕捉到简单的边缘、形状等,进而获取更复杂的语义表示。

本文将CBAM模块添加到YOLOv5结构中,它可以将输入手势图片中的手势特征进行加权,从而突出目标物体与背景的差异。

1.3 朴素贝叶斯分类器
经YOLOv5实现手势检测后,为实现手势识别,还需要引入一种图片分类算法。

贝叶斯分类器是一种简单快速且可解释性强的多分类算法,较为适合本研究中的场景,因此,本研究选取该算法实现图片分类。

贝叶斯定理的基本思想是在已知某些先验信息的基础上,通过新的观测数据来更新对于某个事件发生概率的估计,其数学表达如式(1)所示。

P(C
i
|X)=P(X
|C
i
)P(C
i
)
P(X)
i=1 2 m(1)
假设各属性X k(k=1,2,…,n)之间相互独立,那么该事件各属性发生概率和数学表达如式(2)所示。

P(X|C i)=∏k=1n P(X k|C i)(2)将式(2)代入式(1),推导得到式(3)。

P(C
i
|X)=∏k=1
n
P(X
k
|C
i
)P(C
i
)
P(X)
(3)
由于分母的P(X)对各属性间概率相同,因此根据贝叶斯定理形成的朴素贝叶斯分类器[5],只需要比较哪个属性的分子属性概率最大,就是该目标特征的属性,朴素贝叶斯分类器的判别准则的数学表达如式(4)所示。

P (C i |X )=arg max ∏k =1
n P (X k |C i )P (C i )
(4)
1.4 Copula 模型
传统贝叶斯分类器依赖于属性间相互独立的假设,这在实际应用中难以得到保证,因而本文在此基础上采用一种属性间关系描述利用Copula 理论方法构造类条件概率密度函数的方法。

基于Copula 理论改进的朴素贝叶斯分类器构造的
类条件概率密度函数,可以刻画各属性间的相关性。

Copula 贝叶斯分类器在一定程度上改善了朴素贝叶斯分类器因属性间相互独立的假设而产生的分类精度缺失问题[6]。

Copula 理论的核心概念是:随机变量X 的联合概率密度函数可以使用边缘概率密度函数和与此相关的Copula 密度函数的乘积来表示,其数学公式为
f (x 1 x n )=
∏k =1
n f
k
(x k )
´∏i =1n -1∏e ÎE i
c j (e ) k (e )|D (e )(F (x j (e )|
x D (e )) F (x k (e )|
x D (e )))
(5)
Pair Copula 构建树是一种基于树形结构的联合概率密度估计方法,它的基本思想是将多维变量的联合概率密度函数分解为一系列边缘分布和条件分布函数的乘积形式。

假设概率密度函数为f n (x ),其核密度估计如式(6)所示。

f n (x )Ù
=
1n ∑i =1n K h (x -x i
)=1nh ∑i =1
n k (x -x i
h )(6)
2 改进YOLOv5手势识别算法
2.1 Attention-YOLOv5网络结构
YOLOv5在手势识别中应用广泛,但其对易混淆信息的抑制能力不够,无法选择性地关注到更有用的目标对象。

因此,本文在YOLOv5中插入CBAM 模块,得到的Attention-YOLOv5网络结构如图1(a )所示。

由此可以看出,在经典YOLOv5基本结构的Backbone 与Neck 部分之间,本文添加了多个CBAM 模块,从而使网络更关注手势特征部分。

2.2 基于CBAM 改进的YOLOv5网络
本文采取融合注意力模块CBAM 的改进方式去实现手势特征向量筛选加权,在YOLOv5目标检测网络中添加CBAM 模块的具体步骤如下:(1)首先修改YO‐LOv5s的配置文件,将C3模块修改为添加注意力机制后的模块CBAMC3;(2)然后在原来的YOLOv5网络结构中添加CBAMC3模块;(3)在改进的YOLOv5网络程序中添加额外的判断语句,得到修改后的CBAMC3模块。

添加该模块后,本文在模型训练时调用了修改后的YOLOv5配置文件,去验证注意力机制在YOLOv5模型上的有效性。

2.3 基于Copula 改进的贝叶斯分类器
Copula 贝叶斯分类器的主要思想是:属性间的联合概率密度函数可以表示为
Pair Copula 函数和对应边缘概率密度函数的乘积。

改进分类器的具体实现方法是:首先计算相关系数矩阵,然后构建
Copula 模型,再利用极大似然估计进行参数估计,最后根据贝叶斯原理样本类别属于后验概率最大的类别。

(a )Attention-YOLOv5网络结构
(b )手势识别检测结果
图1 结构图与检测结果
3 实验分析
3.1 手势图像数据集和标签
3.1.1 数据集制作
数据集制作主要是将包含自建数据和标准数据集的手势图片放在特定文件夹中。

其中,手势识别标准数据集为HaGRID(Hand Gesture Recognition Image Data‐set),包含18类手势共计552 992个样本,因该数据集过于庞大,本文选取手势0~5这6组数据中的部分图片作为标准数据集,与自建数据集混合进行后续模型训练。

3.1.2 标签制作
首先对数据集进行手势区域人工标注,再将标注后的图片放到指定的文件夹中,用于后续的训练。

3.1.3 模型训练
在确定好训练数据集的相关路径之后,修改模型配置文件的相关参数,并使用预训练模型中的权重作为训练权重。

在经过50个epoch后,选取训练结果最好的权重进行保存。

3.1.4 图片检测
修改测试利用的权重路径为训练时得到的最好权重路径,并输入测试的手势图片数据集,手势检测的结果示意图见图1(b)。

3.2 实验结果与分析
针对YOLOv5手势识别目标检测网络存在的识别偏差问题,本文提出了Attention-YOLOv5算法。

该算法将CBAM添加到YOLOv5结构中,通过对输入的手势图像中手势目标进行加权,从而突出了手势目标与背景的差异。

图片检测实验结果如表1所示,从表中数据可以看出:相比于改进前的YOLOv5网络,Attention-YOLOv5目标检测网络精确度提升3.0%,平均精度提升3.2%,召回率提升5.9%。

图片分类的结果如表2所示,从表中数据可以看出:Copula贝叶斯分类器分类结果相比于朴素贝叶斯分类器在不同手势的准确率上均有显著提升。

4 结语
本文提出的Attention-YOLOv5算法,将注意力机制网络模块融合到YOLOv5结构中,提高了YOLOv5目标检测手势识别网络的识别准确率和召回率。

此外,本文提出的Copula贝叶斯分类器,通过刻画随机变量间复杂的相关性,解决了朴素贝叶斯分类器必须依赖于随机变量间相互独立的问题,并且在实验中取得了比朴素贝叶斯分类器更高的分类准确率。

今后相关研究还应关注复杂背景、复杂光照和多目标同时存在情况下的手势识别,以使手势识别算法可以具有更好的鲁棒性。

参考文献
[1]PAN T Y,TSAI W L,CHANG C Y,et al.A Hierarchical
Hand Gesture Recognition Framework for Sports Ref‐eree Training-Based EMG and Accelerometer Sensors [J].IEEE Transactions on Cybernetics,2022,52(5):3172-3183.
[2]XU X,ZHANG X,ZHANG T.Lite-YOLOv5:A Light‐
weight Deep Learning Detector for On-Board Ship De‐tection in Large-Scene Sentinel-1 SAR Images[J].Remote Sensing,2022,14(4):1018.
[3]WANG S H,FERNANDES S L,ZHU Z,et al.AVNC:
Attention-Based VGG-Style Network for COVID-19 Diagnosis by CBAM[J].IEEE Sensors Journal,2022,22
(18):17431-17438.
[4]LI J,LIU Y B,LI Q J.Intelligent Fault Diagnosis of Rolling
Bearings under Imbalanced Data Conditions Using Attention-Based Deep Learning Method[J].Measurement, 2022,189:110500.
[5]周妹,常建华,陈思成,等.一种基于朴素贝叶斯分类
器的气溶胶类型识别模型[J].光学学报,2022,42(18): 49-57.
[6]杨航,刘赪,夏美美,等.基于R-vine Copula理论的改
进朴素贝叶斯分类器[J].甘肃科学学报,2021,33(3): 12-16.
表1 YOLOv5算法改进前后性能对比(单位:%)
算法名称
YOLOv5 Attention-YOLOv5准确率
90.5
93.5
召回率
88.2
94.1
平均精度
91.5
94.7
表2 改进前后贝叶斯分类器分类准确率对比(单位:%)
手势类别
1
2
3
4
5朴素贝叶斯分类器
85.4
80.3
83.8
72.9
80.2
83.3
Copula贝叶斯分类器
92.7
90.4
85.3
84.1
86.2
93.8。

相关文档
最新文档